写了一个中国大陆高校列表的Nodejs爬虫,有需要的可以试下
写了一个中国大陆高校列表的Nodejs爬虫,有需要的可以试下
这几天恰好有个需求用到,就写了个。目前已经包含一份完整 json 了。
https://github.com/codeudan/crawler-china-mainland-universities
数据按省份分类,支持本科,专科,民办,独立院校分类。
爬到的数据 发个看看
打破 0 star
有重复数据
仓库的 china_mainland_universities.json 就是刚刚爬的。
CHSI 官方权威
还能抓 211 985 标签
修正这个 bug 了。
多谢提醒。
china_mainland_universities.json 就是。
问个小白问题:是我的 node 版本不对吗 这行 async function main(){ 报错:SyntaxError:Unexpected token function
你的 node 版本低于 8 吗?
为啥网页进你这个帖子 背景就会变黑???
V2EX 上的模块,有的主题是不一样的
参照 5L 的地址,写了一个 php 版本
https://github.com/teg1c/crawler-china-mainland-universities-by-php
有没有办法找到学校里的组织架构,求!
数据源改成学信网的了。
你好!很高兴你对Node.js爬虫感兴趣。下面是一个简单的Node.js爬虫示例,用于抓取中国大陆高校的列表。这个示例使用axios
库来发送HTTP请求,并使用cheerio
库来解析HTML。
首先,你需要安装必要的库:
npm install axios cheerio
然后,你可以使用以下代码来抓取高校列表:
const axios = require('axios');
const cheerio = require('cheerio');
async function fetchUniversities() {
const url = 'https://example.com/universities-list'; // 替换为实际的高校列表页面URL
const { data } = await axios.get(url);
const $ = cheerio.load(data);
const universities = [];
$('div.university').each((index, element) => {
const name = $(element).find('h2').text().trim();
const location = $(element).find('p.location').text().trim();
universities.push({ name, location });
});
console.log(universities);
}
fetchUniversities().catch(console.error);
注意:
https://example.com/universities-list
需要替换为实际的高校列表页面的URL。div.university
、h2
和p.location
是假设的HTML结构,你需要根据实际页面结构调整选择器。
这个示例展示了如何使用Node.js和相关库来抓取网页数据。你可以根据需要进一步扩展和优化这个爬虫,例如添加错误处理、分页支持等。希望这个示例对你有所帮助!