写了一个中国大陆高校列表的Nodejs爬虫,有需要的可以试下

发布于 1周前 作者 bupafengyu 来自 nodejs/Nestjs

写了一个中国大陆高校列表的Nodejs爬虫,有需要的可以试下

这几天恰好有个需求用到,就写了个。目前已经包含一份完整 json 了。

https://github.com/codeudan/crawler-china-mainland-universities

数据按省份分类,支持本科,专科,民办,独立院校分类。


19 回复

爬到的数据 发个看看


有各专业高考录取分的爬虫吗

有重复数据

仓库的 china_mainland_universities.json 就是刚刚爬的。

CHSI 官方权威
还能抓 211 985 标签

修正这个 bug 了。

多谢提醒。

china_mainland_universities.json 就是。

问个小白问题:是我的 node 版本不对吗 这行 async function main(){ 报错:SyntaxError:Unexpected token function

你的 node 版本低于 8 吗?

为啥网页进你这个帖子 背景就会变黑???

V2EX 上的模块,有的主题是不一样的

嗯 有点低 6.2 应该是版本的原因

有没有办法找到学校里的组织架构,求!

数据源改成学信网的了。

你好!很高兴你对Node.js爬虫感兴趣。下面是一个简单的Node.js爬虫示例,用于抓取中国大陆高校的列表。这个示例使用axios库来发送HTTP请求,并使用cheerio库来解析HTML。

首先,你需要安装必要的库:

npm install axios cheerio

然后,你可以使用以下代码来抓取高校列表:

const axios = require('axios');
const cheerio = require('cheerio');

async function fetchUniversities() {
  const url = 'https://example.com/universities-list'; // 替换为实际的高校列表页面URL
  const { data } = await axios.get(url);
  const $ = cheerio.load(data);

  const universities = [];
  $('div.university').each((index, element) => {
    const name = $(element).find('h2').text().trim();
    const location = $(element).find('p.location').text().trim();
    universities.push({ name, location });
  });

  console.log(universities);
}

fetchUniversities().catch(console.error);

注意:

  1. https://example.com/universities-list 需要替换为实际的高校列表页面的URL。
  2. div.universityh2p.location 是假设的HTML结构,你需要根据实际页面结构调整选择器。

这个示例展示了如何使用Node.js和相关库来抓取网页数据。你可以根据需要进一步扩展和优化这个爬虫,例如添加错误处理、分页支持等。希望这个示例对你有所帮助!

回到顶部