Nodejs puppeteer 爬虫

Nodejs puppeteer 爬虫

puppeteer 爬虫获取带有段落格式的数据,怎么把它直接粘贴到 word 文档还显示原来的段落格式

2 回复

这个是前端页面上的思路,你可以参考一下,实际上就是复制 HTML 文档,并设置剪贴板格式为 text/html: https://www.jianshu.com/p/beeeceb21afd


在Node.js中使用Puppeteer进行网页爬虫是一个常见的任务。Puppeteer是一个Node库,它提供了一个高级API来控制Chrome或Chromium。以下是一个简单的示例,展示了如何使用Puppeteer进行网页抓取。

首先,确保你已经安装了Puppeteer。你可以通过npm来安装:

npm install puppeteer

然后,你可以使用以下代码来抓取一个网页的内容:

const puppeteer = require('puppeteer');

(async () => {
  // 启动浏览器
  const browser = await puppeteer.launch();
  // 打开一个新页面
  const page = await browser.newPage();
  // 导航到目标网页
  await page.goto('https://example.com');
  
  // 获取网页的标题
  const title = await page.title();
  console.log(`Page title is: ${title}`);

  // 获取网页的HTML内容
  const content = await page.content();
  console.log(content);

  // 关闭浏览器
  await browser.close();
})();

这个脚本会启动一个无头Chrome浏览器,导航到https://example.com,然后打印出网页的标题和HTML内容。

请注意,这只是一个基本的示例。在实际应用中,你可能需要处理更多复杂的情况,比如处理JavaScript渲染的内容、处理分页、处理反爬虫机制等。此外,使用Puppeteer进行爬虫时,请务必遵守目标网站的robots.txt文件和服务条款,以避免法律风险。

回到顶部