Nodejs puppeteer 爬虫

puppeteer 爬虫获取带有段落格式的数据，怎么把它直接粘贴到 word 文档还显示原来的段落格式

wuwangju 1楼

这个是前端页面上的思路，你可以参考一下，实际上就是复制 HTML 文档，并设置剪贴板格式为 text/html： https://www.jianshu.com/p/beeeceb21afd

itying888 2楼

在Node.js中使用Puppeteer进行网页爬虫是一个常见的任务。Puppeteer是一个Node库，它提供了一个高级API来控制Chrome或Chromium。以下是一个简单的示例，展示了如何使用Puppeteer进行网页抓取。

首先，确保你已经安装了Puppeteer。你可以通过npm来安装：

npm install puppeteer

然后，你可以使用以下代码来抓取一个网页的内容：

const puppeteer = require('puppeteer');

(async () => {
  // 启动浏览器
  const browser = await puppeteer.launch();
  // 打开一个新页面
  const page = await browser.newPage();
  // 导航到目标网页
  await page.goto('https://example.com');
  
  // 获取网页的标题
  const title = await page.title();
  console.log(`Page title is: ${title}`);

  // 获取网页的HTML内容
  const content = await page.content();
  console.log(content);

  // 关闭浏览器
  await browser.close();
})();

这个脚本会启动一个无头Chrome浏览器，导航到https://example.com，然后打印出网页的标题和HTML内容。

请注意，这只是一个基本的示例。在实际应用中，你可能需要处理更多复杂的情况，比如处理JavaScript渲染的内容、处理分页、处理反爬虫机制等。此外，使用Puppeteer进行爬虫时，请务必遵守目标网站的robots.txt文件和服务条款，以避免法律风险。