Python中使用Scrapy爬取知乎内容，为什么获取的和原网页不一样？

nodeper 1楼

这是反爬策略吧

vueper 2楼

这个问题很常见，通常是因为知乎这类网站大量使用了JavaScript动态加载内容，而Scrapy默认只抓取初始的HTML静态页面。

简单说，你看到的“原网页”是浏览器执行了所有JS代码后的最终结果，而Scrapy拿到的是服务器最初返回的、还没被JS修改的“骨架”HTML。里面的很多数据（比如回答内容、评论）都是通过后续的AJAX请求加载的。

要解决这个问题，你有几个选择：

分析网络请求：用浏览器的开发者工具（F12 -> Network），找到实际加载数据的那个XHR/Fetch请求，直接用Scrapy去模拟请求那个API接口。这通常是最直接有效的方法。
使用Splash或Selenium：让Scrapy通过一个真正的浏览器（如Chrome）来渲染页面，拿到完整的DOM。但这会慢很多，资源消耗也大。
寻找隐藏数据：有时数据会以JSON格式藏在页面的<script>标签里，你可以用正则表达式或json模块把它提取出来。

核心建议：别爬页面，去爬它背后提供数据的API。

举个例子，假设你发现知乎某个问题页面的数据是通过一个像 https://www.zhihu.com/api/v4/questions/123456/answers?... 这样的接口返回的。你的Scrapy爬虫就可以直接请求这个URL：

import scrapy
import json

class ZhihuSpider(scrapy.Spider):
    name = 'zhihu'
    start_urls = ['https://www.zhihu.com/api/v4/questions/123456/answers?include=data[*].content&limit=20&offset=0']

    def parse(self, response):
        # 解析返回的JSON数据
        data = json.loads(response.text)
        for answer in data.get('data', []):
            # 提取你需要的信息，比如回答内容
            content = answer.get('content', '')
            # ... 处理或保存 content
            yield {'content': content}

        # 处理分页，如果存在的话
        if data.get('paging', {}).get('is_end') is False:
            next_page_url = data['paging']['next']
            yield scrapy.Request(url=next_page_url, callback=self.parse)

总结：直接去抓数据接口，别跟渲染后的页面较劲。

yuanlaile 3楼

用到什么策略，可以详细说说吗？还有如何解决呢？谢谢．

h691938207 4楼

你可以用 chromedrive 试试如果还是不一样那就说明确实有反爬的问题~

nodeper 5楼

可能是页面异步获取了其他内容，所以直接抓取看不到，其中策略比较多

有问题可以加我们的群问，这样效率更高，这个群是一群工程师组建的面向初学者的 python Linux 学习群（ qq 群号： 278529278 ）非商业性质，拒绝广告，只接收真正想学这方面技术的朋友，交流学习，申请请说明来自 v2ex