Python中使用Scrapy爬取豆瓣读书时，如何解决无法多页面爬取的问题？

初学 Python ，在用 scrapy 来爬取豆瓣读书练习。目前爬取单页面的书籍没有问题

在用 scrapy 提供的 Rule 和 LinkExtractor 模块练习爬取多页面的时候，始终无法获取的到下一页的结果，折腾一天无解
爬虫主要代码在下面，请各位给看看问题所在，感谢！

https://gist.github.com/loricheung/b51503a835aa8b8af238b99a4104fb21 <button onclick="lazyGist(this)"> 显示 Gist 代码 </button>

songsunli 1楼

return book --> yield book

phonegap100 2楼

遇到Scrapy爬豆瓣读书只能抓一页的问题，通常是分页逻辑没处理好。核心在于正确提取下一页链接并交给Scrapy跟进。

下面是一个可运行的示例，重点在parse方法里的分页处理：

import scrapy
from urllib.parse import urljoin

class DoubanBookSpider(scrapy.Spider):
    name = 'douban_book'
    allowed_domains = ['book.douban.com']
    start_urls = ['https://book.douban.com/tag/小说']

    def parse(self, response):
        # 1. 提取当前页的书籍信息
        books = response.css('ul.subject-list li.subject-item')
        for book in books:
            item = {
                'title': book.css('h2 a::attr(title)').get(),
                'link': book.css('h2 a::attr(href)').get(),
                'rating': book.css('span.rating_nums::text').get(),
            }
            yield item

        # 2. 关键：提取下一页链接
        next_page = response.css('span.next a::attr(href)').get()
        if next_page:
            # 豆瓣用的是相对路径，需要拼接完整URL
            next_url = urljoin(response.url, next_page)
            yield scrapy.Request(next_url, callback=self.parse)

常见问题排查点：