Python中如何在Scrapy的parse函数中获取另一个Request的返回结果

现在需求是这样的，我有一个 parse 去解析页面，我要算一个商品的总价格，但是，商品的某一个属性的价格呢，我不能确定，需要依靠另一个 Request 去跑一个页面。关键就是在我跑另一个 request，怎么把数据告诉 parse 方法。别说什么 callback，这个我当然知道！肯定不能用 callback 去解决吧！下面上代码：

    def parse(self, response):
       #计算商品价格......

       ......
       
       yield scrapy.Request(url, callback=self.parseNext)
def parseNext(self, response):
       #扒页面的相关数据

       .......拿到具体价格

       这儿怎么把数据返回到 parse 方法中去，我好计算价格，总不能用 return 吧！

yuanlaile 1楼

加入 meta
yield scrapy.Request(url, callback=self.parseNext, meta={‘price’: ‘99’})

parseNext 中
price = response.price[‘index’] #99

phonegap100 2楼

在Scrapy里，要在parse函数里拿到另一个Request的返回结果，你得用yield发起请求，并通过callback参数指定处理响应的函数。这个处理函数会接收到Response对象，里面就有你要的数据。

下面是个具体例子。假设我们想先爬取一个列表页，再从每个列表项里抓取详情页的数据：

import scrapy

class MySpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com/list']

    def parse(self, response):
        # 假设列表页中每个条目有一个链接
        item_links = response.css('div.item a::attr(href)').getall()
        for link in item_links:
            # 构建绝对URL
            absolute_url = response.urljoin(link)
            # 发起新的Request，并指定callback为处理详情页的函数
            yield scrapy.Request(absolute_url, callback=self.parse_item_details)

    def parse_item_details(self, response):
        # 这个函数处理详情页的Response
        # 在这里提取你需要的数据
        item_name = response.css('h1.title::text').get()
        item_price = response.css('span.price::text').get()

        # 返回或处理数据
        yield {
            'name': item_name,
            'price': item_price,
            'url': response.url
        }

关键点：

yield scrapy.Request(...)：在parse里用yield来发起新请求，Scrapy的调度器会接管它。
callback=self.parse_item_details：这个参数告诉Scrapy，等这个请求完成后，用parse_item_details这个方法来处理响应。parse_item_details方法会接收到一个全新的Response对象，对应那个详情页。
数据传递：如果你想从parse传一些数据给parse_item_details，可以用Request的meta参数：
```
yield scrapy.Request(absolute_url,
                     callback=self.parse_item_details,
                     meta={'page_number': page_num})
```
然后在parse_item_details里用response.meta['page_number']就能取到。