Python中Scrapy在一个def里不能发多个yield Request请求么？为什么？

这是我写的 spider 文件，下面有我碰到的在一个页面内所需要的值，放在 3 个 json 文件中。。。。。所以我在一个函数下写了三个 yield Request 请求……

import scrapy from scrapy.http import Request import re from jingdong.items import JingdongItem from jingdong.settings import *

class GoodsSpider(scrapy.Spider): name = 'goods' allowed_domains = ['jd.com'] start_urls = ['http://jd.com/']

# https://search.jd.com/Search?keyword=图书&enc=utf-8&wq=图书&page=1
搜索的起始页
url = “https://search.jd.com/Search?keyword={KEYWORDS}&enc=utf-8&wq={KEYWORDS}&page={page}”
电子价格
Eprice_url = “https://c.3.cn/book?skuId={skuId}&cat={cat}&area=1_72_2799_0&callback=book_jsonp_callback”
商品价格
price_url = “https://p.3.cn/prices/mgets?type=1&area=1_72_2799_0&pdtk=&pduid=1771569446&pdpin=&pdbp=0&skuIds=J_{skuId}&ext=11100000&callback=jQuery3021180&_=1547383556702”
price2_url = ‘https://c0.3.cn/stock?skuId={skuId}&venderId=1000005720&cat={cat}&area=1_72_2799_0&buyNum=1&extraParam={“originid”:“1”}&ch=1&pduid=1771569446&pdpin=&fqsp=0&callback=getStockCallback’
评论
comment_url = “https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv39228&productId={skuId}&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1”
def start_requests(self):
for k in range(1,PAGE_NUM):
yield  Request(url=self.url.format(KEYWORDS=KEYWORDS,page=2*k-1),callback=self.page_parse)
def page_parse(self, response):
#每页商品 ID
goodsID = response.xpath(’//li/@data-sku’).extract()
print(goodsID)
for each in goodsID:
    goodsurl = "https://item.jd.com/{}.html".format(each)
    yield Request(url=goodsurl,callback=self.get_goods_info)
def get_goods_info(self,response):
item = JingdongItem()

#图书链接
item["link"] = response.url

#图书标题
item["title"] = response.xpath('//div[@class="sku-name"]/text()').extract()[0].strip()

#作者
item["writer"] = response.xpath('//div[@class="p-author"]/a/text()').extract()

#提取商品 ID
skuId = re.compile(r'https:..item.jd.com.(\d+).html').findall(response.url)[0]
item['Id'] = skuId
cat = re.compile(r'pcat:\[(.*?)\],').findall(response.text)
cat = re.sub("\|",",",cat[0]).strip("'")
item['catId'] = cat
print(skuId)
print(cat)

# 打开电子书价格
yield Request(url = self.Eprice_url.format(skuId=skuId, cat=cat),meta={'item':item},callback=self.price_parse)
# 打开原价及京东价
yield Request(url = self.price_url.format(skuId=skuId),meta={'item':item},callback=self.jingdong_price_parse)
# 打开评论 json
yield Request(url = self.comment_url.format(skuId=skuId),meta={'item':item},callback=self.comment_parse)
def price_parse(self,response):
item =response.meta[‘item’]
#电子书价格
item[“e_price”] = re.compile(’“p”:"(.*?)",’).findall(response.text)[0]
yield item
def jingdong_price_parse(self,response):
item = response.meta[‘item’]
#京东价
item[“n_price”] = re.compile(’“op”:"(.?)",’).findall(response.text)[0]
print(item[“n_price”])
#原价
item[“o_price”] = re.compile(’“m”:"(.?)",’).findall(response.text)[0]
if item["n_price"] == None and item["o_price"]== None:
    yield Request(url=self.price2_url.format(skuId=item['id'],cat=item['catId']),meta={'item':item}, callback=self.jingdong_price_parse)
else:
    yield item
def comment_parse(self,response):
item = response.meta[‘item’]
#评论数
item[“comment”] =re.compile(’“content”:"(.*?)",’).findall(response.text)
yield item

如题目说所，这三个请求 # 打开电子书价格 yield Request(url = self.Eprice_url.format(skuId=skuId, cat=cat),meta={'item':item},callback=self.price_parse) # 打开原价及京东价 yield Request(url = self.price_url.format(skuId=skuId),meta={'item':item},callback=self.jingdong_price_parse) # 打开评论 json yield Request(url = self.comment_url.format(skuId=skuId),meta={'item':item},callback=self.comment_parse)

将会只执行最下面的，另外两个获取不到值。我试过单独写一个爬虫来同相同的匹配规则是可以正常获取到的。所以，百思不得其解啊！！！！！

Python中Scrapy在一个def里不能发多个yield Request请求么？为什么？

ionicwang 1楼

答:阔以，因为 yield 就相当于向队列里添加一个任务…其实你只要在 yield 后面加个 print 就能知道 yield 后面的代码是否被执行…😂可能队列这个想法我理解的不太对…但是窝也只写过几天 Python 然后就搁浅了？😂😂😂

bupafengyu 2楼

当然可以，一个 def 函数里完全可以发送多个 yield scrapy.Request。这是 Scrapy 异步架构的核心用法。

你可能遇到了一个常见的误解：以为 yield 一个 Request 后函数就结束了。实际上，yield 只是“产出”这个请求给 Scrapy 引擎去调度下载，函数会在此处暂停，等该请求下载完成并生成 Response 后，Scrapy 会回调你指定的回调函数（比如 parse）。而原来的生成器函数（你写的那个 def）会继续执行到下一个 yield，再产出下一个请求。

看看这个例子，它在解析列表页时，会同时发起对多个详情页的请求：

import scrapy

class MySpider(scrapy.Spider):
    name = 'multi_request_demo'
    start_urls = ['http://example.com/list']

    def parse(self, response):
        # 假设列表页有多个商品链接
        product_links = response.css('a.product-link::attr(href)').getall()

        # 第一个 yield： 产出对第一个详情页的请求
        if product_links:
            first_product_url = response.urljoin(product_links[0])
            yield scrapy.Request(first_product_url, callback=self.parse_product_detail)

        # 函数在这里暂停，等待第一个请求完成。
        # 当 Scrapy 处理完第一个请求并回调了 `parse_product_detail` 后，
        # 这个 `parse` 生成器会继续往下走。

        # 第二个 yield： 产出对第二个详情页的请求
        if len(product_links) > 1:
            second_product_url = response.urljoin(product_links[1])
            yield scrapy.Request(second_product_url, callback=self.parse_product_detail)

        # 你甚至可以用循环来 yield 所有请求，这才是标准做法：
        for link in product_links[2:]: # 从第三个开始，避免重复
            product_url = response.urljoin(link)
            yield scrapy.Request(product_url, callback=self.parse_product_detail)

        # 还可以 yield 请求到不同的回调函数，或者添加不同的元数据
        yield scrapy.Request('http://example.com/extra-page',
                             callback=self.parse_extra,
                             meta={'info': 'some_data'})

    def parse_product_detail(self, response):
        # 处理详情页的逻辑
        item = {'url': response.url}
        # ... 提取数据 ...
        yield item

    def parse_extra(self, response):
        # 处理其他页面的逻辑
        pass

为什么你会觉得不能发多个？可能的原因：

逻辑错误：在第一个 yield Request 后写了 return，函数当然就结束了。
缩进问题：第二个 yield 被错误地放在了 if 语句块之外或之内，导致逻辑不符合预期。
对生成器理解不足：yield 不是 return，函数状态会被保留。

总结：放心用，一个函数里 yield 多少个 Request 都行，这是 Scrapy 的标准模式。

h691938207 3楼

你的问题不是导致错误的原因，scrapy 在一个 def 里是可以发送多个 yield Request 的请求的。大概率问题是在后续处理 item 的问题