[不懂就问] Python爬虫框架Scrapy到底好在哪里？

刚开始写爬虫的时候用过一两个项目，那时候基本啥都不懂，就用现成的。
现在基本是直接 requests 加清洗入库。
感觉清洗入库的操作都差不多，scrapy 主要是完成啥工作了？
多线，报错处理，ip 池，这些也都自己写了。
想请教下 Scrapy 到底有啥特别之处吗？想看看有没有能吸收改善的，或者要不要再转 Scrapy。

框架就是做了框架的事情，这怎么说呢，你提到转 scrapy，意味着爬虫对你来说是主要工作？那你能完全不用 scrapy 也是头很铁。
因为使用框架开发速度会快很多，比如分布式部署，你难道手撸一个基于 redis 的调度系统吗？
还有中间件，shell 一些工具，都能提高效率。
基于 scrapy 开发，关注点都是数据，基于 requests，你要自己积累很多写好的代码片段，自己写很多基础功能。

itying888 2楼

Scrapy好就好在它是个“开箱即用”的工业级框架，把爬虫那些脏活累活都给你包圆了。你自己用requests+bs4写，光处理请求队列、去重、异常重试、并发这些底层逻辑就得折腾半天，代码还容易乱。Scrapy把这些都做成了内置组件，你只需要像填空一样写核心的解析逻辑就行。

举个例子，一个基础爬虫骨架几分钟就搭好了：

import scrapy

class BlogSpider(scrapy.Spider):
    name = 'blog_spider'
    start_urls = ['https://example.com/blog']

    def parse(self, response):
        # 提取文章链接
        for article_url in response.css('h2.entry-title a::attr(href)').getall():
            yield response.follow(article_url, self.parse_article)
        
        # 翻页
        next_page = response.css('a.next-posts-link::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

    def parse_article(self, response):
        yield {
            'title': response.css('h1.entry-title::text').get(),
            'content': response.css('div.entry-content').get(),
            'url': response.url
        }

它的优势很实在：1）基于Twisted的异步引擎，并发性能吊打裸写requests；2）内置的Selector（整合了XPath和CSS）比bs4快不少；3）中间件管道让你能像搭积木一样添加代理、User-Agent轮换这些功能；4）项目结构强制你规范组织代码，爬虫大了也好维护。

说白了你用Scrapy就是在用一套经过大量项目验证的最佳实践，避免重复造轮子。对于需要稳定爬取、结构复杂或规模较大的项目，它能省下你至少一半的开发和调试时间。小脚本当然可以用requests凑合，但正经爬虫项目上Scrapy准没错。

总结：框架的意义在于提供现成的轮子，让你专注业务逻辑。

htzhanglong 3楼

你自己都说了多线报错处理 ip 池要是自己不写顺手就用呢?
还有调度部署也是 scarpy 的优点之一县城的 scrapyd 轮子很多方便多机部署和调度

vueper 4楼

就两个字：省事
爬虫大多是一次性或短期项目，讲求个短平快。
爬虫最大的技术难度在于突破反爬机制。各种方案经常是要改换调整的。

yuanlaile 5楼

框架肯定有框架的好处就比如支持 Middleware、分布式、日志当然这些你也可以自己实现用框架就不用自己折腾公司一个项目用到城市影院、电影场次排片用 Scrapy 写爬虫加 Scrapyd 部署成微服务贼舒服

songsunli 6楼

好处是在特定条件下省事，框架就是把开发者觉得可以复用、很烦的那些部分都整合好了，对于框架可适用的方面，使用者可以只写个核心的部分能跑起来，不需要写多余的代码。比如你只是爬几个简单的新闻网站，用 scrapy 这类框架就可以无视掉很多事情，只需要把解析的部分写出来就能用了。
坏处是在特定条件下不省事，由于框架本身都有优劣势场景，对于不适用的方面可能就会出现特殊需求无法满足，虽然理论上来讲可以基于框架扩展，但有些需求基于框架进行扩展会很复杂，所以这种情况下用框架还不如自己写。

phonegap100 7楼

为何不直接看 scrapy 的源码？你不就明白差别在哪儿了么？

h691938207 8楼

不用也行啊
回头你的工作经验从具体案例中剥离出来，就是另一个 scrapy

yibo5220 9楼

省事啊框架的作用不就是节省工作吗

h691938207 10楼

高级语言及框架到底好在哪？现在基本是直接汇编自己写。

想请教下高级语言及各种框架到底有啥特别之处吗？