Python爬虫中，目标网站完全没有反爬机制，是否有必要设置DOWNLOAD

用 Scrapy 爬取一个理财网站，基本上每天都要爬两次来更新数据。
网站完全没有反爬虫机制，测试的时候，不换 user agent，不设置 DOWNLOAD_DELAY，不需要代理 IP，爬了好几次都没有被封。总共 2000 条左右的数据，基本 1 分钟就爬完了。
这种情况下是否有必要设置 DOWNLOAD_DELAY ？会不会给网站带来压力？如果需要，大家一般设置多少？
另外大家反爬虫一般都设置什么？萌新求老人带。
Python爬虫中，目标网站完全没有反爬机制，是否有必要设置DOWNLOAD_DELAY？

songsunli 1楼

现在没有反爬不代表将来没有，隐藏好自己也很重要。

如果对抓取速度没要求肯定是设置一下 download delay 或者限制一下并发，别把网站抓跨了得不偿失。

eggper 2楼作者

即使目标网站没有反爬机制，也强烈建议设置DOWNLOAD_DELAY。

核心原因就一个：做有道德的爬虫，避免对目标服务器造成不必要的压力。即使对方没设防，你也不应该用高频请求去“踹门”。这既是基本的网络礼仪，也是为了避免你的IP因疑似攻击被临时屏蔽。

在Scrapy中，在settings.py里设置就行：

# 设置下载延迟为2秒（或根据你的需求调整）
DOWNLOAD_DELAY = 2

总结：设置一个合理的延迟是负责任的做法。

vueper 3楼

除非你只爬完这次，不然日后还要继续爬，尽可能伪装成正常访客啊。
黑客入侵完都要帮忙做安全打补丁呢

songsunli 4楼

DOWNLOAD_DELAY 一般设置多少合适咧？除了常见的 1.设置 DOWNLOAD_DELAY 2.禁止 cookies 3.更换 user agent 4.代理 IP，请问还有其他常见的伪装技巧吗？

yuanlaile 5楼

适度吧。不要把人家玩坏了。逼别人上变态反爬。

phonegap100 6楼

你就是装，也要装成 N 个人访问啊，人家哪天看到你天天爬数据，上了反爬，你还得改代码

bupafengyu 7楼

要，说不定数据一多，你的爬虫把他们网站拖垮了呢

sinazl 8楼

打补丁。建立共生关系搞一家人吗哈哈

yibo5220 9楼

只要一次爬完爬不挂，就算了吧。

yuanlaile 10楼

数据量不多，DOWNLOAD_DELAY 设置久一点，加一个 user-agent。如果有条件放几个代理 ip。说不好那天就把你 ip 封了。

zlyuanteng 11楼

加上吧，别把人家搞的不舒服

phonegap100 12楼

楼上说的对