Python爬虫速度会因5G的到来而有质的改变吗?

最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?

我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。

  • 那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。

  • 以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。


Python爬虫速度会因5G的到来而有质的改变吗?

92 回复

有的没的。
“爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归”
“听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。”
来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线?


我无法理解你的问题。

#1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被……

你真的写过爬虫?

吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧!

既不懂爬虫也不懂 5G

爬虫:5G/个,可用于合成光明之剑

骗金币失败的例子

不用月底了,直接加急吧

写过 并且还写过框架!!为什么木有速度的提升呢??

我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!!

求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊???

看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络?
另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率…

您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升

???你服务器用的移动设备

我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢?

2g 换 3g 3g 换 4g 和我

打魔兽有关系嘛?

我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢?

看了一个消息就是 5G 的速度是要快于电信的 100M 光纤宽带的

不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。
另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。

是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢

先不说 5G 到底能不能实现比有线延迟低速度快 然后再假设你的电脑也使用 5G 来上网 但是你要爬的服务器不还是有线接入?

5g 只是影响端到端,你服务器不走光纤走 5g ?

可能我想的太完美了

5g 的到来会提高人的学习速度吗

一定程度上吧

除非对方服务器无限带宽,爬虫才用得上 5G

万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限

你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。

#27 既然用万兆网了,那就上 ssd 吧。
消费级 970 ssd 的读写速度已经能达到 3G/s 了。

#27 4k 性能记不清了,但是印象也很高。

5g 再快也快不过有线啊,咋回事啊

无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?!

怎么不问问,爬虫技术什么时候被法律约束?

要明白 5G 只是一种接入网技术而已。

5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。

我感觉我的智商受到了侮辱

hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法

5g 的网络,对于百度云的下载速度限制是不起作用的,爬虫也是,都是看服务端响应时间,而不是在互联网上的传输时间。

对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M

。。。黑的好!!!!!!!

爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了

越快越容易被 block


螳螂会爬
螳螂是虫
螳螂也是爬虫
(论证有力)

(简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋?

家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。

我二姑爷说:5G 不用钱么?

全群安静。

???网速影响实现代码?

别问,问就是速度是 5G 最无聊的应用

#10 你写的爬虫框架连 IO 都解决不了?

科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分

所以大家觉得 5G 是通信网络中那部分呢??

1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧?
2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗?
3 让子弹飞一会儿。

他们肯定会说 5G 来了肯定就会有具备自动放米、自动洗米功能的电饭煲,而且还能通过大数据精准放置多少米量 emmmmm,你信不信

我要笑死了哈哈哈哈哈哈哈哈哈

这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。

写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满?

异步爬虫了解哈?

其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。

楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我?

哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用?

你说 ipv6 能提升爬虫的效率都比说 5g 好

好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用

目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。

程序员的门槛真是越来越低了

所以程序员并不是技术相关的都懂
就和不是所有的程序员都会修电脑一样
过分嘲笑就没意思了


低的有点可怕了,两个完全没有任何关系的技术,连基本原理都不懂一点的。
看来有时候,很多人鄙视纯爬虫工程师是有点道理的。

到现在,该回答的都有人回答了.我也不重复了…
我看到题目的第一反应是在钓鱼…往后面看发现居然是认真的…
还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了…
而是你书读太少了…但凡对网络组成有一丝丝的了解也不会问出这种问题…

对速度没有 对数据量有质的改变

楼主你这技术底子也太薄了吧,讨论个啥=。=

lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了

"由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。"
IO 密集型的操作你可以认为和 GIL 没关系。

等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧?
难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变?
那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快


修电脑和这种基础知识不是一类的…
修电脑是技能…
而网络组成是基础知识,但凡是写和网络有关程序的人都会接触到,他还是写爬虫的,这些不懂有些说不过去…

说明初入行业,我一个运维也知道和 5G 没关系,虽然专业是通信

你不会在用 4G 流了来爬数据吧???
5G 再快,最终也得汇到光纤主网上面去

所以说现在都是政治吹捧,但是捧也要有点底线,现在这样好像在看傻子

为什么 5G 会影响服务器?

现在服务器千兆的大把,加钱也有万兆。
哦不对,楼主用的是移动网络。

速度从来都不是爬虫最关键的地方。

5G 到来,会影响我单手开保时捷吗!#手动滑稽

#78 会啊.毕竟 5G 会带来无人驾驶

现在的爬虫瓶颈不就是在反爬对抗么?

你赢了

第一我没说忽略 5G 发展,千万不能曲解,千万!我只是想说 5G 能干啥,估计炒作的人都没想清楚,所以让子弹飞一会儿。第二微软的失败不是因为网络吧。你去找找吴军的分析。

LZ 就像个真信了亩产万斤的农民。

仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变

再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。

我怀疑楼主根本没写过爬虫

我怀疑楼主根本不懂网络

我怀疑楼主根本不懂木桶

一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。

我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。

那么每月 32400 元能申请到什么样的有线网络呢?

我陷入了沉思。

5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上

#53 补一下昨天说的这个,有兴趣的可以了解一下
https://www.v2ex.com/t/572939

回到顶部