Python爬虫速度会因5G的到来而有质的改变吗?
最近的 5G 技术,炒的是非常火热,大家都在畅想着,5G 的到来会对什么行业有影响,会在哪个地方有爆发?
我是写爬虫的,所以就联想到 5G 的到来,会对爬虫有质的提升吗?又会改变爬虫哪些地方呢? 经常写爬虫的朋友应该知道,爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归。所以对于 CPU 的利用不是太好,我指的是用 Python 来编写爬虫。由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。 听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。
-
那么这么快的速度,对于爬虫来说以后是不是意味着我们不需要编写“太好的”,异步代码或者是多线程代码。对于代码的要求,是不是就降低了呢。
-
以后我们写的爬虫,问题是不是又集中在了 CPU 密集型了呢?以及验证码,IP 这些反爬措施上。
Python爬虫速度会因5G的到来而有质的改变吗?
有的没的。
“爬虫的速度慢,关键在于爬虫是 I/O 密集型的。也就是当我们发出一个请求以后,需要等待响应的回归”
“听说 5G 的到来。网速有相当大的改善,据说一秒钟可以下载一个电影。”
来说说 5G 在价格延迟网速上哪一个可以打得过万兆有线?
我无法理解你的问题。
#1 别问,问就低延迟高带宽,有线不存在的,光速轻易突破,是未来,是历史的车轮,你们这些螳螂是要被……
你真的写过爬虫?
吃瓜群众被无良媒体带节奏也就罢了,互联网从业人员对 5G 这样的认知也太不到位了吧!
既不懂爬虫也不懂 5G
油炸
爬虫:5G/个,可用于合成光明之剑
骗金币失败的例子
写过 并且还写过框架!!为什么木有速度的提升呢??
我只想知道原因 至于喷子就不要说话了 求解答疑问!!!!!!!!
求解答原因 别过说其他没用的啊 一个个评论都是浅尝辄止 也给不出原因 就说没啥用??我想要的是结果 不是媒体带不带偏????没一个给出具体答案的啊???
看了你的描述,不过感觉爬虫和移动网络没有太大关系吧,比较好奇你为什么会认为爬虫依赖移动网络?
另外一个个人的小建议是慎用超过三个感叹号,可能会影响阅读效率…
您的意思是 5G 其实还是基于我们目前的有限网络吧?? 所以速度并不会提升
???你服务器用的移动设备
我的了解目前 5G 速度较快 所以觉得目前可能这个速度会对爬虫比较有利 那是不是 5G 还是基于现有的有限技术?那么如果目前什么都不考虑,网站速度完全无延迟会不会对爬虫速度有提升呢?会不会降低协程 线程编程技术呢?
2g 换 3g 3g 换 4g 和我
打魔兽有关系嘛?
我的意思只是网速的增加会不会对爬虫编写代码要求有所降低呢?
不如把标题改成[高带宽低延迟下,爬虫将如何发展]因为 5g 再快也不如有线网络快。
另,个人觉得网络再快也会使用多线程+分布式+代理。所以网络只能加快爬虫的速度,对爬虫的方式没有太多改变。
是的 我的意思就是 [高带宽低延迟] ,可能有些描述不清吧 有些人就断章取义了 目前的方式绝对是线程 协程 分布式 反爬 验证码 IP 。。。。 其实爬虫要解决的问题还有很多呢
5g 只是影响端到端,你服务器不走光纤走 5g ?
可能我想的太完美了
5g 的到来会提高人的学习速度吗
一定程度上吧
除非对方服务器无限带宽,爬虫才用得上 5G
万兆网线也带不起硬盘的 io 吧 硬盘的 4k 性能有限
你的爬虫部署在服务器上的话,是走的有线网络,与 5G 无关。再之,一般来讲爬虫应用单次请求的响应体都不大[视频爬虫之类的除外],你的爬虫的 io 等待时间主要取决于对方服务器的响应时间,相比之下带宽就显得不那么重要。
#27 既然用万兆网了,那就上 ssd 吧。
消费级 970 ssd 的读写速度已经能达到 3G/s 了。
#27 4k 性能记不清了,但是印象也很高。
无线 和你有线的云主机有关系? 有线的 100GE 网卡便宜了?!
怎么不问问,爬虫技术什么时候被法律约束?
要明白 5G 只是一种接入网技术而已。
5G 的低延迟目前来说只是个伪命题,你并不能忽略网路中间节点的影响。
我感觉我的智商受到了侮辱
hhh 你爬虫 不就是对人家带宽上限吗 对方服务器还是 1M 带宽你有什么办法
对方的宽带就 1M 确实没办法 不知道长远的未来会不会还是 1M
。。。黑的好!!!!!!!
爬虫触犯法律目前已经有一个案例了 盗取别人家的视频获刑 似乎是中国首例 还有一个什么公司 靠采集别人的简历 好像融资 1.5 亿 最后被一锅端 30 多人坐牢了
越快越容易被 block
螳螂会爬
螳螂是虫
螳螂也是爬虫
(论证有力)
(简单论述) IO 密集,多线程,5G,岂不是更加利用 CPU 资源,更加美滋滋?
家族群我堂弟说:哇,5G 快来了。5G 速度好快啊。
我二姑爷说:5G 不用钱么?
全群安静。
???网速影响实现代码?
别问,问就是速度是 5G 最无聊的应用
#10 你写的爬虫框架连 IO 都解决不了?
科普,通信网络是由核心网,接入网,用户设备, 简单说明。接入分有线和无线,核心网 10 多年没有变化了,变化比较多是接入网中的无线部分
所以大家觉得 5G 是通信网络中那部分呢??
1.5g 说会出现大量网联设备,这说明没有 5G 的情况也有物联,不是大量对吧?
2.大量会不会是伪需求?比如汽车连接电饭锅,你在路上的时候可以煮饭?请问锅里米谁洗?水谁放?电谁插?保姆呀,都有保姆,还要这个有用吗?
3 让子弹飞一会儿。
他们肯定会说 5G 来了肯定就会有具备自动放米、自动洗米功能的电饭煲,而且还能通过大数据精准放置多少米量 emmmmm,你信不信
我要笑死了哈哈哈哈哈哈哈哈哈
这个问题挺有意思的,不过我认为对速度的影响并不大,等下到公司细说一下。
写爬虫不是该跟人家反扒策略斗智斗勇?就现在的带宽你能跑满?
异步爬虫了解哈?
其实我不是嘲笑 5G,我只是客观说明,这东西被包装过度,无非有人想要摸鱼,华为的任老大不是也说内部没有外面那么夸大,这是华为任老大说的,有视频的,都不要找我哈。我引用。 回到题主,题主这是有线接入,和 5G 一毛关系都没有。通讯延迟减小只是说明以前无线设备和无线接入这块有改善。和核心网速度一点关系都没,大油管如果很小,分支油管还能上天? 核心网将近 20 年都没变了,什么光纤改善,CPU 提升,内存速度快,理论上只是运营商节约了一点成本,其实也没节省。就像现在运营商都是 nfv,结构,nfv 的目的是为了省钱,但是现在其实比原来黑盒子更多 10-30%, 移动或者电信的朋友出来说说看。
楼主,你说你是写爬虫的?你难道没有被别人家的反爬虫措施整的欲仙欲死的经历?你居然认为阻碍爬虫的问题是网速和响应时间?你真的是写爬虫的?你不是在逗我?
哪怕没有网速的限制, 你觉得对方的服务器资源可以让你随意占用?
你说 ipv6 能提升爬虫的效率都比说 5g 好
好多写爬虫的还主动降频,就是为了怕对方发现,你这思路清奇,即使对方毫无反爬措施,爬虫的进程数、解析 DOM 速度才是最大瓶颈,网速高有毛用
目前有很多项目可能受限于当前的网速发展不起来,如果 5G 发展起来了。这些项目就能搞起来了。这个潜能是无限的,谁也不能承担忽视 5G 而导致的后果,所以美国疯狂打压华为。。。微软很早之前就做智能手机,做平板,但一直没有发展起来,感觉和网络速度有一定的关系。。
程序员的门槛真是越来越低了
所以程序员并不是技术相关的都懂
就和不是所有的程序员都会修电脑一样
过分嘲笑就没意思了
低的有点可怕了,两个完全没有任何关系的技术,连基本原理都不懂一点的。
看来有时候,很多人鄙视纯爬虫工程师是有点道理的。
到现在,该回答的都有人回答了.我也不重复了…
我看到题目的第一反应是在钓鱼…往后面看发现居然是认真的…
还真别怪一开始几个人冷嘲热讽.不回答问题.也不是你想的太完美了…
而是你书读太少了…但凡对网络组成有一丝丝的了解也不会问出这种问题…
对速度没有 对数据量有质的改变
楼主你这技术底子也太薄了吧,讨论个啥=。=
lz 是爬虫新人吧,爬虫难点不在于 IO,写异步的或者线程池都可以缓解,瓶颈在于反爬,甚至需要主动降低爬取频率;再说一般中小企业网站都 4M 带宽出口,你最高也就这速度了
"由于 Python 的 GIL 全局解释器锁。所以,我们为了提高效率,可以采用多进程的方式,也可以采用多线程的方式,甚至采用协程的方式来实现爬虫。"
IO 密集型的操作你可以认为和 GIL 没关系。
等等,你的爬虫服务器不是放在机房里通过万兆光纤接入的吧?
难道说你们现在的瓶颈在爬虫手机 4G 速度不够?所以期待 5G 带来质变?
那这边建议你买个 G 口的 VPS 体验一下,绝对比手机上跑爬虫烧 4G 流量便宜,而且还快
修电脑和这种基础知识不是一类的…
修电脑是技能…
而网络组成是基础知识,但凡是写和网络有关程序的人都会接触到,他还是写爬虫的,这些不懂有些说不过去…
说明初入行业,我一个运维也知道和 5G 没关系,虽然专业是通信
你不会在用 4G 流了来爬数据吧???
5G 再快,最终也得汇到光纤主网上面去
所以说现在都是政治吹捧,但是捧也要有点底线,现在这样好像在看傻子
为什么 5G 会影响服务器?
现在服务器千兆的大把,加钱也有万兆。
哦不对,楼主用的是移动网络。
速度从来都不是爬虫最关键的地方。
#78 会啊.毕竟 5G 会带来无人驾驶

现在的爬虫瓶颈不就是在反爬对抗么?
你赢了 
LZ 就像个真信了亩产万斤的农民。
仔细看看我之前的回复就知道了 我的意思是低延迟 而且你们可能认为有线技术一直是在服务器那端 这辈子都不会改变 我认为的任何事情都会改变
再次强调,5G 网络延迟改善,带宽增加和有线毛关系都没,这个只能提升无线接入到设备之间网络质量。如果要主干网路,除非有什么比光纤更快的。但是目前物理定律是不可能有超过光速的。那么就是光纤优化,让光子在内部尽量减少反射次数,最好做到直接到,这样应该就是理论上的光速了。现在光纤的传输速度小于光速。
我怀疑楼主根本没写过爬虫
我怀疑楼主根本不懂网络
我怀疑楼主根本不懂木桶
一秒钟就能下一部电影的移动网络价格,你拿去买固定有线网络,可以买到一秒钟就能下十部电影的。
我们假设你跑出了 5G 应有的带宽的十分之一,也就是 100mbps,一个月下来跑了 32.4TB ,那 32.4TB 的手机流量是多少钱呢?好像有点超出我的知识量了。如果我们按照现在一元一 GB 的价格来算的话,是 32400 元。
那么每月 32400 元能申请到什么样的有线网络呢?
我陷入了沉思。
5G 是移动网络,和固定网络木有关系,除非你的爬虫是跑在手机上
#53 补一下昨天说的这个,有兴趣的可以了解一下
https://www.v2ex.com/t/572939


