Python爬虫入门:第二篇爬虫文章的前传内容介绍

第一篇: https://www.v2ex.com/t/351900

第二篇: http://www.jianshu.com/p/b3bc88ffb251 爬虫中的正则表达式( re )—前传

这篇文章只是一个开头,希望通过这篇文章收集大家的建议

  1. 大家认为好的资料( github 上的,自己写的,你认为写的比较好的博客....都行)

我可以把推荐的资料放在文末的参考资料中或者直接写在正文中,当然会推荐者署名

  1. 大家对这篇文章的建议,应该怎么写比较好,欢迎大家提建议

  2. 欢迎投稿,;)


Python爬虫入门:第二篇爬虫文章的前传内容介绍

21 回复

期待代理池的文章!


我无法理解你的问题。

正则写完就写代理池。当然还要看正则这篇文章的反馈情况,:)

期待并发和代理池

同期待代理池

期待代理池+1

嗯,等我写完正则。。。或者可以投稿把正则这个坎绕过去

等我写完正则。。。或者可以投稿把正则这个坎绕过去

好的,我会根据反馈情况不断修正文章的更新进度

期待代理池+1

代理池等待中



嗯,这个等我慢慢跳坑
欢迎投稿

看大家期望这么高你要不先把代理池写了(逃

这个很难做到,文章不能大跃进啊(摊手

代理池构建的思路是:
1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行

2. 检查是否为高匿代理,为了加快检查速度,采取多进程

3. 加上高匿代理,进行爬虫

所以,正则是基础,多进程也很重要(多线程也行)

大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:)

我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:)

(当然主要是因为,我要写毕业论文…还有…找工作…)

补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效

如何高效获取一手 ip 代理,而不是从别人网站上爬,题主有思路么

这个还真没思路。可能只有花钱买吧

最好详细讲解一下 并发原理…
pycon2015 上讲的就不错
不然新人看了 还是一头雾水

谢谢建议。文章中不涉及基础原理,只讲实战部分。主要原因是原理部分我真的讲不好。

如果有并发原理的好文章,欢迎投稿,:)

期待数据入库 0.0

回到顶部