Python爬虫入门：第二篇爬虫文章的前传内容介绍

第一篇： https://www.v2ex.com/t/351900

第二篇： http://www.jianshu.com/p/b3bc88ffb251 爬虫中的正则表达式（ re ）—前传

这篇文章只是一个开头，希望通过这篇文章收集大家的建议

大家认为好的资料（ github 上的，自己写的，你认为写的比较好的博客....都行）

我可以把推荐的资料放在文末的参考资料中或者直接写在正文中，当然会推荐者署名

大家对这篇文章的建议，应该怎么写比较好，欢迎大家提建议
欢迎投稿，；）

Python爬虫入门：第二篇爬虫文章的前传内容介绍

gougou168 1楼

期待代理池的文章！

itying888 2楼

我无法理解你的问题。

zlyuanteng 3楼作者

正则写完就写代理池。当然还要看正则这篇文章的反馈情况，：）

vueper 4楼

期待并发和代理池

h691938207 5楼

同期待代理池

nodeper 6楼

期待代理池+1

ionicwang 7楼

嗯，等我写完正则。。。或者可以投稿把正则这个坎绕过去

zlyuanteng 8楼作者

等我写完正则。。。或者可以投稿把正则这个坎绕过去

wuwangju 9楼

好的，我会根据反馈情况不断修正文章的更新进度

htzhanglong 10楼

期待代理池+1

sinazl 11楼

代理池等待中

sinazl 12楼

嗯，这个等我慢慢跳坑
欢迎投稿

phonegap100 13楼

看大家期望这么高你要不先把代理池写了（逃

sinazl 14楼

这个很难做到，文章不能大跃进啊（摊手

vueper 15楼

代理池构建的思路是：
1. 正则匹配出代理 ip ，有些免费网页很规则，用 beautifulsoup 就行

2. 检查是否为高匿代理，为了加快检查速度，采取多进程

3. 加上高匿代理，进行爬虫

所以，正则是基础，多进程也很重要（多线程也行）

大家可以根据这些知识点，进行自学，如果学好了，欢迎投稿，:)

我的文章不会更新这么快，因为我想写点不一样的东西，符合我的行文特点，：）

（当然主要是因为，我要写毕业论文…还有…找工作…）

nodeper 16楼

补充一下，当然有要有刷新代理池中代理的代码，而且一般代理极易失效

bupafengyu 17楼

如何高效获取一手 ip 代理，而不是从别人网站上爬，题主有思路么

ionicwang 18楼

这个还真没思路。可能只有花钱买吧

vueper 19楼

最好详细讲解一下并发原理…
pycon2015 上讲的就不错
不然新人看了还是一头雾水

zlyuanteng 20楼作者

谢谢建议。文章中不涉及基础原理，只讲实战部分。主要原因是原理部分我真的讲不好。

如果有并发原理的好文章，欢迎投稿，：）

vueper 21楼

期待数据入库 0.0