Python 爬虫系列文章如何在简书上开始写作

第一篇: http://www.jianshu.com/p/11d7da95c3ca

这一系列文章不写复杂的爬虫,而是将复杂的爬虫涉及到的核心知识点写清楚

  1. 代理池(高匿)

  2. 多进程

  3. 正则表达式

  4. 数据库

  5. selenuim

  6. 手机抓包

  7. ....

希望 V 友能提提建议,能投稿就更好了


Python 爬虫系列文章如何在简书上开始写作

83 回复

要不看看[Python 全栈之路系列文章]( https://blog.ansheng.me/article/python-full-stack-way/)


我无法理解你的问题

一定要多图哟!

谢谢!已经收藏到书签栏,这是基于 Python2 ?爬虫中我使用的数据库一般是 MongoDB

放心吧,一般都是动态图,实用且有趣味

为啥选简书……

不然选啥呢?我用 markdown 来写文章, github 有时候打开太慢,虽然我有 SS ,不是所有读者都用代理吧

果断收藏!

给你一些资源文档 http://www.kancloud.cn/special/python 技术文档首选写作平台 不是盖的~

欢迎一起写呀,入坑 Python 爬虫系列

谢谢推荐,在简书用的还行,暂时不算换了。欢迎投稿哈,:)

建议可以参考下崔庆才系列和路人甲系列,看看如何有些更深入浅出的表达和好玩的例子哈

基础做完可以做些有针对性的爬虫
根据不同的场景和框架,发现这方面做得人很少。
已加书签,持续关注中

谢谢建议哈,我去看看。我尽量做好,希望一起来玩哈,一个人更新的话会很慢,我最近也要忙着写毕业论文

如果一起来写就好了,入坑 Python 爬虫系列,众人拾柴火焰高

谢谢支持,希望多提提意见,:)

已收藏,希望能写简单一点,让我们这些小白能够看懂。

好的,我尽量哈,我以后的文章会放一些参考资料,:)

666 ,正在学 python ,来的很及时,加油 LZ

太喜欢你的博客了!!赞!看着真舒服!

好的,一起来玩哈

想看代理池的部分,什么时候更新呢?

拥抱 Python3

thx

这个更新的具体时间未定,代理池相关文章应该会放在正则之后

我一直学的就是 Python3 ,虽然看了一些视频教程( Python2 ),但是里面的代码我全部用 Python3 实现,:)

对了,有兴趣写写 Python 爬虫的文章么?:)

正在学- -。

你都会了 py 技术?

正需要这些新鲜的知识,欢迎投稿,:)

我爬取过高考吧 200 多万条记录,用里上面写大部分技术,爬网易云课堂评论的时候用过 selenium
http://www.jianshu.com/p/8893973b279c
虽然代码写的不漂亮,但是能干活。

能顺手同步到 github 上吗,感觉 github 看 md 文件挺好的

爬虫已经成功了程序员必备技能了

谢谢提建议,暂时不打算到 github 维护文章,因为要写毕业论文,:(

也不一定,我寝室一个哥们转行 java ,让他写爬虫,死活不写,还是看个人兴趣。。:)

一定要来几个高级爬虫的例子!

水到渠成的时候,可能会写的。如果把这些知识点写完,只要结合几个知识点,那么就可以写出高级爬虫的例子了,:)

思考题一有个错别字,网页写成了网易

已经更正,文章第一行有更新信息,加了你的 V2EX 主页链接,如果可能对你造成影响,请告诉我,我立即清除

哈哈哈,没想到还有这个待遇,不过链接还是去了吧。毕竟我不是做技术的,保留我的用户名让我得瑟下

好的,已经 ok 了。多交流哈,欢迎投稿,哈哈

如果你是多人团队写作的话 看云肯定比简书方便 都是 MD 啊 另外 看云支持付费阅读哦 ^_^

好的,我会关注这个平台的,:)

刚看到一个 V 友也在写爬虫文章,选择的平台也是简书。(在 Python 这个节点靠前的位置)

他是从零入门的,而我这个不是从零入门的,基础知不会讲到。想想还,真是有缘,哈哈

爬动态网站的方法不只有使用 webkit 这种傻瓜式的方法,还可以用抓包的方法

可以啊!!!支持楼主!!!已关注!!!👍👍👍

有文章讲讲这方面的知识吗?
同时欢迎 V 友投稿

谢谢,真的欢迎投稿,感觉自己挖了个大坑

感谢分享,请教一下
如何确保程序连续运行?另外写一个监控进程?
另外是多线程釆集还是就一个进程?

不用客气的,欢迎交流

保证程序连续运行,是什么情况?能描述一个具体的实例么?

我使用的是多进程

文末的头像很赞,基于 wordcloud 吗

果然也是老司机。确实是用 wordcloud 做的

Mark 一下。

比如你应该是放后跑爬虫程的吧?有没有遇到因为各种原因跑着跑着退出了? 然后有另外一个进程监控一下?

好问题!
爬取网页多的情况下,并不知道会出现什么样的异常,除非对网站十分熟悉。那么换一种思路,按绝大多数的正常网页来编写爬虫程序,其余的用 try except 处理。

最后对极少数的异常网页,做特殊处理。

这是我的思路,欢迎交流

(如果楼主愿意写些爬虫文章,欢迎投稿哈)

太好了,正在学习爬虫。

在学 py2.7 (:3 」∠)

哈哈,赶紧写了第二篇, https://www.v2ex.com/t/352150

差不多的,有 Python 基础就可以看,刚刚发布了第二篇, https://www.v2ex.com/t/352150

大神,我有一个公司名列表,需要搜索对应的编号。然后根据编号再找另一编号,这种怎么写爬虫啊?

支持,正在学习

呃,不好意思,我没有理解你的问题,~_~

嗯,欢迎投稿哈

哦,有一个公司列表[a,b …] 要去网站 A 找到对应的编号 a 对应 111 , b 对应 222 ,等等,然后再根据编号 111 去网站 B 找到对应的 a 的数据,然后再找 b 的数据。

这个过程挺清晰, 你在写代码的过程中,遇到的具体问题是什么?

你有没有写学习经历故事?

学习经历故事?这个还真没有。。。我是学石油专业的,想转行而学习 Python ,学习 Python 时间还较短。等我入门时间长了,可能会分享自己学习经历吧,:)

厉害 对了 你利用空闲时间做什么?

学习运营知识,我想成为一名运营者,,,我真的不厉害,只不过喜欢挖坑。你也是学 Python ?

第一步 a 到 111 :中间需要在网站 A 搜索一下,这步就不太会写。

你到网站 A 搜索一下,观察搜索的网址构造的具体形式,然后构造网址(以公司为变量)进行请求

,你一说我明白了。谢谢啦!

好奇你 1 和 2 打算怎么写

这个看文章的反馈和大家的建议吧。只讲最实用的部分,同样不讲基础。比如进程和线程的区别,这个不会在文章中出现。

近期不会更新这两大部分,我要去找工作了,还有很多运营和机器学习的知识要学。。。

文章的反馈比较少,我不会投入太多的时间去更新,坑会填完,但是不会太快。

好多新知识要学,近期还会再挖几个坑

正在学习><

厉害 对了 你利用空闲时间做什么?
嗯是的

Python 技术分享的乱象 https://zhuanlan.zhihu.com/p/26149723
>>>>>>
现在知乎上 Python 相关内容有以下三大特点:

1. 绝大多数是写爬虫的。

哈哈,不评论这篇文章

我想问问为什么我写的爬虫运行一段时间就会报 requests.exceptions.ConnectionError: (‘Connection aborted.’, BadStatusLine("’’",)),用的 python 和 requests 库,我没有使用多线程,在请求之前都添加了 time.sleep(0.5) ,按说不至于请求太频繁啊,请问这个问题该怎么解决啊!谢谢了

我没有遇到过这样的问题,不知道你 google 没有,你的问题在 stackoverflow 有几个问答,你尝试一下。

还有, time.sleep(0.5) 还真谈不上有多保险,这个不同的网站都不一样

回到顶部