Python爬虫文章总结与经验分享

2017 年 4 月份开始写爬虫系列文章,不知不觉到了 9 月份,时间过的真快,写毕业论文,毕业了,找工作,然后辞职,然后接着奋斗

4 月份开始写,一直断断续续,今天给爬虫文章收一个尾。

文章放到了的个人网站上:www.zhouww.com

Python_爬虫总结

补充了如下内容

  • 多进程
  • 代理池
  • json 处理
  • 数据存储
  • 手机抓包

有些文章需要些基础,有些文章只讲讲心得。欢迎大家指正,欢迎投稿。


Python爬虫文章总结与经验分享

29 回复

谢谢,可以写一些对没啥基础的人的教程吗?


我无法理解你的问题

写的很系统。可以加一些爬虫框架,比如,pyspider

写爬虫的时候总觉得有点不好意思,感觉给别人添麻烦了

为啥你的站打开好慢,我的天。

能否讲讲他和 scrapy 的差异吗

没有过 scrapy。。。

没有用过

一直没用过框架,有机会去接触下

不会吧,国内 ip 我分流到了 coding 的 pages 上,国外的是 github 的 pages 上

我的文章需要的基础会在前面说明的,如果加入基础,文章会很长

还好吧,>_<

遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面,存到数据库里(数据库是 utf8),一般怎么处理?什么时候转码啊?

页面——》 Python ——》数据库,python 可以处理的。用 Python 把页面的内容解析出来,存入数据库。

老哥您的网站打不开啊!!

好吧,感谢反馈。说实话,coding,有时候不稳定,我也会遇到,>_>

coding 的 pages 和 github 的 pages,应该没有问题啊,我刚刚又试了一遍。(虽然说 coding 有时候不稳定)

现在又可以了

真心尴尬,具体原因我也不太清楚,抱歉哈

博客使用的是 coding.netgithub.com 的 pages 功能
工具:hexo + next 主题
域名是万网,做了一下 ip 分流,国内 ip 访问 coding,国外 ip 访问 github
至于打不开的话,我也找不到好的方法处理,建议多试几次,>_>。(抱拳)

用代理打开了

好尴尬哈,至今没有排查出问题。抱歉哈

你的网站厉害了, 走代理才能打开

抱拳,pages 功能可能不稳定

现在不走代理也可以打开了!

同行,顺路也推一下自己的爬虫入门文章

https://www.kawabangga.com/posts/2277

厉害!谢啦

回到顶部