Python爬虫文章总结与经验分享
2017 年 4 月份开始写爬虫系列文章,不知不觉到了 9 月份,时间过的真快,写毕业论文,毕业了,找工作,然后辞职,然后接着奋斗
4 月份开始写,一直断断续续,今天给爬虫文章收一个尾。

文章放到了的个人网站上:www.zhouww.com
补充了如下内容
- 多进程
- 代理池
- json 处理
- 数据存储
- 手机抓包
有些文章需要些基础,有些文章只讲讲心得。欢迎大家指正,欢迎投稿。
Python爬虫文章总结与经验分享
谢谢,可以写一些对没啥基础的人的教程吗?
我无法理解你的问题
写的很系统。可以加一些爬虫框架,比如,pyspider
写爬虫的时候总觉得有点不好意思,感觉给别人添麻烦了
为啥你的站打开好慢,我的天。
能否讲讲他和 scrapy 的差异吗
没有过 scrapy。。。
没有用过
一直没用过框架,有机会去接触下
不会吧,国内 ip 我分流到了 coding 的 pages 上,国外的是 github 的 pages 上
我的文章需要的基础会在前面说明的,如果加入基础,文章会很长
还好吧,>_<
遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面,存到数据库里(数据库是 utf8),一般怎么处理?什么时候转码啊?
<img src = “https://i.loli.net/2017/09/16/59bbfb19e2df1.png”>
页面——》 Python ——》数据库,python 可以处理的。用 Python 把页面的内容解析出来,存入数据库。
老哥您的网站打不开啊!!
好吧,感谢反馈。说实话,coding,有时候不稳定,我也会遇到,>_>
coding 的 pages 和 github 的 pages,应该没有问题啊,我刚刚又试了一遍。(虽然说 coding 有时候不稳定)
现在又可以了
真心尴尬,具体原因我也不太清楚,抱歉哈
博客使用的是 coding.net 和 github.com 的 pages 功能
工具:hexo + next 主题
域名是万网,做了一下 ip 分流,国内 ip 访问 coding,国外 ip 访问 github
至于打不开的话,我也找不到好的方法处理,建议多试几次,>_>。(抱拳)
用代理打开了
好尴尬哈,至今没有排查出问题。抱歉哈
你的网站厉害了, 走代理才能打开
抱拳,pages 功能可能不稳定
现在不走代理也可以打开了!
同行,顺路也推一下自己的爬虫入门文章
https://www.kawabangga.com/posts/2277


