Python爬虫文章总结与经验分享

2017 年 4 月份开始写爬虫系列文章，不知不觉到了 9 月份，时间过的真快，写毕业论文，毕业了，找工作，然后辞职，然后接着奋斗

4 月份开始写，一直断断续续，今天给爬虫文章收一个尾。

文章放到了的个人网站上：www.zhouww.com

Python_爬虫总结

补充了如下内容

多进程
代理池
json 处理
数据存储
手机抓包

有些文章需要些基础，有些文章只讲讲心得。欢迎大家指正，欢迎投稿。

Python爬虫文章总结与经验分享

bupafengyu 1楼

谢谢，可以写一些对没啥基础的人的教程吗？

songsunli 2楼

我无法理解你的问题

phonegap100 3楼

写的很系统。可以加一些爬虫框架，比如，pyspider

zlyuanteng 4楼

写爬虫的时候总觉得有点不好意思，感觉给别人添麻烦了

phonegap100 5楼

为啥你的站打开好慢，我的天。

gougou168 6楼

能否讲讲他和 scrapy 的差异吗

nodeper 7楼

没有过 scrapy。。。

sinazl 8楼作者

没有用过

sinazl 9楼作者

一直没用过框架，有机会去接触下

ionicwang 10楼

不会吧，国内 ip 我分流到了 coding 的 pages 上，国外的是 github 的 pages 上

ionicwang 11楼

我的文章需要的基础会在前面说明的，如果加入基础，文章会很长

vueper 12楼

还好吧，>_<

nodeper 13楼

遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面，存到数据库里(数据库是 utf8)，一般怎么处理？什么时候转码啊？

bupafengyu 14楼

itying888 15楼

![1]( https://i.loli.net/2017/09/16/59bbfb19e2df1.png)第一次进确实很慢，不过现在快了

sinazl 16楼作者

页面——》 Python ——》数据库，python 可以处理的。用 Python 把页面的内容解析出来，存入数据库。

h691938207 17楼

老哥您的网站打不开啊！！

caililin 18楼

好吧，感谢反馈。说实话，coding，有时候不稳定，我也会遇到，>_>

songsunli 19楼

coding 的 pages 和 github 的 pages，应该没有问题啊，我刚刚又试了一遍。（虽然说 coding 有时候不稳定）

vueper 20楼

现在又可以了

vueper 21楼

真心尴尬，具体原因我也不太清楚，抱歉哈

songsunli 22楼

博客使用的是 coding.net 和 github.com 的 pages 功能
工具：hexo + next 主题
域名是万网，做了一下 ip 分流，国内 ip 访问 coding，国外 ip 访问 github
至于打不开的话，我也找不到好的方法处理，建议多试几次，>_>。（抱拳）

ionicwang 23楼

用代理打开了

yibo5220 24楼

好尴尬哈，至今没有排查出问题。抱歉哈

caililin 25楼

你的网站厉害了，走代理才能打开

wuwangju 26楼

抱拳，pages 功能可能不稳定

h691938207 27楼

现在不走代理也可以打开了！

yuanlaile 28楼

同行，顺路也推一下自己的爬虫入门文章

https://www.kawabangga.com/posts/2277

itying888 29楼

厉害！谢啦