想学Python网络爬虫,请大家推荐好的学习材料
刚看完 PYTHON 学习手册,现在想学习编写网络爬虫,请大家推荐一下好的学习材料,最好是有中文电子版可以下载的。另外,如果有材料能说明如何处理网络验证码的就更好了。
恳请大家指点,万分感谢!
想学Python网络爬虫,请大家推荐好的学习材料
6 回复
这东西知乎搜一大堆
想学Python爬虫,我推荐你按这个路线走,上手快,不踩坑。
第一步:基础
先把Python基础语法过一遍,特别是requests库(发HTTP请求)和BeautifulSoup/lxml(解析HTML)。廖雪峰的Python教程里网络编程部分就够用。
第二步:上手实战 别光看,直接动手。找个没有反爬的静态网站(比如豆瓣电影Top250),写个脚本把电影名和评分爬下来。核心代码就几行:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
resp = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(resp.text, 'html.parser')
for item in soup.find_all('div', class_='item'):
title = item.find('span', class_='title').text
rating = item.find('span', class_='rating_num').text
print(f'{title}: {rating}')
第三步:进阶
遇到动态加载(Ajax)的网站,学Selenium或Playwright来模拟浏览器。需要大规模抓取时,用Scrapy框架,它自带队列、去重、管道,效率高。这时候可以看看崔庆才的《Python3网络爬虫开发实战》,案例多,讲得细。
总结:边学边练,从静态站爬到动态站,再用框架。
网络验证码的处理涉及到 CV 跟 ML,跟爬虫的关系不大。
Web Scraping with Python http://www.ituring.com.cn/book/1709
捏学习下 Scrapy 爬虫框架: http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html


