面向新人的Python爬虫学习资料推荐
新人来 v2,这里发帖回帖居然还好社区币,好有趣...
我是一名努力想做 coder 的小伙,目前自学 Python 有大半年了,期间也写过一些小的爬虫。说起来当时想成为程序员就是因为无意间了解到 爬虫 这个神奇的东西。这里会记录自己 重新梳理 学习 Python 爬虫的路线。也希望能成为一篇不错的入门爬虫教程,总之,希望自己能坚持把这个系列专栏写完。
学习之前需要哪些准备?
- 一颗热爱学习,不屈不挠的心
- 一台有键盘的电脑(什么系统都行。我用的 os x,所以例子会以这个为准)
- html 相关的一些知识。不需要精通,能懂一点就成
- Python 的基础语法知识 。
如果我一点编程基础都没有怎么办?
现在开始学! Python 是一门非常适合做入门学习的语言。如果你没有任何其他编程语言的基础,那么就来学 Python 吧。
我自己目前同时在学 java 和 Python,就我自己的感觉来说,Python 的语法简直太美妙了 不是有句话叫 Life is short,Use Python
有什么推荐的入门教材么?
- 笨办法学 Python>我看的这本书入门的,非常有趣,网上有翻译的版本,当然有条件的同学还是去看英文原著会更好。
- 廖大的 Python3 教程
- 自强学堂的教程
- 菜鸟学习资
- html 入门学习
- 看看知乎大 V 们是如何回答这个问题的?
具体的学习路线是什么?
总体分为三个大方面:
一: 简单的定向脚本爬虫( request --- bs4 --- re )
二: 大型框架式爬虫( Scrapy 框架为主)
三:浏览器模拟爬虫 ( Mechanize 模拟 和 Selenium 模拟)
具体的步骤:
一:Beautiful Soup 爬虫
- requests 库的安装与使用
- 安装 beautiful soup 爬虫环境
- beautiful soup 的解析器
- bs4 爬虫实践: 获取百度贴吧的内容
- bs4 爬虫实践: 获取 Dota 游戏结果
- bs4 爬虫实践: 小说批量下载
- bs4 爬虫实践: 获取电影信息
- bs4 爬虫实践: 获取悦音台榜单
二:Scrapy 爬虫框架
- 安装 Scrapy
- Scrapy 中的选择器 Xpath 和 CSS
- Scrapy 爬虫实践:天气预报&数据存储
- Scrapy 爬虫实践:代理获取和验证
- Scrapy 爬虫实践:糗事百科
- Scrapy 爬虫实践: 重构排行榜小说爬虫&Mysql 数据库
三: 浏览器模拟爬虫
随便练练手?
每天的学习记录都会同步更新到:
- 微信公众号:findyourownway
- 知乎专栏: https://zhuanlan.zhihu.com/Ehco-python
- blog:www.ehcoblog.ml
面向新人的Python爬虫学习资料推荐
11 回复
感谢分享 :)
想学Python爬虫?新手直接看这些就够了。
入门必看:
- 崔庆才的《Python3网络爬虫开发实战》:国内爬虫书里最实用的,例子多,从基础到反爬都讲得很清楚,跟着敲一遍就能上手。
- 官方文档:
requests和BeautifulSoup库的官方文档是最好的教程,直接搜“requests documentation”和“BeautifulSoup documentation”。
免费视频(B站):
- Python_子木的爬虫系列:讲得细,适合纯小白,跟着做项目很快。
- 崔庆才本人的B站账号:有配套书的视频教程,免费看。
核心工具路线: 按这个顺序学,别跳:
- requests:搞定网页抓取。
- BeautifulSoup / lxml:搞定数据解析。
- Selenium:搞定那些用JavaScript加载的麻烦网页。
一句话建议: 别光看,动手把书和视频里的例子都敲一遍,爬点你自己感兴趣的网站数据,最快。
这里人好少喔
谢谢分享
谢谢分享🙏
谢谢分享!
不客气
收藏了,谢谢分享
不错不错啊
m
感谢分享 m

