Python爬虫入门,有什么比较好的教程推荐吗?

某东上看了一些比较火的爬虫实战的书,发现不是一堆安装就是教程过时……
看得我是各种头疼,浪费生命。
有没有新一些的,可操作性强的呀。
新手入门求推荐。。。
Python爬虫入门,有什么比较好的教程推荐吗?

40 回复

开发环境的安装过程是必须的,你要是已经安装了就跳过前几章不就行了吗。


入门Python爬虫,推荐先看官方文档的urllibrequests库,然后学BeautifulSouplxml解析。崔庆才的《Python3网络爬虫开发实战》第二版很全面,适合系统学习。Scrapy框架的官方教程是必看的,能帮你快速上手工程化项目。B站上有很多免费视频教程,像“Python爬虫从入门到精通”系列,跟着敲一遍代码基本就能掌握。遇到反爬就看看如何加请求头、用代理和模拟登录,这些实战里都会讲到。

一句话建议:动手写代码比光看教程更重要。

其实环境已经安装好了,我的意思是资料有些过时了,好多代码跑不起来……

视频网课不好吗

掘金和简书上有很多

直接写, 不用看教程,

不用看教材

request + beautifulsoup 不用学直接裸写

楼主是不是认为爬虫就是将别人的接口数据或网页获取后进行解析?

如果是,那么按照 说的,不需要看教程,直接写,用到什么包就去找,或者自己撸即可,没有多少技术含量可言

真正的爬虫,应该是如何破解别人的防爬程序,图片验证码破解,js、浏览器,代理等

各类爬虫实战的书籍都是教你,怎么分布式,如何高性能,哪哪个库解析会比较不错,连个怎么挂代理都不教你,别人服务从源头上把你访问量掐死,这些有啥用? 还不如去 github 上找些相关的开源项目源码看看呢

一流爬虫是从防爬根源解决问题
二流爬虫是用某些 js 和无头浏览器解决问题
不入流爬虫是写个代码强搞,并发不控制,代理也不挂,拿别人当傻子

request + beautifulsoup

例如哪些呢?没了解过网课这些……

感觉有些零散,有没有相对系统一些的

刚开始接触,基本没有什么技术可言,想一点一点来……

github 上找代码看,然后自己写

拿起 scrapy 的文档就是一把梭

MOOC 上有个北京理工大学的爬虫课程,你去搜

《 Python 爬虫开发与项目实战》

崔庆才那本爬虫教程还不错的

基本上不用看书,主要依赖于你的综合性基础。

先学一下 Python 语言基础,达到中级水平,正则表达式,常用标准库掌握了,特别是多线程,协程等还有相关的标准库要撸过练习代码。

数据库 Mysql,mongoDB,redis 基础操作都要会。

建设楼主先学一下 web 开发,你先要会 web 服务器是怎么工作的原理。推荐 flask 或 Django,建议 flask 吧,因为那个 sqlalchemy 是个通用 ORM,后面爬虫也常用到。
HTML,JS+Ajax,CSS 很熟悉。
HTTP 协议,Session,cookie,header 明白怎么回事。
前后端是如何交互的,用户登录安全验证等都要明白。

有了上面的基础,然后再学爬虫,都不用看书,随便网上参考一下教程,差不多半天时间就可以写了。
不过 scrapy 这个框架还是要大体学习一下的。

好的,了解了,不过我是看别人说要先学爬虫在学 Web,因为爬虫是基础🤣

这本书好像有些旧,是 17 年的。。。

我也是初学者,我看了 2.x 版本的基础,又看了 3.x 版本的。 我电脑上安装的是 3.7 版本的 python, 发现有很多旧版本的代码运行不了,不过这些运行不了的代码查下资料,就可以发现问题所在,所以就算是旧书籍,也可以学习,只是问题会多一些,但找问题解决也是一个学习过程。

书籍的话,我都是找社区或者学习群找前辈要的。

我真是人在家中坐, 锅从天上来,

老哥能分享下不能:)

8 楼说的很对, 现在很多的教程 /书籍都是讲的那些基本操作,而真正碰到问题时用来解决问题的干货却很少,如果你想要入门的话还是实际爬点东西比较好。
打个小广告,可以关注一下我的知乎专栏《手把手教你写爬虫》 https://zhuanlan.zhihu.com/webspider,会发一些你平常看不到的干货,虽然没啥空闲时间码字,更新会比较慢

#27 后面那部分也给识别成链接的一部分了,重发一下。https://zhuanlan.zhihu.com/webspider

17 年还算旧?爬虫入门都是那些,代码能运行,原理都一样。

知道了,那你主要学习的那些有名称吗? 我去看看



链接: https://pan.baidu.com/s/1bg0lKloSzqrldkPnX4FfuA 提取码: 4h23
这是我有的一些书籍,也比较杂,不过好像没有爬虫的。

谢谢,请问你现在 py 学到哪个地步了?

我还没工作上实践过,都自己拿书敲一敲代码。 算个菜鸟级,具体什么地步,我也不清楚,起码你让我完成工作上的任务,还得有人带带才行,我想爬虫我是不是也可以学一学。 我还找朋友一起学,倒是有个伙伴,这点挺好,你如果有朋友也可以一起共勉。

建议阅读《 Python 网络数据采集》
从 HTML 解析到 API 调用 从存取数据到 JavaScript 简介 从读取文档到 OCR 循序渐进 非常适合零基础接触爬虫的群众
看过其他那些些市面上已有的 Python 爬虫教程书籍 但这些书籍设计的起点都比较高 并不适合想学习爬虫的群众去看
PS:只是写一些简单的爬虫的话 用好 requests 库和 BeautifulSoup4 库就可以了 不要盲目跟风上来就接触 Scrapy 这种比较高级的库

这本书是只看原理就好了吗?因为书的内容有些旧

哪里旧了。。。我是在阅读完《 Python 入门到实践》学习了 Python 基础之后再阅读这本书的 阅读起来没有什么障碍 也没有发现内容有什么过时的地方 如果你的起点比较高对入门类书籍不屑一顾的话那当我没说

胆真肥,不怕抓起来坐牢啊

回到顶部