Python记一次爬虫经历

到我博客: http://www.dingzhiyuan.cc/article/29.html
Python记一次爬虫经历

24 回复

想问一下,这种博文发出来有什么价值


我最近也刚写了个爬虫,爬点公开数据做分析。核心就那几步:

  1. requests 发请求拿网页,记得加个 headers 里的 User-Agent,不然容易被拦。
  2. BeautifulSouplxml 解析 HTML,用 CSS 选择器或 XPath 定位你要的数据,比正则表达式省心。
  3. 数据存下来,简单的就 json.dumppandas.to_csv
  4. 如果要爬很多页,控制一下请求频率,time.sleep 一下,别把人家服务器搞挂了。

关键点:先看看网站有没有 robots.txt,尊重规则。动态加载的页面得用 SeleniumPlaywright 这类工具来模拟浏览器。

给你个最简单的例子,爬个静态页面的标题:

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
headers = {'User-Agent': 'Mozilla/5.0'}
resp = requests.get(url, headers=headers)
soup = BeautifulSoup(resp.text, 'html.parser')
title = soup.title.string
print(f'页面标题是: {title}')

总结:爬虫就是模拟浏览器拿数据,然后解析提取。

博客引流

引流也就算了 这种货色也好意思拿出来

楼上两位说的没问题。本来近两年爬虫就满大街了,更不缺这种超低端的文章,自己发自己博客上就罢了,再来发帖是什么心理,毫无技术价值

看了下博客文章列表基本都是些环境搭建的文章,文章深度不够啊。。。

原来还有比我这种非程序员还水的

这也太水了 8

这里大佬太多,说话也好听,我超喜欢这里的,很明显楼主不经常逛这里…

啧啧,这 tm 都要记录一番?还要在 v2 发一次?

V2 是一个创造者社区……

别的不多说,我觉得与人为善是重点。

另外认识很多大佬,看到新人或者入门级别的文章都不会喷,反而会指点一二或者是略过,但是绝对不会直接说差,这就是素质问题吧?

我都把代码存 github 笔记记 evenote

😁你们觉得没用可以不看啊,喷个鸡巴啊

大家喷的是故意引流这种行为。他要是写个高质量的文章,大家花时间点进去也就算了,毕竟收货有所值。写个水文还上来发链接故意拉流量,这种行为绝对下作。

V2 要都是这种货色了,这个论坛就毁了。这种货色就得喷。

诶,这个道理我也是明白的。

可是说脏话或者变相人身攻击的行为还不如他的做法呢,你看呢?

之前楼层有说“博客引流”,我看到这个准备点个感谢的,但是紧接着刷到了下一条“就这种货色也拿出来”……顿时没有好感了。

我以前自学安卓的时候,遇到过非常多的困难,发帖也收到非常多的冷嘲热讽,现在的我非常能感受到这种……

诶。

哈哈,我想起我以前刚学的时候遇到个简单问题也是,的确很简单,但我自己考虑的因素太多而且经验不足,不知道问题根源所在,发帖问了一下,态度什么都很诚恳的请教,结果被管理员关闭了,自那以后就很少发帖问了。多是谷歌瞎折腾,不过这帖子也不是请教,特地发个帖子的确没什么必要了。

补充一下 我那个被关闭倒不是 v2 发的。

我那时候比较年轻,自尊心强,碰壁几次之后实在是没有勇气发帖了。
都是默默用搜索引擎,找那些有用没用的资料。

好在好人还是挺多的😂。

他如果不引流直接把内容贴出来 ;他如果引流但是质量很高 ; 这种帖子本身可能就没有素质 吧

这个问题暂且不谈了,大家都有自己的看法,我之前那么回复也有问题。

我也没资格站在所谓的道德制高点,就此作罢吧🤐,

楼主把我想反驳上面的话给说了出来

抱歉,打扰各位大牛了,认知度和技术,没有各位大牛高,以后也只有慢慢学习提高了。
你们所认为的水,都是站在你们自己的高度,我没法反驳,你们技术牛逼。
说我引流,抱歉,我没有想到这点好吧,因为这上面发表默认主题,没法加图片,就这些。

这文章也确实太水了。。。发知乎应该没问题

回到顶部