想问一下,这种博文发出来有什么价值
我最近也刚写了个爬虫,爬点公开数据做分析。核心就那几步:
- requests 发请求拿网页,记得加个
headers里的User-Agent,不然容易被拦。 - BeautifulSoup 或 lxml 解析 HTML,用 CSS 选择器或 XPath 定位你要的数据,比正则表达式省心。
- 数据存下来,简单的就
json.dump或pandas.to_csv。 - 如果要爬很多页,控制一下请求频率,
time.sleep一下,别把人家服务器搞挂了。
关键点:先看看网站有没有 robots.txt,尊重规则。动态加载的页面得用 Selenium 或 Playwright 这类工具来模拟浏览器。
给你个最简单的例子,爬个静态页面的标题:
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
headers = {'User-Agent': 'Mozilla/5.0'}
resp = requests.get(url, headers=headers)
soup = BeautifulSoup(resp.text, 'html.parser')
title = soup.title.string
print(f'页面标题是: {title}')
总结:爬虫就是模拟浏览器拿数据,然后解析提取。
引流也就算了 这种货色也好意思拿出来
楼上两位说的没问题。本来近两年爬虫就满大街了,更不缺这种超低端的文章,自己发自己博客上就罢了,再来发帖是什么心理,毫无技术价值
看了下博客文章列表基本都是些环境搭建的文章,文章深度不够啊。。。
原来还有比我这种非程序员还水的
这也太水了 8
这里大佬太多,说话也好听,我超喜欢这里的,很明显楼主不经常逛这里…
啧啧,这 tm 都要记录一番?还要在 v2 发一次?
我都把代码存 github 笔记记 evenote
大家喷的是故意引流这种行为。他要是写个高质量的文章,大家花时间点进去也就算了,毕竟收货有所值。写个水文还上来发链接故意拉流量,这种行为绝对下作。
V2 要都是这种货色了,这个论坛就毁了。这种货色就得喷。
诶,这个道理我也是明白的。
可是说脏话或者变相人身攻击的行为还不如他的做法呢,你看呢?
之前楼层有说“博客引流”,我看到这个准备点个感谢的,但是紧接着刷到了下一条“就这种货色也拿出来”……顿时没有好感了。
我以前自学安卓的时候,遇到过非常多的困难,发帖也收到非常多的冷嘲热讽,现在的我非常能感受到这种……
诶。
哈哈,我想起我以前刚学的时候遇到个简单问题也是,的确很简单,但我自己考虑的因素太多而且经验不足,不知道问题根源所在,发帖问了一下,态度什么都很诚恳的请教,结果被管理员关闭了,自那以后就很少发帖问了。多是谷歌瞎折腾,不过这帖子也不是请教,特地发个帖子的确没什么必要了。
补充一下 我那个被关闭倒不是 v2 发的。
我那时候比较年轻,自尊心强,碰壁几次之后实在是没有勇气发帖了。
都是默默用搜索引擎,找那些有用没用的资料。
好在好人还是挺多的😂。
这个问题暂且不谈了,大家都有自己的看法,我之前那么回复也有问题。
我也没资格站在所谓的道德制高点,就此作罢吧🤐,
楼主把我想反驳上面的话给说了出来
抱歉,打扰各位大牛了,认知度和技术,没有各位大牛高,以后也只有慢慢学习提高了。
你们所认为的水,都是站在你们自己的高度,我没法反驳,你们技术牛逼。
说我引流,抱歉,我没有想到这点好吧,因为这上面发表默认主题,没法加图片,就这些。
这文章也确实太水了。。。发知乎应该没问题


