Golang Go语言中写了个小说爬取工具,支持校对和过滤广告

发布于 1周前 作者 zlyuanteng 来自 Go语言

Golang Go语言中写了个小说爬取工具,支持校对和过滤广告

上班摸鱼的时候看小说

原先写了个小说爬取工具,然后发现章节乱序,和章节缺失

举个例子,这张图片太长 https://i.loli.net/2019/03/10/5c84c074db964.jpg

然后爬了起点的章节,起点的 VIP 是可以预览前几端的,用这个作为样本,去检验那些盗版站的章节内容

学 Golang 没多长时间,求个 Star

https://github.com/ma6254/FictionDown

a24.gif


更多关于Golang Go语言中写了个小说爬取工具,支持校对和过滤广告的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

21 回复

那你这个跟传播盗版有什么区别

更多关于Golang Go语言中写了个小说爬取工具,支持校对和过滤广告的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html




V 站规则似乎只是禁止直接发布”盗版“内容吧
站里擦边的东西,相关的讨论可不少
正版侠们先买个 adobe 再说话?

思路还是不错的,不过不错的小说可以订阅支持下。

不值得订阅的呢,八成也不值得看

我也觉得如果通过算法,算出值得推荐的小说那是非常可以的


V 站规则似乎只是禁止直接发布”盗版“内容吧
站里擦边的东西,相关的讨论可不少
正版侠们先买个 adobe 再说话?
---------------------
1. about v2ex: 为了保持这里的良好氛围,V2EX 有自己的明确规则:这里绝对不讨论任何有关盗版软件、音乐、电影如何获得的问题
2. 相关讨论违不违反站规,不因相关讨论多不多而改变
3. 我不用 adobe,也尽我所能地用正版或开源软件,如果你要问过去有没有用过盗版,我当然用过不少,但幸好还知道这是不对的,还没有堕落到反过来给反对盗版的人扣个 XX 侠的帽子嘲讽的地步



1.&2. 注意这个“如何获得”。你可自去搜索“爬虫”,“破解”,“盗版”,“ Adobe ”这些关键词看看有什么内容。v 站禁止的是单单避免到处发盗版求盗版之类的,技术讨论不被限制。
3. 我不问你以前用没用过,我就问你以后还会不会用?当你临时用到 Adobe 这类软件的时候您会直接花大几千买订阅吗?或者工作需要公司只给共享盗版您会不会自掏腰包入正呢?如果您能做到我自然敬佩

-------------------------------------------------

另外我嘲讽的是看到盗版就高潮的患者。显然楼主这种只是擦上边而已。这么严格的话那些爬虫基本都是侵权。还有见到过前端来问拿用户 mac 地址这样的帖子,程序猿们这么喜欢双标啊。

----------------------------------------

个人观点是选择正版盗版从获取成本,体验,稳定性,以及是否入正对产品的影响程度多方考虑,用正版还是盗版都是再正常不过的事情也没有对错可言。像方正这样的公司要是没人用盗版了就要倒闭了呢,也有些内容需要入正支持才能维持。而对个人来说某些代理的“特色”版本,还有带圣光的藩剧,这些也要正版?而有些独立开发者的优质产品无论从支持存续还是体验和价格上入正都无可厚非。

而“正版意识”就觉得有点可笑了,只用一种“理念”或者“意识形态”就忽悠人怎么看都像洗脑呢。

希望保持理性思考。



我针对的是楼主传播盗版这一行为,以起点的收费内容为基础去抓取盗版内容,实际上跟偷窃并没有什么区别,你举例的类似 Adobe 这样的公司,为了市场推广会默许普通用户使用盗版,不知道你在辩解什么,在这里宣扬错误的价值观,可以说是厚颜无耻,所以你哪来的资格嘲讽?

哈哈哈哈哈 每次看到正版侠就像笑
世上应有此类人,
否则你我皆无乐趣矣.


另外扪心自问亦不敢蹈险,与之自此当退避三舍云云.

以明面信息看,楼主的小工具实现的是对盗版网站的个人抓取而非对盗版的传播,楼主使用了起点的公开章节内容来进行本地校验所以不设计对起点的滥用,楼主的小工具从开发思路层面上看具有学习价值。

楼主的小工具具有学习参考价值,不适宜推广使用。同时,这种工具由于自身传播能力的限制先天很难实现推广,所以没什么要担心的。

反盗版是有边界的,不能对盗版内容和盗版行为扩大解释,特别是如果对一些边缘行为和学习性的内容上纲上线那才是对反盗版的滥用。

感谢楼主,已 star

我在此主题下的回复只有在这里才能看到,在自己的全部回复列表里面看不到,不知道是不是什么问题,如果是站内设定好的 feature 请忽略此留言。谢谢!

正解。我所理解的 v 站规则也是就是这个意思

行为楼上已经说了。 意见不一致可以讨论。

没有任何辩证我的观点就是错误价值观就是厚颜无耻?
那你说是辣就 4 吧。8 狡辩

微信读书开了会员免费看啊,一个月 19 块不多呢

+1,但是对于 Pc 是在是太不友好了。微信读书炒鸡好用,但是一些书没有,感觉很难受。

#15 上同屏,妥妥的,哈哈哈哈

可能是缓存。

因为我在未登录状态下也无法复现你说的问题:

https://www.v2ex.com/member/PP/replies

这个主题本身没有任何异常标志。

我的回复列表里仍然没有我在此主题下的全部回复。您留言回复给我的提醒信息可以正常收到。是否需要我提供 ID 密码给您?我在赶飞机,回复可能不及时。

补充,我刚刚发现如果使用您提供的 https://www.v2ex.com/member/PP/replies 可以看到所有回复,可是如果按照习惯使用 https://www.v2ex.com/member/PP 便看不到我在这个主题下的回复。

到什么版啊,老子就是一个吃地沟油还在乎特么什么到不到半

你好!很高兴看到你使用Go语言开发了一个小说爬取工具,并且已经实现了校对和过滤广告的功能。以下是一些建议和可能的改进方向,希望对你有帮助:

  1. 性能优化:爬取大量数据时,性能是一个关键问题。你可以考虑使用并发编程(如goroutines和channels)来提高爬取速度。同时,注意合理设置并发数量,以避免对目标服务器造成过大压力。

  2. 异常处理:网络请求和数据解析过程中可能会出现各种异常,如超时、连接失败、数据格式错误等。确保你的代码能够妥善处理这些异常,避免程序崩溃或进入不稳定状态。

  3. 广告过滤算法:广告过滤是一个挑战性问题,因为广告内容可能会不断变化。你可以考虑使用机器学习算法来识别广告内容,或者结合用户反馈来不断优化过滤规则。

  4. 数据持久化:如果你计划长期运行这个工具,并保存爬取到的小说数据,那么数据持久化是一个重要方面。你可以考虑使用数据库(如MySQL、MongoDB等)来存储数据,以便后续查询和分析。

  5. 用户界面:虽然你的工具可能主要用于命令行,但一个简单的用户界面(如基于Web的界面)可以大大提高用户体验。你可以使用Go的Web框架(如Gin、Echo等)来构建用户界面。

总之,你的小说爬取工具已经具备了基本的功能,但仍有很大的优化空间。希望这些建议能对你有所帮助,祝你继续取得进步!

回到顶部