Python爬虫中使用Splash遇到的问题,手册让我懵逼了
文档在安装时候 https://splash.readthedocs.io/en/latest/install.html
使用 docker 安装 类似‘ sudo docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash ’的命令启动 splash
但是在文档代理的部分写着下面的话:
‘ If you run Splash using Docker, check Folders Sharing.’
“ https://splash.readthedocs.io/en/latest/api.html?highlight=proxy#proxy-profiles ”
看安装页都是使用 docker 安装 这不都是使用 docker 安装的吗? If u 是啥意思 splash 还有别的安装途径吗
Python爬虫中使用Splash遇到的问题,手册让我懵逼了
好像就是有…就在安装下面一点…
有走过的老哥吗
但官网是还是推荐使用 docker 啊
代理又要文件共享,资料就屁一点
用到 scrapy-splash 库 应该不用这么麻烦吧
好乱啊关系
scrapy-splash 真香
你把 dockerfile 里面的命令改成 shell 脚本。不就是可以直接装 linux 上了么。
docker 跟代理两码事,完全不知道楼主在吐槽什么
我用 docker 装过 splash,scrapy 代理爬动态网页,没啥问题,就资源占用有点高
有关系的,如果不使用第三方库 scrapy-splash,代理只能走文件共享
昨天下午代理成了, 是因为使用那个三方库了, 主要问题是我代码瞎改……
关于资源占用,问一下老哥,splash 应该比 sele 那一套轻巧一点?好像没有回收内存的机制啊
高深 我一直在 linux 上调式的
诶,我申请了 splash 的 develop 账号,给了一个 key 什么的,爬虫没问题啊,可以网上找无限制的 api key
splash 就像一个隐藏的浏览器在跑网页,资源占用杠杠的,对比 chrome


