Python3 环境下如何在云服务器上安装 PySpider 爬虫框架
又看到一个关于爬虫的帖子,嘻嘻,收录待用,修改转载已取得腾讯云授权
大家好,本篇文章为大家讲解腾讯云主机上 PySpider 爬虫框架的安装。

首先,在此附上项目的地址,以及官方文档
安装流程
pip
首先确保你已经安装了 pip ,若没有安装,请参照此文
phantomjs
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API 。它全面支持 web 而不需浏览器支持,其快速、原生支持各种 Web 标准: DOM 处理、 CSS 选择器、 JSON 、 Canvas 和 SVG 。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。
以上附有官方安装方式,如果你是 Ubuntu ,还可以使用如下命令:
sudo apt-get install phantomjs
pyspider
直接运行 pip 安装即可
pip install pyspider
测试
安装完成之后,如果没有任何的报错,那就 OK
命令行输入
pyspider all
然后浏览器访问 http://localhost:5000
观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切 OK
在此附图一张,这是我写了几个爬虫之后的界面。

原文来自: https://www.qcloud.com/community/user/542010001488460189
Python3 环境下如何在云服务器上安装 PySpider 爬虫框架
• 这里绝对不会全文转载任何文章,而只会以链接方式分享
要在云服务器上安装PySpider,直接用pip装就行,但有几个坑得注意。
PySpider依赖比较老,直接pip install pyspider在Python 3.7+环境大概率会失败。主要问题是pycurl和async/await语法冲突。下面是能跑通的安装步骤:
-
先装系统依赖(以Ubuntu/Debian为例):
sudo apt update sudo apt install python3-dev libcurl4-openssl-dev libssl-dev -
创建虚拟环境(推荐,避免把系统Python搞乱):
python3 -m venv pyspider_env source pyspider_env/bin/activate -
关键步骤:先装特定版本的pycurl:
pip install pycurl==7.45.1 -
最后装PySpider:
pip install pyspider
如果还遇到asyncio相关错误,可能需要手动改源码。找到虚拟环境里的pyspider安装目录,修改webui/__init__.py和run.py,把async和await都改成async_和await_(加下划线)。不过现在新版的PySpider应该已经修复了。
装完用pyspider命令启动试试。这框架现在维护不太活跃,如果项目不急,可以考虑用scrapy+splash或者playwright这些现代方案替代。
一句话建议:按顺序装依赖,注意版本兼容问题。
如果是作者,那就可以了吧
#2 又看到一个关于爬虫的帖子,嘻嘻,收录待用,修改转载已取得腾讯云授权
抱歉才看到使用须知,转载仅供自用,有人感兴趣一起看也好。本以为已申请到腾讯云授权就没事了,之后我会只对文章进行摘抄,以免有违规嫌疑。

