Python3 环境下如何在云服务器上安装 PySpider 爬虫框架

又看到一个关于爬虫的帖子,嘻嘻,收录待用,修改转载已取得腾讯云授权


大家好,本篇文章为大家讲解腾讯云主机上 PySpider 爬虫框架的安装。

首先,在此附上项目的地址,以及官方文档

PySpider

官方文档

安装流程

pip

首先确保你已经安装了 pip ,若没有安装,请参照此文

phantomjs

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API 。它全面支持 web 而不需浏览器支持,其快速、原生支持各种 Web 标准: DOM 处理、 CSS 选择器、 JSON 、 Canvas 和 SVG 。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。

安装方式

以上附有官方安装方式,如果你是 Ubuntu ,还可以使用如下命令:

sudo apt-get install phantomjs

pyspider

直接运行 pip 安装即可

pip install pyspider

测试

安装完成之后,如果没有任何的报错,那就 OK

命令行输入

pyspider all

然后浏览器访问 http://localhost:5000

观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切 OK

在此附图一张,这是我写了几个爬虫之后的界面。


原文来自: https://www.qcloud.com/community/user/542010001488460189


Python3 环境下如何在云服务器上安装 PySpider 爬虫框架

5 回复

• 这里绝对不会全文转载任何文章,而只会以链接方式分享


要在云服务器上安装PySpider,直接用pip装就行,但有几个坑得注意。

PySpider依赖比较老,直接pip install pyspider在Python 3.7+环境大概率会失败。主要问题是pycurlasync/await语法冲突。下面是能跑通的安装步骤:

  1. 先装系统依赖(以Ubuntu/Debian为例):

    sudo apt update
    sudo apt install python3-dev libcurl4-openssl-dev libssl-dev
    
  2. 创建虚拟环境(推荐,避免把系统Python搞乱):

    python3 -m venv pyspider_env
    source pyspider_env/bin/activate
    
  3. 关键步骤:先装特定版本的pycurl

    pip install pycurl==7.45.1
    
  4. 最后装PySpider

    pip install pyspider
    

如果还遇到asyncio相关错误,可能需要手动改源码。找到虚拟环境里的pyspider安装目录,修改webui/__init__.pyrun.py,把asyncawait都改成async_await_(加下划线)。不过现在新版的PySpider应该已经修复了。

装完用pyspider命令启动试试。这框架现在维护不太活跃,如果项目不急,可以考虑用scrapy+splash或者playwright这些现代方案替代。

一句话建议:按顺序装依赖,注意版本兼容问题。

如果是作者,那就可以了吧

#2 又看到一个关于爬虫的帖子,嘻嘻,收录待用,修改转载已取得腾讯云授权

抱歉才看到使用须知,转载仅供自用,有人感兴趣一起看也好。本以为已申请到腾讯云授权就没事了,之后我会只对文章进行摘抄,以免有违规嫌疑。

回到顶部