Github: https://github.com/gaojiuli/toapi

Toapi

这个项目的意义在于让一个没有提供 API 的网站拥有 API 接口。

安装

pip install toapi
pip install git+https://github.com/gaojiuli/toapi/

使用

from pprint import pprint
from toapi import XPath, Item, Api
api = Api(‘https://news.ycombinator.com/’)
class Post(Item):
url = XPath(’//a[@class=“storylink”][1]/@href’)
title = XPath(’//a[@class=“storylink”][1]/text()’)
class Meta:
    source = XPath('//tr[@class="athing"]')
    route = '/'
api.register(Post)
pprint(api.parse(’/’))
api.serve()

然后你就让一个网站提供了 api 服务。那些没有 api 的网站，就让我们自己给他们弄上 api 接口！

Github: https://github.com/gaojiuli/toapi

Python中如何使用Toapi让任何一个网站提供API接口

wuwangju 1楼

很好玩一只只的小爬虫么

yuanlaile 2楼

Toapi是一个用来把网站内容快速封装成API的Python库，它通过解析HTML来提取结构化数据。不过需要提醒你，这个项目在GitHub上已经几年没更新了，而且依赖的解析库可能和现在的一些网站结构不太兼容。如果你要处理现代JavaScript渲染的网站，它可能不太行。

不过，它的核心思路还是挺清楚的，我写个简单的例子给你看看。假设我们要从一个博客列表页抓取文章标题和链接。

首先，安装（虽然可能遇到依赖问题）：

pip install toapi

然后写代码：

from toapi import Css, Item, Api

# 1. 定义你要的数据结构
class Post(Item):
    title = Css('h2 a')  # 用CSS选择器定位标题
    link = Css('h2 a', attr='href')  # 提取href属性

    class Meta:
        source = Css('.post')  # 每篇文章的容器
        route = '/'  # 路由，这里用根路径

# 2. 创建API实例并设置源网站
api = Api('https://example-blog.com')  # 换成目标网站

# 3. 注册这个数据项
api.register(Post)

# 4. 运行服务（默认端口5000）
if __name__ == '__main__':
    api.run()

运行这个脚本，访问 http://localhost:5000/ 就能拿到JSON格式的文章列表了。Toapi的核心就是定义Item类，用Css选择器告诉它去哪里找数据。

但说实话，现在更靠谱的做法是自己用requests+BeautifulSoup或Scrapy来写，或者用Playwright这类工具处理动态页面。Toapi的想法不错，但维护状态不太理想，用在正式项目里要小心。

总结：可以用但别太依赖，了解思路就行。

eggper 3楼

想法不错，赞

zlyuanteng 4楼

和爬虫有点像，只不过不爬数据，做中间转发的感觉

songsunli 5楼

有点意思, 任何网站?

gougou168 6楼

yahoo 有个 yql…

vueper 7楼

浏览器能访问的网站就行，原理就是把 html 按照一定规则转为 json。

phonegap100 8楼

酷，我就打算做这种感觉的东西。又孤陋寡闻了。Yahoo 这个能在本地部署不

songsunli 9楼

idea 点赞！快速看了下代码，这个玩意如何处理 ajax 请求得到的数据？还有，requests 的请求头，user-agent 要怎么写也是个蛋疼的问题。。。。。。

htzhanglong 10楼

有木有其他版本？

nodeper 11楼

ajax 用 selenium 处理，这个已经在本地分支写好了。头部这些都能自定义。

yuanlaile 12楼

你指的是？

h691938207 13楼

酷！ Star，有机会研究下

zlyuanteng 14楼

羡慕有想法又有行动力的大佬

sinazl 15楼

Star，想法挺有意思的

sinazl 16楼

有一个问题没有解决，就是 XPath 选择出来的结果是一个 list, 但是期望的是一个字符串.

songsunli 17楼

这种写法不错

sinazl 18楼

api 格式可以自定义吗？

sinazl 19楼

抱歉，刚看到，我没用 xpath 不过我发现 cssselector 也有这个问题我已经解决了并提交 pr，我还提交了一些参数的优化比如 requests 的 get 支持 headers，flask 的一些 options 参数传递问题，新增加了一个用 css 提取写的豆瓣 demo
![]( http://oe7yjec8x.bkt.clouddn.com/howie/2017-12-04-00.png-blog.howie)

wuwangju 20楼

关于 xpath 的解决方式，我另一个项目和你这个项目的目标值提取方式很像，我当时的解决方式是让使用者自己定义一个函数在 Item 的继承类里面，比如
python from talonspider import Item, TextField, AttrField from pprint import pprint try: bool(type(unicode)) except NameError: unicode = str class DoubanItem(Item): target_item = TextField(css_select='div.item') title = TextField(css_select='span.title') cover = AttrField(css_select='div.pic>a>img', attr='src') abstract = TextField(css_select='span.inq') def tal_title(self, title): # 这里当返回是 list，让使用者在自己定义的这个函数里解决 if isinstance(title, unicode): return title else: return ''.join([i.text.strip().replace(u'\xa0', '') for i in title]) 
项目地址 https://github.com/howie6879/talonspider

如果你觉得可以我们可以改成这样子去解决