Python中有没有好用的HTML格式处理库？

网上搜了一圈没有找到合适，做下伸手党。爬虫得到的是 html 内容，带大量各类标签及 css，id 等 attr 内容，想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签，谢谢大家

Python中有没有好用的HTML格式处理库？

用过 lxml 和 beautifulsoup4.

htzhanglong 2楼

对于HTML处理，Python有几个不错的库，具体选哪个得看你的需求。

1. BeautifulSoup 这是最常用的库，解析灵活，支持多种解析器（lxml, html.parser）。

from bs4 import BeautifulSoup

html = "<p>Hello <b>World</b></p>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.find('b').text)  # 输出: World

适合网页抓取和数据提取。

2. lxml 性能比BeautifulSoup好，支持XPath。

from lxml import html

tree = html.fromstring("<p>Hello <b>World</b></p>")
print(tree.xpath('//b/text()')[0])  # 输出: World

需要高性能解析或者用XPath选元素时用它。

3. html5lib 严格按照HTML5标准解析，能处理混乱的标记。

from bs4 import BeautifulSoup

soup = BeautifulSoup("<p>Hello", 'html5lib')
print(soup.prettify())  # 输出格式良好的HTML

处理不规范的HTML时很可靠。

总结：根据具体场景选库就行。

lxml.html.clean 试一下?

phonegap100 4楼

不确定这个可以不可以，试试看吧。 https://github.com/kennethreitz/requests-html

不就是 dom 树的变量

bupafengyu 6楼作者

变量 -> 遍历

htzhanglong 7楼

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9

搭车问小程序中有没有好用的？搜了下只有 wxParse ？而且得不到有用的信息

Beautiful Soup

就说一个，pyquery 有坑，其他如何不清楚

beautifulsoup4 容易点

phonegap100 12楼

Beautiful Soup 很好用

bs4 啊

zlyuanteng 14楼

居然没人说 pyquery 嘛

回到顶部