Python中有没有好用的HTML格式处理库?

网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家


Python中有没有好用的HTML格式处理库?
15 回复

用过 lxml 和 beautifulsoup4.


对于HTML处理,Python有几个不错的库,具体选哪个得看你的需求。

1. BeautifulSoup 这是最常用的库,解析灵活,支持多种解析器(lxml, html.parser)。

from bs4 import BeautifulSoup

html = "<p>Hello <b>World</b></p>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.find('b').text)  # 输出: World

适合网页抓取和数据提取。

2. lxml 性能比BeautifulSoup好,支持XPath。

from lxml import html

tree = html.fromstring("<p>Hello <b>World</b></p>")
print(tree.xpath('//b/text()')[0])  # 输出: World

需要高性能解析或者用XPath选元素时用它。

3. html5lib 严格按照HTML5标准解析,能处理混乱的标记。

from bs4 import BeautifulSoup

soup = BeautifulSoup("<p>Hello", 'html5lib')
print(soup.prettify())  # 输出格式良好的HTML

处理不规范的HTML时很可靠。

总结:根据具体场景选库就行。

lxml.html.clean 试一下?

不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html

不就是 dom 树的 变量

变量 -> 遍历

搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息

Beautiful Soup

就说一个,pyquery 有坑,其他如何不清楚

beautifulsoup4 容易点

Beautiful Soup 很好用

居然没人说 pyquery 嘛

beautifulsoup4

回到顶部