Python中有没有好用的HTML格式处理库?
网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家
Python中有没有好用的HTML格式处理库?
15 回复
用过 lxml 和 beautifulsoup4.
对于HTML处理,Python有几个不错的库,具体选哪个得看你的需求。
1. BeautifulSoup 这是最常用的库,解析灵活,支持多种解析器(lxml, html.parser)。
from bs4 import BeautifulSoup
html = "<p>Hello <b>World</b></p>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.find('b').text) # 输出: World
适合网页抓取和数据提取。
2. lxml 性能比BeautifulSoup好,支持XPath。
from lxml import html
tree = html.fromstring("<p>Hello <b>World</b></p>")
print(tree.xpath('//b/text()')[0]) # 输出: World
需要高性能解析或者用XPath选元素时用它。
3. html5lib 严格按照HTML5标准解析,能处理混乱的标记。
from bs4 import BeautifulSoup
soup = BeautifulSoup("<p>Hello", 'html5lib')
print(soup.prettify()) # 输出格式良好的HTML
处理不规范的HTML时很可靠。
总结:根据具体场景选库就行。
lxml.html.clean 试一下?
不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
不就是 dom 树的 变量
变量 -> 遍历
搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
Beautiful Soup
就说一个,pyquery 有坑,其他如何不清楚
beautifulsoup4 容易点
Beautiful Soup 很好用
bs4 啊
居然没人说 pyquery 嘛


