Python 爬虫问题咨询

小白虚心求教一个爬虫问题，对于一个已经下载好的 html，如果在它的内容里，一个 class 的名字里包含了空格，CSS 选择器怎么书写呢？比如一个 html 里是这样的

<div class="aaa">
    <div class="bbb">
        <ul class="tab ccc">
            <li>
            "Sting1"
            </li>
        </ul>
        <ul class="tab ddd">
        "string2"
        </ul>
        ...
    </div>
<div>

如果我想获得 tab ccc 下 li 包括的 String1，这样写是不行的：

d = tree.cssselect('div.aaa > div.bbb > ul.tab ccc > li')
print d.text_content()

那我该怎么写 CSS 选择器呢？

Python 爬虫问题咨询

ionicwang 1楼

d = tree.cssselect(‘div.aaa > div.bbb > ul.tab.ccc > li’)
print d.text_content()

试试呢?

sinazl 2楼

body > div > div.bbb > ul.tab.ccc > li

bupafengyu 3楼

chrome 开发者审查元素，右键复制可以选 select 和 xpath

htzhanglong 4楼

何不用 bs4 呢！

bupafengyu 5楼

建议用 xpath…

yibo5220 6楼

chrome 有个 ChroPath 的插件，点下元素，css 和 xpath 选择器就出来了

htzhanglong 7楼

用 pyqury，直接 tree(".aaa .bbb .ccc.tab li").text()

songsunli 8楼

嗯，我研究研究，我在尝试解析一个很复杂的 html, 发现我的 selector 写的没问题，也找不到元素，奇了怪了，chrome 复制的 selector 也不好使

ionicwang 9楼

包含空格的，写一个就行，看你用哪个方便一点了。

songsunli 10楼

走了一遍程序还不行，这个链接里的 http://detail.zol.com.cn/1225/1224202/param.shtml 里的字符串 Android 8.1
死活找不到
pp = ‘body > div:nth-child(10) > div.content > div:nth-child(3) > div.detailed-parameters > table:nth-child(2) > tbody > tr:nth-child(4) > td > span’

h691938207 11楼

d = tree.xpath("//div[@class=‘aaa’]/div[@class=‘tab ccc’]/li/text()")
for i in d:
print(d)

用的 xpath，试试行不！

yibo5220 12楼

解决了，谢谢各位，我作为一个小白，也差了一些资料，现在能抓到了

sinazl 13楼

css 选择器直接写 .class1.class2，class 以点开头选择，两个 class 直接写一起，不要加空格

phonegap100 14楼

soup.find_all(‘ul’,{‘class’:‘tab ccc’}).get_text()

htzhanglong 15楼

div.aaa.bbb

phonegap100 16楼

多谢各位，赞