Python中关于Selenium被反爬虫识别的问题如何解决？

最近在尝试爬取一个网站数据的时候，遇见了这个网站使用了 distil networks 的反爬虫服务，我尝试了抓包的方式无法有效地进行到下一步，因为需要提交四五次表单，并且每次 Post 请求都被重定向了，于是想着用 requestium，使用 selenium 发送 post 请求，却还是无法达到预期效果。这里主要还是因为 selenium 被识别出来了，我在这个反爬虫服务加载的 js 中发现了这样几句代码，isWebdriver:function(){return!!navigator.webdriver 自己也试着尝试了一下，在 chrome 的浏览器中输入 windows.navigator.webdriver 返回的是 undefind，而在 chromebdriver 中输入后返回的是 true,所以我在想是不是这句代码阻塞了我的 post 执行，有没有什么好的办法绕过这段 js 或者修改它的值呢？
Python中关于Selenium被反爬虫识别的问题如何解决？

eggper 1楼

为什么不说一下目标网站呢。

eggper 2楼

核心思路：伪装成真实浏览器，减少自动化特征。

Selenium被识别主要是因为WebDriver的特定属性和行为暴露了自动化特征。以下是几个关键解决方案：

使用undetected-chromedriver库（最推荐）：这个库专门为绕过Cloudflare等反爬系统设计，自动处理大部分特征伪装。
```
import undetected_chromedriver as uc
driver = uc.Chrome()
driver.get('https://target.com')
```

手动隐藏WebDriver特征：通过execute_cdp_cmd执行CDP命令修改navigator属性：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

options = webdriver.ChromeOptions()
options.add_argument('--disable-blink-features=AutomationControlled')

driver = webdriver.Chrome(options=options)

# 修改navigator.webdriver属性
driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

# 修改其他自动化特征
driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
    'source': '''
        Object.defineProperty(navigator, 'plugins', {
            get: () => [1, 2, 3]
        })
    '''
})

禁用自动化控制标志：

options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)

添加常见用户代理和窗口尺寸：

options.add_argument('--window-size=1920,1080')
options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36')

添加正常浏览器行为：
- 随机化操作间隔时间
- 添加鼠标移动轨迹
- 避免使用driver.implicitly_wait()，改用显式等待

总结：优先用undetected-chromedriver，手动方案作为补充。

phonegap100 3楼

selenium 源码混淆变量名，重新编译

zlyuanteng 4楼

之前找的解决方法是 2 楼说的改代码重新编译方式。不过不会编译，可以尝试用 pyqt 来爬

htzhanglong 5楼

不好意思现在才上到网–！目标网站是这个： https://www.flyscoot.com/zh

sinazl 6楼

网上能找到现有的教程吗–！我也不太懂编译希望能详细解答一下

wuwangju 7楼

谢谢提供的解决方案，明天我去尝试用 pyqt 看能否爬取，其实我现在已经能爬取到数据了，就是耗时太久了，我想绕过这个反爬虫 distil networks 所带来的验证码来减少我耗费的时间，或者直接能使用 Post 请求就更好了，不过现在还没能找到解决方案

wuwangju 8楼

selenium 已经好久不更新了啊。感觉死而不僵。鸡肋啊。

nodeper 9楼作者

但是现在的问题是我也只能采取 selenium 自动采集，抓包的方式尝试过了无法通过

eggper 10楼

没有实际编译过, 只是看过这个 https://stackoverflow.com/questions/33225947/can-a-website-detect-when-you-are-using-selenium-with-chromedriver

nodeper 11楼作者

试下 pyppeteer
https://github.com/miyakogi/pyppeteer
和 selenium 类似。

基于 pyppeteer 我也封装了一个小爬虫框架：
https://github.com/HuberTRoy/Seen
用不到就忽略这条吧~。

sinazl 12楼

谢谢回复我尝试使用 hex editor 将 chromedrive 里的$cdc_替换了依然不起作用还是会被反爬虫服务识别也许是这个教程现在失效了

bupafengyu 13楼

http://waimai.meituan.com 美团外卖的 js 也对 webdriver 进行了检测，大家来研究研究对策啊

caililin 14楼

感谢老铁提供的方法。这里统一回复一下使用 pyqt5 可以绕过该网站的反爬服务。模拟操作需要全程注入 js

songsunli 15楼

注入 JS 的方法有码? pyqt5 + qtwebengine 没找到在哪里注入

ionicwang 16楼

大佬是否可以加微信或者 QQ （ 2408169322 ），我最近也想搞你这个网站，但是爬虫新手，如果可以指导也行，直接有偿交易源码也行

eggper 17楼

我最近写一个刷单工具也遇到了万恶的 distil networks，根据的说了 P 参数，我抓包后把它解析了出来可以看出是一个带有详细浏览器信息的 json，并且每次请求这个 json 里面只有一小部分会被修改。看到你说可以模拟生成 p 参数，特意过来请教一下，你是怎么生成的

caililin 18楼

可否加鹅企详细讨论：（ base64 鹅企） NTIzNzMxNTg5

phonegap100 19楼

还有请求 header 里面有个重要参数和 X-Distil-Ajax 以及 url 参数 PID，必须和 p 参数一起送过去才能生效，这些参数都是一个 get 取回来的 javascrip 函数生成的

wuwangju 20楼

你的企鹅加不了哦~

caililin 21楼

这楼主是一个搞外包的,大家不要给骗了,加了 QQ 以后一直在忽悠,没两句就开始装逼,然后要我搞外包.
技术问题一个都不回答,问什么都说很简单自己搞,要不然就找我外包,真是没见过这种人,一点想探讨的精神都没有,还跟我装起逼来,说多了就开始骂我菜鸡,菜鸟,真的是给点阳光就灿烂,懂一点就开始装逼,你爸妈没有教过你做人的道理吗?真是悲哀!