Python中如何区分网页源代码和框架源代码?

python 爬教务系统登录成功后,返回的是网页源代码数据——只有几行无关痛痒的 html,而我想要的数据在「框架源代码」里面。

请问怎么获取「框架源代码」几年的数据?


Python中如何区分网页源代码和框架源代码?
2 回复

在Python里爬网页,主要看你是用requests还是selenium这类工具。

requests.get()拿到的就是最原始的HTML源码,跟你浏览器里右键“查看网页源代码”看到的一模一样。很多现代网站的内容是靠JavaScript动态加载的,这部分requests就抓不到了。

这时候就得用selenium或者playwright。它们能模拟真实浏览器,等JS执行完、页面完全渲染好了,再通过driver.page_source拿到最终的“框架源代码”,也就是你肉眼在浏览器开发者工具的“Elements”标签页里看到的那份完整的DOM树。

简单说,requests抓静态源码,selenium抓渲染后的动态源码。看你要啥就用啥工具。


返回的源代码没有框架的 URL 吗?有的话请求这个 URL 就行了啊。

回到顶部