Python爬虫中关于百度爬虫的一些问题需要讨论

问题：关于百度转码为百度网站的内容显示的问题如下图：

alt hello

原网站如下图：

alt hello

请问：

1. 百度每天抓数十万的网站，他们的正文提取，标题提取，发表时间统一格式化，文章出处等，都是专人去写 xpath, re, css selector, bs 吗?
2. 还有个问题，数十万的网站，他们的文章翻页有上千种，他们怎么去做到的翻页问题，难道也是专人去写 xpath, re, css selector, bs 吗？
3. 很多网站做了图片、视频防盗链，但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面，请问，对于防盗链的网站的资源，他们也是专人去做处理吗？
4. 本人是个爬虫新手，遇到的问题就是上面的问题，其实这几个问题也是通用爬虫的问题，求各位给点意见和建议。
5. 不胜感激涕零。

Python爬虫中关于百度爬虫的一些问题需要讨论