Python爬虫新手求教常见问题与解决方案

我想用爬虫爬取网页新浪微博上的图片，但卡在模拟登录，用的是 requests 库。注：百度上找过，都找不到问题

caililin 1楼

Python爬虫新手常见问题与解决方案

刚入门爬虫确实容易踩坑，这里总结几个最常见的问题和直接可用的解决方案：

请求被网站拒绝（返回403/404） 问题：直接requests.get()被网站屏蔽。解决：添加合理的请求头，模拟浏览器访问。

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}
response = requests.get('https://example.com', headers=headers)

数据加载不全（动态内容） 问题：网页数据通过JavaScript动态加载，直接requests获取不到。解决：使用Selenium或Playwright模拟浏览器。

from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get('https://example.com')
# 等待动态内容加载
element = driver.find_element(By.CLASS_NAME, 'target-class')
print(element.text)
driver.quit()

解析HTML结构困难 问题：不知道如何提取特定数据。解决：用BeautifulSoup配合find/find_all方法，CSS选择器最直观。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')
# 找class为"title"的所有div
titles = soup.find_all('div', class_='title')
for title in titles:
    print(title.get_text(strip=True))

被封IP 问题：频繁请求导致IP被封。解决：最简单的就是加延迟，别猛请求。

import time
import requests

for url in url_list:
    response = requests.get(url)
    # 处理数据...
    time.sleep(1)  # 每秒一次请求

保存数据麻烦 问题：数据提取后不知道存哪里。解决：小数据用CSV最方便，pandas一行搞定。

import pandas as pd

data = [{'name': 'Alice', 'age': 25}, {'name': 'Bob', 'age': 30}]
df = pd.DataFrame(data)
df.to_csv('data.csv', index=False, encoding='utf-8-sig')

总结：爬虫就是模拟真人访问网站、拿数据、存下来，遇到问题就加请求头、用Selenium、慢点请求。