Python小型网站数据爬虫任务如何实现？

1：网站是 AJAX 动态数据。

2：数据总共 3000 条，无验证码等
3：要求结果，爬完数据库连同爬虫源代码提交。
4：爬虫程序，python 撰写。
5：如有意向，电子邮件联系 1879955707#qq.com
Python小型网站数据爬虫任务如何实现？

sinazl 1楼

把目标网站贴出来，有人可能顺手就把它给爬完了

yuanlaile 2楼

要搞个小型网站的数据爬虫，用Python的话requests+BeautifulSoup这套组合拳最实在。下面给你个完整示例，爬取豆瓣电影Top250的基本信息：

import requests
from bs4 import BeautifulSoup
import csv
import time

def crawl_douban_top250():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    base_url = "https://movie.douban.com/top250"
    movies = []
    
    for page in range(0, 250, 25):  # 总共10页，每页25条
        url = f"{base_url}?start={page}"
        
        try:
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
            response.encoding = 'utf-8'
            
            soup = BeautifulSoup(response.text, 'html.parser')
            items = soup.find_all('div', class_='item')
            
            for item in items:
                # 提取电影信息
                title = item.find('span', class_='title').text.strip()
                rating = item.find('span', class_='rating_num').text.strip()
                quote_elem = item.find('span', class_='inq')
                quote = quote_elem.text.strip() if quote_elem else "无"
                
                # 获取导演和年份信息
                info = item.find('p', class_='').text.strip()
                info_parts = info.split('\n')
                director_year = info_parts[1].strip() if len(info_parts) > 1 else ""
                
                movies.append({
                    'title': title,
                    'rating': rating,
                    'quote': quote,
                    'info': director_year
                })
            
            print(f"已爬取第{page//25 + 1}页数据")
            time.sleep(2)  # 礼貌性延迟，避免请求过快
            
        except Exception as e:
            print(f"爬取第{page//25 + 1}页时出错: {e}")
            continue
    
    # 保存到CSV文件
    with open('douban_top250.csv', 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'quote', 'info'])
        writer.writeheader()
        writer.writerows(movies)
    
    print(f"爬取完成，共获取{len(movies)}条数据，已保存到douban_top250.csv")
    return movies

if __name__ == "__main__":
    crawl_douban_top250()

这个爬虫干了这么几件事：

设置请求头模拟浏览器访问
分页爬取豆瓣Top250的所有页面
用BeautifulSoup解析HTML，提取电影标题、评分、短评和基本信息
每爬一页等2秒，做个有礼貌的爬虫
最后把数据存成CSV文件

跑之前记得装依赖：pip install requests beautifulsoup4。如果要爬的网站有反爬机制，可能需要加代理或者用selenium。数据量大的话可以考虑用Scrapy框架，不过小型任务这个方案够用了。

简单说就是requests拿数据，BeautifulSoup解析，注意控制请求频率。

htzhanglong 3楼

还是付费好… 喜欢付费的东西.

sinazl 4楼

目前已经有人合作了, 谢谢了. 下次继续发任务.