[开源] 用Python分布式抓取京东商城商品评价并进行数据分析，附iPhone 7的36万条评价分析结果展示

附上使用地址:
体验地址：http://awolfly9.com/jd/
体验示例地址：http://awolfly9.com/article/jd_comment_analysis

github：https://github.com/awolfly9/jd_analysis

快速、全面、高提炼度和高对比度的京东商城评价信息数据分析

生成好评的词云，并且获取关键字
生成中评的词云，并且获取关键字
生成差评的词云，并且获取关键字
分析购买该商品不同颜色的比例，生成柱状图
分析购买该商品不同配置的比例，生成柱状图
评论购买该商品的 24 小时占比
分析该商品的销售数量和评论数量和时间的关系，生成时间则线图
分析该商品不同省份购买的的比例，生成柱状图
分析该商品不同渠道的销售比例，生成柱状图
分析该商品 PC/移动购买比例
分析京东购买该商品的用户等级分布
分析购买商品后写下评论的时间

京东 iPhone7 36 万条评价信息分析结果展示

http://awolfly9.com/jd/full_result/3995645

附上几张 iphone7 36 万条评价信息分析后的效果图

[开源] 用Python分布式抓取京东商城商品评价并进行数据分析，附iPhone 7的36万条评价分析结果展示

gougou168 1楼

可以啊。大数据收集起来可以做电商热度智能推荐呢，类似 SMZDM

bupafengyu 2楼

这个项目挺有意思的，分布式爬虫抓京东评价确实是个经典练手项目。核心思路一般是把爬虫任务拆解成URL生产、数据抓取、数据存储几个独立模块，用消息队列（比如RabbitMQ或Redis）串联起来。

下面给个基于requests、redis和concurrent.futures的简化版框架，你可以基于这个扩展：

import requests
import redis
import json
from concurrent.futures import ThreadPoolExecutor
import time
from urllib.parse import quote

class JDCommentSpider:
    def __init__(self, redis_host='localhost', redis_port=6379):
        self.redis_conn = redis.Redis(host=redis_host, port=redis_port, decode_responses=True)
        self.product_queue_key = 'jd:products'
        self.comment_queue_key = 'jd:comments'
        self.session = requests.Session()
        self.session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        })
    
    def add_product(self, product_id, max_page=100):
        """将商品的所有评价页URL放入队列"""
        for page in range(0, max_page):
            url = f'https://club.jd.com/comment/productPageComments.action?productId={product_id}&score=0&sortType=5&page={page}&pageSize=10'
            self.redis_conn.lpush(self.product_queue_key, url)
        print(f'Added {max_page} pages for product {product_id}')
    
    def fetch_comments(self, url):
        """抓取单页评价数据"""
        try:
            resp = self.session.get(url, timeout=10)
            if resp.status_code == 200:
                data = resp.json()
                comments = data.get('comments', [])
                for comment in comments:
                    # 提取关键字段
                    item = {
                        'id': comment.get('id'),
                        'content': comment.get('content'),
                        'creationTime': comment.get('creationTime'),
                        'score': comment.get('score'),
                        'productColor': comment.get('productColor'),
                        'productSize': comment.get('productSize')
                    }
                    # 存入待处理队列
                    self.redis_conn.lpush(self.comment_queue_key, json.dumps(item, ensure_ascii=False))
                return len(comments)
        except Exception as e:
            print(f'Error fetching {url}: {e}')
        return 0
    
    def run_workers(self, num_workers=10):
        """启动多个工作线程"""
        with ThreadPoolExecutor(max_workers=num_workers) as executor:
            while True:
                # 从队列获取任务
                url = self.redis_conn.rpop(self.product_queue_key)
                if not url:
                    time.sleep(5)
                    continue
                executor.submit(self.fetch_comments, url)

# 使用示例
if __name__ == '__main__':
    spider = JDCommentSpider()
    # 添加商品（例如iPhone 7的商品ID）
    spider.add_product('100000000001', max_page=50)
    # 启动5个爬虫worker
    spider.run_workers(num_workers=5)

数据分析部分，拿到数据后可以用pandas做基础分析：

import pandas as pd
import jieba
from collections import Counter

# 从Redis读取数据
comments = []
for i in range(redis_conn.llen('jd:comments')):
    data = redis_conn.rpop('jd:comments')
    comments.append(json.loads(data))

df = pd.DataFrame(comments)

# 基础统计
print(f'总评价数: {len(df)}')
print(f'评分分布:\n{df["score"].value_counts().sort_index()}')

# 词频分析（简单示例）
all_text = ' '.join(df['content'].dropna().tolist())
words = jieba.lcut(all_text)
word_freq = Counter([w for w in words if len(w) > 1])
print('高频词汇:', word_freq.most_common(20))

分布式扩展的话，可以把Redis部署在独立服务器，多个爬虫节点连接同一个Redis实例就行。存储建议用MongoDB，因为评价数据字段不固定。

至于36万条iPhone 7评价的分析，典型会发现：好评集中在“系统流畅”、“性价比”，差评多是“电池续航”、“发热问题”，时间维度上刚发布时评价偏正向，后期中差评增多。情感分析做下来，正面评价占比大概65-70%。

爬虫注意控制频率，别把人家服务器搞挂了。