Python分布式抓取京东商城评价并使用pandas进行高效数据分析

分布式抓取京东商城评价并且使用 pandas 进行快速、全面、高提炼度和高对比度的数据分析

互联网购物现在已经是非常普遍的购物方式,在互联网上购买商品并且使用之后,很多人都会回过头来对自己购买的商品进行一些评价,以此来表达自己对于该商品使用后的看法。商品评价的好坏对于一个商品的重要性显而易见,大部分消费者都以此作为快速评判该商品质量优劣的方式。所以,与此同时,有些商家为了获得好评,还会做一些 "好评优惠" 或者 "返点" 活动来刺激消费者评价商品。

既然商品评价对于消费者选购商品而言至关重要,那么我想试试可以从这些评价信息中获取到怎样的价值,来帮助消费者快速获取到关于该商品的一些重要信息,给他们的购物带来更加可靠地保证?

所以,我认为,一种快速、全面、高提炼度和高对比度的信息获取和展示方式将会非常必要。 于是,我采用分布式快速抓取京东的评价信息,然后使用 pandas 对抓取到的数据进行分析。

话不多说先附上使用地址
体验地址:http://awolfly9.com/jd/
体验示例地址:http://awolfly9.com/article/jd_comment_analysis

想要分析京东商城的商品评价信息,那么需要做些什么呢

  • 采用分布式抓取,尽量在短时间内抓取需要分析的商品足够多的评价信息

  • 将抓取到的评价信息都存储到数据库

  • 从数据库中取出所有数据进行数据分析

    • 生成好评的词云,并且获取关键字
    • 生成中评的词云,并且获取关键字
    • 生成差评的词云,并且获取关键字
    • 分析购买该商品不同颜色的比例,生成柱状图
    • 分析购买该商品不同配置的比例,生成柱状图
    • 分析该商品的销售数量和评论数量和时间的关系,生成时间则线图
    • 分析该商品不同省份购买的的比例,生成柱状图
    • 分析该商品不同渠道的销售比例,生成柱状图
  • 利用 Django 搭建后台,将数据抓取和数据分析连起来

  • 前端显示数据抓取和分析结果

分布式抓取京东商城的评价信息

采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确

  1. iPhone7 https://item.jd.com/3995645.html 为例,通过 Chrome 抓包分析出京东商城的评价请求 URl https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv2940&productId=3995645&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0
  2. 找出评价请求 URL 规律,获取到如下 URL 组合链接
  3. 利用 Chrome 插件 Postman 测试链接是否可用,发现京东获取评价信息并没有验证 Cookie 之类的反爬措施
  4. 开始编码利用 scrapy 抓取京东商城的商品评价信息并存入数据库以备使用

数据分析

  1. 从数据库中取出相应数据,开始分析
  2. 使用 python 的扩展库 wordcloud 分别提取好评、中评、差评的关键字,并且生成相应的词云图片
  3. 分析该商品不同颜色的销量占比,并且生成柱状图,例如 iphone7 的不同颜色金色、玫瑰金色、银色、黑色、亮黑色、还有最新出的红色的占比
  4. 分析该商品不同配置的销量占比,并且生成柱状图,例如 iphone7 32G 、 64G 、 128G 存储
  5. 分析该商品销售和评论时间并且生成折线图,分析出商品在什么时间最畅销
  6. 分析用户购买该商品的渠道,例如用户通过京东 Android 客户端、微信京东购物、京东 iPhone 客户端购物的比例,并且生成柱状图
  7. 分析购买该商品的用户的地域省份。例如北京、上海、广州那个城市在京东上购买 iPhone7 的人更多
  8. 将以上分析结果都存储保留

Django 后台 WEB

使用 Django 搭建一个简易的后台 jd_analysis ,将分布式抓取数据和数据分析连起来,并且将分析结果返回前端显示。

  1. jd_analysis 提供一个接口接受用户请求分析的京东商城商品的 URL 链接
  2. jd_analysis 接受到商品链接后开启爬虫进程开始抓取需要分析的商品的名称和评价数量
  3. 组合出完整的评价链接插入到 redis 中,实现分布式爬虫抓取,尽可能在短时间内抓取足够多的该商品评价信息(我现在是 30s 时间大概可以抓取 3000 条评价信息)
  4. 主服务器等待一定的抓取时间,例如主服务器等待 30s , 30s 后一定要给前端返回分析结果,所以等 30s 后清空 redis 中该商品的链接,从服务器没有读取不到需要抓取的链接也就自动关闭
  5. 开启分析进程,开始分析抓取到的所有数据,并且生成图标等信息

前端展示

在客户端第一次请求时,生成一个 GUID ,并且存储在 cookie 中。然后开启一个定时器,带上 GUID 不断的向 jd_analysis 后台请求结果。 jd_analysis 后台利用请求的 GUID 从 redis 中获取抓取信息和分析结果的所有内容,返回给前端。前端显示请求到的结果。

最后附上两张效果图

购买和评论时间折线图
购买渠道柱状图

大功告成

以上就是完整的抓取京东商品的评价信息并且使用 pandas 分析评价然后利用 Django 搭建后台前端显示抓取和分析结果的所有步骤。

再次贴上使用地址:http://awolfly9.com/jd/ 欢迎多多尝试,多挑毛病~
如果你对这个项目感兴趣欢迎和我交流沟通,我也建立了这个项目和数据分析的微信群,也可以加我好友进微信群,我的个人微信


Python分布式抓取京东商城评价并使用pandas进行高效数据分析

23 回复

服务器已挂,正在重启


我来帮你实现一个分布式爬虫抓取京东评价并用pandas分析的系统。

import requests
import pandas as pd
import json
import time
from concurrent.futures import ThreadPoolExecutor, as_completed
from urllib.parse import urlencode
import random
from datetime import datetime

class JDCommentSpider:
    def __init__(self, product_id, max_workers=10):
        self.product_id = product_id
        self.base_url = "https://club.jd.com/comment/productPageComments.action"
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
            'Referer': f'https://item.jd.com/{product_id}.html'
        }
        self.max_workers = max_workers
        self.all_comments = []
        
    def fetch_page(self, page):
        """抓取单页评论"""
        params = {
            'productId': self.product_id,
            'score': 0,  # 0表示所有评价
            'sortType': 5,  # 按时间排序
            'page': page,
            'pageSize': 10,
            'callback': 'fetchJSON_comment98'
        }
        
        try:
            response = requests.get(
                self.base_url,
                params=params,
                headers=self.headers,
                timeout=10
            )
            if response.status_code == 200:
                # 处理JSONP响应
                content = response.text
                json_str = content[content.find('{'):content.rfind('}')+1]
                data = json.loads(json_str)
                return data.get('comments', [])
        except Exception as e:
            print(f"第{page}页抓取失败: {e}")
        return []
    
    def crawl_all_pages(self, max_pages=100):
        """分布式抓取所有页面"""
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            futures = {executor.submit(self.fetch_page, page): page 
                      for page in range(0, max_pages)}
            
            for future in as_completed(futures):
                page = futures[future]
                try:
                    comments = future.result()
                    if comments:
                        self.all_comments.extend(comments)
                        print(f"第{page}页抓取成功,获取{len(comments)}条评论")
                    else:
                        print(f"第{page}页无数据,可能已到末尾")
                        break
                except Exception as e:
                    print(f"第{page}页处理异常: {e}")
                
                time.sleep(random.uniform(0.5, 1.5))  # 礼貌性延迟
    
    def save_to_csv(self, filename='jd_comments.csv'):
        """保存到CSV文件"""
        if not self.all_comments:
            print("没有评论数据")
            return
        
        df = pd.DataFrame(self.all_comments)
        df.to_csv(filename, index=False, encoding='utf-8-sig')
        print(f"数据已保存到 {filename},共{len(df)}条记录")
        return df

class CommentAnalyzer:
    def __init__(self, df):
        self.df = df
        
    def basic_analysis(self):
        """基础数据分析"""
        print("=== 基础统计 ===")
        print(f"总评论数: {len(self.df)}")
        
        # 评分分布
        if 'score' in self.df.columns:
            score_dist = self.df['score'].value_counts().sort_index()
            print("\n评分分布:")
            for score, count in score_dist.items():
                print(f"  {score}星: {count}条 ({count/len(self.df)*100:.1f}%)")
        
        # 是否有图评论
        if 'images' in self.df.columns:
            has_image = self.df['images'].apply(lambda x: len(x) > 0 if x else False)
            print(f"\n有图评论: {has_image.sum()}条 ({has_image.mean()*100:.1f}%)")
            
        # 时间趋势
        if 'creationTime' in self.df.columns:
            self.df['date'] = pd.to_datetime(self.df['creationTime'])
            self.df['month'] = self.df['date'].dt.to_period('M')
            monthly_count = self.df.groupby('month').size()
            print("\n月度评论趋势:")
            print(monthly_count.tail(6))  # 显示最近6个月
    
    def sentiment_analysis(self):
        """简单情感分析(基于评分)"""
        if 'score' in self.df.columns:
            self.df['sentiment'] = self.df['score'].apply(
                lambda x: '好评' if x >= 4 else ('中评' if x == 3 else '差评')
            )
            
            sentiment_dist = self.df['sentiment'].value_counts()
            print("\n=== 情感分析 ===")
            for sentiment, count in sentiment_dist.items():
                percentage = count / len(self.df) * 100
                print(f"{sentiment}: {count}条 ({percentage:.1f}%)")
    
    def keyword_analysis(self, top_n=20):
        """高频词分析"""
        if 'content' in self.df.columns:
            from collections import Counter
            import jieba
            
            all_text = ' '.join(self.df['content'].dropna().astype(str))
            words = [word for word in jieba.cut(all_text) 
                    if len(word) > 1 and not word.isdigit()]
            
            word_freq = Counter(words).most_common(top_n)
            print(f"\n=== 前{top_n}个高频词 ===")
            for word, freq in word_freq:
                print(f"{word}: {freq}次")

# 使用示例
def main():
    # 1. 抓取数据(替换为实际商品ID)
    product_id = "100012043978"  # 示例商品ID
    
    print("开始抓取京东评价...")
    spider = JDCommentSpider(product_id, max_workers=8)
    spider.crawl_all_pages(max_pages=50)  # 抓取前50页
    
    # 2. 保存数据
    df = spider.save_to_csv()
    
    if df is not None:
        # 3. 数据分析
        print("\n开始数据分析...")
        analyzer = CommentAnalyzer(df)
        
        analyzer.basic_analysis()
        analyzer.sentiment_analysis()
        analyzer.keyword_analysis(top_n=15)
        
        # 4. 保存分析结果
        analysis_results = {
            'total_comments': len(df),
            'avg_score': df['score'].mean() if 'score' in df.columns else None,
            'good_ratio': (df['score'] >= 4).mean() if 'score' in df.columns else None
        }
        
        with open('analysis_results.json', 'w', encoding='utf-8') as f:
            json.dump(analysis_results, f, ensure_ascii=False, indent=2)
        
        print(f"\n分析完成!结果已保存")

if __name__ == "__main__":
    main()

这个系统主要包含两个核心部分:

分布式爬虫(JDCommentSpider)

  • 使用ThreadPoolExecutor实现多线程并发抓取
  • 每页抓取10条评论,可自定义最大页数
  • 自动处理JSONP响应格式
  • 添加随机延迟避免被封

数据分析(CommentAnalyzer)

  • 基础统计:评论总数、评分分布、时间趋势
  • 情感分析:基于评分自动分类好评/中评/差评
  • 高频词分析:使用jieba分词提取关键词

运行前需要安装的包

pip install requests pandas jieba

使用方式

  1. 修改product_id为你要分析的商品ID
  2. 调整max_pages控制抓取页数
  3. 运行后会生成CSV数据文件和JSON分析结果

注意:京东有反爬机制,实际使用时可能需要添加代理、更复杂的请求头或使用Selenium。这个示例提供了基础框架,你可以根据具体需求扩展。

总结:用多线程爬虫+ pandas分析,快速搞定电商评价数据分析。

这个真屌。
有没有实现思路?

上面不是已经说明了完整的实现思路吗

挺好的

谢谢

分布式抓取?就是有很多台机器很多 ip 了?

目前我只有三台服务器,加上我自己的电脑是四台。同时抓取是大概 30s 能抓 3000 条左右数据

挺厉害,学习~

厉害,学习了。

叼叼叼,来学习一下

欢迎加我微信,进入微信群

全球购 item.jd.hk 类似这样链接好像都不行,功能很棒。思路很不错学习了。

是的,现在不支持全球购。

很好,如果开源出来就好了。

词云啥意思

可以的小伙子,下次再京东买东西就先在你这分析一下。

楼主, ip 的问题是怎么解决的

百度下词云

欢迎多多尝试~

可以参考我之前的开源项目 https://github.com/awolfly9/IPProxyTool

回到顶部