Python爬取QQ空间139万说说数据并做年终盘点，但分析结果不理想怎么办？

昨天花费了整整一天时间用前几天怕的空间说说数据做了这么一个盘点： 2018，年终，不过又是一个叉子

这也不是我第一年尝试用这种方式做年终盘点了，前年我也写了这么一篇：对 QQ 空间指定好友 2017 年说说数据的分析

但是，总觉得自己分析完全不知所云，完全是在浪费数据，基本上就是在纯粹的罗列数据而已。

我想问问各位 v2exer，我能否用这些数据分析出来一些有意思的东西呢？

还有在分析类似数据时应该从哪一方面入手呢？

Python爬取QQ空间139万说说数据并做年终盘点，但分析结果不理想怎么办？

闷声发大财，你这是生怕腾讯不知道你爬了它数据吗

我无法理解你的问题。

分词
按时间维度各个节日大家在说什么
按性别也可以分析热点什么的

嗯？怎么说？

分词我使用 jieba 进行分词时发现高频词都是类似一个、我们、自己之类的“无意义”的词，是不是我使用方式不对？

停用词，了解一下

bupafengyu 7楼

试过，效果不太理想

停用词要自己按照需求做筛检的啊，「我们」这种一般都会在停用词表里被过滤的。

phonegap100 9楼

嗯，其实我的做法是导出词频前 50 的词组，然后手动排除我认为没意义的词，然后我发现排除完后基本就不剩几个词了…
我还是学习一下停用词的用法吧

htzhanglong 10楼

只取形容词、动词、名词分别比较？算一下 tgi 指数？

phonegap100 11楼

这个 repo 可以参考 https://github.com/goto456/stopwords

好的，谢谢大佬～

分词可以筛选一下，分享的归一类消极的归一类，看看大家都是开心了发还是难过了发？

htzhanglong 14楼

我也就好笑了，都是做发财梦做傻了吧，麻烦开口前分清楚什么叫「数据」什么叫「用户数据」好吧

bupafengyu 15楼

以前我的 QQ 空间小偷程序因为很多关键词被机房掐了 N 次网线

你的空间里废话有点儿多哦

ionicwang 17楼

怎么说？ qq 空间不应该就是用来说废话的吗？

h691938207 18楼

我说错话了，QQ 空间确实是用来干这个的，我为我的措辞道歉

phonegap100 19楼

额…没这么严重吧

回到顶部