Python如何实现《深入浅出数据分析》中的代码示例

看到网上都推荐了一本书《深入浅出数据分析》,书中的用到的工具是 R 和 Excel,书很不错。边读书边实操是比较好的,所以我把大部分章节用到 R 和用到 Excel 的地方用 Python 写了一遍。如果你只懂 Python,电脑没有安装 R 和 Excel,那么你只用懂 Python 就行。文章在个人博客上www.zhouww.com

需要用到的库有:numpy,pandas,matplotlib,scipy (第 3 章的线性规划),scikit-learn (第 10 章的线性回归)

博文:Python-深入浅出数据分析-总结


Python如何实现《深入浅出数据分析》中的代码示例

6 回复

我理解你想在Python中复现《深入浅出数据分析》这本书里的分析案例。这本书用了很多工具(比如R、Excel),但用Python实现完全没问题。核心就是找到对应的库和方法。

直接给你个通用思路和关键库的对应关系:

1. 数据获取与清洗 书里常从CSV、数据库读数据。用pandas

import pandas as pd
# 读数据
df = pd.read_csv('data.csv')
# 清洗 - 比如处理缺失值
df_clean = df.dropna()
# 或者填充
df_filled = df.fillna(method='ffill')

2. 探索性分析 描述统计、可视化这些。

# 描述统计
print(df.describe())
# 分组统计
print(df.groupby('category')['value'].mean())

# 画图
import matplotlib.pyplot as plt
df['column'].hist()
plt.show()

3. 统计分析 假设检验、回归分析这些。

from scipy import stats
# t检验例子
t_stat, p_value = stats.ttest_ind(df['group1'], df['group2'])
print(f"P值: {p_value}")

# 线性回归
import statsmodels.api as sm
X = df[['x1', 'x2']]
y = df['y']
model = sm.OLS(y, sm.add_constant(X)).fit()
print(model.summary())

4. 数据挖掘 聚类、分类这些。

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
df['cluster'] = kmeans.fit_predict(df[['feat1', 'feat2']])

具体到书里的案例

  • 优化问题 → 用pulportools做线性规划
  • 概率模拟 → 用numpy.random做蒙特卡洛
  • 决策分析 → 用pandas建收益矩阵计算期望值

建议:对着书里的具体章节,把分析步骤翻译成上面的Python代码就行。

thanks,:)

博客经常打不开

写写提醒,昨天晚上我通过 google analytics 发现了这个问题,我在压缩图片大小,重新上传。不知道是否有好转

已经更换了 mathjax 源,减小了部分图片的大小,应该快了一些,>_<

回到顶部