Python中如何将CSV格式的数据集分成特征集和标签集?
有一个 CSV 格式的数据集,共 25 列,头 24 列是特征集,最后一列是标签,现在只知道用 pandas.read_csv 载入内存,不知道将二者如何分离,请各位不吝指教。
另外在哪儿可以查到诸如 NumPy、Pandas、SkLearn 等包的参考手册?包括里面有哪些函数,每个函数参数的意义等,最好是离线的,英语的汉语的都行。
Python中如何将CSV格式的数据集分成特征集和标签集?
2 回复
import pandas as pd
# 读取CSV文件
df = pd.read_csv('your_dataset.csv')
# 方法1:通过列名分割(推荐)
# 假设特征列名为 'feature1', 'feature2', 'feature3',标签列名为 'label'
X = df[['feature1', 'feature2', 'feature3']] # 特征集
y = df['label'] # 标签集
# 方法2:通过列索引分割
# 假设前3列是特征,最后一列是标签
X = df.iloc[:, :-1] # 所有行,除最后一列外的所有列
y = df.iloc[:, -1] # 所有行,最后一列
# 方法3:使用drop方法移除标签列得到特征集
y = df['label']
X = df.drop('label', axis=1)
# 查看分割结果
print("特征集形状:", X.shape)
print("标签集形状:", y.shape)
print("\n特征集前5行:")
print(X.head())
print("\n标签集前5行:")
print(y.head())
核心就这几行代码。用pandas读CSV,然后按列名或索引把特征和标签分开就行。记得把'your_dataset.csv'和列名换成你自己的数据。
简单说就是:用pandas按列切分。
dash 就有

