Python中Pycharm的Scientific模式下如何加载数据集?

比如项目结构如下

─Project
│  ├─a
│  │  ├─b.csv
│  │  └─c.py
│  └─d.py

在 Scientific 模式下按单元块运行,默认的当前路径是Project/,也就是项目的根目录

这样的话,想要在 c.py 中读取 b.csv ,就只能写出完整的绝对路径

目录结构简单还好,我的项目下有十几个题目,每个都有单独的文件夹,其中有些数据集又根据一些层级放在了不同深度的路径里,有些文件夹的名称也比较长,所以每次都绝对路径的话比较麻烦,也不方便以后单独拿出来或者在别的机子上跑

万能的 V2EX 小伙伴们有人知道怎么修改 Scientifc 模式下的默认当前路径


Python中Pycharm的Scientific模式下如何加载数据集?

5 回复

import sys
from pathlib import Path
Path(sys.argv[0]).parent/"b.csv"

1 分钟手撸,可能有错


在PyCharm的Scientific模式下加载数据集,最直接的方式就是使用Python的数据处理库。我一般用pandas,它和Scientific模式里的数据视图配合得很好。

比如你要加载一个CSV文件,直接这样写:

import pandas as pd

# 假设你的数据文件在项目根目录
df = pd.read_csv('your_dataset.csv')

# 在Scientific模式下,运行后可以在SciView窗口看到这个DataFrame
print(df.head())

如果你用的是其他格式,方法也差不多:

  • Excel文件:pd.read_excel('data.xlsx')
  • JSON文件:pd.read_json('data.json')

要是数据量比较大,可以用chunksize参数分块读取。Scientific模式的好处是,运行代码后你可以在右侧的SciView窗口直接看到表格形式的数据,还能做一些简单的筛选和排序,比单纯打印出来直观多了。

总结:用pandas的read函数加载,Scientific模式会自动显示表格视图。

并不能获取到当前脚本的路径,因为 scientific 模式下是通过 Pycharm 下的 helpers/pydev/pydevconsole.py 来执行单元块的

解决了,Pycharm 自动的sys.path.extend了当前的路径,通过sys.path[-2]可以取出当前路径

其实最后的办法也有把路径做成配置的。
还有就是数据应该分离,除非你有很好的理由不分离

回到顶部