Python中处理CSV文件遇到难题,请教各位如何解决
有个超过 256 列的 csv 表,大概在 800 多列,10w 行 另外有一张表,要匹配上面这个表中的部分字段,然后找出关键字对应的值,类似于 vlookup 这种功能 现在的情况是,通过 vlookup 也能找,但是花费的时间比较长,放到数据库里,光导入的时间就不是一点半点的 请教一下大家有没有什么好的办法?
Python中处理CSV文件遇到难题,请教各位如何解决
你排序了吗?
我无法理解你的问题
能不能希望查询的字段抽出来,写到本地 json 文件中,并且保存和 csv 的映射关系,这样找是不是会快一点。
能预处理转换成别的数据结构的话,那倒是有很多办法。不过估计跟直接导入数据库也差不多。
把小表读到内存里,对你要匹配的列建索引(就是建几个 map)。然后遍历大表,先匹配你的查找范围,再从小表的索引里查。
应该用不上多少行代码
excel 功能挺强大的不知道转成 excel 格式来处理能不能满足你的需求
用 ketttle
赞同小表方案。
另外,找找有没有可以高速探索 csv 的库,游标打开后前后移动的那种,这样从真实 csv 取数据不失性能也比较方便。
10W 行很大?导数据库不是随便折腾吗?或者 power query 了解一下
能否确定需要的列?在本地预处理 csv 文件,然后再上传
10w 行导入,考虑到比较长,就算个 2 分钟吧
全倒进数据库不随便折腾?才多少东西啊导入就要好长时间。
https://github.com/BurntSushi/xsv 知道有个这个工具,但是没用过,可以看看能不能满足。
excel 处理这点数据还是没问题的,不需要导入数据库,如果电脑性能差点可以考虑 excel 的 powerquery 处理
https://github.com/dinedal/textql
TextQL
Allows you to easily execute SQL against structured text like CSV or TSV.
另,Python 的话用 pandas 直接处理 csv 也很方便,就别导入数据库了
python 貌似很方便
10W 行 EXCEL 就搞得定,用 index 配合两个 meach 函数,一定要用 lookup 的话用 lookup 函数,先排序再判断,Vlookup 的效率低很多
导数据库里吧,csv 比 xslx 这些都快,我导三四百 m 的 csv 到 access 都很快了
才 10w 行,用 pandas 吧,pd.read_csv,简单粗暴
7 秒导入 200w 行 load data infile 了解一下
用工具将 csv 转成 sqlite 不会花多久的
pandas 了解一下?
外部表。。。
awk + grep 呢
数据的东西交给 pandas
才 10w 行,800 列,也没有多少数据嘛。
简单的匹配 grep, awk。复杂点的匹配,就 python 等处理,很方便的啊。
刚 python3 写了一个, 10 多行的事情:
wget https://ahui132.github.io/bin/grepcolumn
chmod u+x grepcolumn
echo ‘name=Jack,gender=male,job=coder’ | grepcolumn - ‘job,name’
echo ‘Jack,male,coder’ | grepcolumn - ‘job,name’ -c ‘name,gender,job’
echo ‘Jack||male||coder’ | grepcolumn - ‘job,name’ -c ‘name,gender,job’ -d ‘||’
看字段内容吧,如果是一般的字段,还是导入数据库方便,我曾处理过一次复杂文本的 csv,字段用逗号隔开,但是某个字段是富文本,里面一大堆换行 和逗号,不知道为什么用 Excel 引擎导入只能处理一部分,最后还是写个软件 处理后批量插入数据库
csv 的话 pands 最方便:
dataFrame = pandas.read_csv("./marks.csv", sep=",")
dataFrame = pandas.read_table("./marks.csv", sep=",")
spss 了解一下?
数据库操作
像是中软杯(滑稽)
10W 多行不算大,pandas 就可以处理
这么好的工具为啥大伙都不用
试试 apache drill,先把 csv 里需要的字段抽出来
MySQL,loadCSV,6 百万行也是几分钟的事

