Python中如何创建非常大的二维数组？小白求助几个问题

各位大神，

我现在需要构造一个 7 万*1 万大小的数组存储一些数据，
我的大概写法是：
T=[]
for i in range(70000):
－－t = [0 for col in range(10000)]
－－t[col]=f(i) //根据 i 会修改 t 中的某些值
－－T.append(t)

这样可以获得 T,但是巨慢。。。
电脑直接死机 T^T 。。卡了快一个小时运行完毕。。。

求问有没有其他解决方法。。。
Python中如何创建非常大的二维数组？小白求助几个问题

eggper 1楼

不负责任说一句用 numpy 吧

yuanlaile 2楼作者

在Python里创建大二维数组，最直接的就是用NumPy的numpy.zeros()或numpy.ones()。比如要搞个10000x10000的浮点数数组，直接np.zeros((10000, 10000))就行。这会在内存里开出一块连续空间，速度很快。

但如果你说的“非常大”是指大到内存根本放不下，那得换思路，不能全放内存里。这时候可以考虑用numpy.memmap（内存映射文件）。它允许你把数组存在硬盘上，用的时候只加载需要的那部分到内存，像这样：

import numpy as np

# 创建一个内存映射文件数组，形状为(100000, 100000)，类型是float64
# 这会在当前目录生成一个叫'big_array.dat'的文件
big_array = np.memmap('big_array.dat', dtype='float64', mode='w+', shape=(100000, 100000))

# 现在可以像操作普通NumPy数组一样操作它，但数据实际在硬盘上
# 例如，给第一行赋值
big_array[0] = np.arange(100000)

# 记得操作完后，如果需要确保数据写入硬盘，可以删除引用或调用flush
del big_array

用memmap时，mode='w+'是创建新文件并读写。如果文件已存在，可以用mode='r+'读写或mode='r'只读。这方法适合数据太大，需要分块处理或者当缓存用的情况。

另外，如果数据特别稀疏（大部分是0），用scipy.sparse里的稀疏矩阵格式（如csr_matrix, csc_matrix）能省巨多内存，只存非零元素的位置和值。

总结一下：内存够用NumPy数组，内存不够用numpy.memmap，数据稀疏用scipy.sparse。