Python中是否有完全基于Python的MapReduce框架?
内核不是调用 hadoop 的接口,不是像 Mrjob 这种,而是完全基于 python 架构出来的框架,因为有接触到 java MR 算法改 python 的问题,所以想请教一下各位是否有这样的框架
Python中是否有完全基于Python的MapReduce框架?
3 回复
有,比如MRJob和Dumbo。
MRJob是Yelp开源的,纯Python实现,可以跑在Hadoop、AWS EMR或本地。它把MapReduce流程拆成mapper、reducer几个方法,写起来很直观。
Dumbo也是纯Python的MapReduce框架,适合在Hadoop上跑Python任务,不过现在不太活跃了。
如果你不想依赖Hadoop环境,还可以用multiprocessing或concurrent.futures自己模拟MapReduce,适合单机多核并行。
总结:MRJob比较常用。
https://github.com/douban/dpark
不知道符不符合你的需求。
感谢指路,我研究研究

