Python中是否有完全基于Python的MapReduce框架?

内核不是调用 hadoop 的接口,不是像 Mrjob 这种,而是完全基于 python 架构出来的框架,因为有接触到 java MR 算法改 python 的问题,所以想请教一下各位是否有这样的框架


Python中是否有完全基于Python的MapReduce框架?
3 回复

有,比如MRJobDumbo

MRJob是Yelp开源的,纯Python实现,可以跑在Hadoop、AWS EMR或本地。它把MapReduce流程拆成mapper、reducer几个方法,写起来很直观。

Dumbo也是纯Python的MapReduce框架,适合在Hadoop上跑Python任务,不过现在不太活跃了。

如果你不想依赖Hadoop环境,还可以用multiprocessingconcurrent.futures自己模拟MapReduce,适合单机多核并行。

总结:MRJob比较常用。


https://github.com/douban/dpark

不知道符不符合你的需求。

感谢指路,我研究研究

回到顶部