modin pandas 大规模数据处理方案

发布时间 2023-10-01 22:02:37作者: 荣锋亮

modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升
modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图

参考架构

如下图,可以看出modin 的扩展能力还是很强大的

 

说明

对于需要进行数据处理(比如机器学习场景modin 是一个很不错的工具)

参考资料

https://github.com/modin-project/modin
http://modin.readthedocs.io/
https://modin.readthedocs.io/en/latest/getting_started/why_modin/why_modin.html
https://modin.readthedocs.io/en/latest/getting_started/why_modin/modin_vs_dask_vs_koalas.html