有没有好用的Python开源数据同步(ETL)工具推荐?

  1. 目前环境: 采用 logstash 进行数据同步

  2. 问题: 目前有一端环境输入数据需要根据另一个数据库的数据进行条件判断筛选, 目前的 logstash 无法处理(也可能是我水瓶还不够)

  3. 希望有大佬能推荐一下灵活性更好,或者更实用的开源数据同步( ETL )的工具


有没有好用的Python开源数据同步(ETL)工具推荐?
7 回复

Airflow是首选,它用Python写DAG来定义任务流,调度和监控都很成熟。
如果嫌Airflow重,可以看Dagster,它把数据资产和计算统一建模,测试和开发体验更好。
轻量级选Prefect,API设计现代,上手快,适合云原生场景。

简单说就是:按需选,重调度上Airflow,要开发体验试Dagster,图轻量用Prefect。



多谢, 去了解了一下, 确实能满足需求,请问 Informatica 是否也可以满足我的需求呢?

Informatica 不是收费的吗?如果你说的是对 A 数据库进行筛选加工再存入 B 数据库,informatica 能满足。

datax,smartcode etl 都是可以自定义过滤条件的

自己用怎么都好说,kettle 挺好,但要给没基础的小白用户使用,就费劲了。kettle 的各种数据库 java 驱动也挺烦的。

回到顶部