14 条回复  ·  234 次点击
SmartTom 小成 2024-8-30 10:06:40

求问数据清洗的简易方法

阿里的 DataX 吧,搭建也方便。功能基本满足。
dif 小成 2024-8-30 10:57:00

求问数据清洗的简易方法

我都是根据实际情况做清洗,有些是用 sql,有些用 python,spark 之类的, 也没有一个完美的工具。
flmn 小成 2024-8-30 11:21:19

求问数据清洗的简易方法

像你说的,行与行没关系,可以拆分成多份分别处理再合并呀,可以看看 Spark 。感觉用文件存储比数据库合适。
MoYi123 小成 2024-8-30 14:02:23

求问数据清洗的简易方法

pg 里可以写 python 之类的很多编程语言.
catamaran 小成 2024-8-30 17:21:58

求问数据清洗的简易方法

@TimG #10 如果用 clickhouse, 我是这么做的:客户端用 python 处理,一次读取 100 万行(看硬件情况),处理完成后写入新表。主要弄好分区键,clikchouse 我记得翻页会越来越慢。
12
返回顶部