V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iv8d
V2EX  ›  程序员

ETL 流程求推荐

  •  
  •   iv8d · 142 天前 · 1663 次点击
    这是一个创建于 142 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前公司使用前置机部署的 kettle 抽取用户数据为标准模型格式,经过业务系统校验后,将校验成功的数据转存入数仓中。 目前只用了 kettle ,但是部署的前置机很多,每个库每个项目都需要部署一台前置机进行采集,而且无法监控采集结果,服务停了都不知道,导致数据断层严重。 校验系统需要配置字段校验规则。

    目前主流 ETL 流程大概什么样子,有相应工具推荐吗,对多节点可能没有要求,这块不太清楚具体业务逻辑。有没有可以自定义校验规则或转换规则的开源系统。

    有相关运维经验的麻烦给大概说说,尽量开源的,不尽感激!

    目前听过的 flinkCDC ,airflow+dbt ,海豚调度,kettle 等。主语言 java ,哪个更适合以上业务呢。

    12 条回复    2024-07-14 11:18:28 +08:00
    tuutoo
        1
    tuutoo  
       142 天前
    不懂为什么每个都要部署一下?一台机器去采集所有的信息为什么不行,采集的目标是文件还是什么?
    brant2ai
        2
    brant2ai  
       142 天前
    看你们项目程度,换成 DataX ,配个 XXjob 就基本上满足了。告警的话可能再找找看
    SilenceLL
        3
    SilenceLL  
       142 天前
    kettle 便利就行了吧,我们有 200+数据库实例,每个实例里面有 6000-13000schema ,目前就是遍历的,如果追求效率可以多加机器,分好段。
    suuuch
        4
    suuuch  
       142 天前
    这里面有多个问题:
    1. 前置机数量多的问题,这个我理解是网络限制上问题,kettle 无法直接需要穿透到不同的网络中拿数据,需要前置机器去读取数据。不构成替换 kettle 的必要条件。解决方案的话,应该是从网络上下手。
    2. 监控采集结果无法监控,服务停了不知道,这个应该是使用上有问题,kettle 我记得是有报警工具。而且 kettle 里面的日志也是很完整的。我不确定为啥无法监控。
    3. 数据断层,配置字段校验规则。大部分 ETL 工具都做不到这个,这个模块叫做数据质量。有单独的工具,个人经验里面来说,这个自己定制比较靠谱。
    Ambition95
        5
    Ambition95  
       142 天前
    全部抽回 hive ,在 hive 中跑批清洗
    SbloodyS
        6
    SbloodyS  
       142 天前
    现在主流的是 ELT ,先抽到数仓后再清洗
    mylovesaber
        7
    mylovesaber  
       142 天前
    我们有业务使用 kettle ,现在已经纯代码重构与其协作的组件以期完全替代 kettle 了,pentaho server 太容易崩了,kettle 的拖拉拽对于老板或领导而言只是满足了低代码平台降低成本的纸面需求,但实际对于开发人员而言,很多组件就是黑盒,官方文档都有不少解释不完善。
    CloudSen
        8
    CloudSen  
       141 天前 via iPhone
    海豚调度吧,纯 Java ,代码也不难,二开容易
    iv8d
        9
    iv8d  
    OP
       130 天前
    @tuutoo 前置机用于针对性数据汇总,比如给定字典映射,后续把前置机采集数据再汇总一次。采集的目标 excel ,数据库都可以。
    iv8d
        10
    iv8d  
    OP
       130 天前
    @SbloodyS 来源多种多样,数据质量参差不齐,具体要怎么控制呢
    iv8d
        11
    iv8d  
    OP
       130 天前
    @Ambition95
    @CloudSen
    有没有示例,或大概的描述下,谢谢
    iv8d
        12
    iv8d  
    OP
       123 天前
    @SbloodyS 清洗后放到新的库里?还是在当前库清理掉不符合要求的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1292 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 18:01 · PVG 02:01 · LAX 10:01 · JFK 13:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.