V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhxjdwh
V2EX  ›  酷工作

[广州][数据开发]公司成立了数据部,让我来做技术负责人

  •  
  •   zhxjdwh · 2019-12-05 22:25:03 +08:00 · 4472 次点击
    这是一个创建于 1565 天前的主题,其中的信息可能已经有所发展或是发生改变。

    没有经验,主要是通过网上各种视频,看看书入门,了解了大致的开发流程和架构。

    现阶段,主要是离线计算,需要把数仓以及数据分析平台搭起来,技术选型 hive spark impala kylin oozie,数据可视化是 superset

    架子什么都搭起来了,就是,有很多问题? 1.有没有什么最佳实践?

    2.数仓的表怎么设计? 之前我是这么做的,直接搞 大宽表,一个表 200-300+个字段,几乎包含的所有维度的数据了,现在发现,这个大表看着就头疼,维护起来也很麻烦。

    3.如何把 MySQL/Oracle 的数据同步过来?每天同步一次? 现在用的工具是 oozie + sqoop,感觉 用起来 有点小麻烦

    有没有小伙伴又类似的经验?能不能提供下咨询服务?有偿!!!

    ========================

    另外 : 我们需要招一个 有经验的 数据开发工程师, 广州,简单面试,直接进,如果有兴趣话,可以联系我 wx:emh4amR3aHd4

    小公司,200+人,英国 /新加坡 /全国各地城市都有分公司,业务范围:全球都能找到我们的身影,新 3 板上市,年营收 10+亿

    我们团队成员:1 个数据分析师 + 我(数据开发)+ ?(招聘 /数据开发工程师)

    21 条回复    2023-10-29 23:05:58 +08:00
    Smilencer
        1
    Smilencer  
       2019-12-05 22:27:10 +08:00 via iPhone
    我见过最实在的招聘帖
    zhxjdwh
        2
    zhxjdwh  
    OP
       2019-12-05 23:33:17 +08:00 via Android
    有偿咨询!!!
    Heebe
        3
    Heebe  
       2019-12-06 00:36:25 +08:00 via iPhone
    数据仓库的我是没见过什么特别好的实践,因为业务性太强了,一个小小的区别就可以改变整个架构。我之前看过一个 PDF,应该贯穿了整个业务,你可以搜索下 Hadoop 数据仓库(大概这样的名字)。
    分库分表是在所难免的,这个要看业务来。总的来说就是关联性强的尽量在一起,垂直分区水平分区都要做,毕竟数据量摆在那。同步时间,如果数据仓库不要求太高的及时性,尽量减少同步次数,毕竟每一次写入扩展都是一次炼狱。

    另外
    我觉得,一个专业的 DBA 会更能帮到你,至少在维护数据库的事情上可以省事,其他人可以专门做业务模块。
    hanangellove
        4
    hanangellove  
       2019-12-06 00:36:38 +08:00
    看来楼主是挺技术 boy
    kajweb
        5
    kajweb  
       2019-12-06 03:03:37 +08:00
    没有经验能混进去实习吗
    cqcn1991
        6
    cqcn1991  
       2019-12-06 07:45:10 +08:00
    zhxjdwh
        7
    zhxjdwh  
    OP
       2019-12-06 08:18:04 +08:00 via Android
    @kajweb 你也没经验,我也没经验,大家一起来摸鱼
    JunoNin
        8
    JunoNin  
       2019-12-06 08:36:02 +08:00 via Android
    一起摸鱼
    d5
        9
    d5  
       2019-12-06 08:39:26 +08:00
    招聘帖典范,hhh
    OctopusGO
        10
    OctopusGO  
       2019-12-06 09:01:28 +08:00 via Android
    典范,可惜不在广州
    SbloodyS
        11
    SbloodyS  
       2019-12-06 09:07:53 +08:00
    贵司加班多么?正好想换个加班少些的公司!
    drydiy
        12
    drydiy  
       2019-12-06 09:07:59 +08:00   ❤️ 1
    不是面试造火箭,工作拧螺丝。这招聘帖看着就舒服。
    LightLolo
        13
    LightLolo  
       2019-12-06 09:22:40 +08:00
    招聘典范,精简务实。
    392039757
        14
    392039757  
       2019-12-06 09:30:18 +08:00
    1.没有银弹,很多坑都是埋在业务里面的,别人的最佳实践也不一定适合你
    2.大宽表维护起来会爆炸的,因为业务状态总是在不停的变更,有时候业务表的表结构也是在不停变更,最好是事实表+维度表的方式进行,先要确定主题再确定数据口径,以事实表为主维度表为辅
    3.数据同步还是合适的来,我们就是 oozie + sqoop 每天跑批+logstash 实时同步
    Marst
        15
    Marst  
       2019-12-06 09:31:45 +08:00
    很直接务实的招聘了,可惜我不做这方面的工作
    9420JackT
        16
    9420JackT  
       2019-12-06 09:44:27 +08:00
    招聘典范,精简务实。
    user919lx
        17
    user919lx  
       2019-12-06 10:27:25 +08:00
    我就是做数据开发这块的,主导过数仓项目,数据表设计和 ETL 开发都是我一个人做的, 现在在负责一个数据项目的全套数据开发,对数据仓库这一套很熟。
    我的博客 longfei.leanote.com ,很久不更新了,只是因为写文章很吃力,有很多零碎的东西不好写上去。
    博客里“关于我”的部分有邮箱可以交换联系方式(不在这里写是为了防止垃圾邮件)。
    暂时不打算换工作,不过很乐意交流一下。
    xuecan
        18
    xuecan  
       2019-12-06 17:51:45 +08:00
    我蛮好奇是哪家公司的
    zhxjdwh
        19
    zhxjdwh  
    OP
       2019-12-06 18:58:21 +08:00 via Android
    @xuecan 无名小公司,做机场贵宾室,专车业务
    zjxzhqq
        20
    zjxzhqq  
       2019-12-07 00:34:12 +08:00 via Android
    你们主要是为了服务什么数据业务?
    k1263
        21
    k1263  
       141 天前
    关于这方面的讨论挺少,最近也在做:
    1. ETL 全量转换
    2. sqoop|Datax 全量不转换
    3. Debezium+Kafka 增量不转换
    4. Flink 增量转换
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3858 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 10:32 · PVG 18:32 · LAX 03:32 · JFK 06:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.