首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
V2EX  ›  问与答

Spark/PySpark 怎么管理数据权限?(Hive、表级)

  •  
  •   cqcn1991 · 51 天前 · 408 次点击
    这是一个创建于 51 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT

    目前所在的团队,有数仓,数据在 HDFS/Hive 上

    已经有了 PySpark, 但貌似不能用 Apache Ranger/Sentry 做表级的权限控制?(也就是给不同的用户授权不同表的查询权限,这样一些敏感数据就可以隔离开来)

    请问确实是这样吗?有啥好的解决办法?

    感谢各位大佬

    3 回复  |  直到 2019-10-23 18:00:33 +08:00
        1
    27   50 天前
    我司用 kerberos, 不同用户在不同的 kerberos 组中。可以对表来做权限控制
        2
    cqcn1991   50 天前 via Android
    @27 话说有啥具体操作说明吗?非常感谢!
        3
    27   44 天前
    @cqcn1991 spark 跑在 yarn 上,用 yarn+kerberos 控制权限,提交 spark 任务的时候带上参数去 kerberos 有权限的队列上跑
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2367 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 29ms · UTC 14:01 · PVG 22:01 · LAX 06:01 · JFK 09:01
    ♥ Do have faith in what you're doing.