V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Mashirobest
V2EX  ›  机器学习

机器学习的模型可以逆推出群体用户画像吗

  •  
  •   Mashirobest · 2020-08-09 13:47:58 +08:00 via Android · 3143 次点击
    这是一个创建于 1327 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,b 站 up 主图灵的猫发视频称 tiktok 被收购,那么背后的 ai 相关模型,可能会被美国通过对相关参数的分析,从而逆推出国内用户群体画像。(视频已挂)

    疑惑之处:

    1.这样的逆推有没有可能实现呢?

    2.tiktok 会把国内的模型照搬过去,然后用海外用户的数据再调整参数吗?还是说从头建一个模型,用国外用户形成的数据集再重新训练,与国内完全分开,谈不上信息泄露

    看过视频的相关从业者可以解答下疑惑吗?本人对人工智能相关知识并不了解,所以完全是站在吃瓜群众的角度去复述这件事情,可能说的不太准确

    13 条回复    2020-08-28 17:31:00 +08:00
    JConlee
        1
    JConlee  
       2020-08-09 14:32:47 +08:00 via iPhone
    首先,个人感觉对微软来说,逆推完全没有意义。其次,如果有中间特征的话,可以实现逆推,什么都没有的话,我不知道怎么弄。
    话说如果能完美逆推的话,深度模型训练不就变成了一个超高压缩比的压缩模型...
    Issacx
        2
    Issacx  
       2020-08-09 15:08:36 +08:00
    tiktok 背后的模型大概是指它的推荐系统吧,虽然推荐系统在 16 年搭上了 deep learning 的车,但是在工业环境中大量应用的还是各种 feature 和 rule,这些东西听起来没那么 fancy,但是很好用。抖音的具体实现用了什么不太清楚,不过如果是神经网络基本很难逆推原始输入,这也不是现在的研究热点。
    微软最在乎的大概是 tiktok 这块牌子和现有用户,模型它根据用户点击从头搭一个都行。
    Mashirobest
        3
    Mashirobest  
    OP
       2020-08-09 15:49:55 +08:00 via Android
    @Issacx 受教了
    Mashirobest
        4
    Mashirobest  
    OP
       2020-08-09 16:01:11 +08:00 via Android
    @JConlee 谢谢回答。不过原视频并不是针对微软,而是担心美国国家层面对模型进行逆推,从而导致国内用户画像泄露(基于 tiktok 的模型是照搬抖音的假设,当然也只是假设)。完美逆推出具体输入是不可能的了,但是逆推出国内用户这个群体的画像不知道是否可行
    keith1126
        5
    keith1126  
       2020-08-09 16:04:52 +08:00
    我倾向于认为不可逆推,如果可以逆推的话,会出现一个有趣的结果:

    可以根据模型逆推用户属性 -> 字节跳动现在掌握着 TikTok 的模型 -> 字节跳动掌握了美国用户的隐私 -> 字节跳动危害美国国家安全
    lhx2008
        6
    lhx2008  
       2020-08-09 16:06:13 +08:00
    虽然那个 UP 主是个机器学习的从业者,但是这种东西也过于玄幻了一点,Tiktok 肯定和抖音的数据池已经做硬隔离的
    Mashirobest
        7
    Mashirobest  
    OP
       2020-08-09 16:08:05 +08:00 via Android
    @keith1126 你后面真说对了,美国佬现在就是以这种理由对 tiktok 进行审查,怀疑它泄露美国用户信息,危害其国家安全
    Mashirobest
        8
    Mashirobest  
    OP
       2020-08-09 16:11:36 +08:00 via Android
    @lhx2008 嗯,我个人也是偏向这种观点,那位 up 有点耸人听闻的嫌疑
    wjm2038
        9
    wjm2038  
       2020-08-09 16:17:03 +08:00   ❤️ 1
    我偏向于 up 是骗小白骗点击量的,因为理论来说模型很难推回原本的数据,并且中国的模型应该不会直接拿到美国的 tiktok 用的,讲道理 music.ly 不是白收购的。 微软收购在乎的估计大部分也是用户量和流量,拿来就用多好
    Issacx
        10
    Issacx  
       2020-08-09 16:31:00 +08:00   ❤️ 2
    关于推荐,多说一点。推荐主要涉及到两种 object:user 和 item (在 tiktok 里就是短视频)。国内版和海外版模型之间的可迁移性比较弱,因为首先用户不同(虽然可能潜在喜好相似),其次短视频本身也不同,在这种情况下迁移可能会产生负面效果,而且迁移的目的在于目标域(海外)数据较少,将源域(国内)的知识进行迁移,tiktok 明显不缺数据。因此迁移可能并不必要,按照相同思路从头训练一个比较好。
    我觉得推荐就像搜索引擎一样存在反馈过程。更好的模型吸引更多的用户,产生更多的数据改进现有的模型,就像鸡生蛋蛋生鸡一样。tiktok 成功的原因有很多 ,推荐系统不是决定性原因,也不是最大的卖点。
    lusi1990
        11
    lusi1990  
       2020-08-17 16:11:25 +08:00
    人家有数据,不需要从模型出发。画像不过是基本信息+历史数据
    imn1
        12
    imn1  
       2020-08-26 14:30:29 +08:00
    你所说的其实不算逆推,或者没必要
    逆推是这样的,y=f(x),已知 x,y,求 f,就是找出公式

    分析一下状态
    海外:y=f1(x),x/y/f 全部已知
    国内:y=f2(x),x 已知? y 已知? f1==f2 ?
    对于国内
    如果 f1==f2,那不用求,直接用 f1,就看 xy 知道哪个求另一个,一般来说 x 不可求;
    如果不等,除非能同时知晓 x/y,否则没啥用
    shm7
        13
    shm7  
       2020-08-28 17:31:00 +08:00
    y 夏天溺毙的人很多,想分析下原因;

    找了很多 x,发现有个 x 是冰淇淋的销售量,和溺毙人数呈正相关。

    如果从退音角度考虑,请问是否可以得出结论: 吃冰激淋和溺毙有很大关系!

    哈哈。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3775 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:36 · PVG 18:36 · LAX 03:36 · JFK 06:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.