V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ChrisFreeMan
V2EX  ›  程序员

GItHub 利用各位存放在上面的代码,进行 AI 训练搞出一个自动代码生成工具,根据注释自动生成对应代码,各位什么看法

  •  
  •   ChrisFreeMan · 2021-07-26 14:47:55 +08:00 · 3700 次点击
    这是一个创建于 1223 天前的主题,其中的信息可能已经有所发展或是发生改变。

    原理是,AI 根据注释描述,直降将相近的代码直接从莫个人的仓库中照搬过来,无视他人的协议。

    https://www.bilibili.com/video/BV16P4y147Ub?p=1&share_medium=iphone&share_plat=ios&share_source=WEIXIN&share_tag=s_i&timestamp=1627280615&unique_k=CMBJAH

    第 1 条附言  ·  2021-07-28 09:26:39 +08:00
    我就是想看看大家怎么说,比起一一讨论更有意思😅,抱歉没有一个个回复
    15 条回复    2021-07-28 06:27:08 +08:00
    janxin
        1
    janxin  
       2021-07-26 15:09:51 +08:00 via iPhone   ❤️ 1
    这个之前有过讨论,理论上是基于模型生成的不违反开源协议。
    henryhu
        2
    henryhu  
       2021-07-26 15:24:18 +08:00
    老铁,Github 已经出了官方的 AI 编程
    bnrwnjyw
        3
    bnrwnjyw  
       2021-07-26 15:32:39 +08:00
    都闹腾了两周了还在问看法。。。(感觉 2 天前发生的事对我来说就算过时了)
    abersheeran
        4
    abersheeran  
       2021-07-26 15:35:21 +08:00
    这个 AI 的智能远超 ctrl+c ctrl+v 的水平。

    比如我自己的 web 框架,用户量可以说十分少了,估测也就十来个人(包括我在内),所以不存在什么大数据给它训练。但它给出的自动补全,只需要在项目里自己手写第一个 function,第二次就能给出不错的提示。
    比如一个朋友(这个真不是我自己)造了一个完全没出现过的编程语言语法,它很快就能学会并且给出智能提示。

    所以我认为 AI 给出的所谓相似代码,更像是一个编程新手看了别人的代码思路之后自己写出来的代码。如果这种行为都要被打击,那可太恐怖了。
    zjsxwc
        5
    zjsxwc  
       2021-07-26 15:41:24 +08:00
    额,把 bug 也一起抄过来吗,英雄所见略同,23333
    reallittoma
        6
    reallittoma  
       2021-07-26 15:45:31 +08:00
    @abersheeran 写开源版 Windows 的程序员不能看 Windows 的代码……
    rekulas
        7
    rekulas  
       2021-07-26 16:11:44 +08:00
    严格来说似乎也有违法的性质,像之前 stylegan 生成人脸,如果你是基于互联网开放数据的模型来生成很容易引起官司,有几个正规公司都是自己请模特拍摄人脸或购买授权人脸作为基础模型数据才敢商用,代码应该也是类似情况,相关法律会逐渐完善
    wt1314g
        8
    wt1314g  
       2021-07-26 19:04:20 +08:00
    这不是搬石头砸自己的脚么?
    要啥看法?
    就跟人来研究 dna 重组,培育新生命一个道理吧。
    israinbow
        9
    israinbow  
       2021-07-26 19:38:09 +08:00
    希望代码能开源, 模型最好也能放出, 训练集就不能要了.
    dousha99
        10
    dousha99  
       2021-07-26 19:45:42 +08:00   ❤️ 2
    法律上的问题我选择交给律师去解决。这个东西真正技术上会有问题的是过拟合,比如有些敏感的配置值(口令、秘钥等)可能会被自动生成出来,这就很难受了。如果这个工具无视仓库私有的设定的话,很容易导致在私有仓库内的关键 credential 被钓出来。

    以及似乎已经有[Copilot 生成可用的 API 秘钥]( https://fossbytes.com/github-copilot-generating-functional-api-keys/)的新闻报道了。比起「洗稿别人公开的代码是否是法律上可行以及道德上允许」这个问题,我个人觉得「避免代码生成工具泄露关键信息」更值得重视。
    tanhui2333
        11
    tanhui2333  
       2021-07-26 19:49:31 +08:00   ❤️ 2
    会不会出一个 .copilotignore
    monkeyNik
        12
    monkeyNik  
       2021-07-26 20:18:18 +08:00
    感觉要是真能做的很好也算是一件造福企业的事情,不过我也不相信机器会比人的思想更加灵活变通。不过也解释了为啥每天总有那么几个和访问量不对等的 clone 量。
    howel52
        13
    howel52  
       2021-07-27 06:43:57 +08:00
    写 comments 时像是在结对编程
    codehz
        14
    codehz  
       2021-07-27 15:09:50 +08:00
    @dousha99 只有公开仓库(
    LeeReamond
        15
    LeeReamond  
       2021-07-28 06:27:08 +08:00
    其实有两点疑问,第一是逻辑本身的复杂性不会缩减,即使有很多通用模块可以通过代码创建,之后还要反复 review 确保可靠,开发成本是否降低是个疑问。第二是,让程序员用英文写一段注释准确描述一个代码段落的行为,怕是比要求他们直接写程序更难,就程序员社区这个语死早的样子,就算用中文又有几个程序员能描述明白呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:14 · PVG 15:14 · LAX 23:14 · JFK 02:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.