V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
libinglong9
V2EX  ›  程序员

大模型下优质中文语料匮乏问题

  •  1
     
  •   libinglong9 · 322 天前 · 5231 次点击
    这是一个创建于 322 天前的主题,其中的信息可能已经有所发展或是发生改变。

    随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

    国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

    59 条回复    2023-06-12 14:32:30 +08:00
    Track13
        1
    Track13  
       322 天前 via Android   ❤️ 5
    这不是钱的问题。
    seres
        2
    seres  
       322 天前
    UGC 网站面临最大的问题是合规审查
    一但有用户作妖碰到红线,网站就没了。。。
    libinglong9
        3
    libinglong9  
    OP
       322 天前
    @seres 所以这个网站,从一开始我的想法就是架设在国外
    huijiewei
        4
    huijiewei  
       322 天前   ❤️ 2
    问题是你敢弄就有人给你搞赵弹袭击。。
    huijiewei
        5
    huijiewei  
       322 天前
    @libinglong9 然后被墙了,也没啥人气
    yyws2012
        6
    yyws2012  
       322 天前 via Android
    如果真的不想盈利甚至回本、并且能持续用爱发电的话,可以不用国内服务器,把各种反 GFW 的思路换上,还是能做的。
    但是前面两个条件很难实现。
    libinglong9
        7
    libinglong9  
    OP
       322 天前 via iPhone
    @huijiewei 其实这种网站,即使在国外,我也不希望他谈政治,谈政治对这种网站没什么意义
    malusama
        8
    malusama  
       322 天前
    别的不过..现在国内的模型都还在对标 chatgpt.
    chatgpt 也是用 Common Crawl
    WebText2
    Books
    Wikipedia
    这些语料训练出来的啊, 这些也都是公开的. 有什么缺乏的问题.
    等到啥时候目标是赶超才需要提优质语料吧?
    libinglong9
        9
    libinglong9  
    OP
       322 天前 via iPhone
    @malusama 优质语料是一个更需要日积月累的东西,硬件和软件差距肯定会越来越小,或者即使有很大差距,但是够用就好了
    wdlth
        10
    wdlth  
       322 天前
    我觉得如果只有所谓的高质量语料可能效果更难以满足,本身每个人的表达方式就不一样,有的人可能会突出重点,有的人会发散一下思维,做个比喻什么的,如果只以所谓的高质量语料去训练,那又如何去满足质量低的输入呢?
    像 Common Crawl 数据集就是低质量,但可以从中提取到各种各样表达方式。
    Trello
        11
    Trello  
       322 天前
    国内思否还行,就是没什么人气。
    haha512
        12
    haha512  
       322 天前   ❤️ 14
    并非是谈不谈政治的问题,国内太多敏感点,挂满全身,还没有违规标准。
    比如那 8 个字不能随便说,一不小心就辱军了、某种炒饭在某些场合下也涉及侮辱烈士、提到 HK/TW 时,少说个中国可能就被指辱华、一不小心夸奖个美日就是崇洋媚外 50 万... 太多太多了。
    Ericcccccccc
        13
    Ericcccccccc  
       322 天前
    样本投毒这种事最早百度给 google 做过了.
    libinglong9
        14
    libinglong9  
    OP
       322 天前 via iPhone
    @wdlth 你说的有道理,只是低质量的语料太容易获取了。
    huijiewei
        15
    huijiewei  
       322 天前
    @libinglong9 国外谈政治你可以删帖(反正慢慢删除就好了),国内你删慢点自己就没了
    JinBin
        16
    JinBin  
       322 天前   ❤️ 16
    政治在现代文明国家就是吃饭呼吸一样寻常的事,不谈才奇怪。主动阉割是掩耳盗铃,治标不治本。只有简中言论自由,没有变态的 censorship 了,才有可能谈高质量的内容。
    greatbody
        17
    greatbody  
       322 天前   ❤️ 4
    StackOverflow 上面大量的英文内容不是英文为母语的国家的人贡献的。例如我就贡献过很多的被采纳的优质回答。为什么用英语贡献?很简单,在编程的世界中,很多术语是英语的,而且使用英语能让更多的人看懂。

    语料匮乏中国人也不必纠结。大语言模型核心的是训练出来的网络权重,而我理解这个就类似人学习到的经验,是非语言的。当你使用中文提问的时候,英文的知识也会被用上,只不过在输出的时候多了一个翻译的步骤。

    最后,不论中文,英文都是人类的共同财富。不应该因为中文的语料少而自卑。
    ltltfuture
        18
    ltltfuture  
       322 天前   ❤️ 1
    说实话,不如学好英语
    hsir
        19
    hsir  
       322 天前   ❤️ 1
    其实不是语言语料的问题,因为大模型不是用语言思考的,翻译只是人类传递信息所需要的,就像 E=mc^2 这个公式一样,AI 理解的是公式本身,而和表达或者输入的语言无关。

    美国是互联网的发源地和创新地,拥有最大最全的互联网基础设施,所以 AI 自然是最发达的;国内的 AI 主要问题其实就类似一众手机国产厂商定制系统和 Android 系统的关系一样,美国人制定了标准,中国只能 follow ,吃别人的,用别人的,从别人那里来,有问题等别人先解决,别人解决了自己直接拿来用,至于自己的创新、甚至造轮子的想法,则是不会有,不敢有,不能有。
    libinglong9
        20
    libinglong9  
    OP
       322 天前 via iPhone
    @JinBin 不谈政治的意思是,网站本身不是要做那种任意的问答,就如同 Stack Overflow 一样,只做 code 相关的问答
    realpg
        21
    realpg  
       322 天前
    @libinglong9 #7
    大型中文社区,境外的,你没有 50%用户有管理权限可以 ban 人,基本就会变为政治和垃圾 spam 集中营
    Lightbright
        22
    Lightbright  
       322 天前 via Android
    你是否在找:v2ex
    Sting1226
        23
    Sting1226  
       322 天前
    知乎早期还是邀请注册的时候,回答的质量都很高,干货很多。
    后来开放注册以后,越来越的品牌也加入进来,软文越来越多。
    不谈 zz ,只单说回复的内容,感受就是这样的。
    之前看过一个调查报告,中国网民的学历及年龄,不成熟的人很多。
    这中间认知的偏差,就很容易各种撕 B 。
    haichaofine32
        24
    haichaofine32  
       321 天前 via Android
    能访问境外网站的是极少数,如果只能谈技术无法谈论价值观,那和境内的删评论和关键字审查有何区别?没有独立思考的人哪来高质量的答复,不信对比一下百度百科和维基百科,前者据说重要关键字请特定人作答
    dji38838c
        25
    dji38838c  
       321 天前   ❤️ 4
    你可能把语料理解狭隘了。
    ChatGPT 除了网上的内容外,还把海量的书籍,各类专业的书籍,都作为训练的内容
    而别的不说,就说专业书籍,比如中文的生物学科的教材,就完全没有和英文的相比
    这些教材和书籍的智力投入,都不是一代人了。
    这恐怕远远不是做一个“更好的知乎”能改变的。
    ttys001
        26
    ttys001  
       321 天前
    @seres
    作妖碰到红线?
    是正常碰到作妖好嘛。
    hhylx1950
        27
    hhylx1950  
       321 天前
    其实从 chatgpt 的中文质量来看,语料似乎不是什么大问题。
    acctv2
        28
    acctv2  
       321 天前
    一个纯粹的图文 UGC 平台,其实成本还可以,不是那么高, 如果配合上使用 Google Ads 基本不用用爱发电太多。

    所以我觉得你的想法是可行的,但是难点在于:
    - 很难推广,墙外的中文用户毕竟是极少数
    - 你肉身在国内,一旦平台负面言论过多,仍然存在合规风险
    javlib
        29
    javlib  
       321 天前
    其实 ai 底层不区分语言,用大量的英语数据+少量的中文数据,训练出来的 ai 一样能掌握中文。所以你只要找到优质数据即可,不需要特定语言。
    documentzhangx66
        30
    documentzhangx66  
       321 天前   ❤️ 2
    这本质是一个经济问题。

    我国虽然是世界上第二大经济实体国家,但人均后,被第一名远超地不要不要的,仍然是一个发展中的穷国。

    那些发达国家,就算不上班,偶尔接点小活,也能舒舒服服过日子。只有在这种情况下,才有人愿意把时间与精力,花在所谓的文章审核、文档编辑上。比如 GPT 训练语料的来源之一:维基百科,上面很多词条都没有中文的,就算是有中文的,内容数量也远少于英文。

    穷,则需要疲于奔命。
    optional
        31
    optional  
       321 天前
    你错了,语料数据这方面其实问题不大,硬件的落后才是大问题,现在国内大厂 A100 都不够训练的。
    learningman
        32
    learningman  
       321 天前
    v2ex 往前五年还是个技术社区,现在是个键政垃圾集散地。
    中间发生了什么,各位有头绪吗?
    libinglong9
        33
    libinglong9  
    OP
       321 天前 via iPhone
    @Lightbright V2EX 问答是比较轻松的。不像在 so 上会有压力。
    mazyi
        34
    mazyi  
       321 天前   ❤️ 6
    有地方可以谈政治,才会有地方不谈政治,如果大部分人接触到的地方不能谈政治,那少部分人可以接触到的地方就一定会变成谈政治的。
    libinglong9
        35
    libinglong9  
    OP
       321 天前 via iPhone
    @learningman 社区是要有严格的规范的,该封的封就是了。但问题在于,有的社区又需要一定的活跃用户,这存在一些矛盾,因此从一开始,我就希望哪怕只有 1000 人用,也不会为了社区的活跃而放弃原则
    aphorism
        36
    aphorism  
       321 天前   ❤️ 1
    1. 你对中文的理解存在偏差。语料丰富度是一种语言的内在属性。语料匮乏是中文这种语言的最显著的特征。如果语料不匮乏了,那么这种语言就不能叫做中文了,叫做东文、西文、南文、北文,或者内文、外文、前文、后文都可以,就是不叫中文。

    2. 语料的丰富度其实反映的是思想的多样化程度。这两者是互相影响的。从东亚大陆的历史来看,中文及相关语言的使用者都具有非常强烈的“多样性厌恶"特征,这种思想偏好决定了东亚大陆语言的核心特征。

    3. 中文及其相关语言的表达能力是非常弱的,建议任何一个希望有所发现、有所创造的人尽可能地选择更强的语言来开展工作。
    cassyfar
        37
    cassyfar  
       321 天前
    实名制,登录需要认证公司或者 org ,edu 邮箱。但这种网站太暴露隐私,一般人也不愿意用,毕竟你作为小网站没公信力。
    Al0rid4l
        38
    Al0rid4l  
       321 天前   ❤️ 3
    语言是思维的工具, 思想被阉割, 却希望像别人一样诞生出高质量的思想产物(语料), 想的是挺美的
    Jirajine
        39
    Jirajine  
       321 天前
    @realpg 据我见到的几个境外中文社区(非“大型”),非政治领域但不禁止政治的,政治内容占比重都不高。
    但因为众所周知的原因,中文使用群体在涉及政治的话题中会产生大量的 flamewar 。
    HN 之类的英文技术社区中的政治话题会好不少(当然吵架也不少)
    realpg
        40
    realpg  
       321 天前
    @Jirajine #39
    非大型肯定啊 键盘侠都不知道怎么来
    而 OP 想做的东西,是要大型才有价值
    Torpedo
        41
    Torpedo  
       321 天前
    先研究英文怎么翻译到中文,然后直接学习英文资料

    当然,本地化的,那只能想想能不能拿到内参啥的资料了
    THESDZ
        42
    THESDZ  
       321 天前
    最简单地方式,就是做成点对点或者群组加密,只有网站和群组内成员才能阅读.
    Jirajine
        43
    Jirajine  
       321 天前
    @realpg 什么样的能称为“大型”?如果限定简中的话,v2ex 应该已经算是最大的了吧,其他 reddit 之类的只有政治领域有用户规模。群组、Twitter 、youtube 这些本来就是吵架的地方没有计入的必要。
    主要原因还是 GFW 以外简体中文语言使用者之间立场分化极其严重、矛盾尖锐,HN 这些地方政治话题虽然也有吵架但不至于变成粪坑。
    vlgs
        44
    vlgs  
       321 天前
    不如直接用英文的
    zhchyu999
        45
    zhchyu999  
       321 天前
    所以 chatgpt 回答不了中文的问题和问题么
    kawaii303
        46
    kawaii303  
       321 天前
    中文里面相对质量高的网站只有 V2EX 了,里面的“问与答”节点相当于问答网站。想自己建一个严肃认真的问答网站还是很难的,一是盈利,二是管理,自己没有闲钱闲工夫,网站很难做好。
    libinglong9
        47
    libinglong9  
    OP
       321 天前 via iPhone
    @zhchyu999 能回答,就是国内不知道啥时候能用啊?处处被卡脖子哪里受得了
    calon
        48
    calon  
       321 天前
    里屋论坛在做中文语料集的事情,现在需要技术人员和贡献语料,有兴趣的可以参与。
    链接:
    https://mnbvc.253874.net/
    https://github.com/esbatmop/MNBVC
    calon
        49
    calon  
       321 天前
    目标是 40T 的数据量,目前的进度是 5T 多,12.6%
    yvescheung
        50
    yvescheung  
       321 天前   ❤️ 1
    互联网上英文页面占 55%,中文仅占 1.4%,和波兰语一个水平,不如土耳其语,荷兰语,日语
    这种差距不是几个严肃问答网站就可以抹平的
    zisen
        51
    zisen  
       321 天前 via iPhone
    之前参加过一个高校内部的类似 stackoverflow 的问答网站,老师和学生都在网站内实名提问和回答,然后被创业中心给否了,也没拿到经费
    fengjianxinghun
        52
    fengjianxinghun  
       321 天前   ❤️ 1
    @yvescheung 有没有可能,这是 2012 年开始的大规模关停网站导致的。
    dyllen
        53
    dyllen  
       321 天前
    审核都搞死你,不审核搞出来敏感的东西你人在国内小心被请去喝茶,人不在国内的直接墙了。
    yvescheung
        54
    yvescheung  
       321 天前
    @fengjianxinghun 华生,你发现了盲点
    yankebupt
        55
    yankebupt  
       321 天前
    @libinglong9 V2EX 也架设在国外,你猜站长为什么还是上关键字了?
    中国人的劣根性,有些人即使是来讨论热点事件的,也不真的是来认真讨论热点事件的,而是精心设计一个局,制造几个风口新闻,然后准备踩着你的网站上位。
    而这些,对于早就习惯了的国外浏览者而言,都只不过是不值得关注的杂谈而已。
    我觉得有些人累了,不再想帮你免费劳动
    IndexOutOfBounds
        56
    IndexOutOfBounds  
       321 天前
    相同的一件事情,用中文还是英文语料训练区别大吗?只需要少量的中文语料让模型掌握中文本身不就好了
    w210934618
        57
    w210934618  
       321 天前
    1
    frankies
        58
    frankies  
       321 天前 via Android
    国内有专门雇人把英文语料翻译成中文进行训练的。
    domoco
        59
    domoco  
       321 天前
    @JinBin 难道不是因为国外导向了所谓的言论自由,才造成这个原因?没那么狼口,谁管你言论自由呢
    Inevitable
        60
    Inevitable  
       320 天前
    @frankies 改善翻译来提高素材质量了,不过这种类型其实也不需要担忧吧,毕竟高价值的很多都藏着的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   910 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 22:24 · PVG 06:24 · LAX 15:24 · JFK 18:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.