V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jununhsu
V2EX  ›  问与答

llm 训练最 dirty work 的就是数据处理!

  •  
  •   jununhsu · 23 小时 17 分钟前 · 515 次点击

    大堆的文件解析、无用数据的过滤等等。。。。。。。。 还有更繁琐的吗,说出来让我平衡平衡

    6 条回复    2026-03-05 17:17:49 +08:00
    jifengg
        1
    jifengg  
       23 小时 9 分钟前
    ai help ai

    让 ai 帮你干活
    LifeDesigner
        2
    LifeDesigner  
       23 小时 3 分钟前
    有多少人工,就有多智能
    woctordho
        3
    woctordho  
       22 小时 53 分钟前 via Android
    别急,等你处理完数据开始训练就要对付梯度爆炸了
    freevioce
        4
    freevioce  
       22 小时 46 分钟前
    大模型微调吗 我现在找不到场景(微调>> RAG+提示词)
    1. 在模型底座不强的时候 微调>> RAG+提示词 如果模型底座比较强,这个差距就不明显,因为微调的场景就是模型+提示词+RAG+MCP 不好用,现在大模型这么强,微调的投入回报率不高了
    2. 微调除了私有化+特定场景拔高(速度、省 token )还有其他场景吗
    你们是什么场景需要微调
    paopjian
        5
    paopjian  
       22 小时 32 分钟前
    这就是为啥数据标注公司都能拿到好几亿融资, 都有人直接去 meta 当领导了, 数据比架构还重要了
    CaptainD
        6
    CaptainD  
       22 小时 30 分钟前
    是的,我就在做这种脏活,感觉是 DS 们的保姆
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5574 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 07:47 · PVG 15:47 · LAX 23:47 · JFK 02:47
    ♥ Do have faith in what you're doing.