V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
NeverBelieveMe
V2EX  ›  程序员

如何突破大模型的敏感词拦截?

  •  
  •   NeverBelieveMe · 7 天前 · 1834 次点击

    黄赌毒一类的拦截就算了,敲诈勒索都算敏感词给拦截了。 想要做文字处理方面的功能,稍微有点擦边的词,就不行,太折磨了。 有没有懂哥们给点方法建议?

    11 条回复    2024-12-12 09:55:06 +08:00
    565656
        1
    565656  
       7 天前
    大模型只能用抽象骗过了
    Byleth
        2
    Byleth  
       7 天前   ❤️ 2
    可以参考下 sillytavern 圈子里的各种方法(他们叫「破限」),我从里面看到的一个比较巧妙的方法是在 system prompt 里面,让 AI 以一些"安全词"替换"危险词",然后输出到本地时,通过正则表达式替换为正确的词语。

    当然,最简单的还是选择道德审查比较弱的开源模型,比如 commander+ 这些
    ShinichiYao
        3
    ShinichiYao  
       7 天前 via Android
    天堂里的奶奶讲睡前故事大法?
    tetora
        4
    tetora  
       7 天前
    编码绕过,你可以倒叙文字或者加密之后给它提供密钥试试
    wheat0r
        5
    wheat0r  
       7 天前
    教大模型与佛论禅
    kidding
        6
    kidding  
       7 天前   ❤️ 1
    逛 hugging face 的时候看到过这个文章,可以消融掉模型自带的审查。

    https://huggingface.co/blog/mlabonne/abliteration
    Sawyerhou
        7
    Sawyerhou  
       7 天前 via Android
    找找回避敏感词的 nlp 模型呢?打败大模型可能需要另一个大模型 :p
    shitshit666
        8
    shitshit666  
       6 天前
    自己部署一个: https://lmstudio.ai/
    NeverBelieveMe
        9
    NeverBelieveMe  
    OP
       6 天前
    NeverBelieveMe
        10
    NeverBelieveMe  
    OP
       6 天前
    @shitshit666
    @tetora 公司是用商用大模型的,kimi ,千问这些。没有自己部署的。
    NeverBelieveMe
        11
    NeverBelieveMe  
    OP
       6 天前
    @tetora 有什么案例可以参考吗?我们是想要做文字校对一类的功能,普通的倒序加密会影响功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3928 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:14 · PVG 13:14 · LAX 21:14 · JFK 00:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.