如何突破大模型的敏感词拦截？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 355 天前的主题，其中的信息可能已经有所发展或是发生改变。

黄赌毒一类的拦截就算了，敲诈勒索都算敏感词给拦截了。想要做文字处理方面的功能，稍微有点擦边的词，就不行，太折磨了。有没有懂哥们给点方法建议？

敏感词

拦截

文字处理

11 条回复 • 2024-12-12 09:55:06 +08:00

565656

355 天前

大模型只能用抽象骗过了

Byleth

354 天前

可以参考下 sillytavern 圈子里的各种方法（他们叫「破限」），我从里面看到的一个比较巧妙的方法是在 system prompt 里面，让 AI 以一些"安全词"替换"危险词"，然后输出到本地时，通过正则表达式替换为正确的词语。

当然，最简单的还是选择道德审查比较弱的开源模型，比如 commander+ 这些