我不是专业的,大概只能一知半解地给一些不一定准确的描述。有业内大佬的话欢迎指正。
首先就是,对于目前主流的(尤其是闭源的)大模型,他们有一个东西叫 “价值对齐”。概括来说就是让大模型输出的内容符合 道德/价值观 等。这个并不一定要求在数据集里面彻底清洗干净不和谐的内容,更多是针对输出。因为假如真清洗干净了,大模型怎么知道什么是黑什么是白呢。
然后呢,对于目前那种角色扮演的使用场景,如果发现是那种没什么限制、非常洒脱的模型,首先那些绝对不可能会是今天那些主流的商业闭源大模型——狗屁通,Claude ,Gemini 的道德对齐一个比一个狠,目前靠 Prompt 越狱的可用性已经几乎不存在了。
即使是开源的模型,例如 Llama 系列,训练数据也是有部分对齐的。这种时候要 “越狱” 就不能全部依赖 Prompt ,而是要靠足够多的数据来训练和微调。
https://openrouter.ai/看一下 OpenRouter 上的这一批模型。注意有不少是专门为角色扮演场景有 finetune 的,而且包括一些非常典型的去除价值对齐的模型。有些模型附上了模型作者的文章,我的脑子带不动太深奥的东西,交给专业的佬来细说了。
贴个有代表性链接:
https://erichartford.com/uncensored-models另外还有一个没开源、非对话类型的用于写作模型是 Novel AI 的。Novel AI (
https://novelai.net/) 的 Llama 3 Erato (底子是 Meta Llama 3 70B, 非 instruct 版本) 就是通过大量数据的 训练 + 微调,整出的一个辅助写故事的、洒脱无限制的模型,而且不存在那些大型商业公司模型的那种道德伦理对齐。
现在的大模型天天搁那对齐,对齐得智力都滑坡了。就跟谷歌之前那个弱智文生图不会画黑皮肤以外的人种一样,这种反常识的训练怎么可能会带来更好的模型呢。