Fine-tuning 大模型时如何训练思考过程

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 496 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果希望训练大模型对特定内容的推理能力，应该如何做？现在用 alpaca 格式的数据集进行训练，看到只有 instruction 、input 和 output 这几个 column ，没有找到合适的字段填写思考过程。希望不吝赐教，先谢谢了。下面是一个例子：

根据北京汽车限行尾号的规则来查找某天限行尾号时多少，需要先根据用户问题中的日期找到相应时间段，再找到时间段内的限行尾号和周几的对应关系，最后根据这个日期时星期几来找到对应的限行尾号。

4 条回复 • 2024-05-10 10:42:15 +08:00

ywkk

2024-05-10 10:17:07 +08:00

这个需求更适合用 gpts 吧，写好脚本和 prompt 就好了。以 gpt4 的认知能力，这种任务完全不需要再训练，你就告诉它什么时候去什么网站查什么内容，举例给它里面的内容是什么意思，然后要求输出什么格式的文本，就可以了。

Volekingsg

2024-05-10 10:27:49 +08:00

在 output 中给出详细推理过程的文本，or 其实可以先尝试分解问题为子步骤，然后再让 LLM 解决每个子问题

frankyzf

2024-05-10 10:38:44 +08:00

@ywkk 谢谢回答，只能本地部署，不能用 gpt-4 ，现在尝试用的 llama-3 8b ，感觉没足够的能力所以在 fine-tuning （上面只是一个例子，实际上是训练另外一种类似的推理能力）。

frankyzf

2024-05-10 10:42:15 +08:00

@Volekingsg 谢谢，我尝试下分步骤。因为现在 output 有固定格式 JSON ，估计只能在 JSON 里加个类似`explain`的字段来写出详细的推理过程，不知道能不能学习到。