演进范式
- 预训练 + 微调,亿级参数,BERT、GPT-1
- 预训练 + Prompt Learning,千亿级,GPT-3
- 预训练 + 指令微调 + RLHF,十亿到万亿级,ChatGPT、GPT-4
- 通用大模型 + 指令微调,百亿级,垂类模型
Prompt Learning
GPT-3
Instruction tuning
指令微调 FLAN
预训练模型的学习目标是预测下一个 token,适合做文本续写,不适合做问答。指令微调的目标是让模型严格按照指令要求来回答问题
对于已经做了指令微调的通用模型,在特定应用下可能仍然达不到要求,需要进一步微调
- 受限于模型能力,提示词工程达不到效果要求
- 回答语气、风格、安全性、输出格式等方面有特殊要求
- 需要保证输出的稳定性和一致性
- 需要学习特定业务知识,提升某个领域的能力
微调样本生产
微调样本的质量至关重要,准确性、多样性、难易度
来源主要分为 人工标注 和 机器合成
- self instruct 生成更多的样本
- evol instruct 问题进化,生成难度更高(depth)、多样性更好(breath)的问题