演进范式

  1. 预训练 + 微调,亿级参数,BERT、GPT-1
  2. 预训练 + Prompt Learning,千亿级,GPT-3
  3. 预训练 + 指令微调 + RLHF,十亿到万亿级,ChatGPT、GPT-4
  4. 通用大模型 + 指令微调,百亿级,垂类模型

Prompt Learning

GPT-3

Instruction tuning

指令微调 FLAN

预训练模型的学习目标是预测下一个 token,适合做文本续写,不适合做问答。指令微调的目标是让模型严格按照指令要求来回答问题

对于已经做了指令微调的通用模型,在特定应用下可能仍然达不到要求,需要进一步微调

微调样本生产

微调样本的质量至关重要,准确性、多样性、难易度

来源主要分为 人工标注 和 机器合成

  1. self instruct 生成更多的样本
  2. evol instruct 问题进化,生成难度更高(depth)、多样性更好(breath)的问题