贪心搜索

局部最优解不一定是全局最优

复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert T)$

穷举搜索

复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert^T)$

束搜索 beam search

束宽(beam size)k

在时间步1,我们选择具有最高条件概率的 k 个词元

在随后的每个时间步,基于上一时间步的 k 个候选输出序列,我们将继续从 k 个可能的选择中挑出具有最高条件概率的 k 个候选输出序列

复杂度 $\mathcal{O}(k\lvert\mathcal{Y}\rvert T)$

长度惩罚和提前终止

非确定性解码

Top-k

Top-p

Temperature