贪心搜索

局部最优解不一定是全局最优

复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert T)$

穷举搜索

复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert^T)$

束搜索 beam search

束宽（beam size）k

在时间步1，我们选择具有最高条件概率的 k 个词元

在随后的每个时间步，基于上一时间步的 k 个候选输出序列，我们将继续从 k 个可能的选择中挑出具有最高条件概率的 k 个候选输出序列

复杂度 $\mathcal{O}(k\lvert\mathcal{Y}\rvert T)$

长度惩罚和提前终止

非确定性解码

Top-k

Top-p

Temperature