局部最优解不一定是全局最优
复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert T)$
复杂度 $\mathcal{O}(\lvert\mathcal{Y}\rvert^T)$
束宽(beam size)k
在时间步1,我们选择具有最高条件概率的 k 个词元
在随后的每个时间步,基于上一时间步的 k 个候选输出序列,我们将继续从 k 个可能的选择中挑出具有最高条件概率的 k 个候选输出序列
复杂度 $\mathcal{O}(k\lvert\mathcal{Y}\rvert T)$