注意力机制主要为:查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出
$$ f(q) = \sum_{i=1}^n\alpha(q, k_i)v_i\\ \alpha(q, k_i) = \textrm{softmax}(a(q, k_i)) $$
称 $a$ 为评分函数
softmax 操作用于输出一个概率分布作为注意力权重,在某些情况下,并非所有的值都应该被纳入到注意力汇聚中
<aside> 💡
例如,某些文本序列被填充了没有意义的特殊词元。 为了仅将有意义的词元作为值来获取注意力汇聚, 可以指定一个有效序列长度(即词元的个数), 以便在计算softmax时过滤掉超出指定范围的位置
</aside>
def sequence_mask(X, valid_len, value=0):
maxlen = X.size(1)
mask = torch.arange((maxlen), dtype=torch.float32,
device=X.device)[None, :] < valid_len[:, None]
X[~mask] = value
return X
def masked_softmax(X, valid_lens):
# X:3D张量,valid_lens:1D或2D张量
if valid_lens is None:
return nn.functional.softmax(X, dim=-1)
else:
shape = X.shape
if valid_lens.dim() == 1:
valid_lens = torch.repeat_interleave(valid_lens, shape[1])
else:
valid_lens = valid_lens.reshape(-1)
# 最后一轴上被掩蔽的元素使用一个非常大的负值替换,从而其softmax输出为0
X = sequence_mask(X.reshape(-1, shape[-1]), valid_lens,value=-1e6)
return nn.functional.softmax(X.reshape(shape), dim=-1)
调用示例
masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3]))
"""
tensor([[[0.5980, 0.4020, 0.0000, 0.0000],
[0.5548, 0.4452, 0.0000, 0.0000]],
[[0.3716, 0.3926, 0.2358, 0.0000],
[0.3455, 0.3337, 0.3208, 0.0000]]])
"""
masked_softmax(torch.rand(2, 2, 4), torch.tensor([[1, 3], [2, 4]]))
"""
tensor([[[1.0000, 0.0000, 0.0000, 0.0000],
[0.4125, 0.3273, 0.2602, 0.0000]],
[[0.5254, 0.4746, 0.0000, 0.0000],
[0.3117, 0.2130, 0.1801, 0.2952]]])
"""
给定 n 个样本 $(x_i, y_i){i = 1}^n$,对于输入 $x$,预测
$$ ⁍ $$
其中要求 $\alpha$ 非负且和为 1 可以把每个样本都看作一对键值对,给定查询,做注意力汇聚,然后对 $y$ 进行加权
高斯核定义为
$$ K(u) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{u^2}{2}) $$
高斯核回归可以表示为
$$ f(x) = \sum_{i = 1}^n\textrm{softmax}\left(-\frac12(x - x_i)^2\right)y_i $$
如果一个键越接近给定的查询,那么对应值的注意力权重就会越大