one-hot

word2vec

Skip-Gram

给定中心词,最大化上下文出现的概率

对于中心词 wc,建模上下文词 wo出现的概率为 Pwo|wc=expuoTvci∈VexpuiTvc

最大似然为 {c}{-mj m,j 0}P(w_{c+j} w_c)

负对数 。。。 TODO

解释

TODO

CBOW

从上下文预测中心词

中心词 wc,上下文词 W_o = {w_{o_1},,w_{o_{2m}}}, vo=12mi=12mvoi,建模 Pwc|Wo=expucTvoi∈VexpuiTvo)

优化。。。TODO

解释

TODO

负采样 negative sampling

上面在计算时,需要对整个词表的词都计算 softmax,并且做梯度计算和更新,代价太大

TODO