面向面试背书使用,水平有限,欢迎讨论,图片侵改。
Attention注意力机制
Attention是用于描述两集合中,任一元素对另一集合各元素的影响力:
例如:H1 = {帅哥,口红, 格斗},H2 = {美女,裙子}。一般而言,帅哥更喜欢看美女,所以有Attention(帅哥, 美女) > Attention(帅哥, 裙子)。例如:Q = {q1, q2...qn}, K = {k1, k2...kn},Attention(qi, kj)描述了qi对于kj的注意力(影响程度,关注程度,权值)。
可以定义使用各种范数、距离、“相似度”来描述影响力。神经网络中常见的是:
加法注意力
需要借助全连接层计算权值矩阵W1,W2。
乘法注意力
向量点乘。
Transformer改良版。将分子结果集中在softmax高梯度区域。
注意力机制应用
Transformer:放弃NN结构,纯用自注意力机制。序列自己对自己求注意力,并用注意力更新自己。可并行运算快。BERT:提出MLM完形填空与NSP前后两句是否匹配两大训练目标。无监督训练可使用海量语料库。用Transformer搭建,算的快。