Attention 面试向知识点背书

tech2022-08-01  148

面向面试背书使用,水平有限,欢迎讨论,图片侵改。

Attention注意力机制

Attention是用于描述两集合中,任一元素对另一集合各元素的影响力:

例如:H1 = {帅哥,口红, 格斗},H2 = {美女,裙子}。一般而言,帅哥更喜欢看美女,所以有Attention(帅哥, 美女) >  Attention(帅哥, 裙子)。例如:Q = {q1, q2...qn}, K = {k1, k2...kn},Attention(qi, kj)描述了qi对于kj的注意力(影响程度,关注程度,权值)。

可以定义使用各种范数、距离、“相似度”来描述影响力。神经网络中常见的是:

加法注意力

需要借助全连接层计算权值矩阵W1,W2。

乘法注意力

 

向量点乘。

Transformer改良版。将分子结果集中在softmax高梯度区域。

 

注意力机制应用

Transformer:放弃NN结构,纯用自注意力机制。序列自己对自己求注意力,并用注意力更新自己。可并行运算快。BERT:提出MLM完形填空与NSP前后两句是否匹配两大训练目标。无监督训练可使用海量语料库。用Transformer搭建,算的快。

 

最新回复(0)