Attention 面试向知识点背书

tech2022-08-01 234

面向面试背书使用，水平有限，欢迎讨论，图片侵改。

Attention注意力机制

Attention是用于描述两集合中，任一元素对另一集合各元素的影响力：

例如：H1 = {帅哥，口红，格斗}，H2 = {美女，裙子}。一般而言，帅哥更喜欢看美女，所以有Attention(帅哥, 美女) > Attention(帅哥, 裙子)。例如：Q = {q1, q2...qn}, K = {k1, k2...kn}，Attention(qi, kj)描述了qi对于kj的注意力（影响程度，关注程度，权值）。

可以定义使用各种范数、距离、“相似度”来描述影响力。神经网络中常见的是：

加法注意力

需要借助全连接层计算权值矩阵W1，W2。

乘法注意力

向量点乘。

Transformer改良版。将分子结果集中在softmax高梯度区域。

注意力机制应用

Transformer：放弃NN结构，纯用自注意力机制。序列自己对自己求注意力，并用注意力更新自己。可并行运算快。BERT：提出MLM完形填空与NSP前后两句是否匹配两大训练目标。无监督训练可使用海量语料库。用Transformer搭建，算的快。

最新回复(0)