注意力机制是如何学习到模型所应注意的区域的？

霍华德机器学习算法与自然语言处理

公众号关注 “ML_NLP”

设为 “星标”，重磅干货，第一时间送达！

来自 | 知乎

作者 | 霍华德

地址 | https://www.zhihu.com/question/444712435/answer/1734304145

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享，若侵权，请联系后台删文处理

@心照璧提到的回溯性注意力机制CAM主要是用在cv里。而最早提出注意力机制的是nlp领域。

最初nlp里attention就是设置一个向量，和文本token的向量算内积，再过一个softmax归一化，得到每个token的权重，然后再根据权重把序列向量聚合成一个向量，用于下游任务。

@心照璧提到的MIL解释我非常喜欢。最简单的文本分类模型，就是用avg pooling，相当于认为文本里每个词都是正例。attention的提出就是为了选出这个序列里真正起作用的token做正例。下面是Hierarchical Attention Networks for Document Classification的例子，说明模型做出判断时关注到了那些词。

注意力机制是如何学到模型所应注意的词呢？一个几何上的直觉解释是，在高维空间里，学习过程中模型不断拉进对任务有用的token向量和attention向量的距离。最终学习到的就是当前任务下，以attention向量为中心的一个巨大高维球形空间，token向量距离中心越近的就是越与任务相关的token。换句话说，attention机制学到了和任务相关的特征词。

下载1：四件套

在机器学习算法与自然语言处理公众号后台回复“四件套”，

即可获取学习TensorFlow，Pytorch，机器学习，深度学习四件套！

下载2：仓库地址共享

在机器学习算法与自然语言处理公众号后台回复“代码”，

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下：https://github.com/yizhen20133868/NLP-Conferences-Code

重磅！机器学习算法与自然语言处理交流群已正式成立！

群内有大量资源，欢迎大家进群学习！

额外赠送福利资源！深度学习与神经网络，pytorch官方中文教程，利用Python进行数据分析，机器学习学习笔记，pandas官方文档中文版，effective java（中文版）等20项福利资源

获取方式：进入群后点开群公告即可领取下载链接

注意：请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主，微商请自觉绕道。谢谢！


推荐阅读：
Tensorflow 的 NCE-Loss 的实现和 word2vec
多模态深度学习综述：网络结构设计和模态融合方法汇总
awesome-adversarial-machine-learning资源列表

继续滑动看下一个

注意力机制是如何学习到模型所应注意的区域的？

推荐阅读：Tensorflow 的 NCE-Loss 的实现和 word2vec多模态深度学习综述：网络结构设计和模态融合方法汇总awesome-adversarial-machine-learning资源列表

推荐阅读：
Tensorflow 的 NCE-Loss 的实现和 word2vec
多模态深度学习综述：网络结构设计和模态融合方法汇总
awesome-adversarial-machine-learning资源列表