技术动态 | 多模态学习调研 (附完整PPT）

原创蒋雪瑶知识工场

点击“阅读原文”，下载该文完整PPT。

前言

多模态机器学习指的就是在机器学习中用上不同形式的数据，如今比较常见的有文本、图像、音频数据。在多模态机器学习中，多模态数据的表示、多模态数据的融合，是研究中绕不开的两点。除此之外，还有多模态数据的对齐、多模态数据的转化等研究问题。

本文针对机器学习领域会议在2019年针对多模态课题的研究做了简单的调研，下表是各会议中录用的多模态论文的一个统计，这里仅统计了在论文题中显示地指出了“MultiModal”的论文，还有更多的论文（尤其是CV领域）虽然没有显示地指出多模态，但早已经用到了多种数据模态。

接下来将对其中的四篇做了详细地介绍，其中所用的方法对上述四个问题都有一定的借鉴意义。

VistaNet: 多模态情感分析

论文：VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

论文地址：https://www.aaai.org/ojs/index.php/AAAI/article/view/3799

本文针对情感分析问题的解决给出了一种用attention进行多模态数据融合的方式。

VistaNet引入图像信息，针对Yelp.com上的评论数据进行五级评分预测。将图像信息作为attention加入到模型中，增强了模型针对评论的情感分析的能力。模型的结构图如下：

模型可大致分为三层：

第一层：Word representation -> Sentence representation

对句子 i 中的所有词使用预训练的词向量模型获得词的向量表示，经过双向RNN（GRU cell）获得每个 RNN cell 的两个方向的隐状态，拼接构成该句在所有 time step 的

。又不同的词在句子中的重要程度是不一样的，故对

使用 soft attention ，计算每个词的权重

，最后对所有的

加权求和，得到句子的表示

第二层：Sentence representation ->Image representation attention-> Document representation

将

输入到双向 RNN 中，得到每个句子的隐状态

，把 VGG-16 最后的全连接层作为图像的特征向量

，接着还是使用 attention 机制计算该评论中图 j 对句子 i 的attention

，最后对

进行加权求和得到针对图 j 的该评论的文本表示

最后还是用 attention 机制计算每张图注意力下的所有文本表示的权重

，最后对

加权求和，得到所有图像注意力下的该评论文本的表示。

第三层：情感分析（评分预测）

最后使用得到的文本表示，做一个五分类，完成评分预测。

VistaNet 的特别之处在于在多模态数据的融合上选择了 attention 的方式，比之前的state-of-art 多模态情感分析所用的 tensor fusion 的方式信息指向性更明确，无形中还学到了图像与文本之间的关联度，可能正是这些原因使得 attention 机制得到的信息的融合效果更佳。

多模态 Community QA

论文：Adapting Visual Question Answering Models for Enhancing Multimodal Community Q&A Platforms

论文地址：https://arxiv.org/abs/1808.09648

本文在解决 Community QA 的子任务的过程中，给出了针对不平衡的图像文本通过学习不同权重的信息融合和构造子任务进行文本图像对齐的方案。

Community QA 的目标不在于为用户的问题生成答案，而在于在广泛的社区论坛中寻找相关的问答，并合理排序，使相关度高的问答排名靠前，用“ user-generated answer ”来回答当前用户的问题。

该文的关注点并没有放在真正的问答上，而是：在 CQA 中 ① 如何为问题分类， ② 如何为用户检索“ expert ”，以期通过解决这两个问题来增强 CQA 平台的表现。

该文的研究数据来自日本版的雅虎的问答社区 Yahoo! Chiebukuro 。雅虎问答中自带问题的标签，只不过标签数据是带层次信息的，在这里为了简化分类预测任务，作者去除了标签的层次化，对父类别与子类别同等对待，并对其进行了筛选，删去了样本数少于5k的标签，最终筛选出 38 类。

针对专家检索这一问题，作者事先筛选了一部分回答数在 50 以上的用户，构成一个专家池，作为检索专家的来源。

MCQA 的提出会很容易被人质疑是否和 VQA 从本质上是一个问题。本文中作者针对两者的区别进行了分析，论证了 MCQA 的特殊性：① VQA 的数据集大部分是人为构造的，问句都相对简短， MCQA 的提问来自互联网，问题描述总会更加复杂，不利于对图像数据作 grounding ，这里的 grounding 指的是将文本中的一个片段与图像数据中的一部分进行匹配；② 且 VQA 的问句在构造的时候会有意识地围绕并针对图像数据提问，而 MCQA 中这样的特点则并不明显，有时 MCQA 中的图像只作对文本的补充和解释，这就导致了图像信息与文本信息的不平衡的问题。

为了解决上述两个问题，作者提出了两个解决方案：学习一个全局的图像特征参数用来解决两个模态的信息不平衡的问题；添加一个辅助任务来确保学习到了图像与文本之间的 grounding 。

（1）Learning a Global Image Feature Weight

在学习全局图像参数时，作者选择了带attention的和不带attention的两种方式：

w/o attention:

在计算

是不仅仅是将 α 与图像向量

相乘，而是加入了 (1-α) 权重下的文本向量信息，这是因为在计算最终的 image-text embedding 时涉及到

与

相乘，若没有加入文本信息，则

就会变成

，把α 同时应用于文本和图像信息这是有问题的，而加了

情况就不一样了。

展开后会变成

，参数就有意义得多了。

with attention:

与不加 attention 的做法略有区别的一点在于这里用到的图像编码信息是 spatial image embedding ，并且在计算图像的 attention 时加入了文本信息，使得当图像确实与问题无关时，系数可以偏向文本，不会出现强行给图像加权重的现象。最后对所有的图像向量进行加权求和得到图像的最终向量，再使用与不带 attention 的方法中一样的式子计算 image-text embedding 。

（2）Learning Grounding Features through Auxiliary Tasks

这是为了确保学习到图像与文本之间的 grounding 附加的一个辅助任务，也就是一个文本与图像的双向匹配任务。作者从已有的数据集中重新构建了两个数据集：一个是图像到文本的匹配训练集，每一组匹配包括( one image，five candidate texts )；一个是文本到图像的匹配训练集，每一组匹配包括( one text，five candidate images )，最后将任务转化为了两个五分类问题。

（3）Training Pipeline

第一步：分开单独训练“问题分类”、“专家检索”、“辅助任务”，因为三个任务用到的文本表示，多模态数据的融合也是不同的。同时主要任务和辅助任务之间的重要程度也是不同的，辅助任务的中的 Embedding 在本阶段训练完成后就不再 fine-tune 了，可以一定程度上减轻训练的负担。

第二步：将生成文本 Embedding 的部分固定下来，并将辅助任务得到的 Embedding 拼接到另外两个任务的 Embedding 上，继续训练剩下的两个任务。

第三步：在足够的 epoch 之后，再 fine-tune 两个主要任务的 Text-CNN ，此时的效果提升不会很明显，只有微小的提高。

多层次的 Image-Phrase Grounding

论文：Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding

论文地址：https://arxiv.org/abs/1811.11683

该论文给出了一个视觉多层次、文本多层次的多模态对齐的方案。

Image-Phrase Grounding 即，在图像中给一个自然语言的短语定位，是众多多模态任务的一个关键部分，例如：image captioning, visual question answering, text-based image retrieval and robotic navigation。

该论文的一个创新点在于抽取了 CNN 模型中的多层而非最后一层作为图像的表示。模型的总体架构如下：

视觉信息抽取模块的结构如下，从 CNN 模型中抽取了 L 层，并使用双线性插值法把每层的结果扩展到一个固定的 M×M 的分辨率上，经过三层 Conv 后摊平成 N 维，故最终得到的视觉向量在一个 N×L×D 的空间内。

文本信息获取的部分如下，使用 ELMo 获得词向量，接两层双向 LSTM ，将每个 token 的 word embedding 以及两层双向 LSTM 对应 token 的状态向量，这三个向量表示进行混合后获得一个基于词的文本表示；并将双向 LSTM 的两个方向最后一个单元的输出拼接，融合两层 BiLSTM 的表示后获得句子级别的文本表示。

最后就是两种模态信息的对齐，流程如下，首先是建立 𝑙 层次上的区域 𝑛 和文本中 𝑡 位置的关联度

，就用 D 维向量的余弦相似度表示，然后用 ReLU 把不相关的文本到图像的关联度变成 0，这里不用 softmax 的原因就是关联度的总和为 1 的假设并不成立。最后获得l层视觉特征经过文字相关过滤后的视觉表示：

接着用

计算 𝑙 层与 𝑡 位置的联系，取 L 层中分数最高的作为与文本对应的分数

，最后计算整个句子的得分：

句子级别的文本信息的使用与词级的类似，最终在计算 Loss 的时候会综合考虑两种级别的文本信息与视觉信息匹配的 Loss 值。

多模态评论生成

论文：Multimodal Review Generation for Recommender Systems

论文地址：https://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=5391&context=sis_research

该论文利用推荐系统中的用户特征、物品特征、图像信息等完成了推荐评分预测，并同时给出了一种评论文本生成的方案。

论文中完成的任务可以表述为：

输入：用户+物品+[图像]
输出：预测评分+评论文本生成

生成的评论文本可以看作是推荐系统产生该预测评分的依据。

论文的大致模型如下：

预测评分：对 one-hot 的用户、物品进行 Embedding ，得到表示向量后输入到多层神经网络中得到预测评分。

评论生成：为了尽可能多得用上信息，首先将用户和物品的向量表示作为 LSTM 的初始值，并对相关的多张图使用 attention 机制后得到的视觉向量信息与预测评分向量融合，然后将融合后的信息拼接到 word embedding 后面，作为 LSTM 的输入。由此完成一个 sequence2sequence 的任务，得到最后生成的评论。

肖仰华教授主编的知识图谱教材《知识图谱：概念与技术》即将出版，敬请关注。为您全面解析知识图谱的概念与技术。

了解更多信息请点击知识工场网站主页：http://kw.fudan.edu.cn/

合作意向、反馈建议请联系我们：

info.knowledgeworks@gmail.com

继续滑动看下一个