该笔记基于:Multimodal Machine Learning:A Survey and Taxonomy
该论文是一篇对多模态机器学习领域的总结和分类,且发表于2017年,算是相当新的综述了。老师在课上推荐阅读,我花了三天大体看了一边,其中有很多实际的方法或者技术对我来说是全新的领域,也是未来学习的方向,但是对这个领域和其想解决的问题有了大致的了解。记录如下:一个领域的挑战是对这个领域所研究的问题和解决方案的概括,举个例子,比如机器视觉中有一个挑战是“遮挡”,这意味着,在面临一个实际计算机视觉问题时,你需要考虑遮挡对你的任务是否有影响,研究对象被遮挡了怎么解决,现有的解决方案是否能满足你的需求,你是否需要改进已有方案。以下是多模态ML所面临的挑战:
表征(Representation)翻译(Translation)对齐(Alignment)融合(Fusion)联合学习(Co-learning)下图是综述中给出的各应用涉及到的挑战
表征也可以理解为表示,即试图通过各模态的信息找到某种对多模态信息的统一表示。当然,在计算机领域,一般都会是一个向量,但维度、各维度的具体值能否具备好的性质就成了关键。那么什么是好的性质呢?这需要具体任务具体分析,一个简单的例子,如果做的是多模态信息检索(就是比如百度搜索“在捉老鼠的猫”,能得到一系列图片和视频),学习出的视频、图片、文本的表征(向量)的相似性非常重要,来自同一个体的不同模态信息的表征(向量)间应具备更高的相似程度。
来自综述中的定义:“we use the term feature and representation interchangeably, with each referring to a vector or tensor representation of an entity, be it an image, audio sample, individual word, or a sentence. A multimodal representation is a representation of data using information from multiple such entities. ”表征是一个非常基础的任务,好的表征能极大的提高模型的表现。表征任务的困难点:如何结合异质性的来源的数据,比如文字是符号性的,图片是一个RGB矩阵,视频是时序的RGB矩阵,声音需要采样成一个一位数组;如何处理不同级别的噪音,原因是不同模态产生的噪声是不同的;如何处理数据缺失的问题好的表征应具备的性质: 平滑 smoothness, 可以类比一下自然语言处理中语言模型的平滑时序和空间一致性 temporal and spatial coherence稀疏性 sparsity自然聚类 natural clustering(我不太确定怎么翻译,暂时这样)在表征空间的相似性应能够反映出表征所对应的概念的相似性 similarity in the representation space should reflect the similarity of the corresponding concepts即使在某些模态数据缺失的情况下,这种多模态的表征依旧能够轻松获得 the representation should be easy to obtain even in the absence of some modalities应能够在给出被观察到的其他模态的数据后,填补出缺失的模态数据 ,it should be possible to fill-in missing modalities given the observed ones两种主要的表征思路 Joint representationsCoordinated representations表征技术一览表,其中[#]是综述中引用的论文编号融合是MMML最早的关注点之一。
多模态融合指从多个模态信息中整合信息来完成分类或回归任务。“multimodal fusion is the concept of integrating information from multiple modalities with the goal of predicting an outcome measure: a class (e.g., happy vs. sad) through classification, or a continuous value (e.g., positivity of sentiment) through regression.”融合还有更宽泛的定义,而综述中的定义的融合,是指任务在最后预测并以预测输出值为目的时才进行多模态整合。在深度神经网络方法下,融合和表征两个任务是很难区分的。但在图模型以及基于核的方法中比较好区分。(我暂时也没法解释这一段,需要进一步研究)融合的价值 在观察同一个现象时引入多个模态,可能带来更健壮(robust)的预测接触多个模态的信息,可能让我们捕捉到互补的信息(complementary information),尤其是这些信息在单模态下并不“可见”时一个多模态系统在缺失某一个模态时依旧能工作多模态融合有两大类:无模型 model-agnostic / 基于模型 model-basedmodel-agnostic:不直接依赖于某个特定的机器学习算法 进一步分为early\late\hybrid fusionearly fusion,也称为feature-based,基于特征。通常是在各模态特征被抽取后就进行融合,通常只是简单的连接他们的表征,也就是joint representation,直接连接多个向量。并使用融合后的数据进行模型训练,相比之后两种在训练上更为简单。late fusion,也称为decision-based,基于决策的。该方法在各个模态做出决策后才进行融合,得出最终的决策。常见的机制有平均(averaging)、投票(voting schemes)等等。这种方法中,各模态可以使用不同的模型来训练,带来更多的便利性。hybrid fusion,一种尝试结合early fusion和late fusion优势的方法。model-based:显式的在构造中完成融合 Multiple Kernel learning(MKL),多核学习Graphical models,图模型Neural Networks,神经网络神经网络在近期成为解决融合问题非常流行的方案,然而图模型以及多核学习依旧被使用,尤其是在有限的训练数据和模型可解释性非常重要的情况下。融合任务的困难点: 信号可能并不是时序对齐的(temporally aligned)。很可能是密集的连续信号和稀疏的事件(比如一大段视频只对应一个词,然后整个视频只对应稀少的几个词)。it is difficult to build models that exploit supplementary and not only complementary information(翻译不出来,综述在最开始也提到过supplementary和complementary是两种模态间的关系)每一个模态在不同的时间点可能表现出不同的形式和不同等级的噪声技术和实际应用一览表