什么是跨模态搜索，主要的技术方向有哪些？

2018-07-13 07:26:37 佚名

浪浪的老唐

首先介绍一下什么是模态。这里模态指的就是文字、图像、声音、视频等信息的载体。跨模态信息搜索（又称跨媒体搜索）就是通过寻找不同模态之间的关系，实现利用某一种模态样本，去检索近似语义的其他模态样本。

下图就是图文搜索的过程示意，输入要查询的信息图片或文字，然后在数据库中找到与之有相同语义的图文，最后返回结果。

跨模态搜索的难点在于如何比较不同模态之间数据的相似度。因为模态之间的信息表达形式差别很大，因此首先需要将他们转化为方便进行比较的表示。最常用的表示方式就是对数据提取特征得到数据的特征向量。而不同的文本所对应的向量空间仍有很大的差异。所以还需要进一步的将不同模态都映射到同一语义空间中来进行比较。

按照向量的表示不同，跨模态搜索可以分为实值表示和二值表示。即向量是实数还是0-1。表示成0-1的好处在于能够加快搜索比较的速度。

而依据学习的数据形式不同，跨模态搜索还能够划分为一下四种

1）无监督学习，指的是对共现信息的表示学习。共现信息就是只要不同模态的数据出现在一起，就可以认为他们是相关联的。比如网页中新闻的图片和文字信息等等。

2）成对的数据的学习，即不同模态的数据已经成对匹配好了。而在此基础之上进行跨模态信息的检索。

3）基于排序的学习，关键在于如何设计出he

4）监督学习，利用已经人为标记好的标签信息来进行学习。不仅要学习出不同模态下相同语义的关系，同时也还要学习出不同模态的相同标签之间数据的关系。

ICMLL实验室

一、概念

这样来理解就会很简单的：

如今，是移动互联网时代,每个人都能随时随地、自由地通过网络发布信息、传递信息和接收信息。这些信息中通常包含文字、语音、图片、视频等多模态数据。在日常搜索中，单纯的文字搜索、语音的搜索，就是单模态搜索。而以一种模态如文字，同时去搜索相关的图片、语音与视频的话，就叫做跨模态搜索。

简单吧！但是技术跨越却并不能那么简单。

根据这一定义，你是不是就轻易知道：跨模态搜索将是未来社会、人们生活发展的方向和必须了吧！！

二、憧憬：未来趋势

“跨模态搜索”这个概念，现在看起来很生僻，但是，未来会非常普及的，就像如今文案需要打印，而不像1990年代，要用笔书写一样，这是社会、人们生活发展的必然趋势。

三、典型技术方向

这么数年，据我浅薄的观察，主要有四种比较典型的跨模态检索方法：

1、线性迭代和映射。该种检索方法是结合doc2vec和ITQ的跨模态多媒体信息检索。

2、非线性流形。是基于主题模型的跨模态多媒体信息检索。

3、概率模型。融合多特征的跨模态信息检索方法，该种方法的目的都是旨在以不同的方式来桥接不同模态如图像、文本、视频、音频等的多媒体信息。

4、异构分析。

5、另外，还有哈希算法运用的方向。

四、深度学习的技术方向

一些专业人士认为，基于神经网络的深度学习，或许是未来最能看好的方向。

这是因为，近年来,深度学习技术在图像、语音、自然语言处理等各个领域都取得重大的进展，展示出深度学习模型具有处理不同模态信息的能力，其在处理不同模态信息时模型结构上的类似性，以及逐层深入的编码能力，为建立跨模态信息检索模型提供了有力的工具。

不过，目前在效果方面似乎并没有明显超越传统方法。

关于这一技术突破的难度，需得研究深度学习的本质。

就深度学习本身来说：

深度学习的“深”就是有很多隐层，其实质就是通过构建具有很多隐层的模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。我们以识别“老虎”为任务的机器系统为例，最底层识别颜色或轮廓等简单的东西，层次往上，识别的特征越复杂，比如皮毛或眼睛等，最顶层则会将所有特征汇总最终确定其对象是老虎。同样的学习方法也可被应用到其他方面，包括文本中形成句子的字节、演讲中所用词汇的发音和词汇，或者驾驶所需的方向盘动作等。其好处：无监督训练，节省大量人力标识工作，且有能力处理大量的数据；相比传统浅层学习的神经网络，通过逐层训练的方法降低了训练的难度；深度学习比浅层学习算法往往有20-30%成绩的提高。

——摘自《新未来简史》（是“新”，非《未来简史》）一书

看来，深度学习比曾经的浅层学习也只能提升20-30%成绩，然后，似乎就又遇到瓶颈了。

实际上，这种跨模态搜索，与机器学习的中的“通用学习”有些类似。

五、对抗学习GAN提升跨模态检索效果

比如阿里巴巴AI Labs等团队最新工作，就是这一课题，链接：https://cloud.tencent.com/developer/article/1093141。

但是，你利用对抗学习的时候，就会出现：

如果你模仿某人去完成某个任务（生成网络），如果顶级高手（对抗网络）都无法分辨这一事项是你完成抑或是模仿完成的，这说明你已经完全掌握了该任务的所有技能。但是，对于巨幅精细而难度很高的绘画作品、撰写论文这些复杂事项，可能就不再那么适用了。看来，对抗学习也有它的局限性，也仅仅在中等难度的任务具有广泛地实用性而已。

——摘自《新未来简史》（是“新”，非《未来简史》）一书

然而机器（或AI）的“通用学习”要实现有多难，几乎不能跨越。关于这些的深度论述，建议读一读《新未来简史》一书的第8章，用了2万余字来分析这些问题。所谓“汝果欲学诗、功夫在诗外”！

前沿互动

首先呢，与传统的单模态搜索不同，在跨模态搜索中，搜索结果的模态和查询的模态是不同的。比如，用户使用图像搜索文本，视频和音频。跨模态搜索的关键在于对不同模态的关系进行建模，难点就是跨越语义鸿沟。然而，当要搜索的文档包含多模态的时候，一般的跨模态方法就无法直接应用到多模态搜索。

还有一种多模态搜索，多模态搜索方法可以处理带有多个模态的多媒体数据，在多模态搜索中，查询和要搜索的文档可能包含不止一个模态。多模态搜索方法可以用来提高单模态搜索的准确度。多模态和跨模态搜索的主要区别在于: 在多模态搜索中，查询和要搜索的文档必须至少有一个模态是相同的。多模态方法通常是融合不同的模态进行搜索，而不是对他们的关系进行建模。比如，在许多多模态图像搜索系统中，查询图像可能都有相关的文本，要搜索的图像也包含相关的文本信息。而如果查询和要搜索的文档没有相同的模态，那么这就是跨模态要解决的问题，传统的多模态方法就无能为力了。

主要的技术方向我知道的有以下几点：哈希学习、深度学习、协同训练、核典型相关分析与神经网络

分享到:

關鍵字: 搜索科技模态