多模态算法漫谈-天翼云开发者社区

1. 关键特征

与单模态学习不同，多模态任务可以学习到单模态情况下难学习到的信息，或者需要更多的数据才能学习到的信息。使用多模态数据，可以让不同模态数据之间相互借鉴，相互验证，提升单模态能力，特别是存在在数据较少或者学习能力差的模态情况下，可以通过从较强的模态中迁移能力来优化弱模态的学习结果。如果要微调的模型是多模态的，那么在相同的资源情况下，其效果往往比单模态模型更好。在这种情况下，使用多模态模型的性价比会更高。加入多模态信息后，相对参数规模较小的模型也能更容易获得“智能涌现”能力，如小LLM模型加入视觉模块，也获得了思维链（CoT）的能力，相比大LLM参数更少。人工智能著名学者杨老师（Yann LeCun）认为，单靠语言模型是无法实现AGI的，人类自身是多模态学习的生物，而且很多信息在单纯的语言中难以体现。当GPT3.5或GPT-4刚出现时，很多人觉得离通用人工智能（AGI）似乎越来越近了，但现在看来，LLM仍存在很多难以解决的问题。在模型参数达到1000亿级别之后，增加更多的参数只能带来越来越小的收益。目前多模态学习被认为是通往通用人工智能（AGI）最有前景的候选路径之一。

2. 典型任务

如图所示，多模态学习的典型任务包括跨模态预训练、文本-语音描述生成、视觉-语音内容描述生成、视觉-文本内容描述生成、多模态定位及其他模态任务等。目前基于视觉-文本类的多模态任务进展迅速，其中文图搜索、图文内容描述、图文内容理解、多模态图文对话，以及AIGC类的以文生图、以图改图等任务表现活跃，已经有诸多的学术成果和工业演示级产品样例出现，带给业界无限的想象空间，也具备非常有潜力的商业前景。

3. 最新模型

3.1 CLIP

CLIP全称Contrastive Language-Image Pre-training，是OpenAI最新的一篇NLP和CV结合的多模态的工作，在多模态领域迈出了重要的一步。CLIP在无需利用ImageNet的数据和标签进行训练的情况下，就可以达到ResNet50在ImageNet数据集上有监督训练的结果。CLIP主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征，训练数据中，采用弱对齐的海量图像文本对进行对比学习，可用于图文检索、zero-shot分类等任务。

3.2 BLIP2

BLIP-2 是 Saleforce 的工作。该工作的主要目标是在多模态模型中引入已训练好的模型，通过只训练少量的模型参数来获得好的效果。这种方式有点像使用胶水将已经训练好的，功能强大的单模态模型粘连在一起。在他们的例子中，他们使用了在CLIP中训练好的图像编码器，并在此基础上添加了一个语言模型（OPT 或者 FlanT5）。这样生成的模型可以用来执行视觉问答（VQA）任务，即给定一张图片，模型需要回答关于该图片的问题。这种方法的优点是它能够复用已经训练好的模型，并且只需要训练相对较少的参数。这在某种程度上减轻了训练的压力，降低了训练资源的消耗，并且还能保持相当不错的效果。

3.3 Multimodal-CoT

Multimodal-CoT是近期亚马逊李沐团队的工作。该工作的目标是探索通过添加视觉信息，是否可以使小型语言模型也具有推理能力。作者的结论是，通过引入视觉信息，小型语言模型确实能够实现某种程度的推理能力。如果没有视觉信息，只有文本信息，那么语言模型的参数规模大约需要达到1000亿。因此，通过引入多模态信息，语言模型的能力确实可以得到提升。

3.4 ImageBind

今年的一个新趋势是，是融合更多模态数据的多模态模型。以前，大部分的工作都关注在两个或最多三个模态，比如文本和图像，或者文本和语音。最近，Meta开源的模型 ImageBind，该模型利用了6个模态的数据进行训练，包括视觉、文本、声音、深度图、热力图以及运动向量图。这个模型的训练过程相当于训练了五个双模态模型，每一个都是其他五个模态与视觉模态的结合。通过这样的方式，所有的模态都被对齐到图像模态的表示空间，从而可以把所有的模态统一到一个共享的表示空间。

4. 最新模型

多模态学习是一种从异构和互联数据中进行学习的范式。目前主要采用Transformer的建模框架，将多源异构的数据做token化后，映射到统一空间进行对齐、融合和编码处理后，再通过解码器实现各种下游任务。不同模态的数据之间相互借鉴、相互启发、相互验证，从而显著提升模型的表征和泛化能力。多模态学习具有巨大发展潜力，被认为是目前最可能实现通用人工智能AGI的技术路径。

尽管多模态当前已经取得很大进展，但面临的挑战依旧很大。例如，如何采集噪音小的多模态对齐数据？如何让模型更好地学习到不同粒度的对齐能力，可迁移能力，如何进行客观全面的基准测评等，仍然值得业界进行探索和实践。

1. 关键特征

2. 典型任务

3. 最新模型

3.1 CLIP

3.2 BLIP2

3.3 Multimodal-CoT

3.4 ImageBind

4. 最新模型

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

多模态算法漫谈

1. 关键特征

2. 典型任务

3. 最新模型

3.1 CLIP

3.2 BLIP2

3.3 Multimodal-CoT

3.4 ImageBind

4. 最新模型

多模态算法漫谈

1. 关键特征

2. 典型任务

3. 最新模型

3.1 CLIP

3.2 BLIP2

3.3 Multimodal-CoT

3.4 ImageBind

4. 最新模型

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

多模态算法漫谈

1. 关键特征

2. 典型任务

3. 最新模型

3.1 CLIP

3.2 BLIP2

3.3 Multimodal-CoT

3.4 ImageBind

4. 最新模型

多模态算法漫谈

1. 关键特征

2. 典型任务

3. 最新模型

3.1 CLIP

3.2 BLIP2

3.3 Multimodal-CoT

3.4 ImageBind

4. 最新模型