多模态技术综述

简介: 多模态技术综述

当我们谈到人类感知的多样性时,我们会意识到不同的感官信息对我们的认知和理解是至关重要的。例如,我们在观看一部电影时,不仅仅是通过视觉来理解其中的情节,还可以通过声音、配乐、文字等多种方式来获得更加丰富的信息。类似地,对于一张图片或一段文字,我们也可以从多个角度来理解和感知它们。在机器学习领域中,这种多种形式的感知被称为多模态学习。


多模态学习旨在将多种不同形式的数据结合在一起进行分析和处理,例如图像、声音、文本等。多模态深度学习是一种基于深度学习的多模态学习方法,旨在通过深度神经网络来处理和分析多模态数据集。与传统的深度学习方法不同,多模态深度学习需要解决许多挑战,例如如何将不同形式的数据结合在一起、如何选择合适的网络结构和损失函数等。


在本文中,我们将探讨多模态深度学习的定义、工作原理、挑战以及深度学习模型如何处理多模态输入。我们希望通过本文的介绍,读者能够更好地理解多模态深度学习的概念和应用,以及对未来的研究和发展产生启示,


什么是多模式深度学习


多模态机器学习是对计算机算法的研究,通过使用多模态数据集来学习和提高性能。


多模式深度学习是一个机器学习子领域,旨在训练人工智能模型来处理和找到不同类型的数据(模式)之间的关系,通常是图像、视频、音频和文本。通过组合不同的模式,深度学习模型可以更普遍地理解其环境,因为一些线索只存在于某些模式中。


想象一下情绪识别的任务。它不仅仅是看着人脸(视觉模态)。一个人的声音(音频模式)的音调和音高编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。


单模态或单模态模型,即只处理单一模态的模型,已经得到了很大程度的研究,并在计算机视觉和自然语言处理等前沿领域取得了非凡的成果。然而,单模态深度学习的能力有限,因此需要多模态模型。


下图是单模态模型在某些任务中失败的例子,比如识别讽刺或仇恨言论。


将图像和文本结合起来,创造一个讽刺的表情包。单模态模型无法感知这种讽刺,因为每个模态只包含一半的信息。相比之下,处理文本和图像的多模态模型可以将两者联系起来,并发现更深层次的含义。


多模式模型通常依赖于深度神经网络,尽管其他机器学习模型,如隐马尔可夫模型HMM,已被纳入早期研究。


在多模式深度学习中,最典型的模式是视觉(图像、视频)、文本和听觉(语音、声音、音乐)。然而,其他不太典型的模态包括3D视觉数据、深度传感器数据和激光雷达数据(典型的自动驾驶汽车)。在临床实践中,成像模式包括计算机断层扫描(CT)和X射线图像,而非图像模式包括脑电图(EEG)数据。传感器数据,如热数据或来自眼睛跟踪设备的数据也可以包括在列表中。


上述单模态数据的任何组合都会产生多模态数据集。例如,以下的组合:


视频+激光雷达+深度数据为自动驾驶汽车应用创建了一个出色的数据集。

EEG+眼动追踪设备数据,创建了一个将眼动与大脑活动联系起来的多模式数据集。

然而,最受欢迎的组合是三种最受欢迎模式的组合


Image + Text

Image + Audio

Image + Text + Audio

Text + Audio

从人工智能发展来看,深度学习符号学,模仿人体的神经元,希望实现有人一样的思考能力,但单模态的模型只能针对单一的任务,严格说跟人比所展示出的能力差太多,而多模态的模型才有点像模仿人类(因为人类对于外界接受的信息,就是来自于五个感官,就目前嗅觉难搞)。这种模型才算得上是人工智能


数码宝贝3,主角团要战胜恶魔,光靠一个数码兽是不行的,要结合主角人自己和数码兽一起融合才能打败数码恶魔,

只有启人和基尔兽联合进化成为红莲骑士兽,才能打败帝厉魔


52739098d81547fca6a9648a13407b6c.png


多模态深度学习分支

be7602ab9bab4e88a76e55d0bacf8c4e.png

我们可以把多模态深度学习可以分成三个分支:

  • 模态联合学习
  • 跨模态学习
  • 多模态自监督学习

这些分支都旨在通过整合多个数据源来提高深度学习的性能,从而更好地解决复杂的任务。


模态联合学习


在模态联合学习中,深度学习模型将多个模态的信息(如图像、文本、音频等)联合起来,以获得更好的性能。具体而言,这种方法可以通过融合多个模态的表示,来建立一个更为丰富和全面的模型。常见的模态联合学习模型包括Multimodal Compact Bilinear Pooling和Cross-Modal Retrieval。


跨模态学习


跨模态学习是指将模型在一个模态中学到的知识转移到另一个模态中,以提高模型在新模态中的性能。这种方法的基本思想是通过共享模型的某些部分,来将模型在一个模态中的知识应用于另一个模态中。典型的跨模态学习模型包括Deep Cross-Modal Projection Learning和Cross-Modal Transfer Learning。


多模态自监督学习


多模态自监督学习是指使用多个模态之间的关系来训练模型,而无需显式的标签信息。这种方法的核心思想是在多个模态之间建立自监督任务,从而获得一个共同的表示。典型的多模态自监督学习模型包括Joint Audio-Visual Self-Supervised Learning和SimCLR-MultiTask。这三种方法都可以提高模型的性能,并且在不同的任务中有着广泛的应用


从技术分支来看,可以总结为,多模态关注的方面,一个是模态之间如何联合一起工作,一个是模态之间如何转换,一个是模态数据集


多模式学习挑战


多模式深度学习旨在解决五个核心挑战,这五个挑战是活跃的研究领域。对以下任何挑战的解决方案或改进都将推动多模式人工智能的研究和实践。


多模态表示


多模态表示是以向量或张量的形式对来自多个模态的数据进行编码的任务。


1687316461496.png


多模态融合


多模态融合是将来自不同传感器或不同数据源的多个模态(如图像、文本、音频等)的信息融合起来,以提高任务的准确性和效率。


以下是一些常见的多模态融合技术:


基于特征提取的融合:将不同模态的特征提取器(如卷积神经网络、循环神经网络等)提取的特征进行融合,例如加权求和、拼接等方式。

基于映射的融合:通过学习映射函数,将不同模态的数据映射到同一特征空间中进行融合。

基于图模型的融合:使用图模型(如条件随机场、图卷积网络等)来对多模态数据进行建模和融合。

基于注意力机制的融合:通过学习注意力权重来对不同模态的信息进行加权融合,以提高重要信息的影响。基于生成式对抗网络(GAN)的融合:通过训练生成式对抗网络,将不同模态的信息融合到一个生成器中,生成器可用于特定任务的输出。

基于传感器融合的融合:将多个传感器的输出信息进行融合,以提高准确性和鲁棒性。

以上技术可以单独使用或组合使用,以适应不同的任务和数据类型。


模态对齐


模态对齐是指识别不同模式之间的直接关系的任务。


当前对多模态学习的研究旨在创建模态不变表示。这意味着,当不同的模态引用相似的语义概念时,它们的表示必须在潜在空间中相似/接近。


例如,“她跳进了游泳池”这句话、游泳池的图像和飞溅声的音频信号应该在表示空间的歧管中紧密地放在一起。


模态翻译


翻译是将一种模态映射到另一种模态的行为。其主要思想是如何在保留语义的同时将一种模态(例如,文本模态)翻译为另一种(例如,视觉模态)。然而,翻译是开放的、主观的,不存在完美的答案,这增加了任务的复杂性。


目前对多模态学习的部分研究是构建生成模型,在不同模态之间进行翻译。最近的DALL-E和其他文本到图像模型是将文本模态转换为视觉模态的这种生成模型的很好的例子。


多模式学习是如何运行的


多模式神经网络通常是多个单模式神经网络的组合。


例如,视听模型可能由两个单模态网络组成,一个用于视觉数据,另一个用于音频数据。


这些单模态神经网络通常分别处理它们的输入。这个过程被称为编码。在进行单模态编码之后,必须将从每个模型中提取的信息融合在一起。已经提出了多种融合技术,从简单的串联到注意力机制。多模态数据融合过程是最重要的成功因素之一。融合发生后,最终的“决策”网络接受融合的编码信息,并在最终任务中进行训练。



简单地说,多模式体系结构通常由三部分组成:


对单个模态进行编码的单模编码器。通常,每个输入模态一个。

一个融合网络,在编码阶段将从每个输入模态提取的特征进行组合。

一个接受融合数据并进行预测的分类器。

我们将上面的模块称为编码模块(DL Module)、融合模块和分类模块,如图所示:


44edc7a9b2fc4a67ae029558c8f97ed0.png

具体多模态做什么任务就需要下游这个Fusion Module 3模块用什么模型,如果是做生成类的模型,那就需要用到解码器这样的模块,比如transformer(因为它又可以做为解码器,也可以做为编码器)


多模态模型,将我们人类视角下的一些信息,转为计算机视角下的向量后,就好比我们掌握了这个信息,模型也掌握了这个信息,接下来的任务,就像是我们基于学到的知识,所能够做出的行为一样


现在让我们深入了解每个组件,这里以分类模型为例


Encoding


在编码过程中,我们试图创建有意义的表示。


通常,每个单独的模态都由不同的单模编码器处理。然而,通常情况下,输入是嵌入的形式,而不是原始形式。例如,word2vec嵌入可以用于文本,COVAREP嵌入可以用来音频。data2veq等多模式嵌入将视频、文本和音频数据转换为高维空间中的嵌入,是最新的实践之一,在许多任务中都优于其他实现SOTA性能的嵌入。


但是transformer结构可以完全适配文本、图像、视频、音频这样的多模态数据。


决定是否更适合使用联合表示或协调表示(在表示挑战中解释)是一个重要的决定。通常,当模态性质相似时,联合表示方法效果很好,这是最常用的方法。

在实践中,当设计多模式网络时,编码器更多是根据在每个领域工作良好的情况来选择的。


许多多模态研究论文以来,研究内容更多地强调了融合方法的设计,因此在视觉模态这块,更多选择的编码器是ResNets,使用RoBERTA作为文本的编码器。


融合


多模态融合是指将不同模态(例如图像、文本和音频)的信息整合起来,以提高模型的性能


最简单的方法是使用简单的操作,例如连接不同的单模态向量表示,或者求和不同的单模态向量表示。


在多模态融合中,交叉注意力机制是一种常用的技术,用于在不同模态之间交互信息,以获得更丰富的表示。交叉注意力机制可以通过在多个模态之间交叉计算注意力得分,来建立它们之间的相互关系。以两个模态(例如图像和文本)为例,假设它们的特征表示分别为 x xx 和 y yy。交叉注意力机制可以通过以下公式来计算它们之间的关系:


1687316602571.png

Classification


1687316623351.png

多模式深度学习数据集


为了推进这一领域,研究人员和组织创建并分发了多个多模式数据集。以下是最受欢迎的数据集的综合列表:


COCO-Captions Dataset:一个多模式数据集,包含330K张图像和简短的文本描述。该数据集由微软发布,旨在推进图像字幕的研究。

VQA:一个视觉问答多模式数据集,包含265K个图像(视觉),每个图像至少有三个问题(文本)。这些问题需要理解视觉、语言和常识才能回答。适用于视觉问答和图像字幕。

CMU-MOSEI:多模态意见情绪和情绪强度(MOSEI)是一个用于人类情绪识别和情绪分析的多模态数据集。它包含23500个句子,由1000名YouTube演讲者朗读。该数据集将视频、音频和文本模态组合在一起。一个完美的数据集,用于在三种最流行的数据模式上训练模型。

Social-IQ:一个完美的多模态数据集,用于训练视觉推理、多模态问答和社交互动理解的深度学习模型。包含1250个音频视频,严格注释(在动作层面),其中包含与每个场景中发生的动作相关的问题和答案(文本)。

kinetics 400/600/700:这个视听数据集是用于人类动作识别的Youtube视频集。它包含人们进行各种动作的视频(视觉模态)和声音(音频模态),如播放音乐、拥抱、运动等。该数据集适用于动作识别、人体姿势估计或场景理解。

RGB-D Object Dataset:一个结合了视觉和传感器模态的多模态数据集。一个传感器是RGB,对图片中的颜色进行编码,而另一个是深度传感器,对物体与相机的距离进行编码。该数据集包含300个家庭物品和22个场景的视频,相当于250K张图像。它已被用于3D对象检测或深度估计任务。

其他多模式数据集包括IEMOCAP、CMU-MOSI、MPI-SINTEL、SCENE-FLOW、HOW2、COIN和MOUD。

相关文章
|
3月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
273 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
3月前
|
人工智能 搜索推荐 API
AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营
4月24日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。
131 2
|
3月前
|
人工智能 自然语言处理 知识图谱
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。
401 0
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
|
2月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
145 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
2月前
|
人工智能 负载均衡 API
长连接网关技术专题(十二):大模型时代多模型AI网关的架构设计与实现
随着 AI 技术快速发展,业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时,AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用,此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此,与传统微服务架构类似,我们将相关 API 管理的功能(如流量控制、用户鉴权、配额计费、负载均衡、API 路由等)集中放置在 AI 网关层,可以降低系统整体复杂度并提升可维护性。 本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结,希望能带给你启发。
133 4
|
2月前
|
人工智能 前端开发 开发工具
对话阿里云通义灵码技术负责人陈鑫:AI编程的现状与未来
在AI快速发展的2025年,通义灵码作为国内领先的AI编程助手,正通过其独特的智能体架构和强大模型能力重新定义开发方式。本文邀请技术负责人陈鑫(神秀),探讨AI编程现状与未来。通义灵码基于Qwen3模型打造,具备记忆系统革新、MCP工具生态和多模态交互等优势,推出三种工作模式以适应不同场景。尽管行业仍面临挑战,但国产模型正在崛起,企业可采用“三步走”策略引入AI工具。未来,AI将从辅助走向主导,深化代码理解并重构开发工具,助力更高效、创造性的编程方式。
|
2月前
|
人工智能 自然语言处理 安全
通义灵码技术进阶实战:三个企业级应用案例深度解析
本文介绍了通义灵码在企业级场景中的三个真实应用案例:一是优化金融交易系统性能,通过改进代码锁机制将延迟降至8ms;二是为电商平台设计弹性扩容方案,在双11期间成功应对流量高峰并降低40%资源成本;三是帮助跨国团队统一代码规范,显著减少冲突率并提升协作效率。文章还总结了技术进阶的关键要点,包括上下文工程、明确约束、文化适配和迭代优化,并提出了将通义灵码融入DevSecOps流程的建议,展示了其作为核心生产力工具的价值。
152 14
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
447 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
OSZAR »