人类通过多种感官融合来感知世界: 视觉、听觉、触觉、语言等等。现代人工智能正试图做到同样的事情。多模态机器学习研究如何结合不同类型的信号——图像、音频、文本、传感器数据——使系统能够以更丰富、更接近人类的方式理解世界。
卡内基梅隆大学的研究人员发表了一篇系统性的综述论文——《多模态机器学习的基础与趋势》,为该领域勾勒出了一条清晰的、有原则的路线图。它将该领域提炼为三个基本原则和一个包含六大核心技术挑战的分类体系。本文将带你导览这条路线图: 我们将解析这三个原则,逐步探索六大挑战 (及其子问题) ,展示它们的关联,并重点介绍那些可能塑造未来十年多模态研究的开放问题。
先从整体出发: 为什么多模态如此困难,又为什么它如此重要。

图1: 多模态学习的核心研究挑战: 表示、对齐、推理、生成、迁移和量化。这些模块相互关联——表示与对齐支撑推理与生成,迁移复用不同模态间的表示,量化则评估并指导整个过程。
为什么多模态学习是一个充满活力又困难重重的研究领域?因为感知模态是 (1) 异构的, (2) 相互关联的, (3) 可交互的。理解这三个原则是组织该领域发展的关键。
三大基本原则
这些是论文所构建的概念支柱。它们解释了多模态AI的潜力与张力。
- 模态是异构的: 不同感官以不同格式、不同粒度编码信息,并具有不同的噪声特征。
- 模态是相互关联的: 不同模态的信号往往指向相同的底层事件或语义——它们在统计上相关,在语义上映射。
- 模态是可交互的: 当模态结合时,它们可以相互强化、调节,甚至创造新的含义 (例如讽刺: 词语 + 语调 + 面部表情) 。
我们将逐一展开这些原则,并说明它们的重要性。
原则1 — 模态是异构的
每种模态都有自身的原始元素 (像素、波形采样、词元) 、分布、结构 (空间、时间、层级) 、信息量、典型噪声和任务相关性。若将所有模态视为可互换的词元,就会丢失重要的结构。

图2: 异构性的维度。异构性涵盖 (1) 元素及其分布, (2) 元素之间的结构 (层次、空间/时间布局) , (3) 信息内容, (4) 噪声模式,以及 (5) 任务相关性。
实际意义: 设计特定于模态的编码器 (例如用于图像的CNN、用于语言的Transformer、专用音频前端) ,或采用能够尊重模态差异的灵活架构,而非过早强行同质化输入。
原则2 — 模态是相互关联的
跨模态信号往往对应同一事件或概念。这些联系体现于两个互补层面:
- 统计层面: 共现、相关性、时间/因果依赖。
- 语义层面: 指称关系 (词语指向对象) 、功能关系或更高阶的概念联系。

图3: 模态连接的范围从统计关联 (共现、相关性、依赖) 到语义对应 (指称) 及更高层关系 (功能、因果) 。模型既可以从数据中发现这种连接,也可以利用语义知识。
实际意义: 对齐机制和跨模态目标 (如图像与文本间的对比学习) 是利用这些联系的核心工具。
原则3 — 模态是可交互的
连接是数据的属性,而交互是模型在融合多模态进行推理时产生的行为——这种融合往往能生成任何单一模态无法提供的涌现信息。
考虑冗余与协同: 两种模态可能重复同样的信息 (冗余) ,也可能结合后产生新信息 (协同) 。交互机制可能是加性的 (简单融合) 、乘性的 (特征门控) 、因果的或逻辑性的。

图4: 模态交互的维度。交互的特征在于信息类型 (冗余 vs. 非冗余) 、组合机制 (加性、乘性、逻辑性) 以及所产生的响应 (等价、增强、调节、涌现) 。
实际意义: 诸如讽刺检测、多模态情感分析或复杂推理等任务,需要模型能够捕捉非加性且结构化的交互。
在理解这些原则后,论文提出了六大核心挑战的分类体系。每个挑战都汇聚了相关研究问题、方法与开放议题。
六大核心挑战 (概述)
该分类体系将庞杂的研究文献精炼为六类:
- 表示
- 对齐
- 推理
- 生成
- 迁移
- 量化

图5: 六大核心挑战的分类摘要。各列展示子挑战与典型方法,帮助定位新方法并识别研究空白。
接下来,我们逐一剖析这些挑战、它们的子问题、常用方法及实际启示。
挑战1 — 表示
如何为多模态数据设计有效的编码?表示策略必须捕捉异构性与模态间的关联。该综述将问题划分为三类: 融合、协同、分解。

图6: 表示策略的分类。融合将模态信息合并为联合向量。协同将独立的模态嵌入对齐至公共空间。分解则将模态数据因子化为解耦的子空间。
1a — 融合: 在联合向量中合并模态
融合将各模态流整合为共享表示。主要策略包括:
- 后期/抽象融合: 分别编码各模态 (使用专用编码器) ,再在高层嵌入中融合 (拼接、相加、注意力、双线性/张量融合、Transformer交叉注意力) 。
- 早期/原始融合: 直接结合原始或轻度处理的输入,放入联合模型中。这能捕捉低层交互,但要求模型处理强异构性。
常用算子包括加性 (求和/拼接) 、乘性 (门控、双线性机制) 、张量融合 (显式高阶交互) 、注意力机制及条件模块。各方法在表达力、计算量、可解释性间平衡。
要点: 大多数任务中以模态特定编码器为基础,并结合注意力或低秩多模态融合;仅在模态结构相似或能应对异构性时考虑早期融合。
1b — 协同: 保持模态分离但保持对齐
协同保持模态特定表示的独立性,同时学习它们的映射或相似性。两端形式:
- 强协同: 对语义匹配样本强制近似等价 (对比学习,CLIP风格目标) 。
- 弱协同: 捕捉较弱关系 (顺序、层次、相关性) ,不强制嵌入一致。
工具包括: 对比学习、典型相关分析 (CCA及其深度变体) 、有序嵌入及结构化损失。协同适用于检索、跨模态匹配或模块化复用。
1c — 分解: 因子化与解耦表示
分解将多模态信号拆成可解释组件——模态特定因子、共享因子或细粒度潜在子空间,有助于提升可解释性、可控性与鲁棒性。
- 模态级分解: 区分共享与模态独有变量 (多模态VAE、专家乘积或专家混合模型) 。
- 细粒度分解: 进一步分解为簇、主题子空间或独立因子 (解耦、聚类、子空间分解) 。
有用技巧: 事后归因 (如Shapley或EMAP) 可分离单模态贡献与跨模态交互,即使模型是黑盒。
要点: 分解适用于需要可解释性或精细控制的场景 (如编辑生成输出或诊断模态贡献) 。
挑战2 — 对齐
对齐研究不同模态间的对应关系。它可以是离散的 (词到区域) 、连续的 (时间序列扭曲) ,或通过上下文化表示实现。

图9: 对齐类别。离散对齐匹配分段元素,连续对齐通过扭曲或分割处理信号,上下文表示利用对齐学习更丰富的跨模态嵌入。
2a — 离散对齐
适用于已分段的模态 (词、图像区域、框) :
- 局部对齐: 监督或对比方法匹配已知配对 (区域–短语、短语–视频帧) 。
- 全局对齐: 当配对未知时,通过匹配算法或最优传输找到元素之间的对应。
常用方法: 区域语言检测器、注意力对齐、最优传输。
2b — 连续对齐
信号常为连续流 (音频、视频、传感器数据) ,难以分段。
两种策略:
- 连续扭曲: 用动态时间规整 (DTW) 或对抗性扭曲 (域对抗目标) 使序列对齐。
- 模态分割: 将连续流离散化 (聚类或向量量化) ,再应用离散对齐,如VideoBERT、VQ-VAE。
要点: 分割并基于离散单元预训练是让语言风格方法适用于连续信号的有效途径。
2c — 上下文表示
对齐不仅是预测任务,也是建模更好表示的手段。上下文对齐包括:
- 联合无向对齐: 全自注意拼接模态词元 (多模态Transformer) 。
- 跨模态有向对齐: 一个模态关注另一模态 (任务驱动,非对称) 。
- 图对齐: 用图神经网络建模元素间任意连接。

图12: 上下文对齐方法。联合无向模型实现对称连接;有向注意力模拟非对称影响;图模型推广任意结构关系。
要点: 根据任务选取对齐风格。检索与跨模态匹配适合对比学习;复杂推理更适合图或有向对齐。
挑战3 — 推理
当表示与对齐完成,模型需能进行推理: 跨步骤链式整合多模态证据、执行结构化推断并引入外部知识。论文将推理分为结构建模、中间概念、推断范式、外部知识。

图13: 推理包括 (1) 建模组合结构 (树、图、时间维度) , (2) 定义中间概念, (3) 选择推断范式 (逻辑、因果) , (4) 整合外部知识。
3a — 结构建模
推理发生于某种结构支架:
- 层次化: 将输入解析为树 (组合语言、层次视觉) 。
- 时序性: 跨时间步推理 (视频理解、趋势预测) 。
- 交互式: 智能体状态随决策变化 (多模态强化学习、具身智能) 。
- 自发现: 从数据中学习结构 (神经模块网络、元搜索) 。
常用工具: 图神经网络、神经模块、记忆增强网络。
3b — 中间概念
模型的内部“思维”如何表示:
- 注意力图: 软/硬注意力作为指针。
- 离散符号: 神经符号混合体,支持逻辑式推理。
- 使用自然语言作为草稿纸: 用语言词元作为推理中间媒介,提高可解释性与链式推理。
要点: 中间表示提升可解释性与组合泛化,是构建鲁棒可解释系统的关键。
3c — 推断范式
推理可超越模式匹配,引入形式推断:
- 逻辑推理: 可微逻辑、模糊谓词、神经符号推理。
- 因果推理: 干预与反事实推理 (“如果……会怎样”、去伪相关) 。
如CLEVRER、Causal VQA等基准及结合因果结构的研究,推动模型向更稳健推理前进。
3d — 外部知识
推理常需背景知识 (事实、常识) 。多模态知识图谱及在大型跨模态语料预训练的方式,可为模型注入外部知识。
挑战4 — 生成
生成研究如何合成不同模态: 摘要、跨模态翻译、或创造性生成新的多模态产物 (图像、音频、视频) 。

图15: 按信息变化分类的生成任务: 摘要压缩输入 (□ > □),翻译在保持内容的同时改变模态 (□ = □),创造从种子扩展 (□ < □)。
4a — 摘要
多模态摘要压缩跨模态内容: 生成简洁的视频文本摘要或代表主题的缩略图。
方法分为抽取式 (选择关键元素) 和生成式 (生成新摘要) 。挑战在跨模态显著性检测及视觉/听觉特征的一致表达。
4b — 翻译
跨模态转换 (如图像字幕、文本到图像、语音到文本) 要求保留语义并生成结构化输出。
两类方法:
- 样例/最近邻: 检索已有实例——高保真低创造。
- 生成模型: 扩散模型、自回归Transformer、条件VAE,可生成新内容但评估与多样性仍具挑战。
近期大型文本到图像/视频系统表现卓越,但评估仍是难题。
4c — 创造
多模态创作 (生成同步音频+视频+文本) 需条件、同步、随机、往往自回归的模型。挑战包括长程时序一致性、模态同步与可控多样性。
伦理与评估问题突出: 生成内容可能引发深度伪造、虚假信息、偏见与滥用。人工评估最理想但代价高昂;自动指标普遍不完善。
挑战5 — 迁移
迁移探讨如何用强模态帮助弱模态。涵盖跨模态迁移、协同学习与模型归纳。

图16: 迁移方法。跨模态迁移适配预训练模型。协同学习联合训练模态互助。模型归纳 (协同训练) 用独立模型进行伪标注或正则化。
5a — 跨模态迁移
将丰富数据模态 (如文本) 的预训练模型迁移到其他模态 (图像、视频) :
- 前缀/提示调优与适配器: 高效地使冻结语言模型感知视觉输入。
- 微调模态特定或共享Transformer。
- 元对齐及轻量级上下文化策略。
5b — 多模态协同学习
联合训练或共享空间让模态互相提升。常见方法: 图像-文本对比预训练 (CLIP风格) ,提升检索与零样本能力。
5c — 模型归纳
保持独立单模态模型,但通过协同训练/正则化诱导行为。使用一模态的高置信预测标注或约束另一模态。适用于半监督或弱监督情境。
要点: 在实际系统中,不同模态数据量悬殊时 (文本丰富、传感稀缺) ,迁移至关重要。
挑战6 — 量化
量化是“科学”层面: 用于测量、分析和理解多模态模型。包括测量异构性、连接与学习过程。

图17: 量化研究包括 (1) 异构性维度, (2) 跨模态关联与交互, (3) 学习过程 (泛化、优化、权衡) 。
6a — 量化异构性
关键问题: 各模态对任务的信息贡献?模型依赖哪种模态?是否存在模态偏见?
研究方向:
- 可解释模型 (概念瓶颈) 与事后归因 (LIME、Shapley、梯度映射) 。
- 对抗伪相关的诊断数据集。
- 针对噪声或缺失模态的鲁棒性评估。

图18: 异构性量化: 衡量模态信息贡献、检测模态偏见、建模模态噪声结构以实现稳健评估。
6b — 量化连接与交互
两个相关方向:
- 连接: 发现哪些元素语义或统计相关 (注意力可视化、探针数据集) 。
- 交互: 分析模态是否冗余、独特或协同 (信息分解、互信息估计、干预与反事实测试) 。
工具包括扰动实验、注意力可视化、诊断任务 (如Winoground) 。

图19: 连接与交互量化: 度量元素关联与信号组合对推理的影响。
6c — 量化多模态学习过程
考察跨模态泛化、异构训练优化及性能—鲁棒性—成本权衡:
- 泛化: 跨模态/任务迁移及处理缺失输入。
- 优化: 联合训练易不稳定,不同模态过拟合速率不同;可用加权、模块化训练或独立优化器。
- 权衡: 更多模态提高精度但增加复杂度与噪声风险。

图20: 学习过程包括跨域泛化、稳定优化策略及性能、鲁棒性与复杂度间权衡。
总结: 给实践者的建议
- 尊重异构性。融合前选择匹配模态特性的编码器。
- 从简单的融合/协同入手。对比学习与注意力融合可解决多数实际问题。
- 通过分割或离散化,将语言式预训练引入连续信号 (视频、音频) 。
- 若需可解释性,优先采用分解/解耦与中间符号或语言推理步骤。
- 直接测试交互: 消融模态、扰动与反事实编辑以验证模型是否真正推理。
- 生成任务中重视评估与人工实验——自动度量难以反映语义与伦理风险。
开放问题与未来方向
论文指出了多模态研究的前沿问题:
- 形式化基础: 能否建立异构性、连接、交互的严格数学框架?
- 长期与记忆交互: 如何建模长时序跨模态依赖 (叙事、多轮对话) ?
- 组合泛化: 系统如何应对熟悉元素的新组合 (如“蓝色汽车”问题) ?
- 高模态学习: 真实系统采集多种传感流——如何扩展表示、对齐、推理到多模态场景?
- 负责任的生成: 如何评估并控制多模态生成模型的伦理风险 (偏见、虚假信息、深度伪造) ?
- 可解释性与治理: 能否开发工具帮助专业人士 (临床医生、政策制定者) 理解模型跨模态行为?
这些问题不只是工程优化,而需要新的形式体系、基准与跨学科融合 (神经科学、认知科学、伦理学) 。
结语
多模态机器学习正在从零散的尝试走向有原则的学科。三大基本原则 (异构、连接、交互) 提供概念基线;六大挑战勾勒研究地图。对于研究或构建能看、听、读世界的AI系统的人而言,这一框架为评估方法、识别缺口、设计下一代系统提供了连贯视角。
从业者可将此分类体系视作检查清单: 你的问题属于表示、对齐、推理、生成、迁移还是量化?哪些子问题可由现成工具解决,哪些需要创新?
多模态AI承诺更丰富、更稳健、更符合人类认知的机器智能——但要实现它,离不开审慎的建模、原则性的评估与伦理管理。这篇综述既是当下的地图,也是未来的指南针。
](https://deep-paper.org/en/paper/2209.03430/images/cover.png)