LLMForEverybody

10分钟了解什么是多模态大模型（MM-LLMs）

1. 什么是多模态 Multimodality

多模态（Multimodality）是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域，多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多模态系统的目的是利用来自多种模态的信息来提高任务的性能，提供更丰富的用户体验，或者获得更全面的数据分析结果。

alt text

2. Multimodal Large Language Models 为什么还是Language Models？

多模态大型语言模型（Multimodal Large Language Models，简称MLLMs）是一类结合了大型语言模型（Large Language Models，简称LLMs）的自然语言处理能力与对其他模态（如视觉、音频等）数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出，提供更加丰富和自然的交互体验。

MLLMs的核心优势在于它们能够处理和理解来自不同模态的信息，并将这些信息融合以完成复杂的任务。例如，MLLMs可以分析一张图片并生成描述性的文本，或者根据文本描述生成相应的图像。这种跨模态的理解和生成能力，使得MLLMs在多个领域，如自动驾驶、智能助理、内容推荐系统、教育和培训等，都有广泛的应用前景

alt text

上图中，我们可以看到MLLMs的核心组成部分，包括：

Modality Encoder：负责将不同模态的输入数据编码为模型可理解的表示；
Input Projector：将不同模态的输入数据映射到共享的语义空间；
LLMs：大型语言模型，用于处理文本数据；
Output Projector：将模型生成的输出映射回原始模态的空间；
Modality Generator：根据输入数据生成对应的输出数据

可以看到LLMs还是处于核心位置，多模态是在LLMs的基础上进行扩展的。扩展的方式是找到一个方法将不同模态的数据映射到LLMs可以接收的语义空间。接下来我们分别看看这几个组成部分的具体内容。

3. Modality Encoder 模态编码器

模态编码器（Modality Encoder）是多模态大模型中的一个关键组件，它的主要任务是将不同模态的输入数据转换成模型能够进一步处理的特征表示。这些输入数据可以包括图像、文本、音频、视频等多种形式，而模态编码器的作用就像是翻译官，将这些不同语言（模态）的信息转换成一种共同的“语言”，以便模型能够理解和处理。

在多模态大模型中，常见的模态编码器包括：

图像编码器：负责处理视觉信息，将图像数据转换成特征向量。常用的图像编码器包括NFNet、ViT（Vision Transformer）、CLIP ViT等。

alt text

音频编码器：处理声音数据，将音频信号转换成频域表示，如使用傅里叶变换或梅尔频率倒谱系数（MFCCs）。音频编码器可以帮助模型识别语音、音乐或其他声音特征。在多模态模型中，主流的音频编码器包括Whisper、CLAP等。
视频编码器：更为复杂，需要同时处理图像和时间序列数据。视频编码器不仅需要提取每一帧的视觉特征，还需要理解帧与帧之间的时间变化，例如运动信息。视频编码器可能会使用类似于图像编码器的技术来处理每一帧，同时还会使用额外的技术来处理帧与帧之间的关系，如ViViT、VideoPrism等。

模态编码器的设计对于多模态大模型的性能至关重要，因为它们直接影响到模型能否准确地理解和生成跨模态的内容。通过高效的模态编码器，多模态大模型能够在各种复杂的任务中展现出更加强大和灵活的能力。

4. Input Projector 输入投影器

输入投影器（Input Projector, IP）是多模态大模型中的一种关键组件，它的主要作用是将不同模态的编码特征投影到一个共同的特征空间，以便这些特征可以被模型的其他部分，如大型语言模型（LLM Backbone）统一处理和理解。

在多模态大模型中，不同类型的输入数据，如图像、文本、音频等，首先会被相应的模态编码器（Modality Encoder, ME）处理，转换成特征表示。然而，这些特征可能存在于不同维度的空间中，直接将它们混合使用会遇到兼容性问题。输入投影器的作用就是解决这个问题，它通过特定的变换方法（如线性变换、多层感知器（MLP）、交叉注意力等），将不同模态的特征映射到一个统一的特征空间中。

输入投影器的设计对于多模态大模型的性能至关重要，因为它直接影响到模型如何处理和理解不同类型数据的语义信息。通过有效的输入投影，模型能够更好地进行跨模态的信息融合和任务执行，例如在图像描述生成、视觉问答等应用中。

alt text

5. Output Projector 输出投影器

输出投影器（Output Projector, OP）是多模态大模型中的一种关键组件，它的主要任务是将大型语言模型（LLM）的输出信号转换成适合不同模态生成器使用的特征表示。这些生成器可能是用于生成图像、视频、音频或其他模态的模型。

在多模态大模型中，LLM 负责处理和理解各种模态的输入特征，并生成对应的输出。然而，LLM 的输出通常是文本形式的，而其他模态的生成器需要特定格式的输入信号。这时，输出投影器就起到了桥梁的作用，它将 LLM 的文本输出转换为其他模态生成器能够理解和处理的特征表示。

输出投影器的实现可以采用多种技术，包括但不限于 Tiny Transformer、多层感知器（MLP）等。这些技术通过学习将 LLM 的输出映射到目标模态的特征空间，从而实现跨模态的特征转换。通过输出投影器的设计，多模态大模型能够更好地实现不同模态之间的信息交互和生成任务。

例如，在 NExT-GPT 模型中，输出投影器包括图像输出投影、音频输出投影和视频输出投影，它们共同构成了所谓的“指令跟随对齐”（Instruction-following Alignment）机制。这一机制确保了模型能够根据 LLM 的输出在多种模态之间进行无缝转换和高效生成，从而实现多模态内容的生成.

alt text

6. Modality Generator 模态生成器

模态生成器（Modality Generator, MG）是多模态学习系统中的一个关键组件，它的主要作用是生成不同模态的输出，例如图像、视频或音频。

模态生成器的具体实现可能包括但不限于以下几种技术或模型：

图像生成：如 Stable Diffusion，这是一种基于扩散模型的图像生成技术;
视频生成：如 Zeroscope，专注于视频内容的生成;
音频生成：如 AudioLDM，用于生成音频信号。

在多模态大模型中，模态生成器是实现模态转换和内容生成的关键技术，它使得模型能够灵活地处理和生成多种类型的数据，为用户提供更加丰富和自然的交互体验。

alt text

参考

[1] A Survey on Multimodal Large Language Models

[2] MM-LLMs: Recent Advances in MultiModal Large Language Models

[3] NExT-GPT: Any-to-Any Multimodal Large Language Model

欢迎关注我的GitHub和微信公众号，来不及解释了，快上船！

GitHub: LLMForEverybody

仓库上有原始的Markdown文件，完全开源，欢迎大家Star和Fork！

This site is open source. Improve this page.