當前位置：前瞻產業研究院 ? 經濟學人 ? 研究員專欄

2025年中國多模態大模型行業核心技術現狀關鍵在表征、翻譯、對齊、融合、協同技術【組圖】

分享到：

劉海晶 ? 2025-06-03 13:00:34 　來源：前瞻產業研究院　E9347G0

行業主要上市公司：阿里巴巴(09988.HK，BABA.US);百度(09888.HK，BIDU.US);騰訊(00700.HK， TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態大模型的核心技術-表征

表征學習是多模態任務的基礎，其中包含了一些開放性問題，例如：如何結合來源不同的異質數據，如何處理不同模態的不同噪聲等級，測試樣本的某種模態缺失怎么辦。相較于多模態，基于單模態的表征學習已被廣泛且深入地研究。在Transformer出現之前，不同模態所適用的最佳表征學習模型不同，例如，CNN廣泛適用CV領域，LSTM占領NLP領域。較多的多模態工作仍舊局限在使用N個異質網絡單獨提取N個模態的特征，之后采用Joint或Coordinated結構進行訓練。不過這種思路在很快改變，隨著越來越多工作證實Transformer在CV和NLP以及Speech領域都可以獲得極佳的性能，僅使用Transformer統一多個模態、甚至多個跨模態任務成為可能。基于Transformer的多模態預訓練模型在2019年后噴涌而出。

圖表1：多模態大模型表征的聯合表示法和坐標表示法

注：聯合和協調表示的結構。點表示使用所有模態作為輸入投射到相同的空間，另一方面，協調表示存在于自己的空間中，但通過相似性(例如歐幾里得距離)或結構約束(例如偏序)進行協調。

多模態大模型的核心技術-翻譯

跨模態翻譯的目的是學習如何將源模態映射(map)到目標模態。例如：輸入一張圖像，我們希望生成一句話描述它，或者輸入一句話，我們生成與之匹配的一張圖。

基于語法模版，即人為設定多個針對目標模態的語法模版，將模型的預測結果插入模版中作為翻譯結果。以圖像描述為例，模版定義為who did what to whom in a place，其中有四個待替換的插槽。通過不同類型的目標/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞，進而完成翻譯。

編碼-解碼器(encoder-decoder)：首先將源模態的數據編碼為隱特征，后續被解碼器用于生成目標模態。以圖像描述為例，編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量，進而輸入到RNN中以自回歸的方式生成單詞序列。

連續性生成(continuous generation)：它針對源模態與目標模態都為流數據且在時間上嚴格對齊的任務。以文本合成語音為例，它與圖像描述不同，語音數據與文本數據在時間上嚴格對齊。WaveNet采用了CNN并行預測+CTC loss解決該類問題。當然，編碼-解碼器理論上也可完成該任務，但需處理數據對齊問題。

圖表2：多模態大模型表征的文本翻譯

多模態大模型的核心技術-對齊

對齊是多模態學習中的一個關鍵環節，它涉及如何在不同的數據模態之間發現和建立對應關系。通過對齊，多模態模型能夠學習到不同模態之間的相互表示，從而增強對復雜場景的理解能力。跨模態對齊目的是挖掘多模態數據的子元素之間的關聯性，例如visual grounding任務。在學習表征或翻譯時也可能隱式地學習對齊。

顯式對齊：此處對實例具有兩個或更多子組件的對齊進行分類。如何衡量相似性在顯式對齊中很重要。用于設計相似性度量的基于學習的方法可以分為無監督和監督。Unsupervised的大部分內容都受到統計機器翻譯和基因組測序等方法的啟發。一個典型的例子是動態時間扭曲(DTW)。使用CCA和高斯混合模型的監督方法已經被提出，但深度學習方法變得更加流行。

隱式對齊：與顯式對齊不同，隱式對齊用作其他任務中使用的潛在表示。這可用于提高沒有嚴格對齊的任務的方法的性能，例如VQA或機器翻譯。方法大致可分為圖模型和神經網絡。圖形模型已用于機器翻譯和語音現象對齊。然而，這些方法需要在單詞之間進行手動映射。神經網絡近年來得到了廣泛的應用，編碼器-解碼器模型可以解決這些傳統的機器翻譯問題。然而，如果不使用隱式對齊，對編碼器的要求會很大(需要熟練地將整個文檔和圖像轉換為潛在表示)。注意力機制是解決這個問題的一種眾所周知的方法。

多模態對齊目前處于其發展的非常初期階段，主要強調與人類指令的對齊，但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。

圖表3：多模態大模型表征的對齊結構

多模態大模型的核心技術-融合

融合是將多模態數據或其特征結合在一起，以便進行統一的分析和決策。其核心在于如何有效結合不同模態的信息以增強學習任務的性能。融合是一個使用多種模式的數據進行預測的領域。最古老的多模式學習形式之一。優點包括能夠通過使用來自多種模態的數據進行更穩健的預測，以及即使某些模態的數據丟失也能夠進行預測。應用領域廣泛，包括視聽語音識別(AVSR)、情感識別、醫學圖像分析和多媒體事件檢測。這里，Fusion分為模型無關的和基于模型的。

早期融合(Early Fusion)：在特征層面進行融合，將不同模態的特征早早地合并，以充分利用各模態的互補信息。

晚期融合(Late Fusion)：在決策層面進行融合，即在模型輸出后再結合不同模態的結果，這有助于在最終決策時綜合考慮各模態的見解。

混合融合(Hybrid Fusion)：結合早期和晚期融合的優點，可能在多個層面進行特征和決策的結合，以實現更靈活的信息整合。

多模態融合是依賴于任務和數據的，現有工作中常常是多種融合手段的堆積，并未真正統一的理論支撐。最近，神經網絡已成為處理多模態融合的一種非常流行的方式，然而圖形模型和多核學習仍然被使用，特別是在訓練數據有限或模型可解釋性很重要的任務中。

圖表4：多模態大模型的圖像融合

多模態大模型的核心技術-協同

協同學習是通過使用另一種模態(擁有大量數據)的數據來設計一種模態模型的過程。在共同學習中，來自另一種模式的數據僅在訓練期間使用，而不在測試期間使用。根據訓練時使用的數據資源，協同學習可以分為并行、非并行和混合。

并行學習：并行數據方法需要訓練數據集，其中來自一個模態的觀察直接與來自其他模態的觀察相關聯。換句話說，當多模態觀察來自相同的實例時，比如在一個音視頻語音數據集中，視頻和語音樣本來自同一說話者。

非并行協同學習：非并行數據方法不需要不同模態觀察之間的直接鏈接。這些方法通常通過在類別方面的重疊來實現協同學習。例如，在零樣本學習中，常規的視覺對象識別數據集可以通過擴展為包括來自維基百科的第二個純文本數據集，以提高視覺對象識別的泛化性能。

混合協同方法：在混合數據設置中，通過共享模態或數據集來連接模態。協同學習中使用的數據并行類型：并行-模式來自同一數據集，并且實例之間存在直接對應;非并行模式來自不同的數據集，沒有重疊的實例，但在一般類別或概念上有重疊;混合模式-實例或概念由第三種模式或數據集連接。

多模態協同學習允許一種模態影響另一種模態的訓練，利用跨模態的互補信息。值得注意的是，協同學習是與任務無關的，可以用于創建更好的融合、翻譯和對齊模型。這一挑戰可以通過諸如協同訓練、多模態表示學習、概念接地和零樣本學習(ZSL)等算法來解決，并已在視覺分類、動作識別、視聽語音識別和語義相似度估計等領域得到廣泛應用。

圖表5：多模態大模型表征的并行、非并行和混合協同方法