相關文章:
Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模態機器學習:綜述與分類》翻譯與解讀
人工智能的多模態融合模型的簡介、發展以及未來趨勢
多模態融合模型的簡介
" 模態 "(Modality)是德國理學家赫爾姆霍茨提出的一種生物學概念,即生物憑借感知器官與經驗來接收信息的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態。多模態是指將多種感官進行融合,而多模態交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環境等多個通道與計算機進行交流,充分模擬人與人之間的交互方式。
每一種信息的來源或者形式,都可以稱為一種模態。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達、紅外、加速度計等。以上的每一種都可以稱為一種模態。
不同模態(例如圖像、文本、音頻)中學習的方式存在很大差異。
為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠解釋和推理關于多模態信息。多模態機器學習旨在建立能夠處理和關聯來自多種模態信息的模型。從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增,多模態機器學習是一個充滿活力的多學科領域,其重要性日益增加,具有非凡的潛力。
早期的深度學習算法專注于從一個單一的數據源訓練其模型。例如,看—基于圖像訓練的CV模型和基于文本訓練的NLP模型,聽—基于聲學模型的喚醒詞檢測、噪音消除的語音處理。早期的深度學習與單模態人工智能有關,其結果都被映射到一個單一的數據類型來源。而多模態人工智能是計算機視覺和交互式人工智能智能模型的最終融合,為計算器提供更接近于人類感知的場景。
多模態學習成為當中的重要趨勢,它可以被應用在歸一、表示、轉化、翻譯、對齊、融合及協同學習上(representation/translation/alignment/fusion/co-learning)。按照下游任務則可以劃分為理解式任務(視覺問答、視覺推理、圖文檢索等)和生成式任務(文本生成(對話/故事/詩歌)、圖像生成文本、文字生成圖像等)。
多模態融合模型的發展趨勢
Andrew Ng在年度總結時說道,雖然GPT-3和EfficientNet等單獨針對文本及圖像等任務的深度學習模型備受矚目,但這一年中最令人印象深刻的還是,AI 模型在發現文本與圖像間關系中取得了進步。,2021年,OpenAI開啟了多模態學習的重要一年,比如CLIP匹配圖像和文本,Dall·E生成與輸入文本對應的圖像。DeepMind的Perceiver IO可以對文本、圖像、視頻和點云進行分類。斯坦福大學的ConVIRT為醫用X射線圖像添加了文本標簽。
現實中,圖像和文本其實非常復雜,以至于在過去,研究人員只能全神貫注的著重其中之一。在這樣做的過程中,他們開發了非常不同的技術。然而,在過去十年中,計算機視覺和自然語言處理已經融合到神經網絡上,為合并這兩種模式的統一模型打開了大門。
Jeff Dean在長文展望中總結到,一些最先進的多模態模型可以接受語言、圖像、語言和視頻等多種不同的輸入模態,產生不同的輸出模態。這是一個令人興奮的方向,就像真實世界一樣,有些東西在多模態數據中更容易學習。例如,閱讀某些東西并觀看圖片,比僅僅閱讀它更有用。
圖像和文本配對有助于多語種檢索任務,并且更好地理解如何配對文本和圖像輸入可以提升圖像描述任務。視覺和文本數據上的協同訓練有助于提升視覺分類任務的準確率和穩健性,同時圖像、視頻和語音任務上的聯合訓練能夠提升所有模態的泛化性能。
目前還無法建立一個通用的“視覺機器”,無法做到統一模型同時滿足不同場景要求。這意味著當下機器學習的訓練成本較高,也沒有達到產業化應用的理想狀態。要解決這個問題,需要從端到端打通各個模態之間的關系,形成可以真正多維度交互的智能機器,讓感知智能升級為認知智能。
未來發展趨勢,多場景下的多模態交互成為提升應用性能的重點。以多模態融合技術為核心的感知、交互和智慧協同能力,不斷支撐各類終端和應用的智能化水平提升。人工智能正在從語音、文字、視覺等單模態智能,向著多種模態融合發展,結合分布式平臺的計算能力,實現更高精度的場景構建,和對動態場景的處理能力。
未百度研究院認為,下一步是跨模態統一建模,增強模型的跨模態語義對齊能力。Jeff Dean認為,所有這些趨勢都指向了訓練能力更強的通用性模型,這些模型可以處理多種數據模態并解決數千甚至數萬個任務。在接下來的幾年,我們將通過下一代架構 Pathways 來追求這一愿景,并期望在該領域看到實質性進展。
參考文章
Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI
Jeff Dean長文展望:2021年之后,機器學習領域的五大潛力趨勢
多模態常見應用分類
1、按照模態分類
模態分類
子分類
Language-Audio
(1.1)、Text-to-Speech Synthesis: 給定文本生成對應的聲音
(1.2)、Audio Captioning:給定一段語音,生成一句話總結并描述主要內容。(不是語音識別)
Vision-Audio
(2.1)、Audio-Visual Speech Recognition(視聽語音識別):給定某人的視頻及語音進行語音識別。
(2.2)、Video Sound Separation(視頻聲源分離):給定視頻和聲音信號(包含多個聲源),進行聲源定位與分離。
(2.3)、Image Generation from Audio: 給定聲音,生成與其相關的圖像。
(2.4)、Speech-conditioned Face generation:給定一段話,生成說話人的視頻。
(2.5)、Audio-Driven 3D Facial Animation:給定一段話與3D人臉模版,生成說話的人臉3D動畫。
Vision-Language
(3.1)、Image/Video-Text Retrieval (圖(視頻)文檢索): 圖像/視頻<-->文本的相互檢索。
(3.2)、Image/Video Captioning(圖像/視頻描述):給定一個圖像/視頻,生成文本描述其主要內容。
(3.3)、Visual Question Answering(視覺問答):給定一個圖像/視頻與一個問題,預測答案。
(3.4)、Image/Video Generation from Text:給定文本,生成相應的圖像或視頻。
(3.5)、Multimodal Machine Translation:給定一種語言的文本與該文本對應的圖像,翻譯為另外一種語言。
(3.6)、Vision-and-Language Navigation(視覺-語言導航): 給定自然語言進行指導,使得智能體根據視覺傳感器導航到特定的目標。
(3.7)、Multimodal Dialog(多模態對話): 給定圖像,歷史對話,以及與圖像相關的問題,預測該問題的回答。
2、按照功能分類
模態分類
子分類
定位相關
(1.1)、Visual Grounding:給定一個圖像與一段文本,定位到文本所描述的物體。
(1.2)、Temporal Language Localization: 給定一個視頻即一段文本,定位到文本所描述的動作(預測起止時間)。
(1.3)、Video Summarization from text query:給定一段話(query)與一個視頻,根據這段話的內容進行視頻摘要,預測視頻關鍵幀(或關鍵片段)組合為一個短的摘要視頻。
(1.4)、Video Segmentation from Natural Language Query: 給定一段話(query)與一個視頻,分割得到query所指示的物體。
(1.5)、Video-Language Inference: 給定視頻(包括視頻的一些字幕信息),還有一段文本假設(hypothesis),判斷二者是否存在語義蘊含(二分類),即判斷視頻內容是否包含這段文本的語義。
(1.6)、Object Tracking from Natural Language Query: 給定一段視頻和一些文本,進行定位匹配。
(1.7)、Language-guided Image/Video Editing: 一句話自動修圖。給定一段指令(文本),自動進行圖像/視頻的編輯。
情感分析相關
Affect Computing (情感計算):使用語音、視覺(人臉表情)、文本信息、心電、腦電等模態進行情感識別。
其它
Medical Image:不同醫療圖像模態如CT、MRI、PET
RGB-D模態:RGB圖與深度圖
參考文章:多模態學習綜述及最新方向 - 知乎
多模態模型案例
時間
發明者
模型名稱
功能
2021年1月
OpenAI
CLIP&DALL-E
功能:
DALL·E 可以基于短文本提示(如一句話或一段文字)生成對應的圖像。以文搜圖,按照文字描述去生成對應圖片。使用藝術家薩爾瓦多 - 達利和皮克斯的瓦力的諧音來命名。
CLIP 則可以基于文本提示對圖片進行分類。但是,發布之后,有研究發現 CLIP 存在種族和性別偏見問題。
原理:在眾多圖像-文本對上,訓練大規模自回歸 transformer 可以通過文本 prompt 產生具有可控結果的高保真生成模型。
例如,當文本描述為 " 一個甜甜圈形狀的時鐘 " 被發送到該模型時,它就可以生成以下圖像。
用“大白話”精準搜圖,OpenAI的CLIP驚艷了所有人 | 在線可玩_量子位-CSDN博客
意義:
(1)、開啟了2021年多模態學習的新篇章。
(2)、降低了深度學習需要的數據標注量。
(3)、CLIP的zero-shot learning技術使得在各種數據集上的表現都很好(包括沒見過的數據集)。
2021年5月
Google
MUM
功能:多任務統一模型
原理:通過從 75 種不同語言中挖掘出的上下文信息對用戶搜索結果進行優先排序。
2021年9月
百度
DocVQA
功能:文檔理解,跨模態文檔理解模型ERNIE-Layout。
意義:登頂DocVQA榜首
2021年11月
NVIDIA
GauGAN2
功能:根據輸入的文本/簡筆畫生成對應逼真的風景圖、輸入圖像并編輯部分內容。
原理:它在一個單一的模型中結合了分割映射、修復和文本到圖像的生成,使其成為一個強大的多模態工具。
意義:可以用文字和圖畫的混合來創造逼真的藝術。
Demo:AI Demos | NVIDIA Research
2021年11月
Microsoft
&北大
NüWA女媧
功能:實現文本/草圖轉圖像、圖像補全、文字指示修改圖像/視頻、文字/草圖轉視頻、視頻預測等任務,功能異常強大。
意義:在8種包含圖像和視頻處理的下游視覺任務上具有出色的合成效果。
2021年12月
NVIDIA
PoE GAN
功能:文字描述、圖像分割、草圖、風格都可以轉化為圖片,它還可以同時接受以上幾種輸入模態的任意兩種組合,這便是PoE的含義。
原理:生成器使用全局PoE-Net將不同類型輸入的變化混合起來。鑒別器中,作者提出了一種多模態投影鑒別器,將投影鑒別器推廣到處理多個條件輸入。
意義:PoE可以在單模態輸入、多模態輸入甚至無輸入時生成圖片。當使用單個輸入模態進行測試時,PoE-GAN的表現優于之前專門為該模態設計的SOTA方法。
2022年1月
百度
ERNIE-ViLG
功能:圖文雙向生成。
原理:它通過自回歸算法將圖像生成和文本生成統一建模,實現文圖雙向生成。
意義:文心 ERNIE-ViLG 參數規模達到 100 億,是目前為止全球最大規模中文跨模態生成模型。刷新文本生成圖像、圖像描述等多個跨模態生成任務最好效果。
Demo:
文心大模型-產業級知識增強大模型
2022年1月
Facebook
&Meta
AV-HuBERT
功能:這通過輸入語音音頻和唇語視頻兩種不同形式內容,輸出對應文本。
原理:它是一個多模態的自監督學習算法,該模型通過結合人們說話過程中嘴唇和牙齒活動、語音方面的信息。AV-HuBERT可以捕捉到音頻和視頻間的微妙聯系。這和人類本身感知語言的模式很相似。
意義:尤其是在嘈雜的環境下,通過讀唇可以將語言識別的準確性最高提升6倍。
2022年1月
Facebook
&Meta
data2vec
功能:應用于語音、圖像和文本。
意義:在計算機視覺、語音任務上優于最佳單一用途算法,首個適用于多模態的高性能自監督算法,語音、圖像文本全部SOTA。
相關文章
嘈雜場景語音識別準確率怎么提?臉書:看嘴唇