【新智元導讀】讓我們回顧一下AI圖像合成的十年歷史上,「the names to be remembered」。
深度學習模型在生成圖像上的表現,已經如此出色。很顯然,它在未來會給我們更多的驚喜。在下面的時間線里,我們會追溯一些里程碑式的時刻,也就是那些影響了AI圖像合成的論文、架構、模型、數據集、實驗登場的時候。深度神經網絡面世之后,人們意識到:它將徹底改變圖像分類。
同時,研究人員開始探索相反的方向,如果使用一些對分類非常有效的技術(例如卷積層)來制作圖像,會發生什么?這一年,論文《深度卷積神經網絡的ImageNet分類》橫空出世。論文作者之一,就是「AI三巨頭」之一的Hinton。它首次將深度卷積神經網絡 (CNN)、GPU和巨大的互聯網來源數據集(ImageNet)結合在一起。Ian Goodfellow等AI巨佬發表了史詩性論文巨作《生成式對抗網絡》。GAN是第一個致力于圖像合成而非分析的現代神經網絡架構(「現代」的定義即2012年后)。它引入了一種基于博弈論的獨特學習方法,由兩個子網絡“生成器”和“鑒別器”進行競爭。最終,只有「生成器」被保留在系統之外,并用于圖像合成。Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces數據集上訓練的,該數據集已從網絡上刪除具有重大意義的論文《使用深度卷積生成對抗網絡進行無監督代表學習》發表。在這篇論文中,作者描述了第一個實際可用的GAN 架構 (DCGAN)。這篇論文還首次提出了潛在空間操縱的問題——概念是否映射到潛在空間方向?這五年間,GAN被應用于各種圖像處理任務,例如風格轉換、修復、去噪和超分辨率。項目地址:https://github.com/nightrome/really-awesome-gan與此同時,GAN的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。第一個「AI 藝術」丑聞發生在2018年。三位法國學生使用「借來」的代碼生成一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。與此同時,transformer架構徹底改變了NLP。《Attention Is All You Need》論文發布。在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有詳實的解釋。自此,Transformer架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。《概念性標注:用于自動圖像字幕的清理、上位化、圖像替代文本數據集》論文發表。這個和其他多模態數據集對于 CLIP 和 DALL-E 等模型將變得極其重要。NVIDIA的研究人員對GAN 架構進行了一系列徹底改進。在《使用有限數據訓練生成對抗網絡》這篇論文中,介紹了最新的StyleGAN2-ada。GAN 生成的圖像第一次變得與自然圖像無法區分,至少對于像Flickr-Faces-HQ (FFHQ)這樣高度優化的數據集來說是這樣。Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。論文《用于高分辨率圖像合成的Taming transformers》發表。ViT表明,Transformer架構可用于圖像。本文中介紹的方法VQGAN在基準測試中產生了SOTA結果。2010年代后期的GAN架構的質量主要根據對齊的面部圖像進行評估,對于更多異構數據集的效果很有限。因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。Transformer的時代(2020-2022)
Transformer架構的出現,徹底改寫了圖像合成的歷史。「多模態」深度學習整合了NLP和計算機視覺的技術,「即時工程」取代了模型訓練和調整,成為圖像合成的藝術方法。《從自然語言監督中學習可遷移視覺模型》這篇論文中,提出了CLIP 架構。可以說,當前的圖像合成熱潮,是由CLIP首次引入的多模態功能推動的。論文《零樣本文本到圖像生成》發表(另請參閱OpenAI 的博客文章),其中介紹了即將轟動全世界的DALL-E的第一個版本。這個版本通過將文本和圖像(由VAE壓縮為「TOKEN」)組合在單個數據流中來工作。該模型只是「continues」the「sentence」。數據(250M 圖像)包括來自維基百科的文本圖像對、概念說明和YFCM100M的過濾子集。論文中介紹了CLIP,這是一種結合了ViT和普通Transformer的多模態模型。CLIP會學習圖像和標題的「共享潛在空間」,因此可以標記圖像。模型在論文附錄A.1中列出的大量數據集上進行訓練。論文《擴散模型的發布在圖像合成方面擊敗了GAN》發表。擴散模型引入了一種不同于GAN方法的圖像合成方法。它是DALL-E的復制品(體積更小,對架構和數據的調整很少)。數據包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同過濾子集。因為沒有任何內容過濾器或 API 限制,DALL-E mini為創造性探索提供了巨大的潛力,并導致推特上「怪異的 DALL-E」圖像呈爆炸式增長。Katherine Crowson發布了一系列CoLab筆記,探索制作 CLIP 引導生成模型的方法。例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在2022年作為預印本發布但VQGAN一發布就出現了公共實驗)。就像在早期的GAN時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然后由公司簡化,最后由wombo.ai等「初創公司」商業化。論文《具有 CLIP 潛能的分層文本條件圖像生成》發表。它建立在僅幾周前發布的 GLIDE論文(《 GLIDE:使用文本引導擴散模型實現逼真圖像生成和編輯》的基礎上。同時,由于 DALL-E 2 的訪問受限和有意限制,人們對DALL-E mini重新產生了興趣。根據模型卡,數據包括「公開可用資源和我們許可的資源的組合」,以及根據該論文的完整CLIP和 DALL-E數據集。「金發女郎的人像照片,用數碼單反相機拍攝,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型與后來的 GAN 架構(如 StyleGAN 2)的真實感相匹配,但允許創建廣泛的各種主題和圖案5月,論文《具有深度語言理解的真實感文本到圖像擴散模型》發表。6月,論文《用于內容豐富的文本到圖像生成的縮放自回歸模型》發表。這兩篇論文中,介紹了Imagegen和Parti。「你知道我今天為什么阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術圖像合成的主要方法雖然DALL-E 2為圖像模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。用戶仍繼續嘗試DALL-E mini等較小的模型。緊接著,隨著石破天驚的Stable Diffusion的發布,所有這一切都發生了變化。可以說,Stable Diffusion標志著圖像合成「Photoshop時代」的開始。「有四串葡萄的靜物,試圖創造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產生的六種變化Stability.ai發布Stable Diffusion模型。在論文《具有潛在擴散模型的高分辨率圖像合成》中,Stability.ai隆重推出了Stable Diffusion。這個模型可以實現與DALL-E 2同等的照片級真實感。除了DALL-E 2,模型幾乎立即向公眾開放,并且可以在CoLab和Huggingface平臺上運行。谷歌發表論文《DreamBooth:為主題驅動生成微調文本到圖像擴散模型》。DreamBooth提供了對擴散模型越來越細粒度的控制。然而,即使沒有此類額外的技術干預,使用像 Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層添加生成的修改。最大的圖庫公司之一Shutterstock宣布與 OpenAI 合作提供/許可生成圖像,可以預計,圖庫市場將受到Stable Diffusion等生成模型的嚴重影響。https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis猜您喜歡:
深入淺出stable diffusion:AI作畫技術背后的潛在擴散模型論文解讀
拆解組新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多樣性圖像生成
附下載 | 《可解釋的機器學習》中文版
附下載 |《TensorFlow 2.0 深度學習算法實戰》
附下載 |《計算機視覺中的數學方法》分享
《基于深度學習的表面缺陷檢測方法綜述》
《零樣本圖像分類綜述: 十年進展》
《基于深度神經網絡的少樣本學習綜述》
《禮記·學記》有云:獨學而無友,則孤陋而寡聞
歡迎加入 GAN/擴散模型 —交流微信群 !
掃描下面二維碼,添加運營小妹好友,拉你進群。發送申請時,請備注,格式為:研究方向+地區+學校/公司+姓名。如 擴散模型+北京+北航+吳彥祖
請備注格式:研究方向+地區+學校/公司+姓名
點擊 一頓午飯外賣,成為CV視覺的前沿弄潮兒!,領取優惠券,加入 AI生成創作與計算機視覺 知識星球!
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。