精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AI 圖像生成10年,一些值得記住的論文
轉載自  新智元  編輯:Aeneas 好困
【新智元導讀】讓我們回顧一下AI圖像合成的十年歷史上,「the names to be remembered」。

現在,已是2022年底。
深度學習模型在生成圖像上的表現,已經如此出色。很顯然,它在未來會給我們更多的驚喜。
十年來,我們是如何走到今天這一步的?
在下面的時間線里,我們會追溯一些里程碑式的時刻,也就是那些影響了AI圖像合成的論文、架構、模型、數據集、實驗登場的時候。
一切,都要從十年前的那個夏天說起。

開端(2012-2015)

深度神經網絡面世之后,人們意識到:它將徹底改變圖像分類。

同時,研究人員開始探索相反的方向,如果使用一些對分類非常有效的技術(例如卷積層)來制作圖像,會發生什么?
這就是「人工智能之夏」誕生的伊始。
2012 年 12 月
一切發端于此。
這一年,論文《深度卷積神經網絡的ImageNet分類》橫空出世。
論文作者之一,就是「AI三巨頭」之一的Hinton。
它首次將深度卷積神經網絡 (CNN)、GPU和巨大的互聯網來源數據集(ImageNet)結合在一起。
2014 年 12 月
Ian Goodfellow等AI巨佬發表了史詩性論文巨作《生成式對抗網絡》。
GAN是第一個致力于圖像合成而非分析的現代神經網絡架構(「現代」的定義即2012年后)。
它引入了一種基于博弈論的獨特學習方法,由兩個子網絡“生成器”和“鑒別器”進行競爭。
最終,只有「生成器」被保留在系統之外,并用于圖像合成。
Hello World!來自Goodfellow等人2014年論文的GAN生成人臉樣本。該模型是在Toronto Faces數據集上訓練的,該數據集已從網絡上刪除
2015 年 11 月
具有重大意義的論文《使用深度卷積生成對抗網絡進行無監督代表學習》發表。
在這篇論文中,作者描述了第一個實際可用的GAN 架構 (DCGAN)。
這篇論文還首次提出了潛在空間操縱的問題——概念是否映射到潛在空間方向?

GAN的五年(2015-2020)

這五年間,GAN被應用于各種圖像處理任務,例如風格轉換、修復、去噪和超分辨率。
期間,GAN架構的論文開始爆炸式井噴。

項目地址:https://github.com/nightrome/really-awesome-gan
與此同時,GAN的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。
第一個「AI 藝術」丑聞發生在2018年。三位法國學生使用「借來」的代碼生成一副AI肖像,這副肖像成為第一幅在佳士得被拍賣的AI畫像。
與此同時,transformer架構徹底改變了NLP。
在不久的將來,這件事會對圖像合成產生重大影響。
2017 年 6 月
《Attention Is All You Need》論文發布。
在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有詳實的解釋。
自此,Transformer架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。
2018 年 7 月
《概念性標注:用于自動圖像字幕的清理、上位化、圖像替代文本數據集》論文發表。
這個和其他多模態數據集對于 CLIP 和 DALL-E 等模型將變得極其重要。
2018-20年
NVIDIA的研究人員對GAN 架構進行了一系列徹底改進。
在《使用有限數據訓練生成對抗網絡》這篇論文中,介紹了最新的StyleGAN2-ada。
GAN 生成的圖像第一次變得與自然圖像無法區分,至少對于像Flickr-Faces-HQ (FFHQ)這樣高度優化的數據集來說是這樣。
Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點
2020 年 5 月
論文《語言模型是小樣本學習者》發表。
OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。
2020 年 12 月
論文《用于高分辨率圖像合成的Taming transformers》發表。
ViT表明,Transformer架構可用于圖像。
本文中介紹的方法VQGAN在基準測試中產生了SOTA結果。
2010年代后期的GAN架構的質量主要根據對齊的面部圖像進行評估,對于更多異構數據集的效果很有限。
因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。

Transformer的時代(2020-2022)

Transformer架構的出現,徹底改寫了圖像合成的歷史。
從此,圖像合成領域開始拋下GAN。
「多模態」深度學習整合了NLP和計算機視覺的技術,「即時工程」取代了模型訓練和調整,成為圖像合成的藝術方法。
《從自然語言監督中學習可遷移視覺模型》這篇論文中,提出了CLIP 架構。
可以說,當前的圖像合成熱潮,是由CLIP首次引入的多模態功能推動的。

論文中的CLIP架構
2021 年 1 月
論文《零樣本文本到圖像生成》發表(另請參閱OpenAI 的博客文章),其中介紹了即將轟動全世界的DALL-E的第一個版本。
這個版本通過將文本和圖像(由VAE壓縮為「TOKEN」)組合在單個數據流中來工作。
該模型只是「continues」the「sentence」。
數據(250M 圖像)包括來自維基百科的文本圖像對、概念說明和YFCM100M的過濾子集。
CLIP為圖像合成的「多模態」方法奠定了基礎。
2021 年 1 月
論文《從自然語言監督學習可遷移視覺模型》發表。
論文中介紹了CLIP,這是一種結合了ViT和普通Transformer的多模態模型。
CLIP會學習圖像和標題的「共享潛在空間」,因此可以標記圖像。
模型在論文附錄A.1中列出的大量數據集上進行訓練。
2021 年 6 月
論文《擴散模型的發布在圖像合成方面擊敗了GAN》發表。
擴散模型引入了一種不同于GAN方法的圖像合成方法。
研究者通過從人工添加的噪聲中重建圖像來學習。
它們與變分自動編碼器 (VAE) 相關。
2021 年 7 月
DALL-E mini發布。
它是DALL-E的復制品(體積更小,對架構和數據的調整很少)。
數據包括Conceptual 12MConceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同過濾子集。
因為沒有任何內容過濾器或 API 限制,DALL-E mini為創造性探索提供了巨大的潛力,并導致推特上「怪異的 DALL-E」圖像呈爆炸式增長。
2021-2022
Katherine Crowson發布了一系列CoLab筆記,探索制作 CLIP 引導生成模型的方法。
例如512x512CLIP-guided diffusionVQGAN-CLIPOpen domain image generation and editing with natural language guidance,僅在2022年作為預印本發布但VQGAN一發布就出現了公共實驗)。
就像在早期的GAN時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然后由公司簡化,最后由wombo.ai等「初創公司」商業化。
2022 年 4 月
論文《具有 CLIP 潛能的分層文本條件圖像生成》發表
該論文介紹了DALL-E 2。
它建立在僅幾周前發布的 GLIDE論文(《 GLIDE:使用文本引導擴散模型實現逼真圖像生成和編輯》的基礎上。
同時,由于 DALL-E 2 的訪問受限和有意限制,人們對DALL-E mini重新產生了興趣。
根據模型卡,數據包括「公開可用資源和我們許可的資源的組合」,以及根據該論文的完整CLIP和 DALL-E數據集。
「金發女郎的人像照片,用數碼單反相機拍攝,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型與后來的 GAN 架構(如 StyleGAN 2)的真實感相匹配,但允許創建廣泛的各種主題和圖案
2022 年 5-6 月
5月,論文《具有深度語言理解的真實感文本到圖像擴散模型》發表。
6月,論文《用于內容豐富的文本到圖像生成的縮放自回歸模型》發表。
這兩篇論文中,介紹了Imagegen和Parti。
以及谷歌對DALL-E 2的回答。

「你知道我今天為什么阻止你嗎?」由DALL-E 2生成,「prompt engineering」從此成為藝術圖像合成的主要方法

AI Photoshop(2022年至今)

雖然DALL-E 2為圖像模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。
用戶仍繼續嘗試DALL-E mini等較小的模型。
緊接著,隨著石破天驚的Stable Diffusion的發布,所有這一切都發生了變化。
可以說,Stable Diffusion標志著圖像合成「Photoshop時代」的開始。
「有四串葡萄的靜物,試圖創造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion產生的六種變化
2022 年 8 月
Stability.ai發布Stable Diffusion模型。
在論文《具有潛在擴散模型的高分辨率圖像合成》中,Stability.ai隆重推出了Stable Diffusion。
這個模型可以實現與DALL-E 2同等的照片級真實感。
除了DALL-E 2,模型幾乎立即向公眾開放,并且可以在CoLab和Huggingface平臺上運行。
2022 年 8 月
谷歌發表論文《DreamBooth:為主題驅動生成微調文本到圖像擴散模型》。
DreamBooth提供了對擴散模型越來越細粒度的控制。
然而,即使沒有此類額外的技術干預,使用像 Photoshop 這樣的生成模型也變得可行,從草圖開始,逐層添加生成的修改。
2022 年 10 月
最大的圖庫公司之一Shutterstock宣布與 OpenAI 合作提供/許可生成圖像,可以預計,圖庫市場將受到Stable Diffusion等生成模型的嚴重影響。
參考資料:
https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

猜您喜歡:

深入淺出stable diffusion:AI作畫技術背后的潛在擴散模型論文解讀

 戳我,查看GAN的系列專輯~!
一頓午飯外賣,成為CV視覺的前沿弄潮兒!
最新最全100篇匯總!生成擴散模型Diffusion Models
ECCV2022 | 生成對抗網絡GAN部分論文匯總
CVPR 2022 | 25+方向、最新50篇GAN論文
 ICCV 2021 | 35個主題GAN論文匯總
超110篇!CVPR 2021最全GAN論文梳理
超100篇!CVPR 2020最全GAN論文梳理

拆解組新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多樣性圖像生成

附下載 | 《可解釋的機器學習》中文版

附下載 |《TensorFlow 2.0 深度學習算法實戰》

附下載 |《計算機視覺中的數學方法》分享

《基于深度學習的表面缺陷檢測方法綜述》

《零樣本圖像分類綜述: 十年進展》

《基于深度神經網絡的少樣本學習綜述》

《禮記·學記》有云:獨學而無友,則孤陋而寡聞

歡迎加入 GAN/擴散模型 —交流微信群 !

掃描下面二維碼,添加運營小妹好友,拉你進群。發送申請時,請備注,格式為:研究方向+地區+學校/公司+姓名如 擴散模型+北京+北航+吳彥祖

請備注格式:研究方向+地區+學校/公司+姓名

點擊 一頓午飯外賣,成為CV視覺的前沿弄潮兒!,領取優惠券,加入 AI生成創作與計算機視覺 知識星球!

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
10年研究積累,推動圖像合成進入「PS」時代
普通人也能成為 AI 藝術家:DALL
蘋果讓機器訓練機器,首份人工智能論文揭露其中玄機【中譯全文】
生成對抗網絡GAN論文TOP 10
首個超大規模GAN模型!生成速度比Diffusion快20 倍,0.13秒出圖,最高支持1600萬像素
55頁生成式Al(AIGC)應用商業化落地,科技與藝術交匯,AI助美圖騰飛(附下載)
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 镇平县| 紫云| 佛教| 鹤山市| 黔西| 海门市| 明星| 青冈县| 武鸣县| 鄂尔多斯市| 柳江县| 合作市| 辽宁省| 威信县| 增城市| 定州市| 武胜县| 海晏县| 山西省| 绥德县| 武乡县| 承德县| 武强县| 宣武区| 高唐县| 安乡县| 阳春市| 彭山县| 富蕴县| 天祝| 土默特右旗| 新邵县| 鹤庆县| 宝鸡市| 习水县| 囊谦县| 南木林县| 格尔木市| 平果县| 德州市| 泰兴市|