精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
大道至簡(jiǎn),何愷明新論文火了:Masked Autoencoders讓計(jì)算機(jī)視覺通向大模型

機(jī)器之心報(bào)道

機(jī)器之心編輯部

計(jì)算機(jī)視覺領(lǐng)域的 GPT-3 要有了?

大佬會(huì)告訴你,強(qiáng)大的 AI 技術(shù) idea 應(yīng)該非常簡(jiǎn)單,實(shí)現(xiàn)起來也很快捷。

什么樣的 AI 論文能剛上 arXiv 不到半天,就成為知乎熱搜?



而且熱度還能以肉眼可見的速度上升。


11 月 12 日,一篇由 Facebook AI 研究院完成、何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》成為了計(jì)算機(jī)視覺圈的熱門話題。


論文鏈接:https://arxiv.org/abs/2111.06377

社交網(wǎng)絡(luò)上已有不止一人說,這篇論文說不定能「預(yù)定」CVPR 2022 的最佳。雖然我們還不能武斷地認(rèn)為它就是近期最重要的研究,但 MAE 研究的確是按照 CVPR 格式上傳的,而且看來已是一個(gè)很有質(zhì)量的工作。11 月 9 日,CVPR 2022 大會(huì)剛剛截止論文注冊(cè),論文提交的 Deadline 是太平洋時(shí)間 16 號(hào)晚 12 點(diǎn)。

這篇論文展示了一種被稱為掩蔽自編碼器(masked autoencoders,MAE)的新方法,可以用作計(jì)算機(jī)視覺的可擴(kuò)展自監(jiān)督學(xué)習(xí)器。MAE 的方法很簡(jiǎn)單:掩蔽輸入圖像的隨機(jī)區(qū)塊并重建丟失的像素。它基于兩個(gè)核心理念:研究人員開發(fā)了一個(gè)非對(duì)稱編碼器 - 解碼器架構(gòu),其中一個(gè)編碼器只對(duì)可見的 patch 子集進(jìn)行操作(沒有掩蔽 token),另一個(gè)簡(jiǎn)單解碼器可以從潛在表征和掩蔽 token 重建原始圖像。

研究人員進(jìn)一步發(fā)現(xiàn),掩蔽大部分輸入圖像(例如 75%)會(huì)產(chǎn)生重要且有意義的自監(jiān)督任務(wù)。結(jié)合這兩種設(shè)計(jì),我們就能高效地訓(xùn)練大型模型:提升訓(xùn)練速度至 3 倍或更多,并提高準(zhǔn)確性。

作者認(rèn)為,這種可擴(kuò)展方法允許學(xué)習(xí)泛化良好的高容量模型:例如在僅使用 ImageNet-1K 數(shù)據(jù)的方法中,vanilla ViT-Huge 模型實(shí)現(xiàn)了最佳準(zhǔn)確率 (87.8%)。在下游任務(wù)中的傳輸性能優(yōu)于有監(jiān)督的預(yù)訓(xùn)練,并顯示出可觀的擴(kuò)展能力。

用 MAE 做 pre-training 只需 ImageNet-1k 就能達(dá)到超過 87% 的 top 1 準(zhǔn)確度,超過了所有在 ImageNet-21k pre-training 的 ViT 變體模型。而從方法上看,MAE 選擇直接重建原圖的元素,而且證明了其可行性,改變了人們的認(rèn)知,又幾乎可以覆蓋 CV 里所有的識(shí)別類任務(wù),看起來像是開啟了一個(gè)新的方向。

論文概覽

近些年來,深度學(xué)習(xí)領(lǐng)域出現(xiàn)了一大批能力、容量均不斷增長(zhǎng)的架構(gòu)。在不斷升級(jí)的硬件的支持下,今天的模型已經(jīng)能夠輕松地消化數(shù)百萬張圖像,而且開始向數(shù)以億計(jì)的標(biāo)記圖像進(jìn)發(fā)。

在自然語言處理中,這種數(shù)據(jù)需求已經(jīng)成功地通過自監(jiān)督預(yù)訓(xùn)練來解決。基于 GPT 自回歸語言建模和 BERT 掩蔽自編碼的解決方案在概念上非常簡(jiǎn)單:它們刪除一部分?jǐn)?shù)據(jù),并學(xué)習(xí)預(yù)測(cè)刪除的內(nèi)容。這些方法可以用來訓(xùn)練包含數(shù)千億參數(shù)的可泛化 NLP 模型。

掩蔽自編碼器是一種更通用的去噪自編碼器,也適用于計(jì)算機(jī)視覺。其實(shí),與視覺密切相關(guān)的研究早于 BERT。在 BERT 成功之后,人們對(duì)這一想法也產(chǎn)生了極大的興趣。但盡管如此,視覺自編碼方法的發(fā)展還是落后于 NLP。何愷明等研究者想知道:是什么造成了這種差異?

他們嘗試從以下幾個(gè)角度來回答這一問題:

1、架構(gòu)差異。在計(jì)算機(jī)視覺領(lǐng)域,卷積網(wǎng)絡(luò)是過去十年的主流架構(gòu)。不過,隨著 Vision Transformers(ViT)的推出,這種架構(gòu)上的差異已經(jīng)逐漸縮小,應(yīng)該不會(huì)再成為障礙。

2、信息密度差異。語言是人類產(chǎn)生的高度語義化信號(hào),信息非常密集。當(dāng)訓(xùn)練一個(gè)模型來預(yù)測(cè)每個(gè)句子中缺失的寥寥數(shù)詞時(shí),這項(xiàng)任務(wù)似乎能誘發(fā)復(fù)雜的語言理解。但視覺任務(wù)就不同了:圖像是自然信號(hào),擁有大量的空間冗余。例如,一個(gè)缺失的 patch 可以根據(jù)相鄰的 patch 恢復(fù),而不需要對(duì)其他部分、對(duì)象和場(chǎng)景有很多的高級(jí)理解。

為了克服這種差異并鼓勵(lì)學(xué)習(xí)有用的特征,研究者展示了:一個(gè)簡(jiǎn)單的策略在計(jì)算機(jī)視覺中也能非常有效:掩蔽很大一部分隨機(jī) patch。這種策略在很大程度上減少了冗余,并創(chuàng)造了一個(gè)具有挑戰(zhàn)性的自監(jiān)督任務(wù),該任務(wù)需要超越低級(jí)圖像統(tǒng)計(jì)的整體理解。下圖 2 - 圖 4 展示了這一重建任務(wù)的定性結(jié)果。




3、自編碼器的解碼器(將潛在表征映射回輸入)在文本和圖像重建任務(wù)中起著不同的作用。在計(jì)算機(jī)視覺任務(wù)中,解碼器重建的是像素,因此其輸出的語義水平低于一般的識(shí)別任務(wù)。這與語言相反,語言任務(wù)中的解碼器預(yù)測(cè)的是包含豐富語義信息的缺失單詞。雖然在 BERT 中,解碼器可能是微不足道的(一個(gè) MLP),但何愷明等研究者發(fā)現(xiàn),對(duì)于圖像,解碼器的設(shè)計(jì)對(duì)于學(xué)到的潛在表示的語義水平起著關(guān)鍵作用。

基于以上分析,研究者提出了一種簡(jiǎn)單、有效且可擴(kuò)展的掩蔽自編碼器(MAE)用于視覺表征學(xué)習(xí)。該 MAE 從輸入圖像中掩蔽了隨機(jī) patch 并重建像素空間中缺失的 patch。它具有非對(duì)稱的編碼器 - 解碼器設(shè)計(jì)。其中,編碼器僅對(duì) patch 的可見子集(沒有掩碼 token)進(jìn)行操作,解碼器則是輕量級(jí)的,可以從潛在表征和掩碼 token 中重建輸入(圖 1)。

在這個(gè)非對(duì)稱編碼器 - 解碼器中,將掩碼 token 轉(zhuǎn)移到小型解碼器會(huì)導(dǎo)致計(jì)算量大幅減少。在這種設(shè)計(jì)下,非常高的掩蔽率(例如 75%)可以實(shí)現(xiàn)雙贏:它優(yōu)化了準(zhǔn)確性,同時(shí)允許編碼器僅處理一小部分(例如 25%)的 patch。這可以將整體預(yù)訓(xùn)練時(shí)間減少至原來的 1/3 或更低,同時(shí)減少內(nèi)存消耗,使我們能夠輕松地將 MAE 擴(kuò)展到大型模型。


MAE 可以學(xué)習(xí)非常大容量的模型,而且泛化性能良好。通過 MAE 預(yù)訓(xùn)練,研究者可以在 ImageNet-1K 上訓(xùn)練 ViT-Large/-Huge 等需要大量數(shù)據(jù)的模型,提高泛化性能。例如,在 ImageNet-1K 數(shù)據(jù)集上,原始 ViT-Huge 模型經(jīng)過微調(diào)后可以實(shí)現(xiàn) 87.8% 的準(zhǔn)確率。這比以前所有僅使用 ImageNet-1K 數(shù)據(jù)的模型效果都要好。


研究者還對(duì) MAE 進(jìn)行了遷移學(xué)習(xí)方面的評(píng)估,具體任務(wù)包括目標(biāo)檢測(cè)、實(shí)例分割、語義分割等。實(shí)驗(yàn)結(jié)果表明,MAE 實(shí)現(xiàn)了比監(jiān)督預(yù)訓(xùn)練更好的結(jié)果。更重要的是,隨著模型規(guī)模的擴(kuò)大,MAE 的收益也越來越明顯。這些結(jié)果與 NLP 預(yù)訓(xùn)練中觀察到的自監(jiān)督預(yù)訓(xùn)練結(jié)果一致。




具有良好擴(kuò)展性的簡(jiǎn)單算法是深度學(xué)習(xí)的核心。在 NLP 中,簡(jiǎn)單的自監(jiān)督學(xué)習(xí)方法(如 BERT)可以從指數(shù)級(jí)增大的模型中獲益。在計(jì)算機(jī)視覺中,盡管自監(jiān)督學(xué)習(xí)取得了進(jìn)展,但實(shí)際的預(yù)訓(xùn)練范式仍是監(jiān)督學(xué)習(xí)。在 MAE 研究中,研究人員在 ImageNet 和遷移學(xué)習(xí)中觀察到自編碼器——一種類似于 NLP 技術(shù)的簡(jiǎn)單自監(jiān)督方法——提供了可擴(kuò)展的前景。視覺中的自監(jiān)督學(xué)習(xí)可能會(huì)因此走上與 NLP 類似的軌跡。

MAE 架構(gòu)細(xì)節(jié)

掩蔽

與 ViT 類似,該方法將圖像劃分為規(guī)則的非重疊 patch,然后對(duì) patch 的子集進(jìn)行采樣,并掩蔽(移除)剩余的 patch。該方法的采樣策略很簡(jiǎn)單:不帶替換地隨機(jī)采樣 patch,遵循均勻分布。研究者將其稱為「隨機(jī)采樣」。具有高掩蔽率(即移除 patch 的比率)的隨機(jī)采樣在很大程度上消除了冗余,從而創(chuàng)建了一項(xiàng)無法借助可見相鄰 patch 外推(extrapolation)來輕松解決的任務(wù)。均勻分布可以避免出現(xiàn)潛在的中心偏置(center bias,即圖像中心附近有更多的掩蔽 patch)。最后,高度稀疏的輸入有助于設(shè)計(jì)高效的編碼器。

MAE 編碼器

該方法的編碼器是一個(gè)僅適用于可見、未掩蔽 patch 的 ViT。就像在一個(gè)標(biāo)準(zhǔn)的 ViT 中一樣,該編碼器通過添加位置嵌入的線性投影嵌入 patch,然后通過一系列 Transformer 塊處理結(jié)果集。但該編碼器只對(duì)整個(gè)集合的一小部分(例如 25%)進(jìn)行操作。被掩蔽的 patch 被移除;不使用掩蔽 token。這使得該方法能夠僅使用一小部分計(jì)算和內(nèi)存來訓(xùn)練非常大的編碼器。

MAE 解碼器

MAE 解碼器的輸入是一個(gè)完整的 token 集,包括 (i) 已編碼的可見 patch 和 (ii) 掩蔽 token,如上圖 1 所示。每個(gè)掩蔽 token 是一個(gè)共享的學(xué)得向量,指示是否存在需要預(yù)測(cè)的缺失 patch。該研究為這個(gè)完整集合中的所有 token 添加了位置嵌入,否則掩蔽 token 將沒有關(guān)于它們?cè)趫D像中位置的信息。解碼器也有一系列的 Transformer 塊。

MAE 解碼器僅在預(yù)訓(xùn)練期間用于執(zhí)行圖像重建任務(wù),僅使用編碼器生成用于識(shí)別的圖像表征,因此可以以獨(dú)立于編碼器設(shè)計(jì)的方式靈活地設(shè)計(jì)解碼器的架構(gòu)。該研究嘗試了非常小的解碼器,比編碼器更窄更淺。例如該方法的默認(rèn)解碼器每個(gè) token 的計(jì)算量?jī)H為編碼器的 10% 以下。通過這種非對(duì)稱設(shè)計(jì),所有 token 僅用輕量級(jí)解碼器處理,顯著減少了預(yù)訓(xùn)練時(shí)間。

一作簡(jiǎn)介


何愷明是 AI 領(lǐng)域著名的研究者。2003 年他以標(biāo)準(zhǔn)分 900 分獲得廣東省高考總分第一,被清華大學(xué)物理系基礎(chǔ)科學(xué)班錄取。在清華物理系基礎(chǔ)科學(xué)班畢業(yè)后,他進(jìn)入香港中文大學(xué)多媒體實(shí)驗(yàn)室攻讀博士學(xué)位,師從湯曉鷗。

何愷明曾于 2007 年進(jìn)入微軟亞洲研究院視覺計(jì)算組實(shí)習(xí),實(shí)習(xí)導(dǎo)師為孫劍。2011 年博士畢業(yè)后,他加入微軟亞洲研究院工作,任研究員。2016 年,何愷明加入 Facebook 人工智能實(shí)驗(yàn)室,任研究科學(xué)家至今。

何愷明曾于 2009 年拿到國(guó)際計(jì)算機(jī)視覺頂會(huì) CVPR 的 Best Paper,2016 年再獲 Best Paper 獎(jiǎng),2021 年有一篇論文是最佳論文的候選。何愷明還因?yàn)?Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時(shí)也參與了當(dāng)年最佳學(xué)生論文的研究。

參考內(nèi)容:
https://www.zhihu.com/question/498364155
https://arxiv.org/pdf/2111.06377.pdf

第一期:快速搭建基于Python和NVIDIA TAO Toolkit的深度學(xué)習(xí)訓(xùn)練環(huán)境

英偉達(dá) AI 框架 TAO(Train, Adapt, and optimization)提供了一種更快、更簡(jiǎn)單的方法來加速培訓(xùn),并快速創(chuàng)建高度精確、高性能、領(lǐng)域特定的人工智能模型。

11月15日19:30-21:00,英偉達(dá)專家?guī)砭€上分享,將介紹:
  • NVIDIA TAO Toolkit 的獨(dú)到特性
  • 快速部署 NVIDIA TAO Toolkit

  • 利用 NVIDIA TAO Toolkit 快速搭建深度學(xué)習(xí)訓(xùn)練環(huán)境

  • 利用 TAO Toolkit 快速訓(xùn)練部署目標(biāo)檢測(cè)模型

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
《Video MAE》何愷明團(tuán)隊(duì)提出視頻版本的MAE,進(jìn)行高效視頻預(yù)訓(xùn)練!Mask Ratio高達(dá)90%時(shí)效果很好!
聊聊愷明大神MAE的成功之處!
Vision Transformer 必讀系列之圖像分類綜述(一): 概述
基于檢索的自然語言處理模型研究梳理
深入理解視覺無監(jiān)督新范式MAE(附源碼實(shí)現(xiàn))
MLP三大工作超詳細(xì)解讀:why do we need?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 延吉市| 湄潭县| 峨山| 中宁县| 休宁县| SHOW| 仙桃市| 象山县| 新竹市| 修文县| 桃源县| 富蕴县| 鄢陵县| 固原市| 邵武市| 蒙山县| 收藏| 孟津县| 昂仁县| 迁西县| 土默特右旗| 吐鲁番市| 静海县| 平陆县| 黄浦区| 霍邱县| 乳山市| 东兰县| 凤庆县| 玛曲县| 彰化市| 扎鲁特旗| 勃利县| 宝应县| 临汾市| 柳林县| 阿勒泰市| 文水县| 安龙县| 盐亭县| 双峰县|