MAE 可以學(xué)習(xí)非常大容量的模型,而且泛化性能良好。通過 MAE 預(yù)訓(xùn)練,研究者可以在 ImageNet-1K 上訓(xùn)練 ViT-Large/-Huge 等需要大量數(shù)據(jù)的模型,提高泛化性能。例如,在 ImageNet-1K 數(shù)據(jù)集上,原始 ViT-Huge 模型經(jīng)過微調(diào)后可以實(shí)現(xiàn) 87.8% 的準(zhǔn)確率。這比以前所有僅使用 ImageNet-1K 數(shù)據(jù)的模型效果都要好。
研究者還對(duì) MAE 進(jìn)行了遷移學(xué)習(xí)方面的評(píng)估,具體任務(wù)包括目標(biāo)檢測(cè)、實(shí)例分割、語義分割等。實(shí)驗(yàn)結(jié)果表明,MAE 實(shí)現(xiàn)了比監(jiān)督預(yù)訓(xùn)練更好的結(jié)果。更重要的是,隨著模型規(guī)模的擴(kuò)大,MAE 的收益也越來越明顯。這些結(jié)果與 NLP 預(yù)訓(xùn)練中觀察到的自監(jiān)督預(yù)訓(xùn)練結(jié)果一致。
具有良好擴(kuò)展性的簡(jiǎn)單算法是深度學(xué)習(xí)的核心。在 NLP 中,簡(jiǎn)單的自監(jiān)督學(xué)習(xí)方法(如 BERT)可以從指數(shù)級(jí)增大的模型中獲益。在計(jì)算機(jī)視覺中,盡管自監(jiān)督學(xué)習(xí)取得了進(jìn)展,但實(shí)際的預(yù)訓(xùn)練范式仍是監(jiān)督學(xué)習(xí)。在 MAE 研究中,研究人員在 ImageNet 和遷移學(xué)習(xí)中觀察到自編碼器——一種類似于 NLP 技術(shù)的簡(jiǎn)單自監(jiān)督方法——提供了可擴(kuò)展的前景。視覺中的自監(jiān)督學(xué)習(xí)可能會(huì)因此走上與 NLP 類似的軌跡。 MAE 架構(gòu)細(xì)節(jié) 掩蔽 與 ViT 類似,該方法將圖像劃分為規(guī)則的非重疊 patch,然后對(duì) patch 的子集進(jìn)行采樣,并掩蔽(移除)剩余的 patch。該方法的采樣策略很簡(jiǎn)單:不帶替換地隨機(jī)采樣 patch,遵循均勻分布。研究者將其稱為「隨機(jī)采樣」。具有高掩蔽率(即移除 patch 的比率)的隨機(jī)采樣在很大程度上消除了冗余,從而創(chuàng)建了一項(xiàng)無法借助可見相鄰 patch 外推(extrapolation)來輕松解決的任務(wù)。均勻分布可以避免出現(xiàn)潛在的中心偏置(center bias,即圖像中心附近有更多的掩蔽 patch)。最后,高度稀疏的輸入有助于設(shè)計(jì)高效的編碼器。 MAE 編碼器 該方法的編碼器是一個(gè)僅適用于可見、未掩蔽 patch 的 ViT。就像在一個(gè)標(biāo)準(zhǔn)的 ViT 中一樣,該編碼器通過添加位置嵌入的線性投影嵌入 patch,然后通過一系列 Transformer 塊處理結(jié)果集。但該編碼器只對(duì)整個(gè)集合的一小部分(例如 25%)進(jìn)行操作。被掩蔽的 patch 被移除;不使用掩蔽 token。這使得該方法能夠僅使用一小部分計(jì)算和內(nèi)存來訓(xùn)練非常大的編碼器。 MAE 解碼器 MAE 解碼器的輸入是一個(gè)完整的 token 集,包括 (i) 已編碼的可見 patch 和 (ii) 掩蔽 token,如上圖 1 所示。每個(gè)掩蔽 token 是一個(gè)共享的學(xué)得向量,指示是否存在需要預(yù)測(cè)的缺失 patch。該研究為這個(gè)完整集合中的所有 token 添加了位置嵌入,否則掩蔽 token 將沒有關(guān)于它們?cè)趫D像中位置的信息。解碼器也有一系列的 Transformer 塊。 MAE 解碼器僅在預(yù)訓(xùn)練期間用于執(zhí)行圖像重建任務(wù),僅使用編碼器生成用于識(shí)別的圖像表征,因此可以以獨(dú)立于編碼器設(shè)計(jì)的方式靈活地設(shè)計(jì)解碼器的架構(gòu)。該研究嘗試了非常小的解碼器,比編碼器更窄更淺。例如該方法的默認(rèn)解碼器每個(gè) token 的計(jì)算量?jī)H為編碼器的 10% 以下。通過這種非對(duì)稱設(shè)計(jì),所有 token 僅用輕量級(jí)解碼器處理,顯著減少了預(yù)訓(xùn)練時(shí)間。 一作簡(jiǎn)介
何愷明是 AI 領(lǐng)域著名的研究者。2003 年他以標(biāo)準(zhǔn)分 900 分獲得廣東省高考總分第一,被清華大學(xué)物理系基礎(chǔ)科學(xué)班錄取。在清華物理系基礎(chǔ)科學(xué)班畢業(yè)后,他進(jìn)入香港中文大學(xué)多媒體實(shí)驗(yàn)室攻讀博士學(xué)位,師從湯曉鷗。 何愷明曾于 2007 年進(jìn)入微軟亞洲研究院視覺計(jì)算組實(shí)習(xí),實(shí)習(xí)導(dǎo)師為孫劍。2011 年博士畢業(yè)后,他加入微軟亞洲研究院工作,任研究員。2016 年,何愷明加入 Facebook 人工智能實(shí)驗(yàn)室,任研究科學(xué)家至今。 何愷明曾于 2009 年拿到國(guó)際計(jì)算機(jī)視覺頂會(huì) CVPR 的 Best Paper,2016 年再獲 Best Paper 獎(jiǎng),2021 年有一篇論文是最佳論文的候選。何愷明還因?yàn)?Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時(shí)也參與了當(dāng)年最佳學(xué)生論文的研究。 參考內(nèi)容:https://www.zhihu.com/question/498364155https://arxiv.org/pdf/2111.06377.pdf
第一期:快速搭建基于Python和NVIDIA TAO Toolkit的深度學(xué)習(xí)訓(xùn)練環(huán)境
英偉達(dá) AI 框架 TAO(Train, Adapt, and optimization)提供了一種更快、更簡(jiǎn)單的方法來加速培訓(xùn),并快速創(chuàng)建高度精確、高性能、領(lǐng)域特定的人工智能模型。 11月15日19:30-21:00,英偉達(dá)專家?guī)砭€上分享,將介紹:
NVIDIA TAO Toolkit 的獨(dú)到特性
快速部署 NVIDIA TAO Toolkit
利用 NVIDIA TAO Toolkit 快速搭建深度學(xué)習(xí)訓(xùn)練環(huán)境