精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
雙重注意力網(wǎng)絡(luò):中科院自動(dòng)化所提出新的自然場景圖像分割框架
場景分割是語義分割領(lǐng)域中重要且具有挑戰(zhàn)的方向。為了有效完成場景分割任務(wù),需要區(qū)分一些容易混淆的類別,并考慮不同外觀的物體。本文提出了一個(gè)新的自然場景圖像分割框架,稱為雙重注意力網(wǎng)絡(luò)(DANet),引入了一種自注意力機(jī)制來分別捕捉空間維度和通道維度上的視覺特征關(guān)聯(lián)。在處理復(fù)雜多樣的場景時(shí),本文提出的方法比以往的方法更為靈活、有效,在三個(gè)具有挑戰(zhàn)性的場景分割數(shù)據(jù)集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當(dāng)前最佳分割性能。

選自 arxiv,作者:Jun Fu、Jing Liu、Haijie Tian、Zhiwei Fang、Hanqing Lu,機(jī)器之心編譯,參與:張倩、王淑婷。

場景分割是語義分割領(lǐng)域中重要且具有挑戰(zhàn)的方向,其可以應(yīng)用于自動(dòng)駕駛,增強(qiáng)現(xiàn)實(shí),圖像編輯等領(lǐng)域。場景分割需要預(yù)測出圖像中的像素點(diǎn)屬于某一目標(biāo)類或場景類,其圖像場景的復(fù)雜多樣(光照,視角,尺度,遮擋等)對于場景的理解和像素點(diǎn)的判別造成很大困難。當(dāng)前主流場景分割方法大致可分為以下兩種類型:一是通過使用多尺度特征融合的方式增強(qiáng)特別的表達(dá),例如空間金字塔結(jié)構(gòu) (PSP,ASPP) 或者高層淺層特征融合 (RefineNet)。但是這些方式?jīng)]有考慮到不同特征之間的關(guān)聯(lián)依賴,而這對于場景的理解確實(shí)十分重要。另一是利用 RNN 網(wǎng)絡(luò)構(gòu)建特征長范圍的特征關(guān)聯(lián),但這種關(guān)聯(lián)往往受限于 RNN 的 long-term memorization。

本文提出了一種簡單有效的雙重注意力網(wǎng)絡(luò)(Dual Attention Network, DANet),通過引入自注意力機(jī)制 (self-attention mechanism) 在特征的空間維度和通道維度分別抓取特征之間的全局依賴關(guān)系,增強(qiáng)特征的表達(dá)能力。該網(wǎng)絡(luò)在 Cityscapes,PASCAL Context 和 COCO-Stuff 三個(gè)公開的場景分割數(shù)據(jù)集上均取得了當(dāng)前最好性能,相比 Dilated FCN 性能得到 5 個(gè)點(diǎn)以上的顯著提升。

論文:Dual Attention Network for Scene Segmentation




  • 論文鏈接:https://arxiv.org/pdf/1809.02983.pdf
  • 代碼鏈接:https://github.com/junfu1115/DANet


摘要:在本文中,我們基于自注意力機(jī)制捕獲豐富的語境關(guān)聯(lián)來解決場景分割問題。與以往通過多尺度特征融合捕獲語境的研究不同,我們提出了一種雙重注意力網(wǎng)絡(luò)(DANet)來自適應(yīng)地將局部特征與其全局依賴關(guān)系相結(jié)合。具體來說,我們在傳統(tǒng)的基于空洞卷積的 FCN 上添加了兩種注意力模塊,分別對空間維度和通道維度的語義相互關(guān)聯(lián)進(jìn)行建模。位置注意力模塊通過所有位置的特征加權(quán)總和選擇性地聚集每個(gè)位置的特征。無論距離遠(yuǎn)近,相似的特征都會(huì)相互關(guān)聯(lián)。同時(shí),通道注意力模塊通過整合所有通道圖中的相關(guān)特征,有選擇地強(qiáng)調(diào)相互關(guān)聯(lián)的通道圖。我們將兩個(gè)注意力模塊的輸出相加,以進(jìn)一步改進(jìn)特征表示,這有助于獲得更精確的分割結(jié)果。我們在三個(gè)具有挑戰(zhàn)性的場景分割數(shù)據(jù)集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當(dāng)前最佳分割性能。特別是,在不使用粗略數(shù)據(jù)的情況下,在 Cityscapes 測試集的平均 IoU 分?jǐn)?shù)達(dá)到了 81.5 %。

方法

DANet 在特征的空間維度和通道維度分別引入自注意力機(jī)制,即位置注意力模塊和通道注意力模塊,有效抓取特征的全局依賴關(guān)系。系統(tǒng)框架圖和兩個(gè)模塊的具體結(jié)構(gòu)如下:



圖 1. DANet 的網(wǎng)絡(luò)框架圖



圖 2. A 為位置注意力結(jié)構(gòu)圖, B 為通道注意力結(jié)構(gòu)圖

位置注意力模塊旨在利用任意兩點(diǎn)特征之間的關(guān)聯(lián),來相互增強(qiáng)各自特征的表達(dá)。具體來說,首先計(jì)算出任意兩點(diǎn)特征之間關(guān)聯(lián)強(qiáng)度矩陣,即原始特征 A 經(jīng)過卷積降維獲得特征 B 和特征 C,然后改變特征維度 B 為 ((HxW)xC') 和 C 為 (C'x(HxW)) 然后矩陣乘積獲得任意兩點(diǎn)特征之間的關(guān)聯(lián)強(qiáng)度矩 ((HxW)x(HxW))。然后經(jīng)過 softmax 操作歸一化獲得每個(gè)位置對其他位置的 attention 圖 S, 其中越相似的兩點(diǎn)特征之間,其響應(yīng)值越大。接著將 attention 圖中響應(yīng)值作為加權(quán)對特征 D 進(jìn)行加權(quán)融合,這樣對于各個(gè)位置的點(diǎn),其通過 attention 圖在全局空間中的融合相似特征。

通道注意力模塊旨在通過建模通道之間的關(guān)聯(lián),增強(qiáng)通道下特定語義響應(yīng)能力。具體過程與位置注意力模塊相似,不同的是在獲得特征注意力圖 X 時(shí),是將任意兩個(gè)通道特征進(jìn)行維度變換和矩陣乘積,獲得任意兩個(gè)通道的關(guān)聯(lián)強(qiáng)度,然后同樣經(jīng)過 softmax 操作獲得的通道間的 attention 圖。最后通過通道之間的 attention 圖加權(quán)進(jìn)行融合,使得各個(gè)通道之間能產(chǎn)生全局的關(guān)聯(lián),獲得更強(qiáng)的語義響應(yīng)的特征。

為了進(jìn)一步獲得全局依賴關(guān)系的特征,將兩個(gè)模塊的輸出結(jié)果進(jìn)行相加融合,獲得最終的特征用于像素點(diǎn)的分類。

實(shí)驗(yàn)


為了評估提出的此方法,我們在 Cityscapes 數(shù)據(jù)集、PASCAL Context 數(shù)據(jù)集、COCO Stuff 數(shù)據(jù)集上做了綜合實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表示,DANet 在這些數(shù)據(jù)集上取得了頂級結(jié)果。

在 Cityscaps 數(shù)據(jù)集上的結(jié)果



表 1:在 Cityscapes 驗(yàn)證集上的對比實(shí)驗(yàn)。PAM 表示位置注意力模塊,CAM 表示通道注意力模塊。



圖 3:在 Cityscapes 驗(yàn)證集上僅使用和不使用位置注意力模塊效果對比圖。



圖 4:在 Cityscapes 驗(yàn)證集上僅使用和不使用通道注意力模塊的效果對比圖。



表 2:在 Cityscape 驗(yàn)證集上,不同策略之間的表現(xiàn)對比。DANet-101 表示 DANet 使用 BaseNet ResNet-101,DA 表示訓(xùn)練數(shù)據(jù)采用多尺度增強(qiáng),Multi-Grid 表示使用多重網(wǎng)絡(luò)方法,MS 表示測試時(shí)多尺度融合。



圖 5:注意力模塊在 Cityscapes 驗(yàn)證集上的可視化結(jié)果。每一行包括一張輸入圖像,兩個(gè)與輸入圖像中標(biāo)記的點(diǎn)對應(yīng)的子注意力圖(H × W)。同時(shí),我們也給出了來自通道注意力模塊輸出的兩張通道圖,分別來自第 4 和第 11 通道。最后,也給出了對應(yīng)的結(jié)果和真實(shí)值。

可以看出位置注意力模塊中,全局區(qū)域下相似語義特征之間響應(yīng)較大,而通道注意力模塊中,通道對某些語義區(qū)域有很強(qiáng)的響應(yīng)。



表 3:在 Cityscapes 測試集上每個(gè)類別的結(jié)果。DANet 超越了已有方法,平均 IoU 達(dá)到 81.5%。

本文與當(dāng)前 state-of-the-art 進(jìn)行了對比,在僅使用精細(xì)數(shù)據(jù)集(fine data)作為訓(xùn)練數(shù)據(jù),resnet-101 作為基模型下,取得當(dāng)前最好的分割性能。值得一提的是,目前并沒有采用在線困難樣本挖掘(OHEM, Focal Loss),更高分辨率的測試方法,更強(qiáng)大的基模型等策略,進(jìn)一步的效果提升值得期待!

在 PASCAL Context 數(shù)據(jù)集上的結(jié)果



表 4:在 PASCAL Context 測試集上的分割結(jié)果

在 COCO Stuff 數(shù)據(jù)集上的結(jié)果



表 5:在 COCO Stuff 測試集上的分割結(jié)果

中科院自動(dòng)化所圖像與視頻分析團(tuán)隊(duì)(IVA),隸屬于模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室,有著深厚的學(xué)術(shù)底蘊(yùn)和強(qiáng)大的人才支持,在 PAMI,TNNLS,TIP 等重要國際期刊和 CVPR,ICCV,ECCV 等國際會(huì)議上發(fā)表論文數(shù)百余篇,論文具有國際影響力,其中有多篇論文被 ESI 國際性基本科學(xué)指標(biāo)數(shù)據(jù)庫列為高被引論文。在 ICCV 2017 COCO-Places 場景解析競賽、京東 AI 時(shí)尚挑戰(zhàn)賽和阿里巴巴大規(guī)模圖像搜索大賽踢館賽等多次拔得頭籌。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
CVPR 2018 | 曠視科技Face 提出用于語義分割的判別特征網(wǎng)絡(luò)DFN
李道紀(jì),郭海濤,盧俊,趙傳, 林雨準(zhǔn),余東行:遙感影像地物分類多注意力融和U型網(wǎng)絡(luò)法
計(jì)算機(jī)視覺中的自注意力
UFA-FUSE:一種用于多聚焦圖像融合的新型深度監(jiān)督混合模型
將位置信息嵌入通道注意力!NUS提出新機(jī)制,顯著提升卷積特征表達(dá)|CVPR2021
改進(jìn)YOLOv5的小目標(biāo)檢測算法-增加注意力機(jī)制
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 河北区| 太保市| 南昌市| 吴忠市| 九寨沟县| 黄平县| 昔阳县| 南部县| 西贡区| 肥西县| 洛阳市| 高碑店市| 平潭县| 绥滨县| 夏邑县| 镇康县| 新化县| 佛冈县| 志丹县| 玛沁县| 行唐县| 沈阳市| 木兰县| 怀远县| 沙河市| 历史| 迁安市| 台南市| 海原县| 贺兰县| 田阳县| 英德市| 白山市| 焉耆| 年辖:市辖区| 土默特左旗| 福安市| 林甸县| 红河县| 宜阳县| 屏东市|