精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
沒有點積注意力就不香了嗎?Transformer中自注意力機制的反思

0. 背景

機構(gòu):Google Research
作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
論文地址:https://arxiv.org/abs/2005.00743

0.1 摘要

以當(dāng)下基于 Transformer 的各種先進模型來看,使用點積自注意力(dot product self-attention)是至關(guān)重要且不可或缺的。但,事實真的如此嗎,沒有點積自注意力 Transformer 的各種模型就會不香嗎?點積自注意力是否真的不可替代?為此,本文提出 SYNTHESIZER 模型,該模型注意力權(quán)重的學(xué)習(xí)摒棄了傳統(tǒng)自注意力機制中 token 之間的交互。本文通過大量實驗發(fā)現(xiàn):
(1)隨機初始化對齊矩陣所表現(xiàn)出的實力驚人
(2)學(xué)習(xí)注意力權(quán)重其實沒有必要基于 token-token 或者說 query-key 之間的交互
此外,實驗表明 SYNTHESIZER 模型在多個任務(wù)(包括機器翻譯、語言建模、文本摘要、對話生成和自然語言理解)上可以與原始的 Transformer 相媲美。

1. 介紹

隨著基于 Transformer 的各種模型在眾多 NLP 任務(wù)上大獲成功,Transformer 的霸主地位已成事實。而 Transformer 的核心是 query-key-value 的點積自注意力,點積自注意力的基本作用是學(xué)習(xí)自對齊(self-alignment),即確定單個 token 相對于序列中所有其他 token 的相對重要性。實際上query、key 和 values 隱含著自注意力模擬一個基于內(nèi)容的檢索過程,而這個過程的核心是 pairwise 之間的交互。本文則對這整個過程進行了反思。

與傳統(tǒng)的做法相反,本文提出既不需要點積自注意力,也不需要基于內(nèi)容的記憶類自注意力。傳統(tǒng)上,注意力權(quán)重是在實例或樣本級學(xué)習(xí)的,其中權(quán)重通過實例級的 pairwise 交互產(chǎn)生。因此,這些特定于具體實例的交互往往在不同的實例間波動,缺乏一致的全局語境。為此,本文提出 SYNTHESIZER,該模型不再計算 token 之間兩兩點積,而是學(xué)習(xí)合成自對齊(self-alignment)矩陣,即合成自注意力矩陣。同時本文提出多種合成方式,并對其進行全面評估。這些合成函數(shù)接收的信息源包括(1)單個 token(2)token-token 之間的交互(3)全局任務(wù)信息。
 
其實,SYNTHESIZER 是標(biāo)準(zhǔn) Transformer 的泛化。實驗結(jié)果表明 SYNTHESIZER 憑借全局注意力權(quán)重也能夠獲得具有競爭性的結(jié)果,而完全不用考慮 token-token 交互或任何實例級(局部)信息。隨機初始化的 SYNTHESIZER 在 WMT 2014 English-German 上取得27.27的BLEU。在某些情況下,可以用更簡單的 SYNTHESIZER 變體替換流行的和完善的基于內(nèi)容的點積注意力,而不會犧牲太多性能??偟膩碚f,本文的發(fā)現(xiàn)將會促進 Transformer 模型中自注意機制真正作用和效用的進一步研究和討論。
 
本文的貢獻如下:
1. 提出 Synthetic Attention,這是一種新的學(xué)習(xí)注意力權(quán)重的方式。該方法沒有使用點積注意力或基于內(nèi)容的注意力)。生成獨立于 token-token 交互的對齊矩陣,并探索了一組用于生成注意力矩陣的參數(shù)化函數(shù)。
2. 提出 SYNTHESIZER 模型,該模型利用了 Synthetic Attention。該模型在多個自然語言任務(wù)(包括機器翻譯和語言建模)上可以與最先進的 Transformer 模型相比肩。
3. 證明(1)隨機可學(xué)習(xí)的對齊矩陣的性能具有競爭性;(2)用各種 Transformer 模型進行屠榜時,token-token 的依賴關(guān)系并非必要。

2. 模型

2.1 Dense Synthesizer

2.2 Random Synthesizer:

2.3 模型分解


本文提出的各種合成函數(shù)如 Table 1所示。值得注意的是,常規(guī)的點積注意力也可以被納入 SYNTHESIZER 的合成器框架,換句話說,SYNTHESIZER 是 Transformer 模型的一般化形式。

3. 實驗

文本在機器翻譯、語言模型、文本生成、多任務(wù)自然語言理解等任務(wù)上進行了實驗。

機器翻譯和語言建模: 
在 WMT’14 英德(EnDe)和英法(EnFr)機器翻譯任務(wù)數(shù)據(jù)集上評測,結(jié)果如 Table 2 所示。


從上述 Table 2 可以看出,除了固定的 Random Synthesizer 表現(xiàn)較差之外,其他模型表現(xiàn)都差不多,盡管相比于 Transformers 略有下降。其實固定的 Random Synthesizer 結(jié)果也是蠻驚人的,EnDe上也有大概 24 BLEU。

語言建模任務(wù)上使用的數(shù)據(jù)集是 LM1B,混合 Synthesizer(Dense + Vanilla)取得效果最好,同時該混合 Synthesizer 模型也是的各種 Synthesizer 模型中唯一超過 Transformer 的。

文本生成:
在文本生成上分別使用了摘要生成方面的 CNN/Dailymail 數(shù)據(jù)集和對話生成方面的 PersonaChat 數(shù)據(jù)集,具體實驗結(jié)果如 Table 3 所示:

實驗結(jié)果可以看出 Synthesizer 的各個模型表現(xiàn)不一。在文本摘要生成這個任務(wù)上,雖然在不同指標(biāo)上最優(yōu)模型各不相同,但是整體上標(biāo)準(zhǔn) Transformer 效果比較好。但在對話生成這個任務(wù)上,各個指標(biāo)上都是 Synthesizer 優(yōu)于標(biāo)準(zhǔn) Transformer,特別是 Synthesizer(D)在各個指標(biāo)上都取得了最佳結(jié)果。而當(dāng) Dense 和 Random 混合了標(biāo)準(zhǔn)的 Transformer 后(即 D+V 和 R+V),指標(biāo)卻下降了。這意味著點積自注意力在這項任務(wù)上實際上可能是幫了倒忙的。

多任務(wù)自然語言理解: 
在自然語言理解任務(wù)上選用的是使用 GLUE 和 SuperGLUE。SYNTHESIZER 模型和 T5(base)在上述倆個benchmark上的實驗結(jié)果如 Table 4 和Table 5 所示:


從實驗結(jié)果可以看出,R+V 的混合模型在多數(shù)子任務(wù)上取得最好的效果。

4. 總結(jié)

本文提出一種新的 Transformer 模型 SYNTHESIZER,該模型它采用合成注意力(Synthetic Attention)。此外試圖更好地理解和評估全局對齊、局部對齊和實例對齊(單個 token 和 token-token)在自注意力中的效用。并在機器翻譯、語言建模和對話生成等多個任務(wù)上證明了合成注意力可以與原始的 Transformer 相媲美。特別是在對話生成任務(wù)上,token-token 之間的交互實際上會降低性能。Synthesizer 的不同設(shè)置沒有絕對的優(yōu)劣,與具體的任務(wù)相關(guān)??偟膩碚f,本文是對當(dāng)下流行的自注意力機制的反思和探索,希望能夠拋磚引玉,進一步促進 Transformer 中各個部分效用的研究。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【持續(xù)更新】ACL2020論文精選
清華&BAAI唐杰團隊提出第一個開源的通用大規(guī)模預(yù)訓(xùn)練文本到視頻生成模型CogVideo,含94億超大參數(shù)量!代碼即將開源!
為什么使用自注意力機制?
【論文解讀】UniLM:一種既能閱讀又能自動生成的預(yù)訓(xùn)練模型
Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion
適合你找個時間好好消化的文章,大模型核心技術(shù)——Transformer架構(gòu)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 任丘市| 塘沽区| 什邡市| 托克逊县| 乐都县| 株洲市| 麻栗坡县| 疏附县| 双柏县| 和田县| 贵定县| 板桥市| 金坛市| 湟中县| 浦城县| 乃东县| 鹤峰县| 漳平市| 城市| 隆林| 潮安县| 长子县| 屏山县| 黎城县| 开化县| 安阳县| 嫩江县| 马关县| 开阳县| 岑巩县| 光山县| 西昌市| 六枝特区| 宜川县| 茶陵县| 德州市| 蛟河市| 诸城市| 滦南县| 东至县| 垦利县|