機構(gòu):Google Research
作者:Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
0.1 摘要
以當(dāng)下基于 Transformer 的各種先進模型來看,使用點積自注意力(dot product self-attention)是至關(guān)重要且不可或缺的。但,事實真的如此嗎,沒有點積自注意力 Transformer 的各種模型就會不香嗎?點積自注意力是否真的不可替代?為此,本文提出 SYNTHESIZER 模型,該模型注意力權(quán)重的學(xué)習(xí)摒棄了傳統(tǒng)自注意力機制中 token 之間的交互。本文通過大量實驗發(fā)現(xiàn):
(1)隨機初始化對齊矩陣所表現(xiàn)出的實力驚人
(2)學(xué)習(xí)注意力權(quán)重其實沒有必要基于 token-token 或者說 query-key 之間的交互
此外,實驗表明 SYNTHESIZER 模型在多個任務(wù)(包括機器翻譯、語言建模、文本摘要、對話生成和自然語言理解)上可以與原始的 Transformer 相媲美。
1. 介紹
隨著基于 Transformer 的各種模型在眾多 NLP 任務(wù)上大獲成功,Transformer 的霸主地位已成事實。而 Transformer 的核心是 query-key-value 的點積自注意力,點積自注意力的基本作用是學(xué)習(xí)自對齊(self-alignment),即確定單個 token 相對于序列中所有其他 token 的相對重要性。實際上query、key 和 values 隱含著自注意力模擬一個基于內(nèi)容的檢索過程,而這個過程的核心是 pairwise 之間的交互。本文則對這整個過程進行了反思。
與傳統(tǒng)的做法相反,本文提出既不需要點積自注意力,也不需要基于內(nèi)容的記憶類自注意力。傳統(tǒng)上,注意力權(quán)重是在實例或樣本級學(xué)習(xí)的,其中權(quán)重通過實例級的 pairwise 交互產(chǎn)生。因此,這些特定于具體實例的交互往往在不同的實例間波動,缺乏一致的全局語境。為此,本文提出 SYNTHESIZER,該模型不再計算 token 之間兩兩點積,而是學(xué)習(xí)合成自對齊(self-alignment)矩陣,即合成自注意力矩陣。同時本文提出多種合成方式,并對其進行全面評估。這些合成函數(shù)接收的信息源包括(1)單個 token(2)token-token 之間的交互(3)全局任務(wù)信息。
其實,SYNTHESIZER 是標(biāo)準(zhǔn) Transformer 的泛化。實驗結(jié)果表明 SYNTHESIZER 憑借全局注意力權(quán)重也能夠獲得具有競爭性的結(jié)果,而完全不用考慮 token-token 交互或任何實例級(局部)信息。隨機初始化的 SYNTHESIZER 在 WMT 2014 English-German 上取得27.27的BLEU。在某些情況下,可以用更簡單的 SYNTHESIZER 變體替換流行的和完善的基于內(nèi)容的點積注意力,而不會犧牲太多性能??偟膩碚f,本文的發(fā)現(xiàn)將會促進 Transformer 模型中自注意機制真正作用和效用的進一步研究和討論。
本文的貢獻如下:
1. 提出 Synthetic Attention,這是一種新的學(xué)習(xí)注意力權(quán)重的方式。該方法沒有使用點積注意力或基于內(nèi)容的注意力)。生成獨立于 token-token 交互的對齊矩陣,并探索了一組用于生成注意力矩陣的參數(shù)化函數(shù)。
2. 提出 SYNTHESIZER 模型,該模型利用了 Synthetic Attention。該模型在多個自然語言任務(wù)(包括機器翻譯和語言建模)上可以與最先進的 Transformer 模型相比肩。
3. 證明(1)隨機可學(xué)習(xí)的對齊矩陣的性能具有競爭性;(2)用各種 Transformer 模型進行屠榜時,token-token 的依賴關(guān)系并非必要。
2. 模型
2.2 Random Synthesizer:
本文提出的各種合成函數(shù)如 Table 1所示。值得注意的是,常規(guī)的點積注意力也可以被納入 SYNTHESIZER 的合成器框架,換句話說,SYNTHESIZER 是 Transformer 模型的一般化形式。
從上述 Table 2 可以看出,除了固定的 Random Synthesizer 表現(xiàn)較差之外,其他模型表現(xiàn)都差不多,盡管相比于 Transformers 略有下降。其實固定的 Random Synthesizer 結(jié)果也是蠻驚人的,EnDe上也有大概 24 BLEU。
從實驗結(jié)果可以看出,R+V 的混合模型在多數(shù)子任務(wù)上取得最好的效果。