99精品视频一区在线观看,亚洲中文字幕无码久久,欧美日韩无套内射另类

0. 背景

機構(gòu)：Google Research
作者：Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng

論文地址：https://arxiv.org/abs/2005.00743

0.1 摘要

以當(dāng)下基于 Transformer 的各種先進模型來看，使用點積自注意力（dot product self-attention）是至關(guān)重要且不可或缺的。但，事實真的如此嗎，沒有點積自注意力 Transformer 的各種模型就會不香嗎？點積自注意力是否真的不可替代？為此，本文提出 SYNTHESIZER 模型，該模型注意力權(quán)重的學(xué)習(xí)摒棄了傳統(tǒng)自注意力機制中 token 之間的交互。本文通過大量實驗發(fā)現(xiàn)：
(1)隨機初始化對齊矩陣所表現(xiàn)出的實力驚人
(2)學(xué)習(xí)注意力權(quán)重其實沒有必要基于 token-token 或者說 query-key 之間的交互
此外，實驗表明 SYNTHESIZER 模型在多個任務(wù)(包括機器翻譯、語言建模、文本摘要、對話生成和自然語言理解)上可以與原始的 Transformer 相媲美。

1. 介紹

隨著基于 Transformer 的各種模型在眾多 NLP 任務(wù)上大獲成功，Transformer 的霸主地位已成事實。而 Transformer 的核心是 query-key-value 的點積自注意力，點積自注意力的基本作用是學(xué)習(xí)自對齊(self-alignment)，即確定單個 token 相對于序列中所有其他 token 的相對重要性。實際上query、key 和 values 隱含著自注意力模擬一個基于內(nèi)容的檢索過程，而這個過程的核心是 pairwise 之間的交互。本文則對這整個過程進行了反思。

與傳統(tǒng)的做法相反，本文提出既不需要點積自注意力，也不需要基于內(nèi)容的記憶類自注意力。傳統(tǒng)上，注意力權(quán)重是在實例或樣本級學(xué)習(xí)的，其中權(quán)重通過實例級的 pairwise 交互產(chǎn)生。因此，這些特定于具體實例的交互往往在不同的實例間波動，缺乏一致的全局語境。為此，本文提出 SYNTHESIZER，該模型不再計算 token 之間兩兩點積，而是學(xué)習(xí)合成自對齊(self-alignment)矩陣，即合成自注意力矩陣。同時本文提出多種合成方式，并對其進行全面評估。這些合成函數(shù)接收的信息源包括(1)單個 token(2)token-token 之間的交互(3)全局任務(wù)信息。

其實，SYNTHESIZER 是標(biāo)準(zhǔn) Transformer 的泛化。實驗結(jié)果表明 SYNTHESIZER 憑借全局注意力權(quán)重也能夠獲得具有競爭性的結(jié)果，而完全不用考慮 token-token 交互或任何實例級(局部)信息。隨機初始化的 SYNTHESIZER 在 WMT 2014 English-German 上取得27.27的BLEU。在某些情況下，可以用更簡單的 SYNTHESIZER 變體替換流行的和完善的基于內(nèi)容的點積注意力，而不會犧牲太多性能?？偟膩碚f，本文的發(fā)現(xiàn)將會促進 Transformer 模型中自注意機制真正作用和效用的進一步研究和討論。

本文的貢獻如下：
1. 提出 Synthetic Attention，這是一種新的學(xué)習(xí)注意力權(quán)重的方式。該方法沒有使用點積注意力或基于內(nèi)容的注意力)。生成獨立于 token-token 交互的對齊矩陣，并探索了一組用于生成注意力矩陣的參數(shù)化函數(shù)。
2. 提出 SYNTHESIZER 模型，該模型利用了 Synthetic Attention。該模型在多個自然語言任務(wù)(包括機器翻譯和語言建模)上可以與最先進的 Transformer 模型相比肩。
3. 證明(1)隨機可學(xué)習(xí)的對齊矩陣的性能具有競爭性;(2)用各種 Transformer 模型進行屠榜時，token-token 的依賴關(guān)系并非必要。

2. 模型

2.1 Dense Synthesizer

2.2 Random Synthesizer：

2.3 模型分解

本文提出的各種合成函數(shù)如 Table 1所示。值得注意的是，常規(guī)的點積注意力也可以被納入 SYNTHESIZER 的合成器框架，換句話說，SYNTHESIZER 是 Transformer 模型的一般化形式。

3. 實驗

文本在機器翻譯、語言模型、文本生成、多任務(wù)自然語言理解等任務(wù)上進行了實驗。

機器翻譯和語言建模：
在 WMT’14 英德(EnDe)和英法(EnFr)機器翻譯任務(wù)數(shù)據(jù)集上評測，結(jié)果如 Table 2 所示。

從上述 Table 2 可以看出，除了固定的 Random Synthesizer 表現(xiàn)較差之外，其他模型表現(xiàn)都差不多，盡管相比于 Transformers 略有下降。其實固定的 Random Synthesizer 結(jié)果也是蠻驚人的，EnDe上也有大概 24 BLEU。

語言建模任務(wù)上使用的數(shù)據(jù)集是 LM1B，混合 Synthesizer(Dense + Vanilla)取得效果最好，同時該混合 Synthesizer 模型也是的各種 Synthesizer 模型中唯一超過 Transformer 的。

文本生成：
在文本生成上分別使用了摘要生成方面的 CNN/Dailymail 數(shù)據(jù)集和對話生成方面的 PersonaChat 數(shù)據(jù)集，具體實驗結(jié)果如 Table 3 所示：

實驗結(jié)果可以看出 Synthesizer 的各個模型表現(xiàn)不一。在文本摘要生成這個任務(wù)上，雖然在不同指標(biāo)上最優(yōu)模型各不相同，但是整體上標(biāo)準(zhǔn) Transformer 效果比較好。但在對話生成這個任務(wù)上，各個指標(biāo)上都是 Synthesizer 優(yōu)于標(biāo)準(zhǔn) Transformer，特別是 Synthesizer(D)在各個指標(biāo)上都取得了最佳結(jié)果。而當(dāng) Dense 和 Random 混合了標(biāo)準(zhǔn)的 Transformer 后（即 D+V 和 R+V），指標(biāo)卻下降了。這意味著點積自注意力在這項任務(wù)上實際上可能是幫了倒忙的。

多任務(wù)自然語言理解：
在自然語言理解任務(wù)上選用的是使用 GLUE 和 SuperGLUE。SYNTHESIZER 模型和 T5(base)在上述倆個benchmark上的實驗結(jié)果如 Table 4 和Table 5 所示：

從實驗結(jié)果可以看出，R+V 的混合模型在多數(shù)子任務(wù)上取得最好的效果。

4. 總結(jié)

本文提出一種新的 Transformer 模型 SYNTHESIZER，該模型它采用合成注意力(Synthetic Attention)。此外試圖更好地理解和評估全局對齊、局部對齊和實例對齊(單個 token 和 token-token）在自注意力中的效用。并在機器翻譯、語言建模和對話生成等多個任務(wù)上證明了合成注意力可以與原始的 Transformer 相媲美。特別是在對話生成任務(wù)上，token-token 之間的交互實際上會降低性能。Synthesizer 的不同設(shè)置沒有絕對的優(yōu)劣，與具體的任務(wù)相關(guān)?？偟膩碚f，本文是對當(dāng)下流行的自注意力機制的反思和探索，希望能夠拋磚引玉，進一步促進 Transformer 中各個部分效用的研究。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕