點上方人工智能算法與Python大數據獲取更多干貨
在右上方 ··· 設為星標 ★,第一時間獲取資源
僅做學術分享,如有侵權,聯系刪除
轉載于 :專知
自從 1950 年代開始,機器翻譯成為人工智能研究發展的重要任務 之一,經歷了幾個不同時期和階段性發展,包括基于規則的方法、統計的方 法、和最近提出的基于神經網絡的學習方法。伴隨這幾個階段性飛躍的是機器 翻譯的評測研究與發展,尤其是評測方法在統計翻譯和神經翻譯研究上所扮 演的重要角色。機器翻譯的評測任務不僅僅在于評價機器翻譯質量,還在于及 時的反饋給機器翻譯研究人員機器翻譯本身存在的問題,如何去改進以及如 何去優化。在一些實際的應用領域,比如在沒有參考譯文的情況下,機器翻譯 的質量估計更是起到重要的指示作用來揭示自動翻譯目標譯文的可信度。這 份報告主要包括一下內容:機器翻譯評測的簡史、研究方法分類、以及前沿的 進展,這其中包括人工評測、自動評測、和評測方法的評測(元評測)。人工評 測和自動評測包含基于參考譯文的和不需參考譯文參與的;自動評測方法包 括傳統字符串匹配、應用句法和語義的模型、以及深度學習模型;評測方法的 評測包含估計人工評測的可信度、自動評測的可信度、和測試集的可信度等。前沿的評測方法進展包括基于任務的評測、基于大數據預訓練的模型、以及應 用蒸餾技術的輕便優化模型。
https://www.zhuanzhi.ai/paper/1a1dbb2ca0c5430b4de224253237f95d
機器翻譯 (machine translation) 的研究始于 1950 年代 [152],隸屬于機器智能 框架下的計算語言學 (computational linguistics) 的一個重要分支。機器翻譯 經歷了基于規則理論模型 (rule-based)、基于實例的方法 (example-based)、基 于概率統計學 (statistical MT, SMT)、和近年來的基于機器學習神經網絡的 方法 (neural MT, NMT) [18, 122, 32, 88, 33, 83, 151, 149, 91]。雖然機器翻譯 的質量持續改進,自動翻譯的目標譯文依然沒有真正達到人類翻譯專家的水平,這個現象在大部分語料對和不同領域的測試集上非常明顯,最近的研究包 括反應普遍流行的翻譯測試集的狹隘性和文學領域 (literature domain) 機器 翻譯的表現很不佳 [95, 108, 77, 79]。因此,一如既往,機器翻譯的評測 (MT evaluation, MTE) 扮演著推動機器翻譯發展的重要角色 [77, 80]。機器翻譯質量的評測本身是一個很有挑戰性的研究課題,這源于翻譯本身的多樣性、語言 的多變性和豐富性、以及語義相似度計算的復雜性。這份報告包括對人工評測、自動評測、和針對評測的評測(元評測)的介 紹、以及該領域一些前沿的研究進展,請參見圖1,其中還包括交叉性的研究 比如有人工參與的 Metric、以及 Metric 用于質量估計的研究。圖1的上部分 框架還揭示這個元評測的理論圖也可應用于大部分的自然語言處理評測任務、 不僅限于機器翻譯。 有關機器翻譯評測的國際賽事包括每年一屆的統計機器翻譯會議(WMT) [89, 21, 23, 24, 25, 26, 27, 12, 13, 14, 15, 16, 17, 8, 9, 10] 所組織的人工評 測、自動評測(Metrics)和質量估計任務(QE),美國國家標椎和技術機構 (NIST)組織的機器翻譯比賽 [100] 1,和語音語言技術國際研討會(IWSLT) [46, 124, 125, 49] 協辦的文本翻譯賽事;地區性的賽事包括中國機器翻譯研討會(CWMT)。這份報告的大部分方法來自對以上國際和地區性的評測賽事的 總結。從翻譯教學和翻譯工業應用的角度,[138] 在 2005 年做了有關機器翻譯錯誤 分類的研究。歐洲機器翻譯研究聯合項目 EuroMatrix 于 2007 年的一份報 告簡介了人工評測和當時流行的自動評測 [48]。美國國防先進研究項目機構 (DARPA)的 GALE 項目助攻機器翻譯并在 2009 年的一份匯報中介紹了自 動評測和半自動評測,包含基于任務的和有人工參與的評測方法,其中 HTER 是該項目主要信賴評測指標。該報告還指出評測方法可用來機器翻譯參數的 優化 [43]。2013 年歐洲機器翻譯會議(EAMT)的一份邀請報告闡述了該作 者所在機構開發的 Asiya 在線機器翻譯錯誤分析平臺。同時還提及了機器翻 譯評測的簡史,包含基于詞面相似度的方法和語言學驅動的方法。這份報告區 別于以上工作,在人工評測、自動評測、和元評測上分別加以綜合介紹,并且 對近幾年的該領域研究進展進行更新講解。此報告是基于我們近期發表在 “翻 譯建模:數字時代的翻譯學 (MoTra21) ” 國際研討會的工作 [80]。人工評測部分我們分兩個小節介紹傳統的方法和后續發展的方法,參見圖2。早期的機器翻譯人工評價標準始于美國自動語言處理指導委員會 (ALPAC) [28] 所制定的 “清晰度” 和 “保真度”。清晰度被定義為:盡最大可能地,翻譯文本應該讀起來像正常的認真寫出來的片段,并且容易理解,就像是一開始就 是用目標語言所寫的。保真度被定義為:翻譯文本應該盡小可能地對源語言 文本進行扭曲、歪曲、或者制造爭議。在 1990 年代,美國先進研究項目機構 (ARPA) 制定新的機器翻譯評測標 準,包含流利度、忠實度、和理解力 [34]。這些標準被后續機器翻譯競賽所采 納 [154]。流利度反應翻譯文本的句法和語法正確性和流暢性,流利度的判斷 不需要參考原文;忠實度反應對原文的保真性,需要有源語言文本的指導;理 解力反應信息度也就是看一個機器翻譯系統能否輸出給用戶充分有效的和必 要的信息。最初的流利度和忠實度的設計包含五個不同等級;而對于理解力, 則設計了六個不同的問題讓專業評判者回答。由于流利度和忠實度的互補性和易用性,機器翻譯研究人員對這兩個指標 進行了不同程度的應用、修改和整合等。比如以 “準確性” 作為整合的標準,[7] 對準確性加以分類,包括簡單字符串、生成字符串、和解析樹的準確性。[133] 的工作進行了流利度和所需字數的相關性計算來區分人工翻譯和機器翻譯。語 言數據集團 (LDC)2采用五個等級的流利度和忠實度來評估 NIST 的機器翻譯 比賽。其中對流利度的判斷除了語法要求,還包含了對習慣用詞(慣用語)的 選擇。[144] 則對忠實度進行了四個等級的劃分:非常、一般、較差、和完全不忠 實。非常 (highly): 翻譯文本非常信實的傳達原文意思;一般 (fairly): 翻譯文 本在傳達原文意思上一般表現一般,在字序、時態、語氣、數字等方面有問題, 或者存在重復、添加或遺漏字詞;較差 (poorly): 譯文沒有足夠反應到原文意 思;完全不忠實 (completely not): 譯文沒有反應原文的任何意思。后續和近期發展的人工評測歸為以下幾類:基于任務 (task)、后編輯 (postediting)、新標準、子集排序 (segment-ranking)、眾籌平臺 (crowd-sourcing)、 和對傳統方法的回顧更新。這種分法是為了便捷需要,有的人工評測方法可以 涉及多個子類的交叉,比如基于任務和后編輯的兩個子類型。人工評測一直以來作為評測機器翻譯質量的最終標準,但是人工評測也存在 很多缺陷,比如耗時、昂貴、不可重復 (抑或不可重用) 性、以及很多情況下 出現的人工評價人員之間的不一致性(主觀性)。因此自動評測方法成為技術 和實踐上的雙重需求。自動評價的產生伴隨著幾個不同的類型,包括需要參考 譯文的和不基于參考譯文的情況。在需要參考譯文的模型里又包括使用單個 參考譯文和多項參考譯文的類型 [103, 66, 80]。基于參考譯文的自動翻譯評測 模型,多屬于計算自動譯文輸出和參考譯文之間的相似度來評價翻譯質量。當 然,語言相似度的計算是一個很有爭議、也很有挑戰性的問題,比如句法上、 語義上、風格上、寫作領域和標準上的不同和變化等。不依賴于參考譯文的評 價模型大多依賴機器學習的特征模型,從源語言的原句字和目標語言的譯文 里提取有效特征來估計譯文質量、這些特征可以包括詞性、句法、語言模型等。與人工評價相比,自動評價的好處包括廉價、快速、可重復性、和可用來調整 和優化機器翻譯的模型參數等。在本節,我們將傳統的自動翻譯評價模型分為基于字符串匹配的(n-gram) 和應用語言學特征的兩類。在字符串匹配的種類里又包括基于編輯距離、準確 度和召回率、以及加強模型的。在語言學特征上我們把基于句法和語義的分兩 個子類。其中句法特征包括詞性、短語、句子結構等,而語義特征包括命名體、 組合詞、同義詞、文本蘊含、釋義、語義角色、和語言模型等。我們將基于深 度學習和大規模預訓練模型的評測方法歸為新近模型一類。在這一個領域,最 近又發展了優化大數據和大模型花費的蒸餾模型。總覽見圖3。當然這些分發 是為了介紹和理解的方便,部分自動評測模型也會涉及到多個子類里面、各個 子類也有時候會交叉,比如我們自己開發的 LEPOR、hLEPOR、和 nLEPOR 方法 [71, 74],將會在下文提到。在元評測這一節,我們介紹針對評測方法的評測。這包括統計學重要性(也叫 顯著性差異, statistical significance),評價一致性 (agreement level),和評測 結果的相關系性數,以及對不同評測指標(metric)的相互比較等。首先,組合詞以及組合詞表達 (multiword-expressions, MWEs) 的識別是自然 語言處理的一個重要任務,組合詞表達包含很多不同類別的詞語組合并且涵 蓋比喻、言語、成語等成分,在機器翻譯、自然語言處理 (NLP) 和評測任務 扮演著非常重要的角色 [135, 110, 121, 132, 77]。這反映在歷年的國際 MWE 研討會和近幾年該研討會組織的 MWE 識別任務 [112, 111, 137]。因此,在此 方面與機器翻譯領域的兩個未來研究方向包括:1)組合詞表達的識別模型和 翻譯模型的結合;2)組合詞表達在機器翻譯評測里的應用。 針對 1),目前在深度學習領域已有對 MWE 的可解析性 (decompositionality) 和可偵測性 (identification) 的前沿進展,比如 [64] 用神經網絡對名詞構 成詞的語義結構研究,如何建立綜合的神經網絡模型 (hybrid neural networks) 將 MWE 構詞和解析研究與神經機器翻譯兩個目前分開的神經學習模型結合 起來,是一個非常可行的研究課題 (討論見 [78]),并且這種結合的模型訓練將 有助于系統的總體優化,比如使用機器學習里現有的先進的神經網絡高等參 數優化框架模型 (hyper-parameter optimisation framework, Optuna)[1]。針對 2),如何改進目前的廣泛使用又飽受批評的流行評測方法(如 BLEU),設計 新的評測模型,將語義評測合理囊括進評測系統里,這是一個很有挑戰性的課 題。而由于眾多 MWE 子類對語義的涉及(比如言語、成語、習語),其在翻 譯評測過程扮演了一個很重要的角色。這既可以是障礙(如歧義)、也可以是 助手。因此如何積極利用這一角色,發揮其優勢是一個非常可行的研究方向, 這包含相應的多語種對齊語料建設、人工標注、神經網絡建模、和模型測試。 其次,篇章級別(context-aware)的機器翻譯評測是未來發展趨勢之一。目 前的評測方法,大都關注于句子級別的內容。但是,從語言學角度觀察,一個 句子所在的環境(篇章背景)對本句子的理解起到至關重要的作用,尤其是含 有指代詞、和歧義詞的情況,如何更精確的去翻譯和評價翻譯的好壞,需要對 句子背后的信息有足夠的認知掌握 [77]。這個研究方向在深度學習模型、以及 相應的神經語言模型出現后變得非常可行。比如,目前成熟的深度學習模型可 以不止對句子級別進行詞到向量的轉化,并且還可以對跨句子和篇章級別的 內容進行向量轉化 (sentences/paragraphs to vectors), 這樣,對文本和背景知 識的學習可以嵌入到評測系統里,作為模型學習的特征。 再次,基于具體任務 (task-oriented) 的翻譯評測在機器翻譯的大流行下 變得越來越緊迫需要 [54],比如旅館預定的機器翻譯,由于該領域句子偏短 并且多附有表格填寫,會更側重于命名實體的翻譯準確性如地名、機構名、 人名(尤其外語人名的翻譯)等;再比如目前剛開始流行的多模態機器翻譯(multi-modal MT) 包括多模態圖片標題生成和翻譯(image captioning MT) 任務,這樣的情況下對多模態 (image+text) 資源的利用變得非常必要。最后,無參考譯文的機器翻譯質量估計(QE)是研究的一個重點 [145, 67]。由于在某些情境下參考譯文的缺失,比如地震災害等情況下需要對當地語言 進行多語種翻譯以提高營救效果,無參考譯文的質量估計模型更加的適用于 現實的需求。這在 WMT 的歷史機器翻譯任務里有出現過。在其他情況,當參 考譯文的獲得非常昂貴或者不實際時,沒有參考譯文的翻譯質量信心估計也 是一個挑戰性的問題,比如現有的在線翻譯平臺軟件,很少有在提供用戶自動 翻譯譯文的同時提供翻譯質量估計水平 (confidence estimation)。在未來機器 翻譯和評測的發展中,如何將翻譯和質量估計同時提供給使用者是一個難題。這涉及到翻譯模型和質量估計模型的同步學習訓練。此文主在介紹機器翻譯評測的發展,內容覆蓋人工評價模型、自動評價模型、 元評測(評價模型的評價)、以及對此方向的未來發展研究展望。在人工評價 和自動評價模型分塊分別簡要介紹了歷史性的方法和前沿的進展,這包含人 工評價里對 crowd-source 的應用以及自動評價里對當前的深度學習和預訓練 模型的運用。在元評測部分我們探討了統計學中顯著性差異、可信度等在評 價里的應用、以及不同的相關性系數比較。由于機器翻譯屬于自然語言處理 (NLP)的一個大的分支,涉及到自然語言理解 (NLU) 和自然語言生成 (NLG) 的其他不同子分支,我們希望這份綜合性評測報告也會有利于其他 NLP 相 關研究領域的推進、尤其在評測和質量估計建模方面,比如這包括摘要生 成 (summarization) 的評測、圖像標題生成 (image captioning) 的評測、釋義 (paraphrase) 和蘊含 (entailment) 的評測、信息提取 (information extraction) 的評測、代碼生成 (code generation) 的評測等。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。