最近這幾年,大家一起共同經歷了 NLP(寫一下全稱,Natural Language Processing) 這一領域井噴式的發展,從 Word2Vec 到大量使用 RNN、LSTM,從 seq2seq 再到 Attention,Transformer,Bert,直到現在的大模型 GPT-4。作為理解、生成與處理自然語言這一人類生活、交流的核心工具與信息共享的重要載體,計算語言學家早在上世紀五十年代就從“計算”的視角開始關注使用“機器”對自然語言進行處理。而伴隨著各種技術的逐步成熟,NLP 這一領域蓬勃發展欣欣向榮,以 ACL 收錄為例,從 1952 年至今,已經發表了超過 80000 論文:
伴隨著出版物的增加,NLP 領域也發展成為了擁有多個不同分支,由不同子領域子學科共同構成的大領域大學科,過去可能有不少綜述 NLP 歷史,梳理 NLP 發展脈絡的文章、綜述,但是很遺憾很少有從一個空間的角度對 NLP 廣泛鋪開的領域進行概述的研究。
而今天介紹的這篇由德國慕尼黑工業大學出品的論文,便對最近 20 年 NLP 研究領域進行了一個詳盡系統的分類與綜述,幫助大家站在一個上帝視角,概覽 NLP 360 度的全景圖。作者希望通過這樣的工作,可以幫助任何一個 NLP 領域的學者、從業者、實踐者以及初學者識別 NLP 的研究趨勢,幫助研究社區彌補現有的空白,以更好的探索 NLP 中的各種研究領域。
論文題目:
Exploring the Landscape of Natural Language Processing Research
論文鏈接:
https://arxiv.org/pdf/2307.10652.pdf
要說 NLP 的子領域,隨口一提就可以想到許多,從機器翻譯到情感分析,從信息檢索到文本生成,但是要以一套結構化的體系完整的概述 NLP 領域的分類法,可能就并不是一件那么輕松的工作。
而論文作者在參考 ACL、EMNLP、COLING 以及 IJCNLP 等 NLP 領域主要會議網站上列出的最近幾年的投稿主題,以及 ACL Anthology 中包含的研討會的主題,及 EMNLP 2022 中 828篇論文的研究領域,構建了初版的 NLP 領域分類法,同時為了盡可能全面完整的構建 NLP 研究領域的方方面面,作者又與 NLP 不同領域的專家進行了 20 余次一對一的訪談,根據訪談結果以及對初版分類的修訂與完善,作者構建了這樣一套 NLP 研究領域分類法如下圖所示:
可以看到,作者共將 NLP 分為了 12 個大領域,包含多模態(Multimodality)、自然語言交互( Natural Language Interfaces)、語義解析(Semantic Text Processing)、情感分析(Sentiment Analysis)、句法分析(Syntactic Text Processing)、NLP 中的認知語言學分析(Linguistics & Cognitive NLP)、可解釋 NLP(Responsible & Trustworthy NLP)、邏輯推理(Reasoning)、雙語(Multilinguality)、信息檢索(Information Retrieval)、信息提取與文本挖掘(Information Extraction & Text Mining)、文本生成(Text Generation)。
通過這套分類法,作者使用半人工半自動的標注方式構建了一個包含 178521 篇論文領域標注的訓練集,并且訓練得到了一個弱監督的論文領域分類器,通過此分類器,作者分類得到了 1952 年至 2022 年 ACL Anthology 中包含的所有共計 74279 篇論文作為最終的分析研究對象。
雖然 NLP 最早的論文出現在 1952 年,但是其論文數量至 2000 年才開始緩慢增長,從 2000 年至 2017 年,NLP 的研究數量增加了四倍,而在接下來的五年中,NLP 的研究數量又翻了一番,這表明這五年 NLP 領域得到了爆炸式的發展,而根據作者構建的論文領域分類集,作者研究了 NLP 中最受歡迎的研究領域(Fos)的發展與變化情況:
可以看到機器翻譯與語言模型是 NLP 文獻中最受歡迎的研究領域,但是這兩個領域的發展變化有著十分明顯的區別,機器翻譯是一個經過深入研究,已經被建立了許多年的研究論文,發文數量以及增長率都相對平穩,而語言模型雖然也經過了長時間的研究,但是其出版數量直到 2018 年才開始顯著增長,在關注其他 NLP 的領域時也可以看到類似的情況,表示學習與文本分類雖然研究廣泛,但是增長率沒有顯著變化,而對話系統以及低資源 NLP 則在近期獲得了非常高的增長率。
而整個 NLP 的研究領域中,也出現了經典的二八法則,大多數 NLP 領域的研究程度顯著低于這些最受歡迎的 NLP 領域的研究程度,似乎 NLP 研究的發展主要來自于熱門領域與應用的驅動,但是總體而言,NLP 所有領域的研究都在保持正向增長。
所謂知古方能鑒今,根據整個 NLP 領域的研究發展,作者又探究了 NLP 各個領域的研究趨勢并探索了 NLP 領域未來的發展方向:
首先,作者采用矩陣式的方式繪制了從 2018 年到 2022 年 NLP 相關的各個 FoS 的文章數量-增長率矩陣,增長率高且總體文章數量的較多的研究領域屬于 NLP 中的“明星”產品,可以看到,占據 NLP 舞臺中心的領域包括語言模型、可解釋性 NLP、低資源 NLP等,而類似機器翻譯、文本分類與表示學習則由于其高的文章數量與低的增長率成為了 NLP 研究的基礎,值得關注的還有一部分保持高增長率與低文章數量的研究領域,比如段落檢索、風格轉換、代碼生成等,這些研究領域雖然近期熱度高漲,但是由于文章數量較少無法得到明顯的進一步發展趨勢的判斷。
利用創新擴散理論,作者繪制了 NLP 研究領域的創新生命周期圖如上圖所示,從上圖可以看出,語義解析領域已經基本步入了夕陽,接近創新生命周期的衰落期,而機器翻譯、表示學習與文本分析整體雖然都比較受歡迎,但是其已經過了創新生命周期從成熟到衰落的拐點,發展速度目前正在減緩。而可解釋性 NLP,多模型以及自然語言交互等領域正處于快速發展期,在未來的研究中很有可能開始加速,而作為明星產品的綠色 NLP 正值當打之年,未來可能會迎來爆發。
盡管當下伴隨著大模型的橫空出世,似乎許多 NLP 問題都一夜之間變成了已經被解決的問題,這篇文章很合時宜的指出,伴隨著 NLP 使用模型越來越大,模型參數量直逼天文數字,與之伴生的計算成本問題、環境問題以及倫理問題有可能成為未來 NLP 研究的主流。
伴隨著一個領域的快速發展,可以宏觀的全景的對一個領域有一個全面的理解是一件相當困難的事,而這篇通過收集、分類與判斷以呈現領域結構化概述的工作可能對我們更加明確的了解我們身處的這個領域會非常有幫助吧!