科學(xué)出版的世界是一片雨林:思想爭奪陽光/注意力;有些人勝出并變得更高,而其他人則被遺忘。
作者 | Camel
編輯 | 唐里
在昨天ACL 2020公布了最新的投稿數(shù)量:3429篇。這也是所有ACL旗下會議首次接收論文數(shù)量破 3000篇。這引起了筆者的好奇,歷屆 ACL 都接收了多少文章呢?當(dāng)前做NLP的研究人員數(shù)量在什么量級呢?目前最熱的研究領(lǐng)域是什么呢?筆者在搜索相關(guān)資料的時候,無意間發(fā)現(xiàn)就在前不久已經(jīng)有人做了更為詳細(xì)的調(diào)查和分析,研究內(nèi)容發(fā)表在medium上,賬戶也是新注冊的。筆者順藤摸瓜,找到了他的調(diào)查研究論文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》,論文內(nèi)容豐富多樣,調(diào)查了ACL Anthology(AA)相關(guān)的所有論文,范圍從1965年到2018年。在論文首頁底部他也寫了,匿名是因為這項工作目前還沒有正式發(fā)表。且先不追究這位作者是誰,筆者從報告及他的博客中擷取部分內(nèi)容,來了解 NLP 領(lǐng)域 50多年來的發(fā)展態(tài)勢。共有八問——1、NLP領(lǐng)域每年發(fā)多少論文?
2、有多少人在做 NLP 研究?
3、哪個會議/期刊的論文最多?
4、NLP領(lǐng)域,女性喜歡做什么研究?
5、NLP領(lǐng)域,年輕人真的越來越多了嗎?
6、對哪種語言的研究最多?
7、哪個領(lǐng)域最熱?
8、誰的影響力最大?
1、NLP領(lǐng)域每年發(fā)多少論文?
(手機橫屏來看更方便)
截至2019年6月,AA擁有約50,000個條目,但其中包括一些并非真正的研究出版物的條目(例如,前言、序言、目錄等),將這些舍棄后,還剩44,896篇文章。上圖中顯示了從1965年到2018年期間,每年發(fā)表的論文數(shù)量。1)1990年之后,NLP的研究開始突飛猛進,特別是在2000年之后,AA文章數(shù)量開始破千;2)隔年出版的影響在圖中可以清晰看到,特別是1998年以來,類似LREC(據(jù)說錄用率超60%)、COLING這樣的會議。除了隔年出版的會議影響外,我們可以看出一個明顯的趨勢,即從事NLP研究的人數(shù)在不斷增長。一個進一步的有趣的問題是,最近到底有多少人活躍在 NLP 第一線呢?這很難確切回答,但我們可以將一段時間里發(fā)表論文的人數(shù)累加起來看,例如:在2017年和2018年(至少2年)發(fā)表了至少一篇論文的人大約為12k(精確來講是11957);在2015年至2018年(至少4年)發(fā)表了至少一篇論文的人大約是17.5k(精確為17457)。從中可以看出,除了各種workshop論文外,LREC已經(jīng)成為NLP會議論文的最大單一來源(盡管LREC是一個相對較新的會議,每兩年召開一次,但它的接受率往往很高,約60%)。其次則是主會ACL/4839,COLING/3142,NAACL/1479……NLP領(lǐng)域和其他領(lǐng)域一樣,并不會記錄作者的個人信息,例如性別、年齡、語言等。但這并不代表我們沒有辦法研究性別分布——作者的名字往往會蘊含著性別信息。根據(jù)這個信息,這位匿名作者利用美國社會保障局發(fā)布的新生兒姓名和性別數(shù)據(jù)庫進行匹配識別。(作者注:由于中文名字的拼音與性別識別的關(guān)聯(lián)較小,因此中文作者的性別較難識別。)下面這幅圖是女性作為第一作者在歷年論文中所占比例:經(jīng)過統(tǒng)計,女性作為第一作者發(fā)表論文數(shù)量約26637篇,大約占總論文數(shù)量的30.3%。從時間線上來看,從1980年至今,女性第一作者論文比例總體來說變化不大,但近年來卻有稍微的下降趨勢。盡管30%的比例,相較于計算機科學(xué)的其他子領(lǐng)域已經(jīng)比較高了,但離男女勢均力敵還比較遙遠(yuǎn)。 作者還做了一個有意思的統(tǒng)計,依據(jù)關(guān)鍵詞來看女性第一作者的分布。從圖中可以看出,女性的工作在discourse、annotation、study、corpus等領(lǐng)域所占比例較多,而例如parsing、dependency、model等則相對較少。5、NLP領(lǐng)域,年輕人真的越來越多了嗎?
如果能去調(diào)查NLP研究人員的實際年齡分布,當(dāng)然是一件有趣的事情。但很遺憾,目前沒有這樣的信息。于是這位匿名作者另辟蹊徑,提出了:NLP學(xué)術(shù)年齡。如果一位研究人員是第一年在AA上發(fā)表,那么這個研究人員的NLP學(xué)術(shù)年齡是 1 ;如果是在2001年發(fā)表第一篇AA論文,并且在2018年發(fā)表了最新的AA論文,那么他的學(xué)術(shù)年齡是18。首先來看NLP研究人員的在每一年的平均學(xué)術(shù)年齡分布——1)2018年的平均學(xué)術(shù)年齡為5.41年;3)直到 2016、2017年,研究人員的平均學(xué)術(shù)年齡在不斷增長,但隨后卻開始下降了,這個可以從下圖中看得更加清楚一點——作者統(tǒng)計了每年學(xué)術(shù)年齡的中位數(shù),1965年至1990年大部分時間的平均年齡為1歲,1991年至2006年大部分時間的平均年齡為2歲,2007年至2015年大部分時間的平均年齡為3歲,此后又回到2歲。這大概是 NLP 領(lǐng)域的“返老還童”吧!我們還可以從另一個角度來看,作者統(tǒng)計了每年首次發(fā)表論文的作者比例,在1965年-1985年期間,這個比例逐漸下降;隨后到2005年基本穩(wěn)定在40%-50%之間;然后2005年到2015年則下降到40%上下。這也說明了從1985年之后,NLP社區(qū)已經(jīng)趨于成熟穩(wěn)定。不過我們有趣的是,從2016年之后,這個比例又開始逐漸上升了。(注:這個比例明顯會受到奇偶年的影響) 再詳細(xì)一點,我們來看 2011 - 2018年,不同學(xué)術(shù)年齡之間的比例:其中2018年首次發(fā)表論文的作者占到44.93%,而學(xué)術(shù)年齡不到5年的作者比例占到65%。事實上,該數(shù)字自1965年以來一直在穩(wěn)步下降,在1990年代為60%至70%,2000年代初上升到70%至72%,然后再次下降,直到2010年達到最低值(約60%),并再次穩(wěn)定上升,直到2018年(65%)。因此,如果不是去回顧歷史的話,我們常常會感覺最近的會議上有大量新人涌入,雖然這是事實,但也是錯覺。事實是,現(xiàn)在(2018年),NLP領(lǐng)域的平均學(xué)術(shù)年齡要比歷史上許多時候都要高,年齡大的(因此也是經(jīng)驗豐富的)人所占的比例要更多。正如維特根斯坦所說:“我的語言將限制我的世界”,對于一個語言群體也是如此。能否將其所使用的自然語言融入到自動系統(tǒng)(例如計算機)中,以及融入程度如何,是決定使用該語言的人群在網(wǎng)絡(luò)世界中影響力的關(guān)鍵因素。 我們知道,當(dāng)前的NLP研究主要是針對英語/英語數(shù)據(jù)集。原因很多,這里不再贅述;這種現(xiàn)象就會造成一個現(xiàn)象,即當(dāng)研究課題是非英文語言時,往往會在文章標(biāo)題中顯示出語言的名字。作者據(jù)此觀察,統(tǒng)計了如下的表格,共有122種語言:圖中字體較小,但大致是顏色越深,標(biāo)題中出現(xiàn)的頻率越高。從中可以看出中文的研究是所有非英語中頻率最高的,且遠(yuǎn)遠(yuǎn)高于其他語言(例如法語、日語等)。 注意,這里英語的頻率并不是第一,原因是大多針對英語的研究并不會在標(biāo)題中表示。現(xiàn)在社區(qū)中有越來越多的人意識到這是不正確的,這對其他語言是不公平的,因此有人建議應(yīng)當(dāng)在所有研究的標(biāo)題和數(shù)據(jù)集名稱中注明所研究的語言。
參考 AI 科技評論此前文章:
從1965年至今,NLP領(lǐng)域的研究熱點是怎么變化的呢?這是一個有意思的問題。由于AA文章往往不要求作者提交關(guān)鍵詞,因此要想統(tǒng)計文章的研究方向,最便捷的一種方式就是——從標(biāo)題中提取關(guān)鍵詞。這里作者做了假設(shè),認(rèn)為標(biāo)題內(nèi)容是和文章研究主題一致的。Sneha Kulkarni曾表示:“一個好的研究論文標(biāo)題,應(yīng)當(dāng)滿足三點,1)用盡可能少的詞概括論文的內(nèi)容;2)吸引到讀者的注意力;3)將論文與同一領(lǐng)域的其他論文區(qū)分開。” 如果按照這個理想規(guī)則,那么使用標(biāo)題來提取關(guān)鍵詞應(yīng)該會具有一定的代表性。(當(dāng)然實際上還會有許多要考慮的因素,這里不再贅述)。因此,作者的假設(shè),再具體一點就是:隨著時間的流逝,與該領(lǐng)域相關(guān)的標(biāo)題詞的出現(xiàn)頻率,將在某種程度上反映出對某個研究領(lǐng)域的廣泛興趣。作者統(tǒng)計了從1980年到2019年的論文,如下圖:從術(shù)語分布來看,NLP論文標(biāo)題中最常用的術(shù)語是 language,其次是 translation。如果考慮 Bigram 的話,如下圖: 最常出現(xiàn)的術(shù)語是 machine translation,毫無疑問,機器翻譯是NLP領(lǐng)域最受關(guān)注的研究領(lǐng)域之一。 我們再來看不同的研究領(lǐng)域隨著時間線的變化:(注:圖中有個小錯誤,parsing對應(yīng)于淺綠線)從這張圖中可以看到一個非常有意思的現(xiàn)象,即,在1980年-2008年之間近三十年的時間里,language、translation、parsing在80年代炙手可熱,而現(xiàn)在已經(jīng)遠(yuǎn)不如當(dāng)年受歡迎了;而另一方面,neural在80年代經(jīng)歷了一段高潮之后,迅速下降,但近年來卻又突破重圍,再次超越而出。另一個有意思的是,可以對比statistical machine, neural machine 和 machine translation 在近40年里的變化趨勢: 統(tǒng)計機器經(jīng)歷過一段高潮之后,現(xiàn)在已經(jīng)基本銷聲匿跡了;而神經(jīng)機器則隨之崛起。正所謂“沉舟側(cè)畔千帆過,病樹前頭萬木春”!引用率并不一定能反映一篇文章的質(zhì)量或重要性,但卻是一個重要的參考。作者指出:“對于為什么有些論文會被大量引用,而有些不會,很難說清,論文被高引,可能是引起了該領(lǐng)域的想象力,也有可能是它們極具創(chuàng)造力,或者開辟了一個新的研究領(lǐng)域,在很大程度上推動了技術(shù)發(fā)展,檢驗了令人信服的假設(shè),或者產(chǎn)生了對多數(shù)人有用的數(shù)據(jù)集等等。”作者從Google Scholar上對4萬多篇論文的引用率進行提取,獲得了33,051篇論文的引用信息。下面兩張圖,是同一個信息,但按照不同的順序排列的——第一張,按照相關(guān)所有論文的引用總數(shù)排列,可以看做機器翻譯是總引用率最高的,其次是統(tǒng)計機器、情感分析。但是這種方式有其弊端,即不同領(lǐng)域,發(fā)表的論文數(shù)量也不相同,于是作者又按照平均引用率進行排列,這就給我們展示了另外一種視角: 從中可以看出,自動評估才是引用率的王者,語料庫和詞匯資源才是廣受歡迎的寵兒。所以,要想高引,還是要做資源建設(shè)呀。作者別具一格地結(jié)合了學(xué)術(shù)年齡,來分析學(xué)術(shù)年齡對引用率的影響。 從中可以看出,在論文數(shù)量和總引用率上,學(xué)術(shù)年齡為1年和(10-14)年的是NLP的主力軍。 在平均引用上,7年的學(xué)術(shù)年齡是最好的。倒U形的分布也很好理解,人們普遍會引用年限不是很久遠(yuǎn)、但也不是剛剛出爐的論文。對于那些學(xué)術(shù)年齡在35-50之間的,平均引用率則普遍低到可怕。顯然,無論是總引用率、總論文數(shù),還是平均引用、中位數(shù)引用,男性都要比女性高。(其中的unknown是考慮到有大量來自中國的論文作者,該研究作者不知道如何區(qū)分他們的性別)作者也做了性別相關(guān)引用在時間跨度上的分析——請注意,女性第一作者在ACL的歷史上一直是少數(shù)派;但是平均而言,她們在早期(1965年至1989年)的論文被引用的次數(shù)明顯多于同期的男性第一作者。從圖中可以看出,這種情況在1990年代有所改變,男性第一作者的論文平均獲得了明顯更多的引用。引用差距在2000年代大大減少,2010-2016年期間引用差距進一步縮小。 有趣的是,在2000年之后,性別未知的作者幾乎彌合了與男性作者之間的差距。作為中國人,笑而不語啊!這里僅擷取該研究的部分結(jié)論,在作者的論文原文以及博客中有大量更充實的分析內(nèi)容。感興趣的讀者可以:
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。