精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
ACL 2020投稿破 3 千,到底有多少人在做 NLP 研究?

科學(xué)出版的世界是一片雨林:思想爭奪陽光/注意力;有些人勝出并變得更高,而其他人則被遺忘。

作者 | Camel

編輯 | 唐里


在昨天ACL 2020公布了最新的投稿數(shù)量:3429篇。這也是所有ACL旗下會議首次接收論文數(shù)量破 3000篇。
這引起了筆者的好奇,歷屆 ACL 都接收了多少文章呢?當(dāng)前做NLP的研究人員數(shù)量在什么量級呢?目前最熱的研究領(lǐng)域是什么呢?
筆者在搜索相關(guān)資料的時候,無意間發(fā)現(xiàn)就在前不久已經(jīng)有人做了更為詳細(xì)的調(diào)查和分析,
這是位匿名者。
研究內(nèi)容發(fā)表在medium上,賬戶也是新注冊的。筆者順藤摸瓜,找到了他的調(diào)查研究論文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》,論文內(nèi)容豐富多樣,調(diào)查了ACL Anthology(AA)相關(guān)的所有論文,范圍從1965年到2018年。
在論文首頁底部他也寫了,匿名是因為這項工作目前還沒有正式發(fā)表。
且先不追究這位作者是誰,筆者從報告及他的博客中擷取部分內(nèi)容,來了解 NLP 領(lǐng)域 50多年來的發(fā)展態(tài)勢。共有八問——

1、NLP領(lǐng)域每年發(fā)多少論文?

2、有多少人在做 NLP 研究?

3、哪個會議/期刊的論文最多?

4、NLP領(lǐng)域,女性喜歡做什么研究?

5、NLP領(lǐng)域,年輕人真的越來越多了嗎?

6、對哪種語言的研究最多?

7、哪個領(lǐng)域最熱?

8、誰的影響力最大?

 

1、NLP領(lǐng)域每年發(fā)多少論文?

(手機橫屏來看更方便)

截至2019年6月,AA擁有約50,000個條目,但其中包括一些并非真正的研究出版物的條目(例如,前言、序言、目錄等),將這些舍棄后,還剩44,896篇文章。上圖中顯示了從1965年到2018年期間,每年發(fā)表的論文數(shù)量。
從圖中可以看出:
1)1990年之后,NLP的研究開始突飛猛進,特別是在2000年之后,AA文章數(shù)量開始破千;
2)隔年出版的影響在圖中可以清晰看到,特別是1998年以來,類似LREC(據(jù)說錄用率超60%)、COLING這樣的會議。
 

2、有多少人在做 NLP 研究?

(手機橫屏來看更方便)
除了隔年出版的會議影響外,我們可以看出一個明顯的趨勢,即從事NLP研究的人數(shù)在不斷增長。
一個進一步的有趣的問題是,最近到底有多少人活躍在 NLP 第一線呢?這很難確切回答,但我們可以將一段時間里發(fā)表論文的人數(shù)累加起來看,例如:
在2017年和2018年(至少2年)發(fā)表了至少一篇論文的人大約為12k(精確來講是11957);
在2015年至2018年(至少4年)發(fā)表了至少一篇論文的人大約是17.5k(精確為17457)。

3、哪個會議/期刊的論文最多?

當(dāng)然是各種 workshop 了!
這張圖展示的是不同會議或期刊的收錄論文情況。 
從中可以看出,除了各種workshop論文外,LREC已經(jīng)成為NLP會議論文的最大單一來源(盡管LREC是一個相對較新的會議,每兩年召開一次,但它的接受率往往很高,約60%)。其次則是主會ACL/4839,COLING/3142,NAACL/1479……
 

4、NLP領(lǐng)域,女性喜歡做什么研究?

NLP領(lǐng)域和其他領(lǐng)域一樣,并不會記錄作者的個人信息,例如性別、年齡、語言等。但這并不代表我們沒有辦法研究性別分布——作者的名字往往會蘊含著性別信息。根據(jù)這個信息,這位匿名作者利用美國社會保障局發(fā)布的新生兒姓名和性別數(shù)據(jù)庫進行匹配識別。
(作者注:由于中文名字的拼音與性別識別的關(guān)聯(lián)較小,因此中文作者的性別較難識別。)
1)女性發(fā)表的論文占多大比例? 
下面這幅圖是女性作為第一作者在歷年論文中所占比例:
經(jīng)過統(tǒng)計,女性作為第一作者發(fā)表論文數(shù)量約26637篇,大約占總論文數(shù)量的30.3%。從時間線上來看,從1980年至今,女性第一作者論文比例總體來說變化不大,但近年來卻有稍微的下降趨勢。
盡管30%的比例,相較于計算機科學(xué)的其他子領(lǐng)域已經(jīng)比較高了,但離男女勢均力敵還比較遙遠(yuǎn)。 
2)女性喜歡做什么研究?
(手機橫屏來看更方便)
作者還做了一個有意思的統(tǒng)計,依據(jù)關(guān)鍵詞來看女性第一作者的分布。從圖中可以看出,女性的工作在discourse、annotation、study、corpus等領(lǐng)域所占比例較多,而例如parsing、dependency、model等則相對較少。
 

5、NLP領(lǐng)域,年輕人真的越來越多了嗎?

如果能去調(diào)查NLP研究人員的實際年齡分布,當(dāng)然是一件有趣的事情。但很遺憾,目前沒有這樣的信息。于是這位匿名作者另辟蹊徑,提出了:NLP學(xué)術(shù)年齡。如果一位研究人員是第一年在AA上發(fā)表,那么這個研究人員的NLP學(xué)術(shù)年齡是 1 ;如果是在2001年發(fā)表第一篇AA論文,并且在2018年發(fā)表了最新的AA論文,那么他的學(xué)術(shù)年齡是18。
首先來看NLP研究人員的在每一年的平均學(xué)術(shù)年齡分布——
 (手機橫屏來看更方便)
從上圖看出:
1)2018年的平均學(xué)術(shù)年齡為5.41年;
2)NLP研究也在逐漸走向“老齡化”;
3)直到 2016、2017年,研究人員的平均學(xué)術(shù)年齡在不斷增長,但隨后卻開始下降了,這個可以從下圖中看得更加清楚一點——
 (手機橫屏來看更方便)
作者統(tǒng)計了每年學(xué)術(shù)年齡的中位數(shù),1965年至1990年大部分時間的平均年齡為1歲,1991年至2006年大部分時間的平均年齡為2歲,2007年至2015年大部分時間的平均年齡為3歲,此后又回到2歲。這大概是 NLP 領(lǐng)域的“返老還童”吧!
我們還可以從另一個角度來看,作者統(tǒng)計了每年首次發(fā)表論文的作者比例,
(手機橫屏來看更方便)
在1965年-1985年期間,這個比例逐漸下降;隨后到2005年基本穩(wěn)定在40%-50%之間;然后2005年到2015年則下降到40%上下。這也說明了從1985年之后,NLP社區(qū)已經(jīng)趨于成熟穩(wěn)定。不過我們有趣的是,從2016年之后,這個比例又開始逐漸上升了。(注:這個比例明顯會受到奇偶年的影響) 
再詳細(xì)一點,我們來看 2011 - 2018年,不同學(xué)術(shù)年齡之間的比例:
其中2018年首次發(fā)表論文的作者占到44.93%,而學(xué)術(shù)年齡不到5年的作者比例占到65%。事實上,該數(shù)字自1965年以來一直在穩(wěn)步下降,在1990年代為60%至70%,2000年代初上升到70%至72%,然后再次下降,直到2010年達到最低值(約60%),并再次穩(wěn)定上升,直到2018年(65%)。
因此,如果不是去回顧歷史的話,我們常常會感覺最近的會議上有大量新人涌入,雖然這是事實,但也是錯覺。事實是,現(xiàn)在(2018年),NLP領(lǐng)域的平均學(xué)術(shù)年齡要比歷史上許多時候都要高,年齡大的(因此也是經(jīng)驗豐富的)人所占的比例要更多。
 

6、對哪種語言的研究最多?

正如維特根斯坦所說:“我的語言將限制我的世界”,對于一個語言群體也是如此。能否將其所使用的自然語言融入到自動系統(tǒng)(例如計算機)中,以及融入程度如何,是決定使用該語言的人群在網(wǎng)絡(luò)世界中影響力的關(guān)鍵因素。 
我們知道,當(dāng)前的NLP研究主要是針對英語/英語數(shù)據(jù)集。原因很多,這里不再贅述;這種現(xiàn)象就會造成一個現(xiàn)象,即當(dāng)研究課題是非英文語言時,往往會在文章標(biāo)題中顯示出語言的名字。
作者據(jù)此觀察,統(tǒng)計了如下的表格,共有122種語言:
(手機橫屏來看更方便) 
圖中字體較小,但大致是顏色越深,標(biāo)題中出現(xiàn)的頻率越高。從中可以看出中文的研究是所有非英語中頻率最高的,且遠(yuǎn)遠(yuǎn)高于其他語言(例如法語、日語等)。 

注意,這里英語的頻率并不是第一,原因是大多針對英語的研究并不會在標(biāo)題中表示。現(xiàn)在社區(qū)中有越來越多的人意識到這是不正確的,這對其他語言是不公平的,因此有人建議應(yīng)當(dāng)在所有研究的標(biāo)題和數(shù)據(jù)集名稱中注明所研究的語言。

參考 AI 科技評論此前文章:

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?


7、哪個領(lǐng)域最熱?

從1965年至今,NLP領(lǐng)域的研究熱點是怎么變化的呢?這是一個有意思的問題。
由于AA文章往往不要求作者提交關(guān)鍵詞,因此要想統(tǒng)計文章的研究方向,最便捷的一種方式就是——從標(biāo)題中提取關(guān)鍵詞。
這里作者做了假設(shè),認(rèn)為標(biāo)題內(nèi)容是和文章研究主題一致的。
Sneha Kulkarni曾表示:“一個好的研究論文標(biāo)題,應(yīng)當(dāng)滿足三點,1)用盡可能少的詞概括論文的內(nèi)容;2)吸引到讀者的注意力;3)將論文與同一領(lǐng)域的其他論文區(qū)分開。” 
如果按照這個理想規(guī)則,那么使用標(biāo)題來提取關(guān)鍵詞應(yīng)該會具有一定的代表性。(當(dāng)然實際上還會有許多要考慮的因素,這里不再贅述)。
因此,作者的假設(shè),再具體一點就是:隨著時間的流逝,與該領(lǐng)域相關(guān)的標(biāo)題詞的出現(xiàn)頻率,將在某種程度上反映出對某個研究領(lǐng)域的廣泛興趣。
那么,在過去這些年里,哪些才是熱門呢?
作者統(tǒng)計了從1980年到2019年的論文,如下圖:
從術(shù)語分布來看,NLP論文標(biāo)題中最常用的術(shù)語是 language,其次是 translation。如果考慮 Bigram 的話,如下圖: 
最常出現(xiàn)的術(shù)語是 machine translation,毫無疑問,機器翻譯是NLP領(lǐng)域最受關(guān)注的研究領(lǐng)域之一。 
我們再來看不同的研究領(lǐng)域隨著時間線的變化:
 (手機橫屏來看更方便)
(注:圖中有個小錯誤,parsing對應(yīng)于淺綠線)
從這張圖中可以看到一個非常有意思的現(xiàn)象,即,在1980年-2008年之間近三十年的時間里,language、translation、parsing在80年代炙手可熱,而現(xiàn)在已經(jīng)遠(yuǎn)不如當(dāng)年受歡迎了;而另一方面,neural在80年代經(jīng)歷了一段高潮之后,迅速下降,但近年來卻又突破重圍,再次超越而出。
我們可以把 parsing 的時間線單拎出來: 
真的是不復(fù)當(dāng)年!
另一個有意思的是,可以對比statistical machine, neural machine 和 machine translation 在近40年里的變化趨勢: 
統(tǒng)計機器經(jīng)歷過一段高潮之后,現(xiàn)在已經(jīng)基本銷聲匿跡了;而神經(jīng)機器則隨之崛起。正所謂“沉舟側(cè)畔千帆過,病樹前頭萬木春”!

8、誰的影響力最大?
引用率并不一定能反映一篇文章的質(zhì)量或重要性,但卻是一個重要的參考。作者指出:
“對于為什么有些論文會被大量引用,而有些不會,很難說清,論文被高引,可能是引起了該領(lǐng)域的想象力,也有可能是它們極具創(chuàng)造力,或者開辟了一個新的研究領(lǐng)域,在很大程度上推動了技術(shù)發(fā)展,檢驗了令人信服的假設(shè),或者產(chǎn)生了對多數(shù)人有用的數(shù)據(jù)集等等。”
作者從Google Scholar上對4萬多篇論文的引用率進行提取,獲得了33,051篇論文的引用信息。
下面兩張圖,是同一個信息,但按照不同的順序排列的——
第一張,按照相關(guān)所有論文的引用總數(shù)排列,可以看做機器翻譯是總引用率最高的,其次是統(tǒng)計機器、情感分析。
但是這種方式有其弊端,即不同領(lǐng)域,發(fā)表的論文數(shù)量也不相同,于是作者又按照平均引用率進行排列,這就給我們展示了另外一種視角:
 從中可以看出,自動評估才是引用率的王者,語料庫和詞匯資源才是廣受歡迎的寵兒。所以,要想高引,還是要做資源建設(shè)呀。
作者別具一格地結(jié)合了學(xué)術(shù)年齡,來分析學(xué)術(shù)年齡對引用率的影響。
 從中可以看出,在論文數(shù)量和總引用率上,學(xué)術(shù)年齡為1年和(10-14)年的是NLP的主力軍。 
在平均引用上,7年的學(xué)術(shù)年齡是最好的。倒U形的分布也很好理解,人們普遍會引用年限不是很久遠(yuǎn)、但也不是剛剛出爐的論文。對于那些學(xué)術(shù)年齡在35-50之間的,平均引用率則普遍低到可怕。
針對引用率,作者也做了性別分析:
 
顯然,無論是總引用率、總論文數(shù),還是平均引用、中位數(shù)引用,男性都要比女性高。(其中的unknown是考慮到有大量來自中國的論文作者,該研究作者不知道如何區(qū)分他們的性別)
作者也做了性別相關(guān)引用在時間跨度上的分析——
請注意,女性第一作者在ACL的歷史上一直是少數(shù)派;但是平均而言,她們在早期(1965年至1989年)的論文被引用的次數(shù)明顯多于同期的男性第一作者。從圖中可以看出,這種情況在1990年代有所改變,男性第一作者的論文平均獲得了明顯更多的引用。引用差距在2000年代大大減少,2010-2016年期間引用差距進一步縮小。 
有趣的是,在2000年之后,性別未知的作者幾乎彌合了與男性作者之間的差距。作為中國人,笑而不語啊!
 

9、補充一點

這里僅擷取該研究的部分結(jié)論,在作者的論文原文以及博客中有大量更充實的分析內(nèi)容。感興趣的讀者可以:
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ACL 2023最佳論文出爐!CMU西交大等摘桂冠,杰出論文獎華人學(xué)者占半壁江山
有人把NLP領(lǐng)域分類、發(fā)展趨勢可視化了!德國慕尼黑工業(yè)大學(xué)構(gòu)建NLP 360度全景圖
如何查閱自然語言處理領(lǐng)域?qū)W術(shù)資料
頂會ACL這十年:百度披荊斬棘,中國NLP乘風(fēng)破浪
AACL成立王海峰出任創(chuàng)始主席!中國AI產(chǎn)業(yè)又一重大事件
百度AI人才圖鑒
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 韩城市| 略阳县| 冀州市| 九江市| 成武县| 赫章县| 曲阜市| 屏东市| 闽清县| 五华县| 准格尔旗| 繁峙县| 彝良县| 绿春县| 蓬溪县| 晋中市| 大渡口区| 定襄县| 临安市| 洛宁县| 田东县| 蒲城县| 同仁县| 双辽市| 嵊泗县| 安龙县| 汪清县| 密山市| 凤台县| 方山县| 汾阳市| 昆明市| 云龙县| 邵阳县| 濮阳县| 南部县| 高要市| 浦城县| 黔东| 遵义市| 蕲春县|