草莓视频黄,暖暖在线日本免费中文,一本大道道香蕉a高清

科學(xué)出版的世界是一片雨林：思想爭奪陽光/注意力；有些人勝出并變得更高，而其他人則被遺忘。

作者 | Camel

編輯 | 唐里

在昨天ACL 2020公布了最新的投稿數(shù)量：3429篇。這也是所有ACL旗下會議首次接收論文數(shù)量破 3000篇。

這引起了筆者的好奇，歷屆 ACL 都接收了多少文章呢？當(dāng)前做NLP的研究人員數(shù)量在什么量級呢？目前最熱的研究領(lǐng)域是什么呢？

筆者在搜索相關(guān)資料的時候，無意間發(fā)現(xiàn)就在前不久已經(jīng)有人做了更為詳細(xì)的調(diào)查和分析，

這是位匿名者。

研究內(nèi)容發(fā)表在medium上，賬戶也是新注冊的。筆者順藤摸瓜，找到了他的調(diào)查研究論文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》，論文內(nèi)容豐富多樣，調(diào)查了ACL Anthology（AA）相關(guān)的所有論文，范圍從1965年到2018年。

在論文首頁底部他也寫了，匿名是因為這項工作目前還沒有正式發(fā)表。

且先不追究這位作者是誰，筆者從報告及他的博客中擷取部分內(nèi)容，來了解 NLP 領(lǐng)域 50多年來的發(fā)展態(tài)勢。共有八問——

1、NLP領(lǐng)域每年發(fā)多少論文？

2、有多少人在做 NLP 研究？

3、哪個會議/期刊的論文最多？

4、NLP領(lǐng)域，女性喜歡做什么研究？

5、NLP領(lǐng)域，年輕人真的越來越多了嗎？

6、對哪種語言的研究最多？

7、哪個領(lǐng)域最熱？

8、誰的影響力最大？

1、NLP領(lǐng)域每年發(fā)多少論文？

（手機橫屏來看更方便）

截至2019年6月，AA擁有約50,000個條目，但其中包括一些并非真正的研究出版物的條目（例如，前言、序言、目錄等），將這些舍棄后，還剩44,896篇文章。上圖中顯示了從1965年到2018年期間，每年發(fā)表的論文數(shù)量。

從圖中可以看出：

1）1990年之后，NLP的研究開始突飛猛進，特別是在2000年之后，AA文章數(shù)量開始破千；

2）隔年出版的影響在圖中可以清晰看到，特別是1998年以來，類似LREC（據(jù)說錄用率超60%）、COLING這樣的會議。

2、有多少人在做 NLP 研究？

（手機橫屏來看更方便）

除了隔年出版的會議影響外，我們可以看出一個明顯的趨勢，即從事NLP研究的人數(shù)在不斷增長。

一個進一步的有趣的問題是，最近到底有多少人活躍在 NLP 第一線呢？這很難確切回答，但我們可以將一段時間里發(fā)表論文的人數(shù)累加起來看，例如：

在2017年和2018年（至少2年）發(fā)表了至少一篇論文的人大約為12k（精確來講是11957）；

在2015年至2018年（至少4年）發(fā)表了至少一篇論文的人大約是17.5k（精確為17457）。

3、哪個會議/期刊的論文最多？

當(dāng)然是各種 workshop 了！

這張圖展示的是不同會議或期刊的收錄論文情況。

從中可以看出，除了各種workshop論文外，LREC已經(jīng)成為NLP會議論文的最大單一來源（盡管LREC是一個相對較新的會議，每兩年召開一次，但它的接受率往往很高，約60％）。其次則是主會ACL/4839，COLING/3142，NAACL/1479……

4、NLP領(lǐng)域，女性喜歡做什么研究？

NLP領(lǐng)域和其他領(lǐng)域一樣，并不會記錄作者的個人信息，例如性別、年齡、語言等。但這并不代表我們沒有辦法研究性別分布——作者的名字往往會蘊含著性別信息。根據(jù)這個信息，這位匿名作者利用美國社會保障局發(fā)布的新生兒姓名和性別數(shù)據(jù)庫進行匹配識別。

（作者注：由于中文名字的拼音與性別識別的關(guān)聯(lián)較小，因此中文作者的性別較難識別。）

1）女性發(fā)表的論文占多大比例？

下面這幅圖是女性作為第一作者在歷年論文中所占比例：

經(jīng)過統(tǒng)計，女性作為第一作者發(fā)表論文數(shù)量約26637篇，大約占總論文數(shù)量的30.3%。從時間線上來看，從1980年至今，女性第一作者論文比例總體來說變化不大，但近年來卻有稍微的下降趨勢。

盡管30%的比例，相較于計算機科學(xué)的其他子領(lǐng)域已經(jīng)比較高了，但離男女勢均力敵還比較遙遠(yuǎn)。

2）女性喜歡做什么研究？

（手機橫屏來看更方便）

作者還做了一個有意思的統(tǒng)計，依據(jù)關(guān)鍵詞來看女性第一作者的分布。從圖中可以看出，女性的工作在discourse、annotation、study、corpus等領(lǐng)域所占比例較多，而例如parsing、dependency、model等則相對較少。

5、NLP領(lǐng)域，年輕人真的越來越多了嗎？

如果能去調(diào)查NLP研究人員的實際年齡分布，當(dāng)然是一件有趣的事情。但很遺憾，目前沒有這樣的信息。于是這位匿名作者另辟蹊徑，提出了：NLP學(xué)術(shù)年齡。如果一位研究人員是第一年在AA上發(fā)表，那么這個研究人員的NLP學(xué)術(shù)年齡是 1 ；如果是在2001年發(fā)表第一篇AA論文，并且在2018年發(fā)表了最新的AA論文，那么他的學(xué)術(shù)年齡是18。

首先來看NLP研究人員的在每一年的平均學(xué)術(shù)年齡分布——

（手機橫屏來看更方便）

從上圖看出：

1）2018年的平均學(xué)術(shù)年齡為5.41年；

2）NLP研究也在逐漸走向“老齡化”；

3）直到 2016、2017年，研究人員的平均學(xué)術(shù)年齡在不斷增長，但隨后卻開始下降了，這個可以從下圖中看得更加清楚一點——

（手機橫屏來看更方便）

作者統(tǒng)計了每年學(xué)術(shù)年齡的中位數(shù)，1965年至1990年大部分時間的平均年齡為1歲，1991年至2006年大部分時間的平均年齡為2歲，2007年至2015年大部分時間的平均年齡為3歲，此后又回到2歲。這大概是 NLP 領(lǐng)域的“返老還童”吧！

我們還可以從另一個角度來看，作者統(tǒng)計了每年首次發(fā)表論文的作者比例，

（手機橫屏來看更方便）

在1965年-1985年期間，這個比例逐漸下降；隨后到2005年基本穩(wěn)定在40%-50%之間；然后2005年到2015年則下降到40%上下。這也說明了從1985年之后，NLP社區(qū)已經(jīng)趨于成熟穩(wěn)定。不過我們有趣的是，從2016年之后，這個比例又開始逐漸上升了。（注：這個比例明顯會受到奇偶年的影響）

再詳細(xì)一點，我們來看 2011 - 2018年，不同學(xué)術(shù)年齡之間的比例：

其中2018年首次發(fā)表論文的作者占到44.93%，而學(xué)術(shù)年齡不到5年的作者比例占到65%。事實上，該數(shù)字自1965年以來一直在穩(wěn)步下降，在1990年代為60％至70％，2000年代初上升到70％至72％，然后再次下降，直到2010年達到最低值（約60％），并再次穩(wěn)定上升，直到2018年（65％）。

因此，如果不是去回顧歷史的話，我們常常會感覺最近的會議上有大量新人涌入，雖然這是事實，但也是錯覺。事實是，現(xiàn)在（2018年），NLP領(lǐng)域的平均學(xué)術(shù)年齡要比歷史上許多時候都要高，年齡大的（因此也是經(jīng)驗豐富的）人所占的比例要更多。

6、對哪種語言的研究最多？

正如維特根斯坦所說：“我的語言將限制我的世界”，對于一個語言群體也是如此。能否將其所使用的自然語言融入到自動系統(tǒng)（例如計算機）中，以及融入程度如何，是決定使用該語言的人群在網(wǎng)絡(luò)世界中影響力的關(guān)鍵因素。

我們知道，當(dāng)前的NLP研究主要是針對英語/英語數(shù)據(jù)集。原因很多，這里不再贅述；這種現(xiàn)象就會造成一個現(xiàn)象，即當(dāng)研究課題是非英文語言時，往往會在文章標(biāo)題中顯示出語言的名字。

作者據(jù)此觀察，統(tǒng)計了如下的表格，共有122種語言：

（手機橫屏來看更方便）

圖中字體較小，但大致是顏色越深，標(biāo)題中出現(xiàn)的頻率越高。從中可以看出中文的研究是所有非英語中頻率最高的，且遠(yuǎn)遠(yuǎn)高于其他語言（例如法語、日語等）。

注意，這里英語的頻率并不是第一，原因是大多針對英語的研究并不會在標(biāo)題中表示。現(xiàn)在社區(qū)中有越來越多的人意識到這是不正確的，這對其他語言是不公平的，因此有人建議應(yīng)當(dāng)在所有研究的標(biāo)題和數(shù)據(jù)集名稱中注明所研究的語言。

參考 AI 科技評論此前文章：

自然語言不等于英語，為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題，以及該怎么做？

7、哪個領(lǐng)域最熱？

從1965年至今，NLP領(lǐng)域的研究熱點是怎么變化的呢？這是一個有意思的問題。

由于AA文章往往不要求作者提交關(guān)鍵詞，因此要想統(tǒng)計文章的研究方向，最便捷的一種方式就是——從標(biāo)題中提取關(guān)鍵詞。

這里作者做了假設(shè)，認(rèn)為標(biāo)題內(nèi)容是和文章研究主題一致的。

Sneha Kulkarni曾表示：“一個好的研究論文標(biāo)題，應(yīng)當(dāng)滿足三點，1）用盡可能少的詞概括論文的內(nèi)容；2）吸引到讀者的注意力；3）將論文與同一領(lǐng)域的其他論文區(qū)分開。”

如果按照這個理想規(guī)則，那么使用標(biāo)題來提取關(guān)鍵詞應(yīng)該會具有一定的代表性。（當(dāng)然實際上還會有許多要考慮的因素，這里不再贅述）。

因此，作者的假設(shè)，再具體一點就是：隨著時間的流逝，與該領(lǐng)域相關(guān)的標(biāo)題詞的出現(xiàn)頻率，將在某種程度上反映出對某個研究領(lǐng)域的廣泛興趣。

那么，在過去這些年里，哪些才是熱門呢？

作者統(tǒng)計了從1980年到2019年的論文，如下圖：

從術(shù)語分布來看，NLP論文標(biāo)題中最常用的術(shù)語是 language，其次是 translation。如果考慮 Bigram 的話，如下圖：

最常出現(xiàn)的術(shù)語是 machine translation，毫無疑問，機器翻譯是NLP領(lǐng)域最受關(guān)注的研究領(lǐng)域之一。

我們再來看不同的研究領(lǐng)域隨著時間線的變化：

（手機橫屏來看更方便）

（注：圖中有個小錯誤，parsing對應(yīng)于淺綠線）

從這張圖中可以看到一個非常有意思的現(xiàn)象，即，在1980年-2008年之間近三十年的時間里，language、translation、parsing在80年代炙手可熱，而現(xiàn)在已經(jīng)遠(yuǎn)不如當(dāng)年受歡迎了；而另一方面，neural在80年代經(jīng)歷了一段高潮之后，迅速下降，但近年來卻又突破重圍，再次超越而出。

我們可以把 parsing 的時間線單拎出來：

真的是不復(fù)當(dāng)年！

另一個有意思的是，可以對比statistical machine, neural machine 和 machine translation 在近40年里的變化趨勢：

統(tǒng)計機器經(jīng)歷過一段高潮之后，現(xiàn)在已經(jīng)基本銷聲匿跡了；而神經(jīng)機器則隨之崛起。正所謂“沉舟側(cè)畔千帆過，病樹前頭萬木春”！

8、誰的影響力最大？

引用率并不一定能反映一篇文章的質(zhì)量或重要性，但卻是一個重要的參考。作者指出：

“對于為什么有些論文會被大量引用，而有些不會，很難說清，論文被高引，可能是引起了該領(lǐng)域的想象力，也有可能是它們極具創(chuàng)造力，或者開辟了一個新的研究領(lǐng)域，在很大程度上推動了技術(shù)發(fā)展，檢驗了令人信服的假設(shè)，或者產(chǎn)生了對多數(shù)人有用的數(shù)據(jù)集等等。”

作者從Google Scholar上對4萬多篇論文的引用率進行提取，獲得了33,051篇論文的引用信息。

下面兩張圖，是同一個信息，但按照不同的順序排列的——

第一張，按照相關(guān)所有論文的引用總數(shù)排列，可以看做機器翻譯是總引用率最高的，其次是統(tǒng)計機器、情感分析。

但是這種方式有其弊端，即不同領(lǐng)域，發(fā)表的論文數(shù)量也不相同，于是作者又按照平均引用率進行排列，這就給我們展示了另外一種視角：

從中可以看出，自動評估才是引用率的王者，語料庫和詞匯資源才是廣受歡迎的寵兒。所以，要想高引，還是要做資源建設(shè)呀。

作者別具一格地結(jié)合了學(xué)術(shù)年齡，來分析學(xué)術(shù)年齡對引用率的影響。

從中可以看出，在論文數(shù)量和總引用率上，學(xué)術(shù)年齡為1年和（10-14）年的是NLP的主力軍。

在平均引用上，7年的學(xué)術(shù)年齡是最好的。倒U形的分布也很好理解，人們普遍會引用年限不是很久遠(yuǎn)、但也不是剛剛出爐的論文。對于那些學(xué)術(shù)年齡在35-50之間的，平均引用率則普遍低到可怕。

針對引用率，作者也做了性別分析：

顯然，無論是總引用率、總論文數(shù)，還是平均引用、中位數(shù)引用，男性都要比女性高。（其中的unknown是考慮到有大量來自中國的論文作者，該研究作者不知道如何區(qū)分他們的性別）

作者也做了性別相關(guān)引用在時間跨度上的分析——

請注意，女性第一作者在ACL的歷史上一直是少數(shù)派；但是平均而言，她們在早期（1965年至1989年）的論文被引用的次數(shù)明顯多于同期的男性第一作者。從圖中可以看出，這種情況在1990年代有所改變，男性第一作者的論文平均獲得了明顯更多的引用。引用差距在2000年代大大減少，2010-2016年期間引用差距進一步縮小。

有趣的是，在2000年之后，性別未知的作者幾乎彌合了與男性作者之間的差距。作為中國人，笑而不語啊！

9、補充一點

這里僅擷取該研究的部分結(jié)論，在作者的論文原文以及博客中有大量更充實的分析內(nèi)容。感興趣的讀者可以：

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

1、NLP領(lǐng)域每年發(fā)多少論文？

2、有多少人在做 NLP 研究？

3、哪個會議/期刊的論文最多？

4、NLP領(lǐng)域，女性喜歡做什么研究？

5、NLP領(lǐng)域，年輕人真的越來越多了嗎？

6、對哪種語言的研究最多？

自然語言不等于英語，為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題，以及該怎么做？

7、哪個領(lǐng)域最熱？

9、補充一點