精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
清華2019最新AI發(fā)展報(bào)告出爐!400頁干貨,13大領(lǐng)域一文看懂

當(dāng)前,人工智能正處在爆發(fā)期。我國(guó)在人工智能領(lǐng)域的科學(xué)技術(shù)研究和產(chǎn)業(yè)發(fā)展起步稍晚,但在最近十余年的時(shí)間里抓住了機(jī)遇,進(jìn)入了快速發(fā)展階段。在這個(gè)過程中, 技術(shù)突破和創(chuàng)造性高端人才對(duì)人工智能的發(fā)展起著至關(guān)重要的作用。 本周,清華大學(xué)AI研究機(jī)構(gòu)AMiner發(fā)布了《2019中國(guó)人工智能發(fā)展報(bào)告》,報(bào)告遴選 13 個(gè)人工智能的重點(diǎn)領(lǐng)域進(jìn)行重點(diǎn)介紹,包括:機(jī)器學(xué)習(xí)、知識(shí)工程、計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別、計(jì)算機(jī)圖形學(xué)、多媒體技術(shù)、人機(jī)交互、機(jī)器人、數(shù)據(jù)庫技術(shù)、可視化、數(shù)據(jù)挖掘、信息檢索與推薦等。

本期的智能內(nèi)參,我們推薦清華大學(xué)的研究報(bào)告《2019中國(guó)人工智能發(fā)展報(bào)告》,對(duì)人工智能 13 個(gè)領(lǐng)域的人才情況及技術(shù)發(fā)展等內(nèi)容進(jìn)行了挖掘分析。如果想收藏本文的報(bào)告(2019中國(guó)人工智能發(fā)展報(bào)告),可以在智東西頭條號(hào)私聊回復(fù)關(guān)鍵詞“nc419”獲取。

本期內(nèi)參來源:清華大學(xué)AMiner

原標(biāo)題:

《2019中國(guó)人工智能發(fā)展報(bào)告》

作者: 李涓子 唐 杰

一、機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)已經(jīng)成為了當(dāng)今的熱門話題,但是從機(jī)器學(xué)習(xí)這個(gè)概念誕生到機(jī)器學(xué)習(xí)技術(shù)的普遍應(yīng)用經(jīng)過了漫長(zhǎng)的過程。在機(jī)器學(xué)習(xí)發(fā)展的歷史長(zhǎng)河中,眾多優(yōu)秀的學(xué)者為推動(dòng)機(jī)器學(xué)習(xí)的發(fā)展做出了巨大的貢獻(xiàn)。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況, 對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為機(jī)器學(xué)習(xí)領(lǐng)域全球?qū)W者分布情況:

▲機(jī)器學(xué)習(xí)領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量遙遙領(lǐng)先且主要分布在其東西海岸;歐洲中西部也有較多的人才分布;亞洲的人才主要分布于我國(guó)東部及日韓地區(qū);其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;機(jī)器學(xué)習(xí)領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。 此外, 在性別比例方面,機(jī)器學(xué)習(xí)領(lǐng)域中男性學(xué)者占比 89.8%,女性學(xué)者占比 10.2%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。

我國(guó)專家學(xué)者在機(jī)器學(xué)習(xí)領(lǐng)域的分布如上圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在機(jī)器學(xué)習(xí)領(lǐng)域?qū)W者數(shù)量較多。

▲ 機(jī)器學(xué)習(xí)領(lǐng)域中國(guó)學(xué)者分布

對(duì)本領(lǐng)域的高水平學(xué)術(shù)會(huì)議論文進(jìn)行挖掘,解讀這些會(huì)議在近年的部分代表性工作,會(huì)議具體包括:

International Conference on Machine Learning

Conference and Workshop on Neural Information Processing Systems

我們對(duì)本領(lǐng)域論文的關(guān)鍵詞進(jìn)行分析,統(tǒng)計(jì)出詞頻 Top20 的關(guān)鍵詞,生成本領(lǐng)域研究熱點(diǎn)的詞云圖,如上圖所示。其中, 出神經(jīng)網(wǎng)絡(luò)(neural networks)、深度學(xué)習(xí)(deep learning)、強(qiáng)化學(xué)習(xí)(reinforcement learning)是本領(lǐng)域中最熱的關(guān)鍵詞。 ICML 和 NeurlPS 是機(jī)器學(xué)習(xí)領(lǐng)域非常具有代表性的會(huì)議,限于報(bào)告篇幅,我們選取 ICML 和 NeurlPS 近十年若干最佳論文進(jìn)行解讀。

ICML 2019 年最佳論文

論文題目: Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

中文題目: 挑戰(zhàn)無監(jiān)督分離式表征的常見假設(shè)

論文作者: Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar R?tsch, Sylvain Gelly, Bernhard Sch?lkopf, Olivier Bachem

論文地址: https://aminer.cn/pub/5c04967517c44a2c74709162/challenging-commonassumptions-in-the-unsupervised-learning-of-disentangled-representations

論文解讀: 文章主要從理論和實(shí)踐兩方面對(duì)這一領(lǐng)域中的一些基本假設(shè)提出了挑戰(zhàn)。文章從理論上證明,如果沒有對(duì)所考慮的學(xué)習(xí)方法和數(shù)據(jù)集產(chǎn)生歸納偏置,那么解耦表示的無監(jiān)督學(xué)習(xí)基本上是不可能的。文章還采用了完善的無監(jiān)督解耦學(xué)習(xí)實(shí)驗(yàn)方案,進(jìn)行了一個(gè)超級(jí)大規(guī)模的實(shí)驗(yàn)研究。最后還發(fā)布了disentanglement_lib,這是一個(gè)用于訓(xùn)練和評(píng)估解耦表示的新庫。由于復(fù)制這個(gè)結(jié)果需要大量的計(jì)算工作論文還發(fā)布了超過 10000 個(gè)預(yù)訓(xùn)練的模型,可以作為未來研究的基線方法。

論 文 題 目 : Rates of Convergence for Sparse Variational Gaussian Process Regression

中文題目: 稀疏變分高斯過程回歸的收斂速度

論文作者: David R. Burt, Carl E. Rasmussen, Mark van der Wilk

論文地址: https://www.aminer.cn/pub/5cede106da562983788e64b9/rates-ofconvergence-for-sparse-variational-gaussian-process-regression

論文解讀:這篇文章來自英國(guó)劍橋大學(xué)。自從許多研究人提出了對(duì)高斯過程后驗(yàn)的變分近似法后,避免了數(shù)據(jù)集大小為 N 時(shí) O(N3) 的縮放。它們將計(jì)算成本降低到 O(NM2),其中 M ≤ N 是誘導(dǎo)變量的數(shù)量。雖然 N 的計(jì)算成本似乎是線性的,但算法的真正復(fù)雜性取決于 M 如何增加以確保一定的近似質(zhì)量。論文證明了稀疏 GP 回歸變分近似到后驗(yàn)變分近似的 KL 散度的界限,該界限僅依賴于先驗(yàn)核的協(xié)方差算子的特征值的衰減。這些邊界證明了直觀的結(jié)果,平滑的核、訓(xùn)練數(shù)據(jù)集中在一個(gè)小區(qū)域,允許高質(zhì)量、非常稀疏的近似。這些邊界證明了用M≤N 進(jìn)行真正稀疏的非參數(shù)推理仍然可以提供可靠的邊際似然估計(jì)和點(diǎn)后驗(yàn)估計(jì)。對(duì)非共軛概率模型的擴(kuò)展,是未來研究的一個(gè)有前景的方向。

二、計(jì)算機(jī)視覺

計(jì)算機(jī)視覺(computer vision),顧名思義,是分析、研究讓計(jì)算機(jī)智能化的達(dá)到類似人類的雙眼“看”的一門研究科學(xué)。即對(duì)于客觀存在的三維立體化的世界的理解以及識(shí)別依靠智能化的計(jì)算機(jī)去實(shí)現(xiàn)。確切地說,計(jì)算機(jī)視覺技術(shù)就是利用了攝像機(jī)以及電腦替代人眼使得計(jì)算機(jī)擁有人類的雙眼所具有的分割、分類、識(shí)別、跟蹤、判別決策等功能。總之,計(jì)算機(jī)視覺系統(tǒng)就是創(chuàng)建了能夠在2D 的平面圖像或者 3D 的三維立體圖像的數(shù)據(jù)中,以獲取所需要的“信息”的一個(gè)完整的人工智能系統(tǒng)。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為計(jì)算機(jī)視覺領(lǐng)域全球?qū)W者分布情況:

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;亞洲也有較多的人才分布,主要集中在我國(guó)東部及日韓地區(qū);歐洲的人才主要分布在歐洲中西部;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;計(jì)算機(jī)視覺領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

▲ 計(jì)算機(jī)視覺領(lǐng)域全球?qū)W者分布

此外,在性別比例方面,計(jì)算機(jī)視覺中男性學(xué)者占比 91.0%,女性學(xué)者占比9.0%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。

計(jì)算機(jī)視覺學(xué)者的 h-index 分布如下圖所示,大部分學(xué)者的 h-index 分布在中間區(qū)域,其中 h-index 在 20-30 區(qū)間的人數(shù)最多,有 706 人, 占比 34.7%,小于 20 的區(qū)間人數(shù)最少, 有 81 人。

我國(guó)專家學(xué)者在計(jì)算機(jī)視覺領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是珠三角和長(zhǎng)三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在計(jì)算機(jī)視覺領(lǐng)域?qū)W者數(shù)量相對(duì)較多。

▲計(jì)算機(jī)視覺領(lǐng)域中國(guó)學(xué)者分布

對(duì)本領(lǐng)域的高水平學(xué)術(shù)會(huì)議論文進(jìn)行挖掘,解讀這些會(huì)議在 2018-2019年的部分代表性工作。 會(huì)議具體包括:

IEEE Conference on Computer Vision and Pattern Recognition

European Conference on Computer Vision

論文題目: Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

中文題目:具有空洞分離卷積的編碼–解碼器用于語義圖像分割

論文作者: Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff,Hartwig Adam

論文出處: Proceedings of the European conference on computer vision (ECCV). 2018:801-818.

論文地址: https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49

研究問題:

語義分割是計(jì)算機(jī)視覺中一項(xiàng)基本且重要的研究?jī)?nèi)容, 它是為圖像中的每個(gè)像素分配語義標(biāo)簽。 在深度學(xué)習(xí)語義分割任務(wù)中經(jīng)常會(huì)使用空間金字塔池化和編碼–解碼器結(jié)構(gòu)。空間金字塔池化可以通過不同分辨率的池化特征捕捉豐富的上下文信息,但網(wǎng)絡(luò)中具有步進(jìn)操作的池化或卷積會(huì)導(dǎo)致與對(duì)象邊界有關(guān)的詳細(xì)信息丟失。這可以通過空洞卷積提取更密集的特征圖來緩解, 但大大增加了計(jì)算資源的消耗。而編碼-解碼器結(jié)構(gòu)則可以通過逐漸恢復(fù)空間信息來捕獲更清晰的對(duì)象邊界。通過組合兩種方法的優(yōu)點(diǎn),提出新的模型—DeepLabv3+。

近年來,巨量數(shù)據(jù)的不斷涌現(xiàn)與計(jì)算能力的快速提升,給以非結(jié)構(gòu)化視覺數(shù)據(jù)為研究對(duì)象的計(jì)算機(jī)視覺帶來了巨大的發(fā)展機(jī)遇與挑戰(zhàn)性難題,計(jì)算機(jī)視覺也因此成為學(xué)術(shù)界和工業(yè)界公認(rèn)的前瞻性研究領(lǐng)域,部分研究成果已實(shí)際應(yīng)用,催生出人臉識(shí)別、智能視頻監(jiān)控等多個(gè)極具顯示度的商業(yè)化應(yīng)用。

近兩年大多數(shù)研究都集中在深度學(xué)習(xí)、檢測(cè)和分類以及面部/手勢(shì)/姿勢(shì)、 3D傳感技術(shù)等方面。 隨著計(jì)算機(jī)視覺研究的不斷推進(jìn),研究人員開始挑戰(zhàn)更加困難的計(jì)算機(jī)視覺問題,例如,圖像描述、事件推理、場(chǎng)景理解等。單純從圖像或視頻出發(fā)很難解決更加復(fù)雜的圖像理解任務(wù),一個(gè)重要的趨勢(shì)是多學(xué)科的融合,例如,融合自然語言處理領(lǐng)域的技術(shù)來完成圖像描述的任務(wù)。

圖像描述是一個(gè)融合計(jì)算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)的綜合問題,其目標(biāo)是翻譯一幅圖片為一段描述文字。目前主流框架為基于遞歸神經(jīng)網(wǎng)絡(luò)的編碼器解碼器結(jié)構(gòu)其核心思想類似于自然語言機(jī)器翻譯。但是,由于遞歸網(wǎng)絡(luò)不易提取輸入圖像和文本的空間以及層次化約束關(guān)系,層次化的卷積神經(jīng)網(wǎng)絡(luò)以及啟發(fā)自認(rèn)知模型的注意力機(jī)制受到關(guān)注。如何進(jìn)一步從認(rèn)知等多學(xué)科汲取知識(shí),構(gòu)建多模態(tài)多層次的描述模型是當(dāng)前圖像描述問題研究的重點(diǎn)。

事件推理目標(biāo)是識(shí)別復(fù)雜視頻中的事件類別并對(duì)其因果關(guān)系進(jìn)行合理的推理和預(yù)測(cè)。與一般視頻分析相比,其難點(diǎn)在于事件視頻更加復(fù)雜,更加多樣化,而最終目標(biāo)也更具挑戰(zhàn)性。不同于大規(guī)模圖像識(shí)別任務(wù),事件推理任務(wù)受限于訓(xùn)練數(shù)據(jù)的規(guī)模,還無法構(gòu)建端到端的事件推理系統(tǒng)。目前主要使用圖像深度網(wǎng)絡(luò)作為視頻的特征提取器,利用多模態(tài)特征融合模型,并利用記憶網(wǎng)絡(luò)的推理能力,實(shí)現(xiàn)對(duì)事件的識(shí)別和推理認(rèn)知。當(dāng)前研究起源于視頻的識(shí)別和檢測(cè),其方法并未充分考慮事件數(shù)據(jù)的復(fù)雜和多樣性。如何利用視頻數(shù)據(jù)豐富的時(shí)空關(guān)系以及事件之間的語義相關(guān)性,應(yīng)是今后的關(guān)注重點(diǎn)。

場(chǎng)景理解的目的是計(jì)算機(jī)視覺系統(tǒng)通過分析處理自身所配置的傳感器采集的環(huán)境感知數(shù)據(jù),獲得周圍場(chǎng)景的幾何/拓?fù)浣Y(jié)構(gòu)、組成要素(人、車及物體等)及其時(shí)空變化,并進(jìn)行語義推理,形成行為決策與運(yùn)動(dòng)控制的時(shí)間、空間約束。近年來,場(chǎng)景理解已經(jīng)從一個(gè)初期難以實(shí)現(xiàn)的目標(biāo)成為目前幾乎所有先進(jìn)計(jì)算機(jī)視覺系統(tǒng)正在不斷尋求新突破的重要研究方向。 利用社會(huì)–長(zhǎng)短記憶網(wǎng)絡(luò)(SocialLSTM)實(shí)現(xiàn)多個(gè)行人之間的狀態(tài)聯(lián)系建模,結(jié)合各自運(yùn)動(dòng)歷史狀態(tài),決策出未來時(shí)間內(nèi)的運(yùn)動(dòng)走向。此外神經(jīng)網(wǎng)絡(luò)壓縮方向也是是目前深度學(xué)習(xí)研究的一個(gè)熱門的方向,其主要的研究技術(shù)有壓縮,蒸餾,網(wǎng)絡(luò)架構(gòu)搜索,量化等。

綜上所述,視覺的發(fā)展需要設(shè)計(jì)新的模型,它們需要能考慮到空間和時(shí)間信息;弱監(jiān)督訓(xùn)練如果能做出好的結(jié)果,下一步就是自監(jiān)督學(xué)習(xí);需要高質(zhì)量的人類檢測(cè)和視頻對(duì)象檢測(cè)數(shù)據(jù)集;結(jié)合文本和聲音的跨模態(tài)集成;在與世界的交互中學(xué)習(xí)。

三、 知識(shí)工程

1994 年圖靈獎(jiǎng)獲得者、知識(shí)工程的建立者費(fèi)根鮑姆給出知識(shí)工程定義—將知識(shí)集成到計(jì)算機(jī)系統(tǒng)從而完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù)。在大數(shù)據(jù)時(shí)代,知識(shí)工程是從大數(shù)據(jù)中自動(dòng)或半自動(dòng)獲取知識(shí),建立基于知識(shí)的系統(tǒng),以提供互聯(lián)網(wǎng)智能知識(shí)服務(wù)。大數(shù)據(jù)對(duì)智能服務(wù)的需求,已經(jīng)從單純的搜集獲取信息,轉(zhuǎn)變?yōu)樽詣?dòng)化的知識(shí)服務(wù)。我們需要利用知識(shí)工程為大數(shù)據(jù)添加語義/知識(shí),使數(shù)據(jù)產(chǎn)生智慧(Smart Data),完成從數(shù)據(jù)到信息到知識(shí),最終到智能應(yīng)用的轉(zhuǎn)變過程,從而實(shí)現(xiàn)對(duì)大數(shù)據(jù)的洞察、提供用戶關(guān)心問題的答案、為決策提供支持、改進(jìn)用戶體驗(yàn)等目標(biāo)。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為知識(shí)工程領(lǐng)域全球?qū)W者分布情況:

▲知識(shí)工程領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸; 歐洲及亞洲東部也有較多的人才分布;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少; 知識(shí)工程領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

此外, 在性別比例方面,知識(shí)工程領(lǐng)域中男性學(xué)者占比 89.7%,女性學(xué)者占比 10.6%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。

知識(shí)工程領(lǐng)域?qū)W者的 h-index 分布如下圖所示,大部分學(xué)者的 h-index 分布在中低區(qū)域,其中 h-index 在 20-30 區(qū)間的人數(shù)最多,有 783 人, 占比 38.9%,小于 20 區(qū)間的人數(shù)最少, 有 90 人。

我國(guó)專家學(xué)者在知識(shí)工程領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是珠三角和長(zhǎng)三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在知識(shí)工程領(lǐng)域?qū)W者數(shù)量較多。

▲知識(shí)工程領(lǐng)域中國(guó)學(xué)者分布

對(duì)本領(lǐng)域的高水平學(xué)術(shù)會(huì)議及期刊論文進(jìn)行挖掘,解讀這些會(huì)議和期刊在 2018-2019 年的部分代表性工作。這些會(huì)議和期刊包括:

IEEE Transactions on Knowledge and Data Engineering

International Conference on Information and Knowledge Management

論文題目: Convolutional 2D Knowledge Graph Embeddings

中文題目:基于二維卷積的知識(shí)圖譜嵌入表示學(xué)習(xí)

論文作者: Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel

論文出處: The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI2018)

論文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/17366/15884

研究問題: 知識(shí)圖譜的鏈接預(yù)測(cè)任務(wù)是預(yù)測(cè)節(jié)點(diǎn)之間潛在的關(guān)系。傳統(tǒng)的鏈接預(yù)測(cè)方法專注于淺的、快速的模型,因?yàn)檫@樣可以擴(kuò)展到大規(guī)模的 KG 中。但是淺層模型學(xué)習(xí)到的特征比深沉模型少很多,大大限制了模型的性能。解決該問題的方法之一是增加 embedding 的維度,但是會(huì)增加模型參數(shù)量,不方便擴(kuò)展到大規(guī)模 KG中。此外,部分現(xiàn)有數(shù)據(jù)集中有測(cè)試集泄露問題:訓(xùn)練集中的三元組稍微翻轉(zhuǎn)一下就可以得到測(cè)試集三元組,然后使用基于規(guī)則的模型就能達(dá)到最佳性能。文章通過構(gòu)造一個(gè)簡(jiǎn)單的翻轉(zhuǎn)來衡量這個(gè)問題嚴(yán)重性,并清洗了部分?jǐn)?shù)據(jù)來解決該問題。

近兩年知識(shí)獲取、推理和應(yīng)用研究取得了顯著的進(jìn)展,主要表現(xiàn)在如下幾個(gè)方面:

1、資源匱乏情況下的知識(shí)獲取 。知識(shí)圖譜的構(gòu)建始終是知識(shí)圖譜領(lǐng)域的核心問題之一, 近年來除了傳統(tǒng)的有監(jiān)督的實(shí)體、關(guān)系、 事件知識(shí)獲取的研究外,也涌現(xiàn)了一批在弱資源情況下的知識(shí)獲取方法。例如:在集合擴(kuò)展(實(shí)體集擴(kuò)展)研究中, Learning to Bootstrap for Entity Set Expansion 使用蒙特卡洛樹搜索策略的 booststrap 方法有效地提升了實(shí)體集擴(kuò)展方法的穩(wěn)定性,尤其是在與分類體系相關(guān)任務(wù)的同時(shí)優(yōu)化上。 HiExpan:Task-Guided Taxonomy Construction by Hierarchical Tree Expansion 提出一個(gè)知識(shí)分類體系的擴(kuò)展框架,模型利用弱監(jiān)督關(guān)系抽取模型,從一個(gè)小型的上下位關(guān)系樹出發(fā),抽取擴(kuò)展的節(jié)點(diǎn)并擴(kuò)展成一個(gè)更加豐富的上下位體系。 FewRel 2.0:Towards More Challenging Few-Shot Relation Classification 提出了少次學(xué)習(xí)任務(wù),通過設(shè)計(jì)少次學(xué)習(xí)機(jī)制,能夠利用從過往數(shù)據(jù)中學(xué)到的泛化知識(shí),結(jié)合新類型數(shù)據(jù)的少量訓(xùn)練樣本,實(shí)現(xiàn)快速遷移學(xué)習(xí)。 COMET: Commonsense Transformers forAutomatic Knowledge Graph Construction 提出常識(shí) Transformer 架構(gòu),將 GPT-2等語言模型與種子知識(shí)圖譜相結(jié)合,學(xué)習(xí)其結(jié)構(gòu)和關(guān)系,根據(jù)圖表征形成語言模型,從而生成新的知識(shí)并將它們添加到種子圖中。

2、 知識(shí)圖譜的知識(shí)補(bǔ)全和可解釋推理 。傳統(tǒng)的表示學(xué)習(xí)缺乏可解釋性,知識(shí)圖譜推理越來越受到關(guān)注, 其中既有使用強(qiáng)化學(xué)習(xí)方法尋找路徑的方法,也有使用實(shí)體鄰居和注意力權(quán)重做可解釋性推理方法。 Multi-Hop Knowledge Graph Reasoning with Reward Shaping 是基于多跳推理的知識(shí)庫問答方法,基于強(qiáng)化學(xué)習(xí)擴(kuò)展在知識(shí)圖譜的推理路徑, 以獲得問題的 正 確 答 案 。 Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs 提出一種基于注意力機(jī)制的特征嵌入方法,獲取實(shí)體鄰近范圍內(nèi)的實(shí)體和關(guān)系特征,引入關(guān)系聚類和多跳關(guān)系,有效提升了基于多跳推理的知識(shí)圖譜補(bǔ)全的效果。 Iteratively Learning Embeddings and Rules for Knowledge Graph Reasoning 研究如何迭代地進(jìn)行知識(shí)表示學(xué)習(xí)和規(guī)則學(xué)習(xí),提出的 IterE 模型可以利用學(xué)習(xí)的規(guī)則改進(jìn)稀疏實(shí)體的表示學(xué)習(xí),進(jìn)而提升規(guī)則學(xué)習(xí)和鏈接預(yù)測(cè)效果。

3、基于知識(shí)圖譜的推薦和對(duì)話問答 。將知識(shí)圖譜作為輔助信息引入到推薦系統(tǒng)中可以有效地解決傳統(tǒng)推薦系統(tǒng)存在的稀疏性和冷啟動(dòng)問題, 近幾年吸引大量研究人員在相關(guān)工作。 隨著圖卷積神經(jīng)網(wǎng)絡(luò), 圖注意力機(jī)制等技術(shù)的逐漸興起, 基于圖表示學(xué)習(xí)的推薦模型達(dá)到了更高的表現(xiàn)效果,并為推薦系統(tǒng)的可解釋性提供了幫助。 KGAT: Knowledge Graph Attention Network for Recommendation 利用知識(shí)圖譜中商品之間的關(guān)系,訓(xùn)練了一個(gè)端到端的含注意力機(jī)制的模型,用于提高推薦系統(tǒng)的能力。 AKUPM: Attention-Enhanced Knowledge-Aware User Preference Model for Recommendation 使用注意力模型,利用知識(shí)圖譜對(duì)用戶進(jìn)行建模,顯著提升了推薦系統(tǒng)的效果。Reinforcement Knowledge Graph Reasoning for Explainable Recommendation 結(jié)合強(qiáng)化學(xué)習(xí)的框架和知識(shí)圖譜推理來提供對(duì)推薦結(jié)果的解釋。 在對(duì)話問答方面, 以前對(duì)話生成的信息源是文本與對(duì)話記錄, 但如果遇到詞表之外的( Out-ofVocabulary) 的詞,模型往往難以生成合適的、有信息量的回復(fù),而會(huì)產(chǎn)生一些低質(zhì)量的、模棱兩可的回復(fù)。 Commonsense Knowledge Aware Conversation Generation with Graph 提出一種基于常識(shí)知識(shí)圖譜的對(duì)話模型 CCM 來理解對(duì)話,產(chǎn)生信息豐富且合適的回復(fù)。

四、自然語言處理

自然語言是指漢語、英語、法語等人們?nèi)粘J褂玫恼Z言,是人類社會(huì)發(fā)展演變而來的語言,而不是人造的語言,它是人類學(xué)習(xí)生活的重要工具。概括說來,自然語言是指人類社會(huì)約定俗成的,區(qū)別于如程序設(shè)計(jì)的語言的人工語言。在整個(gè)人類歷史上以語言文字形式記載和流傳的知識(shí)占到知識(shí)總量的 80%以上。就計(jì)算機(jī)應(yīng)用而言,據(jù)統(tǒng)計(jì),用于數(shù)學(xué)計(jì)算的僅占 10%,用于過程控制的不到 5%,其余 85%左右都是用于語言文字的信息處理。

處理包含理解、轉(zhuǎn)化、生成等過程。自然語言處理,是指用計(jì)算機(jī)對(duì)自然語言的形、音、義等信息進(jìn)行處理,即對(duì)字、詞、句、篇章的輸入、輸出、識(shí)別、分析、理解、生成等的操作和加工。實(shí)現(xiàn)人機(jī)間的信息交流,是人工智能、計(jì)算機(jī)科學(xué)和語言學(xué)所共同關(guān)注的重要問題。自然語言處理的具體表現(xiàn)形式包括機(jī)器翻譯、文本摘要、文本分類、文本校對(duì)、信息抽取、語音合成、語音識(shí)別等。可以說,自然語言處理就是要計(jì)算機(jī)理解自然語言,自然語言處理機(jī)制涉及兩個(gè)流程,包括自然語言理解和自然語言生成。自然語言理解是指計(jì)算機(jī)能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達(dá)給定的意圖。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為自然語言處理領(lǐng)域全球?qū)W者分布情況:

▲自然語言處理領(lǐng)域?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;歐洲也有較多的人才分布,主要集中在歐洲中西部;亞洲的人才主要分布在我國(guó)東部及日韓地區(qū);其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;自然語言處理領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。此外, 在性別比例方面,自然語言處理領(lǐng)域中男性學(xué)者占比 89.3%,女性學(xué)者占比 10.7%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。

我國(guó)專家學(xué)者在自然語言處理領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在自然語言處理領(lǐng)域?qū)W者數(shù)量較多。

▲自然語言處理領(lǐng)域中國(guó)學(xué)者分布

2019自然語言處理代表性文章是:

論文題目: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

中文題目: BERT: 語言理解的深層雙向轉(zhuǎn)換器的預(yù)訓(xùn)練

論文作者: Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

論文出處: In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics.

論文地址: https://arxiv.org/abs/1810.04805

文章介紹一種新的語言表示模型 BERT(Bidirectional Encoder Representations from Transformers),通過聯(lián)合上下文信息從未標(biāo)記文本中預(yù)訓(xùn)練深層雙向表示形式,只需一個(gè)額外的輸出層,就可以對(duì)預(yù)訓(xùn)練模型進(jìn)行調(diào)整,在不需要對(duì)特定任務(wù)的體系結(jié)構(gòu)進(jìn)行大量修改的前提下,在多種語言相關(guān)任務(wù)上獲得。

近年來,預(yù)訓(xùn)練語言模型在自然語言處理領(lǐng)域有了重要進(jìn)展。 預(yù)訓(xùn)練模型指的是首先在大規(guī)模無監(jiān)督的語料上進(jìn)行長(zhǎng)時(shí)間的無監(jiān)督或者是自監(jiān)督的預(yù)先訓(xùn)練(pre-training),獲得通用的語言建模和表示能力。之后在應(yīng)用到實(shí)際任務(wù)上時(shí)對(duì)模型不需要做大的改動(dòng),只需要在原有語言表示模型上增加針對(duì)特定任務(wù)獲得輸出結(jié)果的輸出層,并使用任務(wù)語料對(duì)模型進(jìn)行少許訓(xùn)練即可,這一步驟被稱作微調(diào)(fine tuning)。

自 ELMo、 GPT、 BERT 等一系列預(yù)訓(xùn)練語言表示模型(Pre-trained Language Representation Model)出現(xiàn)以來,預(yù)訓(xùn)練模型在絕大多數(shù)自然語言處理任務(wù)上都展現(xiàn)出了遠(yuǎn)遠(yuǎn)超過傳統(tǒng)模型的效果,受到越來越多的關(guān)注,是 NLP領(lǐng)域近年來最大的突破之一,是自然語言處理領(lǐng)域的最重要進(jìn)展。

BERT(Bidirectional Encoder Representation from Transformer)是 Google AI于 NAACL2019 提出的一個(gè)預(yù)訓(xùn)練語言模型。 BERT 的創(chuàng)新點(diǎn)是提出了有效的無監(jiān)督預(yù)訓(xùn)練任務(wù),從而使得模型能夠從無標(biāo)注語料中獲得通用的語言建模能力。模型的部分細(xì)節(jié)在前文的論文解讀中已經(jīng)給出,不再贅述。

BERT 之后涌現(xiàn)了許多對(duì)其進(jìn)行擴(kuò)展的模型, 包括: 跨語言預(yù)訓(xùn)練的 XLM 和 UDify, 跨模態(tài)預(yù)訓(xùn)練的模型, 融合知識(shí)圖譜的 ERNIE, 將seq2seq 等語言生成任務(wù)整合入 BERT 類模型的 MASS, UniLM 等。其中幾個(gè)重要的進(jìn)展包括:

(1) XLNet 使用 Transformer-XL 替代了 Transformer 作為基礎(chǔ)模型,擁有編碼超長(zhǎng)序列的能力。 XLNet 提出了一個(gè)新的預(yù)訓(xùn)練語言任務(wù): Permutation LanguageModeling(排列語言模型),模型將句子內(nèi)的詞語打亂順序,從而使得預(yù)測(cè)當(dāng)前詞語時(shí)可以利用雙向信息。 XLNet 相對(duì) BERT 也使用了更多的語料。

(2) RoBERTa 采用了與 BERT 具有相同的模型結(jié)構(gòu),同樣采用了屏蔽語言模型任務(wù)進(jìn)行預(yù)訓(xùn)練,但舍棄了 BERT 中下句預(yù)測(cè)模型。此外, RoBERTa 采用了更大規(guī)模的數(shù)據(jù)和更魯棒的優(yōu)化方法,從而取得了更好的表現(xiàn)。

(3) ALBERT 模型針對(duì) BERT 參數(shù)量過大難以訓(xùn)練的問題做了優(yōu)化,一是對(duì)詞向量矩陣做分解,二是在層與層之間共享參數(shù)。此外, ALBERT 將下句預(yù)測(cè)模型替換為句序預(yù)測(cè)任務(wù),即給定一些句子預(yù)測(cè)它們的排列順序。

五、 語音識(shí)別

語音識(shí)別是讓機(jī)器識(shí)別和理解說話人語音信號(hào)內(nèi)容的新興學(xué)科,目的是將語音信號(hào)轉(zhuǎn)變?yōu)槲谋咀址蛘呙畹闹悄芗夹g(shù),利用計(jì)算機(jī)理解講話人的語義內(nèi)容,使其聽懂人類的語音,從而判斷說話人的意圖,是一種非常自然和有效的人機(jī)交流方式。它是一門綜合學(xué)科,與很多學(xué)科緊密相連,比如語言學(xué)、信號(hào)處理、計(jì)算機(jī)科學(xué)、心理和生理學(xué)等。

語音識(shí)別首先要對(duì)采集的語音信號(hào)進(jìn)行預(yù)處理,然后利用相關(guān)的語音信號(hào)處理方法計(jì)算語音的聲學(xué)參數(shù),提取相應(yīng)的特征參數(shù),最后根據(jù)提取的特征參數(shù)進(jìn)行語音識(shí)別。總體上,語音識(shí)別包含兩個(gè)階段:第一個(gè)階段是學(xué)習(xí)和訓(xùn)練,即提取語音庫中語音樣本的特征參數(shù)作為訓(xùn)練數(shù)據(jù),合理設(shè)置模型參數(shù)的初始值,對(duì)模型各個(gè)參數(shù)進(jìn)行重估,使識(shí)別系統(tǒng)具有最佳的識(shí)別效果;第二個(gè)階段就是識(shí)別,將待識(shí)別語音信號(hào)的特征根據(jù)一定的準(zhǔn)則與訓(xùn)練好的模板庫進(jìn)行比較,最后通過一定的識(shí)別算法得出識(shí)別結(jié)果。顯然識(shí)別結(jié)果的好壞與模板庫是否準(zhǔn)確、模型參數(shù)的好壞以及特征參數(shù)的選擇都有直接的關(guān)系。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為語音識(shí)別領(lǐng)域全球?qū)W者分布情況:

▲語音識(shí)別領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;亞洲也有較多的人才分布,主要在我國(guó)東部及日韓地區(qū);歐洲的人才主要集中在歐洲中西部;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;語音識(shí)別領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

我國(guó)專家學(xué)者在語音識(shí)別領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在語音識(shí)別領(lǐng)域?qū)W者數(shù)量較多且有一定的優(yōu)勢(shì)。

▲ 語音識(shí)別領(lǐng)域中國(guó)學(xué)者分布

2019代表論文:

論文題目: X-Vectors: Robust DNN Embeddings for Speaker Recognition

中文題目: X 向量:用于說話人識(shí)別的魯棒 DNN 嵌入

論文作者: David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey and Sanjeev Khudanpur. X-Vectors: Robust DNN Embeddings for Speaker Recognition.

論文出處: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)

論文地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461375

研究問題: 捕捉說話者特征是語音識(shí)別領(lǐng)域具有重大意義的研究?jī)?nèi)容。 大多數(shù)說話人識(shí)別系統(tǒng)都是基于 i-vectors 來實(shí)現(xiàn)的。 標(biāo)準(zhǔn)的基于 i-vectors 的方法由通用背景模型(UBM)和大型投影矩陣 T 組成,該模型以無監(jiān)督方式來學(xué)習(xí)。在早期的系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)經(jīng)訓(xùn)練后,被用來分離說話者,從網(wǎng)絡(luò)中提取幀級(jí)表示, 并將其用作高斯說話者模型的特征。近年來, 使用深度神經(jīng)網(wǎng)絡(luò)(DNN)捕獲說話者特征是當(dāng)前非常活躍的研究領(lǐng)域。 DNN 嵌入性能也隨著訓(xùn)練數(shù)據(jù)量的增加而高度擴(kuò)展。

隨著人工智能的迅速發(fā)展,語音識(shí)別的技術(shù)越來越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于使機(jī)器能夠聽懂人類的話語指令,并希望通過語音實(shí)現(xiàn)對(duì)機(jī)器的控制。作為一項(xiàng)人機(jī)交互的關(guān)鍵技術(shù),語音識(shí)別在過去的幾十年里取得了飛速的發(fā)展,在研究和探索過程中針對(duì)語音識(shí)別的各部流程進(jìn)行了各種各樣的嘗試和改造,以期發(fā)現(xiàn)更好的方法來完成語音識(shí)別流程中的各個(gè)步驟,以此來促進(jìn)在不同環(huán)境下語音識(shí)別的效率和準(zhǔn)確率。研究人員從最簡(jiǎn)單的非常小詞匯量的閱讀式的語音識(shí)別問題開始,逐漸轉(zhuǎn)向越來越復(fù)雜的問題。

近年來智能語音進(jìn)入了快速增長(zhǎng)期,語音識(shí)別作為語音領(lǐng)域的重要分支獲得了廣泛的關(guān)注,如何提高聲學(xué)建模能力和如何進(jìn)行端到端的聯(lián)合優(yōu)化是語音識(shí)別領(lǐng)域中的重要課題。

隨著人工智能的迅速發(fā)展,語音識(shí)別的技術(shù)越來越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于使機(jī)器能夠聽懂人類的話語指令,并希望通過語音實(shí)現(xiàn)對(duì)機(jī)器的控制。作為一項(xiàng)人機(jī)交互的關(guān)鍵技術(shù),語音識(shí)別在過去的幾十年里取得了飛速的發(fā)展,在研究和探索過程中針對(duì)語音識(shí)別的各部流程進(jìn)行了各種各樣的嘗試和改造,以期發(fā)現(xiàn)更好的方法來完成語音識(shí)別流程中的各個(gè)步驟,以此來促進(jìn)在不同環(huán)境下語音識(shí)別的效率和準(zhǔn)確率。研究人員從最簡(jiǎn)單的非常小詞匯量的閱讀式的語音識(shí)別問題開始,逐漸轉(zhuǎn)向越來越復(fù)雜的問題。

近年來智能語音進(jìn)入了快速增長(zhǎng)期,語音識(shí)別作為語音領(lǐng)域的重要分支獲得了廣泛的關(guān)注,如何提高聲學(xué)建模能力和如何進(jìn)行端到端的聯(lián)合優(yōu)化是語音識(shí)別領(lǐng)域中的重要課題。

語音識(shí)別經(jīng)歷了從 2012 年最開始的 DNN 的引入時(shí)的 Hybrid HMM 結(jié)構(gòu),再到 2015 年開始吸引大家研究興趣的 CTC 算法,而后到 2018 年的 Attention 相關(guān)結(jié)構(gòu)的研究熱點(diǎn)。 Attention 相關(guān)算法在語音識(shí)別或者說話人識(shí)別研究的文章中出現(xiàn)頻率極高。從最開始 Attention,到 Listen-Attend-Spell,再到 Self-Attention(或者 Transformer),在不同的文章被作者多次介紹和分析,頻繁出現(xiàn)在了相關(guān)文章的 Introduction 環(huán)節(jié)中。在 Attention 結(jié)構(gòu)下,依然還有很多內(nèi)容需要研究者們進(jìn)一步地探索:例如在一些情況下 Hybrid 結(jié)構(gòu)依然能夠得到 State-of-the-art 的結(jié)果,以及語音數(shù)據(jù)庫規(guī)模和 Attention 模型性能之間的關(guān)系。

在近兩年的研究中, 端到端語音識(shí)別仍然是 ASR( Automatic SpeechRecognition)研究的一大熱點(diǎn),正如上文提到的,基于 Attention 機(jī)制的識(shí)別系統(tǒng)已經(jīng)成為了語音技術(shù)研究主流。同時(shí),隨著端到端語音識(shí)別框架日益完善,研究者們對(duì)端到端模型的訓(xùn)練和設(shè)計(jì)更加的關(guān)注。 遠(yuǎn)場(chǎng)語音識(shí)別(far-field ASR),模型結(jié)構(gòu)(ASR network architecture),模型訓(xùn)練(model training for ASR),跨語種或者多語種語音識(shí)別(cross-lingual and multi-lingual ASR)以及一些端到端語音識(shí)別(end-to-end ASR)成為研究熱點(diǎn)。

在語音合成方面,高音質(zhì)語音生成算法及 Voice conversion 是近兩年研究者關(guān)注的兩大熱點(diǎn), Voice Conversion 方向的研究重點(diǎn)主要集中在基于 GAN 的方法上。 在語言模型方面(Language Model)的研究熱點(diǎn)主要包括 NLP 模型的遷移,低頻單詞的表示,以及深層 Transformer 等。

在說話人識(shí)別方面,說話人信息,特別是說話人識(shí)別及切分,正被越來越多的研究者所重視。 目前 Attention 在說話人方面更類似一種 Time Pooling,比Average Pooling 及 Stats Pooling 更能捕捉對(duì)說話人信息更重要的信息,從而帶來性能提升。說話人識(shí)別技術(shù)經(jīng)歷深度學(xué)習(xí)帶來的性能飛躍后,在模型結(jié)構(gòu)、損失函數(shù)等方面的探討已經(jīng)較為成熟,以 TDNN、 ResNet 加上 LMCL、 ArcFace 的主流模型開始不斷刷新各數(shù)據(jù)集的性能上限。模型以外的因素逐漸成為制約說話人系統(tǒng)的瓶頸。說話人技術(shù)目前也逐漸暴露出與人臉識(shí)別同樣的易受攻擊的問題。因此, ASVspoof 這樣的 Challenge 從 2015 年起就開始關(guān)注聲紋反作弊問題。相信隨著此類研究的不斷深入,結(jié)合聲紋系統(tǒng)的性能提升,聲紋將有望變成我們的“聲音身份證”。

六、 計(jì)算機(jī)圖形學(xué)

國(guó)際標(biāo)準(zhǔn)化組織 ISO 將計(jì)算機(jī)圖形學(xué)定義為:計(jì)算機(jī)圖形學(xué)是一門研究通過計(jì)算機(jī)將數(shù)據(jù)轉(zhuǎn)換成圖形,并在專門顯示設(shè)備上顯示的原理方法和技術(shù)的學(xué)科。它是建立在傳統(tǒng)的圖形學(xué)理論、應(yīng)用數(shù)學(xué)及計(jì)算機(jī)科學(xué)基礎(chǔ)上的一門邊緣學(xué)科。這里的圖形是指三維圖形的處理。簡(jiǎn)單來講,它的主要研究?jī)?nèi)容是研究如何在計(jì)算機(jī)中表示圖形,以及利用計(jì)算機(jī)進(jìn)行圖形的計(jì)算處理和顯示的相關(guān)原理和算法。

在計(jì)算機(jī)圖形學(xué)的開創(chuàng)之初,他主要解決的問題是在計(jì)算機(jī)中表示三維結(jié)合圖形以及如何利用計(jì)算機(jī)進(jìn)行圖形的生成處理和顯示的相關(guān)原理和算法,目的是產(chǎn)生令人賞心悅目的真實(shí)感圖像,這僅僅是狹義的計(jì)算機(jī)圖形學(xué)。隨著近些年的發(fā)展,計(jì)算機(jī)圖形學(xué)的內(nèi)容已經(jīng)遠(yuǎn)遠(yuǎn)不止這些,廣義的計(jì)算機(jī)圖形學(xué)研究?jī)?nèi)容非常廣泛,包括圖形硬件、圖形標(biāo)準(zhǔn)、圖形交互技術(shù)、柵格圖形生成算法、曲線曲面造型、實(shí)體造型、真實(shí)版圖形的計(jì)算、顯示算法、科學(xué)計(jì)算可視化、計(jì)算機(jī)動(dòng)畫、虛擬現(xiàn)實(shí)、自然景物仿真等等。

計(jì)算機(jī)圖形學(xué)的總體框架可以包括以下幾個(gè)部分:數(shù)學(xué)和算法基礎(chǔ)、建模、渲染以及人機(jī)交互技術(shù)。計(jì)算機(jī)圖形學(xué)需要一些基本的數(shù)學(xué)算法,例如向量和幾何的變化、幾何建模式的三維空間變化、三維到二維的圖形變換等等。建模是進(jìn)行圖形描述和計(jì)算,由于在多維空間中有各種組合模型,有一些是解析式表達(dá)的簡(jiǎn)單形體,也有一些隱函數(shù)表達(dá)的復(fù)雜曲線,因此需要進(jìn)行復(fù)雜的建模工作。渲染也叫繪制,指的是模型的視覺實(shí)現(xiàn)過程,例如對(duì)光照紋理等理論和算法進(jìn)行處理,其中也需要大量的計(jì)算。交互技術(shù)可以說是圖形學(xué)交互的重要工具,是計(jì)算機(jī)圖形學(xué)的重要應(yīng)用。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為計(jì)算機(jī)圖形學(xué)全球?qū)W者分布情況:

▲計(jì)算機(jī)圖形學(xué)領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。 從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯; 歐洲也有較多的人才分布,主要在歐洲中西部; 亞洲的人才主要集中在我國(guó)東部及日韓地區(qū);其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少; 計(jì)算機(jī)圖形學(xué)的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

我國(guó)專家學(xué)者在計(jì)算機(jī)圖形領(lǐng)域的分布如上圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓等地相比,中國(guó)在計(jì)算機(jī)圖形領(lǐng)域?qū)W者數(shù)量略多但差距較小。

▲計(jì)算機(jī)圖形學(xué)領(lǐng)域中國(guó)學(xué)者分布

2019優(yōu)秀計(jì)算機(jī)圖形學(xué)論文:

論 文 題 目 : A Style-based Generator Architecture for Generative Adversarial Networks

中文題目:基于樣式的生成式對(duì)抗網(wǎng)絡(luò)生成器架構(gòu)

論文作者: Tero Karras, Samuli Laine, Timo Aila.

論文出處: The IEEE Conference on Computer Vision and Pattern Recognition- CVPR 2019

論文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Karras_A_StyleBased_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.pdf

研究問題: 本文針對(duì)自動(dòng)的無監(jiān)督的習(xí)得圖像的高層屬性(譬如人臉對(duì)應(yīng)的身份信息以及拍攝姿態(tài))以及對(duì)于生成的每幅圖像產(chǎn)生一些特定的隨機(jī)化的變換(譬如臉部瑕疵以及頭發(fā)的細(xì)節(jié)),生成較為直觀且可控的合成結(jié)果進(jìn)行了研究。通過借鑒風(fēng)格遷移的思想,提出了一種新的對(duì)抗網(wǎng)絡(luò)中的生成器架構(gòu)。該架構(gòu)不僅在傳統(tǒng)的分布距離的度量上優(yōu)勢(shì)明顯,并且較好地將控制圖像變化的隱變量分離出來進(jìn)行獨(dú)立建模。

隨著數(shù)字化技術(shù)和互聯(lián)網(wǎng)的發(fā)展,計(jì)算機(jī)圖形學(xué)在許多領(lǐng)域都已經(jīng)得到了廣泛的應(yīng)用,如遙感圖像分析、多媒體通信、醫(yī)療診斷、機(jī)器人視覺等。當(dāng)前計(jì)算機(jī)圖形學(xué)的研究逐漸向多學(xué)科交叉融合方向發(fā)展,即有與認(rèn)知計(jì)算、計(jì)算器學(xué)習(xí)、人機(jī)交互的融合,也有與大數(shù)據(jù)分析、可視化的融合;不僅針對(duì)三維數(shù)字模型, 而且涵蓋了圖像視頻, 與計(jì)算機(jī)視覺深度交叉。計(jì)算機(jī)圖形學(xué)的快速發(fā)展,一個(gè)潛在的趨勢(shì)是不再有明確清晰的主題,更多的體現(xiàn)出方法和技術(shù)的創(chuàng)新。

針對(duì)近兩年計(jì)算機(jī)圖形學(xué)重要期刊會(huì)議的相關(guān)論文,對(duì)該領(lǐng)域內(nèi)容熱點(diǎn)研究?jī)?nèi)容和前沿技術(shù)方法進(jìn)行了綜合分析。目前,熱點(diǎn)研究?jī)?nèi)容主要集中在自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)、全景分割(Panoptic Segmentation) 、網(wǎng)絡(luò)結(jié)構(gòu)搜索( Neural Architecture Search) 和生成式對(duì)抗網(wǎng)絡(luò)( Generative AdversarialNetworks) 等方面。

自監(jiān)督學(xué)習(xí)研究早期主要集中在代理任務(wù)的設(shè)計(jì)和選取上,怎樣的代理任務(wù)才能最好地提取出有益于下游任務(wù)的特征以及為何這些代理任務(wù)能夠有效,這些是理論層面上自監(jiān)督學(xué)習(xí)仍需要解決的問題。隨著大量圍繞著實(shí)例判別代理任務(wù)的相關(guān)工作的提出,有一些工作將其中的核心思想進(jìn)行展開提出了所謂對(duì)比學(xué)習(xí)的概念。通過將原來兩個(gè)圖片實(shí)例特征間的對(duì)比延伸到任意兩個(gè)模態(tài)間特征的對(duì)比,使得模型學(xué)習(xí)不同模態(tài)間一致的特征表達(dá)并用最大化互信息作為新的衡量準(zhǔn)則。

在已有的工作中,比較典型的代理任務(wù)有將圖片分塊然后預(yù)測(cè)不同分塊間的相對(duì)位置或者將分塊打亂后重排得到原圖,以及基于圖片的上下文信息進(jìn)行補(bǔ)全和圖片不同顏色通道間的相互預(yù)測(cè)等。目前在圖像與圖形學(xué)領(lǐng)域,取得性能突破的方法主要仍局限在監(jiān)督學(xué)習(xí)的框架之下,隨著無標(biāo)記數(shù)據(jù)的不斷爆增和模型性能進(jìn)一步提升的需求,無監(jiān)督學(xué)習(xí)將會(huì)越來越受到學(xué)術(shù)界和工業(yè)界的重視。而作為目前無監(jiān)督學(xué)習(xí)中的一支,自監(jiān)督學(xué)習(xí)因其良好的特征判別能力和對(duì)大規(guī)模數(shù)據(jù)擴(kuò)展能力,也將受到更廣泛的關(guān)注。

全景分割作為一個(gè)統(tǒng)一的任務(wù)在 2018 年被提出,它的目標(biāo)是為圖像中的所有像素點(diǎn)都分配一個(gè)語義類別和一個(gè)實(shí)例編號(hào),從另一個(gè)角度來說,全景分割算法需要預(yù)測(cè)出圖像中每一個(gè)像素點(diǎn)的所屬類別和所屬實(shí)例。在全景分割任務(wù)的基礎(chǔ)上,近期的進(jìn)展主要體現(xiàn)在三個(gè)方面:(1)從圖像整體的角度考慮全景分割,共享網(wǎng)絡(luò)主干(backbone)形成設(shè)計(jì)整體網(wǎng)絡(luò)結(jié)構(gòu);(2)考慮圖像中不同元素之間的交互,建模物體與語義概念之間的關(guān)系;(3)提出可學(xué)習(xí)模塊,解決預(yù)測(cè)結(jié)果層面的沖突。接下來,我們將分別介紹有代表性的工作。全景分割作為一個(gè)最近被提出的視覺任務(wù),受到了很大的關(guān)注,目前方法也在探討的過程中,具有很大的發(fā)展?jié)摿Α?/p>

目前深度學(xué)習(xí)的方法在各類圖像與圖形分析任務(wù)中取得了非常大的成功,伴隨這一成功而來的是對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)要求的不斷提高。自動(dòng)化網(wǎng)絡(luò)設(shè)計(jì)自然而然地成為了自動(dòng)化機(jī)器學(xué)習(xí)的下一個(gè)目標(biāo)。早期的相關(guān)工作證明了使用強(qiáng)化學(xué)習(xí)算法可以發(fā)現(xiàn)好的網(wǎng)絡(luò)架構(gòu),但是這些方法在計(jì)算過程中需要消耗大量計(jì)算資源,因此后續(xù)的工作都集中在如何減少計(jì)算負(fù)擔(dān)上。搜索空間的設(shè)計(jì)也是一項(xiàng)重要研究熱點(diǎn),同時(shí),研究人員又拓寬了神經(jīng)結(jié)構(gòu)搜索的視野,將多種優(yōu)化目標(biāo)考慮在內(nèi),而不僅僅是減少搜索時(shí)間和提高網(wǎng)絡(luò)精度。具有代表性的工作如嘗試限制模型參數(shù)的數(shù)量或類似的方法,以有效地部署在移動(dòng)設(shè)備上。在此基礎(chǔ)上,還有一些工作將網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)擴(kuò)展到搜索深度網(wǎng)絡(luò)相關(guān)組件上。

在圖像合成方面,近期最引人關(guān)注的工作就是生成對(duì)抗網(wǎng)絡(luò),生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò) G 和一個(gè)判別網(wǎng)絡(luò) D 組成。生成網(wǎng)絡(luò) G 和判別網(wǎng)絡(luò) D 在訓(xùn)練階段使用對(duì)抗的方式進(jìn)行學(xué)習(xí),生成網(wǎng)絡(luò) G 的目標(biāo)是生成盡可能真實(shí)的圖片使得判別網(wǎng)絡(luò)認(rèn)為這是一張真實(shí)的圖片;而判別網(wǎng)絡(luò) D 的任務(wù)則是判別合成的圖像是真實(shí)的還是生成的。在這種兩者對(duì)抗的學(xué)習(xí)過程中,生成 G 學(xué)會(huì)如何生成真實(shí)的圖片。目前在生成對(duì)抗網(wǎng)絡(luò)研究中,條件生成對(duì)抗網(wǎng)絡(luò)、損失函數(shù)的改進(jìn)、模型結(jié)構(gòu)的改進(jìn)及訓(xùn)練方法的改進(jìn)是主要研究方向。

七、 多媒體技術(shù)

“多媒體”一詞譯自英文“Multimedia”,而該詞又是由 multiple 和 media 復(fù)合而成,核心詞是媒體。媒體(medium)在計(jì)算機(jī)領(lǐng)域有兩種含義:一是指存儲(chǔ)信息的實(shí)體,如磁盤、光盤、磁帶、半導(dǎo)體存儲(chǔ)器等,中文常譯為媒質(zhì);二是指?jìng)鬟f信息的載體,如數(shù)字、文字、聲音、圖形和圖像等,中文譯作媒介,多媒體技術(shù)中的媒體是指后者。其實(shí),“媒體”的概念范圍是相當(dāng)廣泛的。“媒體”有下列五大類:(1)感覺媒體(Perception medium)指的是能使人產(chǎn)生直接感覺的媒體。如聲音、動(dòng)畫、文本等;(2)表示媒體(Representation medium)指的是為了傳送感覺媒體而人為研究出來的媒體。諸如語言編碼、電報(bào)碼、條形碼等等;(3)顯示媒體(Presentation medium)指的是用于通信中使電信號(hào)和感覺媒體之間產(chǎn)生轉(zhuǎn)換用的媒體。如鍵盤、鼠標(biāo)器、打印機(jī)等;(4)存儲(chǔ)媒體(Storage medium)指的是于存放某種媒體的媒體。如紙張、磁帶、磁盤、光盤等;(5)傳輸媒體(Transmission medium)指的是用于傳輸某些媒體的媒體。常用的有如電話線、電纜、光纖等。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為多媒體領(lǐng)域全球?qū)W者分布情況。

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;亞洲東部也有較多的人才分布;歐洲的人才主要集中在歐洲中西部;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;多媒體領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

▲多媒體領(lǐng)域全球?qū)W者分布

我國(guó)專家學(xué)者在多媒體領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況, 特別是與日韓、東南亞等亞洲國(guó)家相比,中國(guó)在多媒體領(lǐng)域?qū)W者數(shù)量較多且有一定的優(yōu)勢(shì)。

▲多媒體領(lǐng)域中國(guó)學(xué)者分布

2019優(yōu)秀論文:

論文題目: Beyond Narrative Description: Generating Poetry from Images by MultiAdversarial Training

中文題目:超越敘事描述:通過多重對(duì)抗訓(xùn)練,從意象中生成詩歌

論文作者: Bei Liu, Jianlong Fu, Makoto P. Kato, Masatoshi Yoshikawa

論文出處: 26th ACM International Conference on Multimedia – ACMMM’18

論文地址: https://arxiv.org/pdf/1804.08473v4.pdf

研究問題:本文主要研究了從圖像自動(dòng)生成詩歌的方法。這項(xiàng)任務(wù)涉及多個(gè)挑戰(zhàn),包括從圖像中發(fā)現(xiàn)詩意線索(例如,從綠色中獲得希望),以及生成滿足圖像相關(guān)性和語言水平的詩意的詩歌。

近年來,隨著數(shù)字化技術(shù)的發(fā)展,多媒體技術(shù)突飛猛進(jìn),音視頻技術(shù)是當(dāng)前最活躍、發(fā)展最迅速的高新技術(shù)領(lǐng)域之一。多媒體分析以文本、圖像、聲音、視頻等多種不同類型媒體的數(shù)據(jù)為研究對(duì)象,主要的研究目的一方面是使計(jì)算機(jī)具備人類的多媒體(如視、聽)理解能力,另一方面是從多媒體數(shù)據(jù)中挖掘信息和知識(shí)、幫助人類更好地理解世界。

多媒體技術(shù)研究領(lǐng)域包括多媒體信息處理、多媒體數(shù)據(jù)壓縮編碼、多媒體內(nèi)容分析與檢索技術(shù)、多媒體交互與集成、多媒體通信與網(wǎng)絡(luò)、多媒體內(nèi)容安全、多媒體系統(tǒng)與虛擬現(xiàn)實(shí)等。在近幾年的研究中,多媒體技術(shù)呈現(xiàn)出與計(jì)算機(jī)體系結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、人機(jī)交互、信息安全、社會(huì)網(wǎng)絡(luò)等多學(xué)科交叉融合的發(fā)展趨勢(shì)。

近兩年多媒體領(lǐng)域研究熱點(diǎn)主要集中在大規(guī)模圖像視頻分析、社會(huì)媒體研究、多模態(tài)人機(jī)交互、計(jì)算視覺、計(jì)算圖像、實(shí)時(shí)視頻流化等方面。

由于多媒體數(shù)據(jù)往往是多種信息的傳遞媒介(例如一段視頻中往往會(huì)同時(shí)使得文字信息、視覺信息和聽覺信息得到傳播),多模態(tài)學(xué)習(xí)已逐漸發(fā)展為多媒體內(nèi)容分析與理解的主要手段。

在計(jì)算圖像方面,大規(guī)模數(shù)據(jù)集的構(gòu)建仍是一個(gè)熱點(diǎn)研究方向,尤其語義對(duì)象的像素級(jí)標(biāo)注需求越來越強(qiáng)烈,能夠人機(jī)交互標(biāo)注的過程中不斷學(xué)習(xí)的協(xié)同標(biāo)注方法得到了廣泛關(guān)注。

無監(jiān)督學(xué)習(xí)是多媒體數(shù)據(jù)分析的長(zhǎng)遠(yuǎn)目標(biāo)。目前很多領(lǐng)域擁有大量的數(shù)據(jù),但是這些數(shù)據(jù)都是沒有經(jīng)過標(biāo)記的。因此除了基本的數(shù)據(jù)勘探和異常檢測(cè)場(chǎng)景,這些數(shù)據(jù)基本無法使用。近期在使用未標(biāo)記的數(shù)據(jù)來改進(jìn)(標(biāo)記數(shù)據(jù))監(jiān)督學(xué)習(xí)過程方面已經(jīng)取得了許多進(jìn)展。

此外自動(dòng)機(jī)器學(xué)習(xí)(AutoML)和元學(xué)習(xí)(Meta Learning)的最新研究成果及其在多媒體上的應(yīng)用也逐漸增多。

在圖像壓縮處理方面,也有一些研究工作將深度學(xué)習(xí)用于圖像或視頻壓縮后處理,并得到了一定的效果。然而,現(xiàn)有工作的一個(gè)主要問題是用于后處理的深度網(wǎng)絡(luò)較為復(fù)雜,計(jì)算速度慢,不滿足實(shí)際應(yīng)用的需求。如何在處理效果和處理速度之間取得一個(gè)折中,是壓縮后處理的一個(gè)主要挑戰(zhàn)。

圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)在多媒體領(lǐng)域的應(yīng)用是近兩年的熱點(diǎn)研究方向,應(yīng)用場(chǎng)景包括:個(gè)性化推薦,如基于多模態(tài)圖卷積網(wǎng)絡(luò)(MMGCN)的多模態(tài)推薦方法;短視頻推薦,如使用基于圖的順序網(wǎng)絡(luò)進(jìn)行建模;多視頻摘要,如采用圖卷積網(wǎng)絡(luò)衡量每個(gè)視頻的重要性和相關(guān)性;基于文本的行人搜索,如使用深度對(duì)抗圖注意力卷積網(wǎng)絡(luò)(A-GANet) 利用文本和視覺場(chǎng)景圖學(xué)習(xí)聯(lián)合特征空間;視頻關(guān)系監(jiān)測(cè),如使用轉(zhuǎn)移圖神經(jīng)網(wǎng)絡(luò)(DoT-GNN) 解決圖像外觀變化的問題。

隨著 Mask-RCNN 與 RetinaNet 的發(fā)展,物體檢測(cè)研究日趨成熟,但即便如此,就應(yīng)用而言,當(dāng)前的技術(shù)依然存在諸多缺陷,為此,針對(duì)現(xiàn)代目標(biāo)檢測(cè)的基本框架(backbone、 head、 scale、 batchsize 與 post-processing),神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)以及細(xì)粒度圖像分析(FGIA)等 3 個(gè)方面的潛在難題成為主要研究?jī)?nèi)容,尤其是后兩者,將成為未來視覺物體檢測(cè)的兩個(gè)重要研究維度。

八、 人機(jī)交互技術(shù)

人機(jī)交互(Human-Computer Interaction, HCI), 是人與計(jì)算機(jī)之間為完成某項(xiàng)任務(wù)所進(jìn)行的信息交換過程, 是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學(xué)問。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計(jì)算機(jī)化的系統(tǒng)和軟件。人機(jī)交互界面通常是指用戶的可見部分,用戶通過人機(jī)交互界面與系統(tǒng)交流, 并進(jìn)行操作。人機(jī)交互技術(shù)是計(jì)算機(jī)用戶界面設(shè)計(jì)中的重要內(nèi)容之一, 與認(rèn)知學(xué)、人機(jī)工程學(xué)、心理學(xué)等學(xué)科領(lǐng)域有密切的聯(lián)系。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為人機(jī)交互領(lǐng)域全球?qū)W者分布情況:

▲人機(jī)交互領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸; 歐洲也有較多的人才分布; 亞洲的人才主要集中在日韓地區(qū);其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少; 人機(jī)交互領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

我國(guó)專家學(xué)者在人機(jī)交互領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓等地相比,中國(guó)在人機(jī)交互領(lǐng)域?qū)W者數(shù)量較少。

▲人機(jī)交互領(lǐng)域中國(guó)學(xué)者分布

優(yōu)秀論文:

論文題目: Guidelines for human-AI interaction

中文題目: 人工智能交互指南

論文作者: Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N. Bennett, Kori Inkpen, Jaime Teevan, Ruth Kikin-Gil, and Eric Horvitz

論文出處: ACM CHI Conference on Human Factors in Computing Systems 2019 (CHI 2019)

論文地址: https://doi.org/10.1145/3290605.3300233

研究問題: 人工智能(AI)領(lǐng)域的快速發(fā)展給用戶界面和交互設(shè)計(jì)帶來了新的機(jī)遇和挑戰(zhàn)。雖然人機(jī)交互屆對(duì)人和 AI 交互的原則原理已經(jīng)進(jìn)行了 20 多年的探討,我們?nèi)孕枰嗟难芯亢蛣?chuàng)新來解決人工智能新技術(shù)及其面向人類的應(yīng)用不斷涌現(xiàn)而帶來的新科學(xué)及社會(huì)問題。作者提出了 18 條具有通用性的、可適用于多種應(yīng)用場(chǎng)景的、針對(duì)人和 AI 交互的設(shè)計(jì)指導(dǎo),指出現(xiàn)有知識(shí)的空缺及未來的探索方向。 這份指南不僅為 AI 設(shè)計(jì)師提供了具體、可操作的建議,還旨在推動(dòng)用戶體驗(yàn)和工程開發(fā)從業(yè)者就設(shè)計(jì)決策的相關(guān)問題展開討論,推動(dòng)這一領(lǐng)域研究的研究方法:

文章提出了 18 條人工智能交互設(shè)計(jì)指導(dǎo),并進(jìn)行多輪的實(shí)例評(píng)估來驗(yàn)證其有效性,包括通過一個(gè)用戶實(shí)驗(yàn),邀請(qǐng) 48 位設(shè)計(jì)師以這些設(shè)計(jì)指導(dǎo)為工具來測(cè)試 20 項(xiàng)廣泛使用的有 AI 技術(shù)支持的用戶產(chǎn)品。

最近的十年,是人機(jī)交互向自然交互蓬勃發(fā)展的十年。毋庸置疑,計(jì)算機(jī)是世紀(jì)最偉大的發(fā)明,其作用從科學(xué)計(jì)算工具迅速發(fā)展為信息處理和信息交互工具,起引領(lǐng)作用的則是人機(jī)交互技術(shù)的變革,即以鼠標(biāo)發(fā)明為標(biāo)志的圖形用戶界面(Graphical User Interface, GUI)的產(chǎn)生,一改規(guī)范命令與計(jì)算機(jī)交互的命令行界面模式(Command LineInterface, CLI),GUI 提供了普通人與計(jì)算機(jī)便捷交互的工具和方法,讓計(jì)算機(jī)從實(shí)驗(yàn)室走進(jìn)辦公室、走入家庭,十多年前,觸屏技術(shù)成為產(chǎn)品技術(shù), GUI 中的鼠標(biāo)被人的天然指點(diǎn)(pointing)工具——手指所取代,計(jì)算機(jī)又變身出手機(jī),成為更多人方便使用的隨身掌上工具。

更少依賴操控工具,發(fā)展學(xué)習(xí)和使用成本更小的自然交互技術(shù),一直是人機(jī)交互研究的價(jià)值追求,最
近十年,隨著感知和計(jì)算技術(shù)的進(jìn)步,自然交互技術(shù)創(chuàng)新層出不窮,并能迅速成為新型產(chǎn)品技術(shù), 《麻省理工科技評(píng)論》總結(jié)和評(píng)論人機(jī)交互領(lǐng)域的突破技術(shù)(breakthroughs),為人機(jī)交互技術(shù)、未來終端技術(shù)的發(fā)展建立了一個(gè)高端的技術(shù)論壇,影響深遠(yuǎn)。我把這些突破技術(shù)分為 3 大類:支持自然動(dòng)作的感知技術(shù),面向穿戴的新型終端和基于語音識(shí)別的對(duì)話交互。

人體動(dòng)作蘊(yùn)含豐富的語義,動(dòng)作交互技術(shù)一方面需要感知技術(shù)的進(jìn)步,另一方面需要發(fā)現(xiàn)或設(shè)計(jì)有明確交互語義的動(dòng)作(gesture,姿態(tài),由于人手的靈巧性,手勢(shì)成為主要的交互動(dòng)作,通常叫做手勢(shì)),如今,二維表面上,多指觸摸動(dòng)作在觸屏上已普遍可用,三維空間中,嵌入了深度攝像頭的手持和固定設(shè)備,能比較準(zhǔn)確識(shí)別人的姿態(tài)和動(dòng)作,做出響應(yīng)。不同于人臉識(shí)別等目標(biāo)明確的視覺識(shí)別任務(wù),動(dòng)作交互不僅要求視覺識(shí)別的準(zhǔn)確度,更需要研究基于交互任務(wù)的動(dòng)作表達(dá)的自然性與一致性,難以發(fā)現(xiàn)和突破,所以,除了動(dòng)作語義很直白的動(dòng)作游戲(body game),三維動(dòng)作交互尚缺少普遍認(rèn)知和接受的交互動(dòng)作語義。而無論二維還是三維,手勢(shì)的不可見性,是動(dòng)作交互的主要難題。

穿戴(wearable)取代手持(handheld)曾是前幾年的一個(gè)革命口號(hào),目前看,市場(chǎng)上的確出現(xiàn)了一定規(guī)模的新產(chǎn)品,但穿戴仍是補(bǔ)充的地位。穿戴設(shè)備中,手環(huán)設(shè)備基本只有健康和活動(dòng)檢測(cè)功能,智能手表可以算做創(chuàng)新終端,但作為縮小版的手機(jī),由于交互界面的縮小和操作方式的限制(通常是小界面上雙手參與操作),其承載功能也較手機(jī)縮減很多。 VR/ AR(虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí))的一個(gè)理想載體是頭戴式設(shè)備,最近幾年,多款智能眼鏡產(chǎn)品面世,較之前笨重的頭盔輕便了許多,逼真的虛擬場(chǎng)景和準(zhǔn)確的現(xiàn)實(shí)對(duì)象識(shí)別信息都可以清晰呈現(xiàn)在眼前,并在特定領(lǐng)域開拓著增強(qiáng)體驗(yàn)的應(yīng)用;然而,智能眼鏡尚缺少與其三維真實(shí)顯示匹配的準(zhǔn)確的自然輸入技術(shù),以及從眼手綁定在手機(jī)上轉(zhuǎn)變到眼手分離的眼鏡設(shè)備上時(shí),尚未建立起相應(yīng)的交互模式。

自然語言對(duì)話式交互得益于大數(shù)據(jù)和智能技術(shù)的進(jìn)步,多語言的自然語音識(shí)別技術(shù)在用戶終端上都達(dá)到了很高的可用水平,并且,語音識(shí)別超越文本輸入方式,成為智能軟件助理的使能技術(shù),近兩年,更是有基于語音接口的家居產(chǎn)品如雨后春筍般出現(xiàn), VUI (Voice User Interface,語音用戶界面)已經(jīng)成為交互術(shù)語。然而, VUI 的局限也是顯而易見的,相對(duì)并行模式的視覺通道,串行模式的語音通道的帶寬顯然窄的多,出聲的使用方式在很多場(chǎng)合是不合適的,但作為一種可用的自然交互技術(shù),有效提升了用戶體驗(yàn)。

人機(jī)交互作為終端產(chǎn)品的引領(lǐng)技術(shù)的作用已經(jīng)是產(chǎn)業(yè)界的普遍認(rèn)識(shí),欣喜看到很多種自然交互技術(shù)和新型交互終端面世,但 GUI 仍是交互的主導(dǎo)模式。計(jì)算無所不在,交互自然高效是發(fā)展趨勢(shì),人機(jī)交互的研究和開發(fā)空間很大,需要綜合地探索自然交互技術(shù)的科學(xué)原理,建立明確的優(yōu)化目標(biāo),結(jié)合智能技術(shù),發(fā)展高可用的自然交互技術(shù)。

九、 機(jī)器人

機(jī)器人廣義上包括一切模擬人類行為或思想以及模擬其他生物的機(jī)械(如機(jī)器狗,機(jī)器貓等)。狹義上對(duì)機(jī)器人的定義還有很多分類法及爭(zhēng)議,有些電腦程序甚至也被稱為機(jī)器人(例如爬蟲機(jī)器人)。聯(lián)合國(guó)標(biāo)準(zhǔn)化組織采納了美國(guó)機(jī)器人協(xié)會(huì)給機(jī)器人下的定義: “一種可編程和多功能的操作機(jī);或是為了執(zhí)行不同的任務(wù)而具有可用電腦改變和可編程動(dòng)作的專門系統(tǒng)。一般由執(zhí)行機(jī)構(gòu)、驅(qū)動(dòng)裝置、檢測(cè)裝置和控制系統(tǒng)和復(fù)雜機(jī)械等組成” 。 機(jī)器人是綜合了機(jī)械、電子、計(jì)算機(jī)、傳感器、控制技術(shù)、人工智能、仿生學(xué)等多種學(xué)科的復(fù)雜智能機(jī)械。

目前,智能機(jī)器人已成為世界各國(guó)的研究熱點(diǎn)之一,成為衡量一國(guó)工業(yè)化水平的重要標(biāo)志。機(jī)器人是自動(dòng)執(zhí)行工作的機(jī)器裝置,因此,它既可以接受人類指揮,又可以運(yùn)行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動(dòng)。在當(dāng)代工業(yè)中,機(jī)器人指能自動(dòng)執(zhí)行任務(wù)的人造機(jī)器裝置,用以取代或協(xié)助人類工作,一般會(huì)是機(jī)電裝置,由計(jì)算機(jī)程序或電子電路控制。機(jī)器人的范圍很廣,可以是自主或是半自主的,從本田技研工業(yè)的 ASIMO 或是 TOSY 的 TOPIO等擬人機(jī)器人到工業(yè)機(jī)器人,也包括多臺(tái)一起動(dòng)作的群機(jī)器人,甚至是納米機(jī)器人。借由模仿逼真的外觀及自動(dòng)化的動(dòng)作,理想中的高仿真機(jī)器人是高級(jí)整合控制論、機(jī)械電子、計(jì)算機(jī)與人工智能、材料學(xué)和仿生學(xué)的產(chǎn)物。機(jī)器人可以作一些重復(fù)性高或是危險(xiǎn),人類不愿意從事的工作,也可以做一些因?yàn)槌叽缦拗疲祟悷o法作的工作,甚至是像外太空或是深海中,不適人類生存的環(huán)境。機(jī)器人在越來越多方面可以取代人類,或是在外貌、行為或認(rèn)知,甚至情感上取代人類。

機(jī)器人技術(shù)最早應(yīng)用于工業(yè)領(lǐng)域,但隨著機(jī)器人技術(shù)的發(fā)展和各行業(yè)需求的提升,在計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、 MEMS 技術(shù)等新技術(shù)發(fā)展的推動(dòng)下,近年來,機(jī)器人技術(shù)正從傳統(tǒng)的工業(yè)制造領(lǐng)域向醫(yī)療服務(wù)、教育娛樂、勘探勘測(cè)、生物工程、救災(zāi)救援等領(lǐng)域迅速擴(kuò)展,適應(yīng)不同領(lǐng)域需求的機(jī)器人系統(tǒng)被深入研究和開發(fā)。過去幾十年,機(jī)器人技術(shù)的研究與應(yīng)用,大大推動(dòng)了人類的工業(yè)化和現(xiàn)代化進(jìn)程,并逐步形成了機(jī)器人的產(chǎn)業(yè)鏈,使機(jī)器人的應(yīng)用范圍也日趨廣泛。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為機(jī)器人領(lǐng)域全球?qū)W者分布情況:

▲機(jī)器人領(lǐng)域全球?qū)W者分布

我國(guó)專家學(xué)者在機(jī)器人領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是珠三角和長(zhǎng)三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓等地相比,中國(guó)在機(jī)器人領(lǐng)域?qū)W者數(shù)量較少。

▲機(jī)器人領(lǐng)域中國(guó)學(xué)者分布

優(yōu)秀論文:

論文題目: Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching

中文題目:通過多 affordance 抓取和跨域圖像匹配完成雜亂環(huán)境下對(duì)新物體的撿放操作

論文作者: Andy Zeng, Shuran Song, Kuan-Ting Yu, Elliott Donlon, Francois R. Hogan, Maria Bauza, Daolin Ma, Orion Taylor, Melody Liu, Eudald Romo, Nima Fazeli, Ferran Alet, Nikhil Chavan Dafle, Rachel Holladay, Isabella Morona, Prem Qu Nair, Druck Green, Ian Taylor, Weber Liu, Thomas Funkhouser, Alberto Rodriguez

論文出處: IEEE International Conference on Robotics and Automation, 2018

論文地址: https://ieeexplore.ieee.org/abstract/document/8461044

研究問題: 人類可以在僅掌握少量先驗(yàn)知識(shí)的前提下識(shí)別和抓取陌生目標(biāo)物,這一能力一直是機(jī)器人研究的靈感來源,也是很多實(shí)際應(yīng)用的核心。為此,提出一種能在雜亂環(huán)境下對(duì)新目標(biāo)物進(jìn)行識(shí)別和撿放操作的機(jī)器人系統(tǒng),整個(gè)系統(tǒng)可直接用于新目標(biāo)物(在測(cè)試過程中首次出現(xiàn)),而無需額外的數(shù)據(jù)收集或重新訓(xùn)練。

機(jī)器人學(xué)習(xí) 。 在 AI 興起的時(shí)代,機(jī)器人擁有了一種新型的學(xué)習(xí)方式:深度強(qiáng)化學(xué)習(xí)。這一新方式借助通用化的神經(jīng)網(wǎng)絡(luò)表示,處理復(fù)雜的傳感器輸入,來讓機(jī)器人從自己的經(jīng)驗(yàn)活動(dòng)中直接學(xué)習(xí)行為。相比傳統(tǒng)方式,它解放了工程設(shè)計(jì)人員們的雙手,不再需要程序員們手動(dòng)設(shè)計(jì)機(jī)器人每一個(gè)動(dòng)作的每一項(xiàng)精確參數(shù)。但是,現(xiàn)有的強(qiáng)化學(xué)習(xí)算法都還不能夠適用于有復(fù)雜系統(tǒng)的機(jī)器人,不足以支撐機(jī)器人在短時(shí)間內(nèi)就學(xué)習(xí)到行為,另外在安全性上也難以保障。

針對(duì)這種困境, 2019 年初,谷歌 AI 與 UC 伯克利大學(xué)合作研發(fā)了一種新的強(qiáng)化學(xué)習(xí)算法: SAC(Soft ActorCritic)。 SAC 非常適應(yīng)真實(shí)世界中的機(jī)器人技能學(xué)習(xí),可以在幾個(gè)小時(shí)內(nèi)學(xué)會(huì)解決真實(shí)世界的機(jī)器人問題,而且它的一套超參數(shù)能夠在多種不同的環(huán)境中工作,效率十分之高。 SAC 的開發(fā)基于最大熵強(qiáng)化學(xué)習(xí)這個(gè)框架。此框架嘗試讓預(yù)期回報(bào)最大化,同時(shí)讓策略的熵最大化。一般而言,熵更高的策略具有更高的隨機(jī)性。從直覺上看,這意味著,最大熵強(qiáng)化學(xué)習(xí)能取得高回報(bào)策略中具有最高隨機(jī)性的那個(gè)策略。 SAC 學(xué)習(xí)一個(gè)隨機(jī)策略,這個(gè)策略會(huì)把狀態(tài)映射到動(dòng)作,也映射到一個(gè)能夠估計(jì)當(dāng)前策略目標(biāo)價(jià)值的 Q 函數(shù),這個(gè) Q 函數(shù)還能通過逼近動(dòng)態(tài)編程來優(yōu)化它們。 SAC 通過這樣的方式,來讓經(jīng)過熵強(qiáng)化的回報(bào)最大化。此過程中,目標(biāo)會(huì)被看作一個(gè)絕對(duì)真的方法,來導(dǎo)出更好的強(qiáng)化學(xué)習(xí)算法,它們有足夠高的樣本效率,且表現(xiàn)穩(wěn)定,完全可以應(yīng)用到真實(shí)世界的機(jī)器人學(xué)習(xí)中去。

機(jī)器人應(yīng)用 。 2019 年 6 月,亞馬遜在 MARS 人工智能大會(huì)上最新發(fā)布的倉庫機(jī)器人Pegasus,該機(jī)器人已正式加入亞馬遜 Kiva 機(jī)器人行列。 Pegasus 是一種新型包裹分揀機(jī)器人,外觀上看, Pegasus 機(jī)器人十分類似亞馬遜既有的 Kiva 機(jī)器人, 外觀還是橙色不變, 2 英尺高, 3 英尺寬,約相當(dāng)于一個(gè)手提包的大小。 Pegasus 機(jī)器人更像是對(duì)原有 Kiva 機(jī)器人的改良版,在原有機(jī)器人底座上增加了一個(gè)載貨平臺(tái)+皮帶傳送帶對(duì)各個(gè)包裹進(jìn)行分類和移動(dòng),有助于最大限度地減少包裹損壞并縮短交貨時(shí)間。 Pegasus 機(jī)器人可以自主將右側(cè)盒子放在正確的位置。倉庫作業(yè)人員將包裹掃描完放到 Pegasus 機(jī)器人上, Pegasus 機(jī)器人載著包裹到指定地點(diǎn)。

機(jī)器人配備的攝像機(jī)可以感知任何意外障礙。到了指定地點(diǎn),機(jī)器人載貨平臺(tái)上的傳送帶將包裝從機(jī)器人上移開,然后包裹沿著滑槽向下移動(dòng),準(zhǔn)備送出。機(jī)器人在大約 2 分鐘內(nèi)完成整個(gè)包裹運(yùn)送過程。據(jù)亞馬遜介紹, Pegasus 機(jī)器人具有與 Kiva 機(jī)器人驅(qū)動(dòng)器相同的容量。 Pegasus 機(jī)器人目前已經(jīng)在在丹佛分揀中心上線的六個(gè)多月,行駛約 200 萬英里,經(jīng)測(cè)試,它能將當(dāng)前系統(tǒng)的包裹分揀錯(cuò)誤率大幅降低 50%。本次 MARS 人工智能大會(huì)上,除了推出 Pegasus 機(jī)器人,亞馬遜還發(fā)布了一種大型模組化運(yùn)輸機(jī)器人 Xanthus。依據(jù)上方安裝的模組,執(zhí)行多種不同的任務(wù) Xanthus 擁有透過改變上方配備,勝任不同任務(wù)的能力。相較過 去使用的系統(tǒng), Xanthus 不僅用途更為廣泛,體積也只有前輩的 1/3,成本甚至直接砍半。

機(jī)器人平臺(tái) 。 如何將機(jī)器人技術(shù)落地、實(shí)踐商業(yè)化一直是備受關(guān)注的問題。波士頓動(dòng)力的策略是要希望其成為平臺(tái)公司,通過授權(quán)或開源方式, 使其技術(shù)能被廣為被使用。2018 年這個(gè)傳言似乎得到了證實(shí),在《連線》雜志舉辦的峰會(huì)上,波士頓動(dòng)力創(chuàng)始人暨首席執(zhí)行官 Marc Raibert 指出,他們的定位是成為平臺(tái)公司,讓生態(tài)圈包括第三方伙伴、客戶,一起來找到技術(shù)真正適合使用的地方。 Marc Raibert 表示波士頓動(dòng)力在開發(fā)機(jī)器人時(shí)是以“平臺(tái)”的概念來出發(fā),客戶可以增加硬件,例如手臂及其他組件,“當(dāng)然,我們也可以針對(duì)單一領(lǐng)域打造一個(gè)有特殊應(yīng)用的機(jī)器人方案,但我們不知道哪一個(gè)領(lǐng)域合適,所以我們從平臺(tái)的角度出發(fā),希望生態(tài)圈幫我們一起來找到技術(shù)真正可落地之處”、“我們要打造的是‘通用用途的平臺(tái)’(general purpose platform),讓第三方伙伴、客戶、波士頓動(dòng)力自己的應(yīng)用開發(fā)團(tuán)隊(duì),可以一同來設(shè)計(jì)產(chǎn)品以符合定制化需求。

十、 數(shù)據(jù)庫技術(shù)

數(shù)據(jù)庫是按一定的結(jié)構(gòu)和規(guī)則組織起來的相關(guān)數(shù)據(jù)的集合, 是綜合各用戶數(shù)據(jù)形成的數(shù)據(jù)集合,是存放數(shù)據(jù)的倉庫(我國(guó)數(shù)據(jù)庫的發(fā)展現(xiàn)狀與趨勢(shì)—陳黎)。隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)通信技術(shù)的快速發(fā)展,數(shù)據(jù)庫技術(shù)已經(jīng)成為當(dāng)今信息社會(huì)中對(duì)大量數(shù)據(jù)進(jìn)行組織與管理的重要技術(shù)手段,是網(wǎng)絡(luò)信息化管理系統(tǒng)的基礎(chǔ)。目前,新一代數(shù)據(jù)庫系統(tǒng)不僅保持和繼承了傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的各項(xiàng)功能,支持知識(shí)管理、數(shù)據(jù)管理和對(duì)象管理,而且還對(duì)其它應(yīng)用系統(tǒng)開放,在網(wǎng)絡(luò)上支持標(biāo)準(zhǔn)網(wǎng)絡(luò)協(xié)議,具有良好的可連接性、可移植性、可互操作性和可擴(kuò)展性。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為數(shù)據(jù)庫領(lǐng)域全球?qū)W者分布情況:

▲數(shù)據(jù)庫領(lǐng)域全球?qū)W者分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布在其東西海岸;歐洲也有較多的人才分布;亞洲的人才主要集中在我國(guó)東部;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;數(shù)據(jù)庫領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

我國(guó)專家學(xué)者在數(shù)據(jù)庫領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是珠三角和長(zhǎng)三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等地相比,中國(guó)在數(shù)據(jù)庫領(lǐng)域?qū)W者數(shù)量較多但差距不大。

▲數(shù)據(jù)庫領(lǐng)域中國(guó)學(xué)者分布

優(yōu)秀論文:

論文題目: Self-Driving Database Management Systems

中文題目: 自動(dòng)駕駛的數(shù)據(jù)庫管理系統(tǒng)

論文作者: Andrew Pavlo, Gustavo Angulo, Joy Arulraj and, Haibin Lin, Jiexi Lin, Lin Ma, et al.

論文出處: 7th Biennial Conference on Innovative Data Systems Research (CIDR) – CIDR 2017

論文地址: https://www.pdl.cmu.edu/PDL-FTP/Database/p42-pavlo-cidr17.pdf

研究問題: 在過去的二十年中,研究人員和數(shù)據(jù)庫系統(tǒng)供應(yīng)商都嘗試開發(fā)了各式輔助工具以在數(shù)據(jù)庫系統(tǒng)的調(diào)優(yōu)和物理設(shè)計(jì)等各個(gè)方面協(xié)助數(shù)據(jù)庫管理員( Database Administrator, DBA)。但是,大多數(shù)的工作還是不足夠完善的,因?yàn)樗鼈內(nèi)匀恍枰?DBA 對(duì)數(shù)據(jù)庫的任何更改做出最終決定,并且是在問題發(fā)生后解決問題的反應(yīng)性措施。尤其是隨著云數(shù)據(jù)庫的發(fā)展,不需要人工干預(yù)的 DBMS 就成為了一個(gè)迫切的需求,于是能“自動(dòng)駕駛”的數(shù)據(jù)庫管理系統(tǒng)(Database Management System, DBMS)便成為了必然的選擇。真正地能“自動(dòng)駕駛”的數(shù)據(jù)庫管理系統(tǒng)所需要的是一種為自治操作而設(shè)計(jì)的新體系結(jié)構(gòu)。與早期的各種 DBMS 不同的是,該類系統(tǒng)的所有方面都由集成的計(jì)劃組件控制,該組件不僅可以針對(duì)當(dāng)前工作負(fù)載(Workload)優(yōu)化系統(tǒng),而且還能預(yù)測(cè)未來的工作負(fù)載的變化趨勢(shì),以便系統(tǒng)可以相應(yīng)地進(jìn)行準(zhǔn)備。這樣, DBMS 可以支持所有以前的調(diào)優(yōu)技術(shù),而無需人工確定正確的方式和適當(dāng)?shù)臅r(shí)間來部署它們。

步入大數(shù)據(jù)時(shí)代,面對(duì) PB 乃至 EB 級(jí)海量數(shù)據(jù)、復(fù)雜多變的應(yīng)用場(chǎng)景、異構(gòu)的硬件架構(gòu)和層次不齊的用戶使用水平,傳統(tǒng)的數(shù)據(jù)管理技術(shù)難以滿足新時(shí)代的需求。例如,一個(gè)云數(shù)據(jù)庫系統(tǒng)通常具有百萬級(jí)別的數(shù)據(jù)庫實(shí)例,每一個(gè)數(shù)據(jù)庫實(shí)例通常都有各自的應(yīng)用場(chǎng)景、不同用戶的使用水平往往也有著比較大的差別,數(shù)據(jù)庫中傳統(tǒng)的啟發(fā)式算法在這些場(chǎng)景中難以取得較好的效果,而有經(jīng)驗(yàn)的數(shù)據(jù)庫管理員也難以直接干預(yù)和優(yōu)化數(shù)量如此之多的數(shù)據(jù)庫實(shí)例。

近年來,以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)因其強(qiáng)大的學(xué)習(xí)和適應(yīng)能力,在多個(gè)領(lǐng)域都大放異彩。同樣的,在數(shù)據(jù)管理領(lǐng)域,傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)也有著巨大的潛力和廣闊的應(yīng)用前景。例如,數(shù)據(jù)庫系統(tǒng)所積累的海量歷史查詢記錄可以為基于學(xué)習(xí)的數(shù)據(jù)庫智能優(yōu)化技術(shù)提供數(shù)據(jù)支撐。一方面,我們可以構(gòu)建包含查詢、視圖或數(shù)據(jù)庫狀態(tài)的有標(biāo)簽數(shù)據(jù),比如,在視圖選擇問題中,這個(gè)標(biāo)簽是指每個(gè)候選視圖是否被選中。

另一方面,在缺乏標(biāo)簽數(shù)據(jù)的時(shí)候,我們可以利用(深度)強(qiáng)化學(xué)習(xí)技術(shù)探索性地(從選擇結(jié)果的反饋中學(xué)習(xí))選擇最優(yōu)的候選視圖。此外,人工智能技術(shù)讓自治數(shù)據(jù)庫的自動(dòng)決策管理、自動(dòng)調(diào)優(yōu)和自動(dòng)組裝等需求成為可能。在以深度學(xué)習(xí)為代表的人工智能技術(shù)的加持下,讓數(shù)據(jù)庫朝著更加智能的方向發(fā)展,數(shù)據(jù)管理技術(shù)也隨之智能化。近些年涌現(xiàn)的自治數(shù)據(jù)庫和人工智能原生數(shù)據(jù)庫(如 SageDB, XuanyuanDB),通過融合人工智能技術(shù)到數(shù)據(jù)庫系統(tǒng)的各個(gè)模塊(優(yōu)化器、執(zhí)行器和存儲(chǔ)引擎等)和數(shù)據(jù)管理的生命周期,可以大幅度提升數(shù)據(jù)庫各方面的性能,為下一代數(shù)據(jù)庫和人工智能技術(shù)的發(fā)展指明了一個(gè)方向。

在另外一方面,數(shù)據(jù)管理技術(shù)也能以基礎(chǔ)設(shè)施的身份來支持人工智能的發(fā)展。目前的人工智能在落地過程中還面臨著一些挑戰(zhàn)性。例如,人工智能算法訓(xùn)練效率較低,現(xiàn)有人工智能系統(tǒng)缺少執(zhí)行優(yōu)化技術(shù)(如大規(guī)模緩存、數(shù)據(jù)分塊分區(qū)、索引等),不僅會(huì)導(dǎo)致大量的計(jì)算、存儲(chǔ)資源浪費(fèi),而且會(huì)提高程序異常的發(fā)生率(如內(nèi)存溢出、進(jìn)程阻塞等),嚴(yán)重影響單個(gè)任務(wù)的執(zhí)行效率。其次,人工智能技術(shù)往往依賴高質(zhì)量的訓(xùn)練數(shù)據(jù),現(xiàn)實(shí)中的訓(xùn)練數(shù)據(jù)往往是包含很多缺失值、異常值和別名等類型的錯(cuò)誤,這些錯(cuò)誤通常會(huì)影響訓(xùn)練效率,對(duì)模型的質(zhì)量造成干擾。面向人工智能的數(shù)據(jù)管理技術(shù)可以為解決上述挑戰(zhàn)做出貢獻(xiàn)。

十一、 可視化技術(shù)

可視化技術(shù)是把各種不同類型的數(shù)據(jù)轉(zhuǎn)化為可視的表示形式,并獲得對(duì)數(shù)據(jù)更深層次認(rèn)識(shí)的過程。可視化將復(fù)雜的信息以圖像的形式呈現(xiàn)出來,讓這些信息更容易、快速地被人理解,因此,它也是一種放大人類感知的圖形化表示方法。

可視化技術(shù)充分利用計(jì)算機(jī)圖形學(xué)、圖像處理、用戶界面、人機(jī)交互等技術(shù),以人們慣于接受的表格、圖形、圖像等形式,并輔以信息處理技術(shù)(例如: 數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等)將復(fù)雜的客觀事物進(jìn)行圖形化展現(xiàn),使其便于人們的記憶和理解。可視化為人類與計(jì)算機(jī)這兩個(gè)信息處理系統(tǒng)之間提供了一個(gè)接口,對(duì)于信息的處理和表達(dá)方式有其獨(dú)有的優(yōu)勢(shì),其特點(diǎn)可總結(jié)為可視性、交互性和多維性。

目前,數(shù)據(jù)可視化針對(duì)不同的數(shù)據(jù)類型及研究方向,可以進(jìn)一步劃分為科學(xué)數(shù)據(jù)可視化、信息可視化,以及可視分析學(xué)三個(gè)子領(lǐng)域。這三個(gè)領(lǐng)域既緊密相關(guān)又分別專注于不同類型的數(shù)據(jù)及可視化問題。具體而言,科學(xué)可視化是針對(duì)科學(xué)數(shù)據(jù)的可視化展現(xiàn)技術(shù)。科學(xué)數(shù)據(jù),例如,醫(yī)療過程中由 CT 掃描生成的影像數(shù)據(jù)、風(fēng)洞實(shí)驗(yàn)而產(chǎn)生的流體數(shù)據(jù)、以及分子的化學(xué)結(jié)構(gòu)等,是對(duì)物理世界的客觀描述,往往是通過科學(xué)儀器而測(cè)量得到的數(shù)據(jù)。

這類數(shù)據(jù)的可視化主要關(guān)注于如何以清晰直觀的方式展現(xiàn)數(shù)據(jù)所刻畫的真實(shí)物理狀態(tài)。因此,科學(xué)可視化往往呈現(xiàn)的是三維場(chǎng)景下的時(shí)空信息。信息可視化注重于如何以圖形的方式直觀展現(xiàn)抽象數(shù)據(jù),它涉及到了對(duì)人類圖形認(rèn)知系統(tǒng)的研究。在這里,抽象數(shù)據(jù)(例如: 圖形數(shù)據(jù)、多維度數(shù)據(jù)、文本數(shù)據(jù)等)往往是對(duì)各應(yīng)用領(lǐng)域所產(chǎn)生數(shù)據(jù)的高層次概括,記錄的是抽象化的信息。針對(duì)這樣的數(shù)據(jù),信息可視化著眼于多維度信息的可視編碼技術(shù),即如何以低維度(2D) 的圖形符號(hào)來直觀展現(xiàn)并揭示抽象數(shù)據(jù)中所隱藏的潛在規(guī)律與模式;可視分析學(xué)是多領(lǐng)域技術(shù)結(jié)合的產(chǎn)物,旨在結(jié)合并利用信息可視化、人機(jī)交互、以及數(shù)據(jù)挖掘領(lǐng)域的相關(guān)技術(shù),將人的判斷與反饋?zhàn)鳛閿?shù)據(jù)分析中重要的一環(huán),從而達(dá)到精準(zhǔn)數(shù)據(jù)分析、推理及判斷的目的。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為可視化領(lǐng)域全球?qū)W者分布情況:

▲ 可視化領(lǐng)域全球?qū)W者分布

我國(guó)專家學(xué)者在可視化領(lǐng)域的分布如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏, 這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。 同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓等地相比,中國(guó)在可視化領(lǐng)域?qū)W者數(shù)量較多但差距較小 。

▲可視化領(lǐng)域中國(guó)學(xué)者分布

優(yōu)秀論文:

論文題目: Visual Exploration of Big Spatio-Temporal Urban Data: A Study of NewYork City Taxi Trips

中文題目:城市大時(shí)空數(shù)據(jù)的可視化研究:紐約市出租車出行研究

論文作者: Nivan Ferreira, Jorge Poco, Huy T. Vo, Juliana Freire, Cláudio T. Silva

論文出處: IEEE Transactions on Visualization and Computer Graphics, 2013

論文地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6634127&tag=1

研究問題: 出租車數(shù)據(jù)是城市中極具價(jià)值的信息,收集并利用好出租車的數(shù)據(jù)可以有效的幫助決策者和社會(huì)學(xué)家理解城市的狀況并做出正確的決策。但高效的探索出租車數(shù)據(jù)其實(shí)是一個(gè)充滿挑戰(zhàn)的事情。出租車數(shù)據(jù)十分復(fù)雜且龐大,包含了時(shí)間和空間上的信息,很難快速查詢并進(jìn)行比較。在采訪城市規(guī)劃和交通專家后,該文作者了解到,他們目前沒有合適的工具來完成分析。一些簡(jiǎn)單的工具和語言只能分析一些小規(guī)模的數(shù)據(jù),能分析的數(shù)據(jù)比較片面;而復(fù)雜一些的工具,雖然可以對(duì)大數(shù)據(jù)進(jìn)行分析,則需要掌握高級(jí)的數(shù)據(jù)查詢語言,對(duì)分析人員而言很困難。所以該文提出了一種支持在起點(diǎn)–終點(diǎn)(OD)數(shù)據(jù)上進(jìn)行復(fù)雜時(shí)空可視化查詢的模型。

可視化語法及工具 。 隨著大數(shù)據(jù)時(shí)代的到來,可視化已經(jīng)成為一個(gè)必不可少的工具。現(xiàn)有的可視化軟件及工具,可用于設(shè)計(jì)可視化應(yīng)用程序和構(gòu)建可視化分析系統(tǒng),有助于可視化的廣泛使用。為了減少制作可視化的技術(shù)負(fù)擔(dān),一些可視化工具提供了聲明性語法,其中包括了 Vega-Lite 和 P5。聲明性語法可以將可視化設(shè)計(jì)與執(zhí)行細(xì)節(jié)分離,這使分析人員可以專注于特定于應(yīng)用程序的設(shè)計(jì)決策。同時(shí) Vega-Lite 和 P5都提供了易于使用的編程接口。

Vega-Lite 是一套能夠快速構(gòu)建交互式可視化的高階語法,它是基于 Vega 和 D3 等底層可視化語法的上層封裝。相比于其它比較底層可視化語法, Vega-Lite 可以通過幾行 JSON 配置代碼即可完成一些通用的圖表創(chuàng)建,而相反地,想要用 D3 等去構(gòu)建一個(gè)基礎(chǔ)的統(tǒng)計(jì)圖表則可能需要編寫多行代碼,如果涉及到交互的話代碼量更是會(huì)大大增加。 P5 是一個(gè)基于 Web的可視化工具包,它能集成了 GPU 計(jì)算與漸進(jìn)式處理,并且提供了帶有聲明性語法的 API,可用于指定漸進(jìn)式數(shù)據(jù)轉(zhuǎn)換和可視化操作,從而幫助分析人員構(gòu)建融合了高性能計(jì)算和漸進(jìn)式分析工作流的可視化系統(tǒng)。

可視化與故事敘述 。 故事敘述是可視化研究的一個(gè)重要且新興的方向。 與傳統(tǒng)的、 強(qiáng)調(diào)數(shù)據(jù)分析的可視化思路不同,故事敘述強(qiáng)調(diào)數(shù)據(jù)的傳達(dá)與溝通, 強(qiáng)調(diào)數(shù)據(jù)與人(且通常是普通人)的連結(jié)。在此思路下, 研究者們致力于探究: 何種數(shù)據(jù)呈現(xiàn)與講述技巧,可以使數(shù)據(jù)具備吸引力、 記憶度;數(shù)據(jù)故事的創(chuàng)作流程是怎樣的,存在哪些需求和痛點(diǎn);以及如何自動(dòng)生成數(shù)據(jù)故事等等。 用講故事的方式來呈現(xiàn)可視化,本質(zhì)上是體現(xiàn)了一種人本導(dǎo)向,即以人的需求出發(fā),提取和分析數(shù)據(jù),并以對(duì)人友好的方式,將數(shù)據(jù)中的信息傳達(dá)出去。隨著我們的社會(huì)越來越依賴數(shù)據(jù)賦能,更好地構(gòu)建數(shù)據(jù)與人的關(guān)系,將成為一條必經(jīng)之路。敘述可視化的應(yīng)用,不僅在于那些以“敘述”為主業(yè)的領(lǐng)域,如新聞媒體、廣告宣傳,更在于需要用數(shù)據(jù)來影響人、說服人、打動(dòng)人的各行各業(yè)。對(duì)于研究者來說,相關(guān)的研究方向則包括可視化設(shè)計(jì)、人機(jī)交互、認(rèn)知與感知、智能生成與推薦等等。

可視化的自動(dòng)生成 。 數(shù)據(jù)可視化領(lǐng)域中大多數(shù)的可視化生成系統(tǒng)往往是基于數(shù)據(jù)的交互式探索,也包括商業(yè)領(lǐng)域的知名的可視化工具 Tableau 和 PowerBI。而近些年來,為了避免繁雜的數(shù)據(jù)分析步驟并提升用戶效率,可視化的自動(dòng)生成逐漸成為行業(yè)領(lǐng)域中的研究熱點(diǎn)。一系列基于規(guī)則和機(jī)器學(xué)習(xí)的推薦方法層出不窮,在自動(dòng)生成可視化的最新研究中,研究者希望在保證準(zhǔn)確表現(xiàn)數(shù)據(jù)的同時(shí),也能將視覺設(shè)計(jì)的因素考慮在內(nèi),確保可視化的美觀性和數(shù)據(jù)的表現(xiàn)力。

例如, DataShot 和 Text-toViz,分別從數(shù)據(jù)和自然語言兩個(gè)角度去自動(dòng)生成富有設(shè)計(jì)感的數(shù)據(jù)可視化,前者直接從表格數(shù)據(jù)生成信息簡(jiǎn)報(bào),后者根據(jù)用戶的自然語言輸入生成對(duì)應(yīng)的信息圖。制作一個(gè)有效且美觀的數(shù)據(jù)可視化往往需要跨專業(yè)領(lǐng)域的技能,尤其是需要同時(shí)具備數(shù)據(jù)分析能力和平面設(shè)計(jì)能力,而這對(duì)于一個(gè)沒有專業(yè)訓(xùn)練的普通用戶來說是比較困難的。 DataShot 和 Text-to-Viz 等前沿的技術(shù)研究均通過自動(dòng)化的方法從數(shù)據(jù)洞察和設(shè)計(jì)美學(xué)兩個(gè)方面幫助用戶生成可視化,降低用戶制作可視化的門檻,并有效提高生產(chǎn)效率。

可解釋性深度學(xué)習(xí) 。 LSTMVis 是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)的可視化分析工具,它著重于對(duì) RNNs 中的隱藏特征進(jìn)行可視化分析。 LSTMVis 結(jié)合了一個(gè)基于時(shí)間序列的選擇界面和一個(gè)交互式的匹配工具來搜索大型數(shù)據(jù)集中相似的隱藏狀態(tài)模式。系統(tǒng)的主要功能是理解模型中動(dòng)態(tài)變化的隱藏狀態(tài)。該系統(tǒng)允許用戶選擇一個(gè)假設(shè)的輸入范圍來關(guān)注局部的改變,將這些狀態(tài)改變與大型數(shù)據(jù)集中類似的模式進(jìn)行匹配,并將這些選擇出來的模式進(jìn)行對(duì)齊分析。

RNNs 在序列建模方面有著重要的作用,但是模型中的隱藏層含義很難被解釋清楚。對(duì)于一個(gè)完成訓(xùn)練的 RNN 模型,分析人員并不清楚這個(gè)模型是如何理解序列中不同節(jié)點(diǎn)之間的關(guān)系的。 LSTMVis 能夠幫助用戶交互式地探索 RNN 模型復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),并將模型中抽象表示的隱藏層信息與人類可理解的原始輸入進(jìn)行關(guān)聯(lián)。

隨著 21 世紀(jì)大數(shù)據(jù)的興起和發(fā)展,大數(shù)據(jù)可視化廣泛應(yīng)用于各個(gè)領(lǐng)域,本節(jié)重點(diǎn)介紹其中的社交媒體可視化、醫(yī)療信息可視化和體育數(shù)據(jù)可視化。 社交媒體,比如最近幾年非常流行的 Twitter、 Facebook、微博。它們可以作為強(qiáng)大的在線交流平臺(tái),允許數(shù)百萬用戶在任何時(shí)間、任何地點(diǎn)產(chǎn)生、傳播、共享或交換信息。這些信息通常包括多種多媒體內(nèi)容,如文本、圖像和視頻。在社交媒體上傳播的大量多媒體數(shù)據(jù),涵蓋了全球范圍內(nèi)大規(guī)模和實(shí)時(shí)發(fā)生的社會(huì)動(dòng)態(tài)信息, 這種現(xiàn)象為社交媒體可視化提供了很多機(jī)會(huì)。

社交媒體技術(shù)層面上的可視化,主要包括: 基于關(guān)鍵字方法的可視化, 基于主題方法的可視化和多元方法的可視化。 現(xiàn)有的研究大多集中于集體行為的可視化,這類研究的主題包括: 信息擴(kuò)散的可視化,社會(huì)競(jìng)爭(zhēng)與合作的可視化,人的流動(dòng)性的可視化。

社交媒體數(shù)據(jù)的可視化分析正在迅速發(fā)展,每年都有大量的新方法出現(xiàn)。然而,該領(lǐng)域仍處于起步階段,面臨許多挑戰(zhàn)和懸而未決的問題。許多挑戰(zhàn)不能僅 結(jié)合的多學(xué)科研究,將帶來處理和理解社交媒體數(shù)據(jù)會(huì)有更強(qiáng)大、更可行的方法和技術(shù)。

十二、 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data Mining),是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的數(shù)據(jù)和信息,并將其轉(zhuǎn)化為計(jì)算機(jī)可處理的結(jié)構(gòu)化表示,是知識(shí)發(fā)現(xiàn)的一個(gè)關(guān)鍵步驟。數(shù)據(jù)挖掘的廣義觀點(diǎn):從數(shù)據(jù)庫中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的模型或規(guī)則等有用知識(shí)的復(fù)雜過程,是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘是一門綜合的技術(shù),涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合,它的最重要的價(jià)值在于用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為數(shù)據(jù)挖掘領(lǐng)域全球?qū)W者分布情況:

▲數(shù)據(jù)挖掘領(lǐng)域全球人才部分

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量遙遙領(lǐng)先且主要分布于其東西海岸;歐洲、亞洲也有較多的人才分布;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;可視化領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。

我國(guó)專家學(xué)者在數(shù)據(jù)挖掘領(lǐng)域的分布如上圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是珠三角和長(zhǎng)三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日本、東南亞等亞洲國(guó)家相比,中國(guó)在數(shù)據(jù)挖掘領(lǐng)域?qū)W者數(shù)量較多且有一定的優(yōu)勢(shì)。

▲數(shù)據(jù)挖掘領(lǐng)域中國(guó)學(xué)者分布

優(yōu)秀論文: 論文題目: Graph Convolutional Neural Networks for Web-Scale Recommender Systems

中文題目:圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于網(wǎng)絡(luò)規(guī)模推薦系統(tǒng)

論文作者: Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai, William L. Hamilton, and Jure Leskovec.

論文出處: In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’18) .

論文地址: https://dl.acm.org/citation.cfm?doid=3219819.3219890

研究問題: 圖結(jié)構(gòu)數(shù)據(jù)作為深層神經(jīng)網(wǎng)絡(luò)最新研究成果應(yīng)用于推薦系統(tǒng)基準(zhǔn)的最新的指標(biāo),傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)主要針對(duì)圖片,語音等歐氏空間內(nèi)規(guī)則型數(shù)據(jù),但是現(xiàn)實(shí)中存在很多不是歐氏數(shù)據(jù), 它們的結(jié)構(gòu)不規(guī)則,難以用卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行結(jié)構(gòu)信息的聚合,故將其擴(kuò)展到有數(shù)十億用戶的網(wǎng)絡(luò)級(jí)推薦系統(tǒng)是一個(gè)巨大的挑戰(zhàn)。

近幾年,我們已經(jīng)迎來了大數(shù)據(jù)時(shí)代,各大互聯(lián)網(wǎng)企業(yè)每天都在產(chǎn)生數(shù)以億計(jì)的數(shù)據(jù)。各類數(shù)據(jù)往往都隱含著一些有價(jià)值的信息, 如果人們手動(dòng)地進(jìn)行數(shù)據(jù)分析,往往需要耗費(fèi)大量的時(shí)間。同時(shí),大量未經(jīng)處理的數(shù)據(jù)可能會(huì)被人們所忽視。數(shù)據(jù)挖掘就是想自動(dòng)地從大規(guī)模的數(shù)據(jù)中挖掘出有意義的知識(shí)或者模式。這里,我們將數(shù)據(jù)挖掘領(lǐng)域近期的主要發(fā)展歸為兩大類:復(fù)雜數(shù)據(jù)挖掘、分布式數(shù)據(jù)挖掘。

復(fù)雜數(shù)據(jù)包括序列數(shù)據(jù)、圖數(shù)據(jù)等。在序列數(shù)據(jù)挖掘中,基于注意力(Attention)機(jī)制的 Transformer 模型表現(xiàn)出了巨大的潛力,在機(jī)器翻譯等任務(wù)上取得了非常好的效果。隨后, BERT 模型使用雙向 Transformer 通過預(yù)訓(xùn)練方式在各種自然語言處理的任務(wù)上都達(dá)到了當(dāng)時(shí)最好的結(jié)果。在圖數(shù)據(jù)挖掘研究中,網(wǎng)絡(luò)表示學(xué)習(xí)仍然是近年來非常熱門的話題。從 DeepWalk 算法開始,基于隨機(jī)游走的算法在無監(jiān)督的表示學(xué)習(xí)任務(wù)中表現(xiàn)良好。 NetMF 算法將幾種基于隨機(jī)游走的算法統(tǒng)一寫成了矩陣分解的形式,給網(wǎng)絡(luò)表示學(xué)習(xí)算法提供了理論基礎(chǔ)。圖卷積神經(jīng)網(wǎng)絡(luò)是另一種處理圖數(shù)據(jù)的有效方法,借鑒了圖譜論中的圖卷積并使用圖的拉普拉斯矩陣,在半監(jiān)督的節(jié)點(diǎn)分類任務(wù)和圖分類任務(wù)中都表現(xiàn)出很好的效果。除此之外,異構(gòu)網(wǎng)絡(luò)的表示與挖掘也逐漸被大家所關(guān)注。

分布式數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘領(lǐng)域非常有前途的方向。隨著數(shù)據(jù)挖掘計(jì)算成本的增加和數(shù)據(jù)隱私保護(hù)的問題,分布式數(shù)據(jù)挖掘開始備受關(guān)注。分布式數(shù)據(jù)挖掘利用分布式站點(diǎn)的資源來降低計(jì)算成本并增強(qiáng)數(shù)據(jù)保密性。由于分布式數(shù)據(jù)挖掘采用了不同的計(jì)算方式,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)很難直接應(yīng)用于分布式數(shù)據(jù)挖掘。目前,數(shù)據(jù)安全與數(shù)據(jù)隱私開始被大家所關(guān)注。 2018 年 5 月,通用數(shù)據(jù)保護(hù)條例(GDPR)在歐盟正式生效, 這也使得基于隱私保護(hù)的分布式數(shù)據(jù)挖掘方法逐漸被研究者所重視。

數(shù)據(jù)挖掘已經(jīng)被廣泛地應(yīng)用于各類實(shí)際問題,包括金融數(shù)據(jù)分析、推薦系統(tǒng)等。數(shù)據(jù)挖掘相關(guān)研究需要結(jié)合實(shí)際問題,注重與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)科等的交叉,從大數(shù)據(jù)中挖掘出有價(jià)值的信息。

十三、 信息檢索與推薦

R.Baeza-Yates 教授在其著作《現(xiàn)代信息檢索中 》中指出 ,信息檢索(Information Retrieval, IR)是計(jì)算機(jī)科學(xué)的一大領(lǐng)域,主要研究如何為用戶訪問他們感興趣的信息提供各種便利的手段,即:信息檢索涉及對(duì)文檔、網(wǎng)頁、聯(lián)機(jī)目錄、結(jié)構(gòu)化和半結(jié)構(gòu)化記錄及多媒體對(duì)象等信息的表示、存儲(chǔ)、組織和訪問,信息的表示和組織必須便于用戶訪問他們感興趣的信息。

在范圍上,信息檢索的發(fā)展已經(jīng)遠(yuǎn)超出了其早期目標(biāo),即對(duì)文檔進(jìn)行索引并從中尋找有用的文檔。如今,信息檢索的研究包括用戶建模、 Web 搜索、 文本分析、 系統(tǒng)構(gòu)架、 用戶界面、 數(shù)據(jù)可視化、 過濾和語言處理等技術(shù)。

信息檢索的主要環(huán)節(jié)包括信息內(nèi)容分析與編碼、組成有序的信息集合以及用戶提問處理和檢索輸出。其中信息提問與信息集合的匹配、選擇是整個(gè)環(huán)節(jié)中的重要部分。當(dāng)用戶向系統(tǒng)輸入查詢時(shí),信息檢索過程開始,接著用戶查詢與數(shù)據(jù)庫信息進(jìn)行匹配。返回的結(jié)果可能是匹配或不匹配查詢,而且結(jié)果通常被排名。大多數(shù)信息檢索系統(tǒng)對(duì)數(shù)據(jù)庫中的每個(gè)對(duì)象與查詢匹配的程度計(jì)算數(shù)值分?jǐn)?shù),并根據(jù)此值進(jìn)行排名,然后向用戶顯示排名靠前的對(duì)象。

推薦系統(tǒng)(Recommendation System, RS)是指信息過濾技術(shù),從海量項(xiàng)目(項(xiàng)目是推薦系統(tǒng)所推薦內(nèi)容的統(tǒng)稱,包括商品、新聞、微博、音樂等產(chǎn)品及服務(wù))中找到用戶感興趣的部分并將其推薦給用戶,這在用戶沒有明確需求或者項(xiàng)目數(shù)量過于巨大、凌亂時(shí),能很好地為用戶服務(wù),解決信息過載問題。

一般推薦系統(tǒng)模型流程通常由 3 個(gè)重要的模塊組成:用戶特征收集模塊,用戶行為建模與分析模塊,推薦與排序模塊。推薦系統(tǒng)通過用戶特征收集模塊收集用戶的歷史行為,并使用用戶行為建模和分析模塊構(gòu)建合適的數(shù)學(xué)模型分析用戶偏好,計(jì)算項(xiàng)目相似度等,最后通過推薦與排序模塊計(jì)算用戶感興趣的項(xiàng)目,并將項(xiàng)目排序后推薦給用戶。

信息的檢索與推薦都是用戶獲取信息的手段,無論是在互聯(lián)網(wǎng)上,還是在線下的生活場(chǎng)景里,這兩種方式都大量并存,兩者之間的關(guān)系是互補(bǔ)的:搜索引擎需要用戶主動(dòng)提供準(zhǔn)確的關(guān)鍵詞來尋找信息,因此不能解決用戶的很多其他需求,比如當(dāng)用戶無法找到準(zhǔn)確描述自己需求的關(guān)鍵詞時(shí),搜索引擎就無能為力了。和搜索引擎一樣,推薦系統(tǒng)也是一種幫助用戶快速發(fā)現(xiàn)有用信息的工具。

與搜索引擎不同的是,推薦系統(tǒng)不需要用戶提供明確的需求,而是通過分析用戶的歷史行為給用戶的興趣建模,從而主動(dòng)給用戶推薦能夠滿足他們興趣和需求的信息。因此,從某種意義上說,推薦系統(tǒng)和搜索引擎對(duì)于用戶來說是兩個(gè)互補(bǔ)的工具。搜索引擎滿足了用戶有明確目的時(shí)的主動(dòng)查找需求,而推薦系統(tǒng)能夠在用戶沒有明確目的的時(shí)候幫助他們發(fā)現(xiàn)感興趣的新內(nèi)容。在實(shí)際生活中也有很多運(yùn)用。

同時(shí),信息的檢索與推薦也有著一定的區(qū)別,可以分為以下幾個(gè)方面: 首先是主動(dòng)與被動(dòng)的不同。搜索是一個(gè)非常主動(dòng)的行動(dòng),用戶的需求也十分明確,在搜索引擎提供的結(jié)果里,用戶也能通過瀏覽和點(diǎn)擊來明確的判斷是否滿足了用戶需求。然而,推薦系統(tǒng)接受信息是被動(dòng)的,需求也都是模糊而不明確的。

學(xué)者地圖用于描述特定領(lǐng)域?qū)W者的分布情況,對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要,下圖為信息檢索與推薦領(lǐng)域全球?qū)W者分布情況:

▲信息檢索與推薦領(lǐng)域全球人才分布

地圖根據(jù)學(xué)者當(dāng)前就職機(jī)構(gòu)地理位置進(jìn)行繪制,其中顏色越深表示學(xué)者越集中。從該地圖可以看出,美國(guó)的人才數(shù)量?jī)?yōu)勢(shì)明顯且主要分布于其東西海岸;歐洲、亞洲也有較多的人才分布;其他諸如非洲、南美洲等地區(qū)的學(xué)者非常稀少;信息檢索與推薦領(lǐng)域的人才分布與各地區(qū)的科技、經(jīng)濟(jì)實(shí)力情況大體一致。 此外,在性別比例方面,信息檢索與推薦領(lǐng)域中男性學(xué)者占比 90.6%,女性學(xué)者占比9.4%,男性學(xué)者占比遠(yuǎn)高于女性學(xué)者。

▲信息檢索與推薦領(lǐng)域中國(guó)學(xué)者分布

我國(guó)專家學(xué)者在信息檢索與推薦領(lǐng)域的分布如上圖所示,從中可以發(fā)現(xiàn)京津地區(qū)在本領(lǐng)域的人才數(shù)量最多,其次是長(zhǎng)三角和珠三角地區(qū),相比之下,內(nèi)陸地區(qū)的人才較為匱乏,這種分布與區(qū)位因素和經(jīng)濟(jì)水平情況不無關(guān)系。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日韓、東南亞等地相比,中國(guó)在信息檢索與推薦領(lǐng)域?qū)W者數(shù)量較多且優(yōu)勢(shì)較大。

優(yōu)秀論文:

論文題目: Adversarial Personalized Ranking for Recommendation

中文題目:對(duì)抗式個(gè)性化推薦排名

論文作者: Xiangnan He, Zhankui He, Xiaoyu Du anTat-Seng Chua.

論 文 出 處 : The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval – SIGIR ’18

論文地址: https://arxiv.org/pdf/1808.03908.pdf

研究問題: 貝葉斯個(gè)性化排名(Bayesian Personalized Ranking, BPR)是一種成對(duì)學(xué)習(xí)的排序方法,用于優(yōu)化個(gè)性化排序的推薦模型。它以內(nèi)隱反饋學(xué)習(xí)為目標(biāo),假定觀察到的交互比未觀察到的交互排在更高的位置。矩陣因子分解( MatrixFactorization, MF)是最基本也是最有效的推薦模型。 MF 將每個(gè)用戶和項(xiàng)表示為嵌入向量,通過嵌入向量之間的內(nèi)積來估計(jì)用戶對(duì)某一項(xiàng)的偏好程度。在信息檢索領(lǐng)域,貝葉斯個(gè)性化排名訓(xùn)練的矩陣分解模型(MF-BPR)學(xué)習(xí)一個(gè)與訓(xùn)練數(shù)據(jù)相適應(yīng)的復(fù)雜函數(shù),不能很好地泛化,且其魯棒性較差,易受參數(shù)的對(duì)抗性擾動(dòng)。因此本文提出了一種新的個(gè)性化排名訓(xùn)練方法-對(duì)抗的個(gè)性化排名(Adversarial Personalized Ranking, APR)。

隨著互聯(lián)網(wǎng)中數(shù)字信息數(shù)量的增長(zhǎng),商品、書籍、新文章、歌、電影、研究文件等日常基礎(chǔ)性事物,其數(shù)量和種類填滿了多個(gè)數(shù)據(jù)倉庫和數(shù)據(jù)庫。蘊(yùn)含著智能推薦系統(tǒng)和強(qiáng)大的搜索引擎的在線商店、在線音樂、在線視頻和圖片庫等已成為人們快速尋找信息的主要方式。此類系統(tǒng)的流行程度和有用性在于它們能夠便捷地顯示幾乎無限的物品信息。比如, Amazon、 Netflix 等推薦系統(tǒng)嘗試了解用戶興趣,并向用戶推薦他們感興趣的商品。盡管這些系統(tǒng)由于使用場(chǎng)景而各不相同,但其尋找用戶感興趣商品的核心機(jī)制都是用戶興趣與商品匹配的機(jī)制。

為了提高信息檢索與推薦系統(tǒng)中算法模型的準(zhǔn)確性和可解釋性,研究人員近年來主要關(guān)注無偏的在線排序?qū)W習(xí)模型,以及利用知識(shí)信息增強(qiáng)推薦系統(tǒng)的表現(xiàn)和可解釋性等方面的研究。其中,無偏的在線排序?qū)W習(xí)模型是指自動(dòng)利用大規(guī)模用戶點(diǎn)擊數(shù)據(jù)訓(xùn)練搜索結(jié)果的排序模型。用戶點(diǎn)擊數(shù)據(jù)是現(xiàn)代搜索引擎的重要數(shù)據(jù)來源,具有成本低廉,并且對(duì)以用戶為中心的檢索應(yīng)用程序(如搜索排名) 特別有用等優(yōu)點(diǎn)。

為了充分利用用戶點(diǎn)擊數(shù)據(jù)開發(fā)一個(gè)無偏的學(xué)習(xí)排名系統(tǒng),研究人員試圖消除用戶偏見對(duì)排名模型訓(xùn)練的影響。近年來,一種基于反事實(shí)學(xué)習(xí)和圖形模型的無偏學(xué)習(xí)排名框架引起了人們的廣泛關(guān)注。該框架側(cè)重于使用反事實(shí)學(xué)習(xí)直接訓(xùn)練帶有偏倚點(diǎn)擊數(shù)據(jù)的排名模型。這個(gè)無偏的學(xué)習(xí)排名框架對(duì)待點(diǎn)擊偏差作為一個(gè)反事實(shí)的影響和去偏用戶反饋加權(quán)每點(diǎn)擊與他們的反向傾向加權(quán)。它使用傾向性模型來量化點(diǎn)擊的偏差,并沒有明確地估計(jì)查詢文檔與培訓(xùn)數(shù)據(jù)的相關(guān)性。研究人員從理論上證明,在正確的偏差估計(jì)下,在該框架下使用點(diǎn)擊數(shù)據(jù)訓(xùn)練的排序模型將收斂于使用真實(shí)相關(guān)信號(hào)訓(xùn)練的排序模型。

信息檢索與推薦系統(tǒng)可以為用戶推薦其感興趣的內(nèi)容并給出個(gè)性化的建議。而現(xiàn)在的推薦系統(tǒng)大都著眼于被推薦對(duì)象的序列建模,而忽略了它們細(xì)粒度的特征。為了解決以上問題,研究人員提出了多任務(wù)可解釋推薦模型( Multi-Task Explainable Recommendation, MTER)和知識(shí)增強(qiáng)的序列推薦模型(Knowledgeenhanced Sequential Recommender, KSP)。其中, MTER 模型是一個(gè)用于可解釋推薦任務(wù)的多任務(wù)學(xué)習(xí)方法,通過聯(lián)合張量分解將用戶、產(chǎn)品、特征和觀點(diǎn)短語映射到同一向量空間,來從用戶評(píng)論中提取產(chǎn)品細(xì)粒度的個(gè)性化特征。 KSR 模型提出了利用結(jié)合知識(shí)庫的記憶網(wǎng)絡(luò)來增強(qiáng)推薦系統(tǒng)的特征捕獲能力與解釋性,解決序列化推薦系統(tǒng)不具有解釋性,且無法獲取用戶細(xì)粒度特征的不足。 MTER 和KSR 模型通過對(duì)推薦結(jié)果的解釋,分析被推薦對(duì)象的特征,可以讓用戶可以對(duì)使用哪些推薦結(jié)果做出更明智,更準(zhǔn)確的決策,從而提高他們的滿意度。

近年來,信息檢索與推薦領(lǐng)域比較流行的開源平臺(tái)主要包括基于深度學(xué)習(xí)的檢索模型(MatchZoo)、基于 tensorflow 的 learning to rank 模型(TF-Ranking)和 microsoft recommenders。其中, MatchZoo 是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室近期發(fā)布的深度文本匹配開源項(xiàng)目。 MatchZoo 是一個(gè) Python 環(huán)境下基于 TensorFlow 開發(fā)的開源文本匹配工具,使用了 Keras 中的神經(jīng)網(wǎng)絡(luò)層,并有數(shù)據(jù)預(yù)處理,模型構(gòu)建,訓(xùn)練與評(píng)測(cè)三大模塊組成, 旨在讓大家更加直觀地了解深度文本匹配模型的設(shè)計(jì)、更加便利地比較不同模型的性能差異、更加快捷地開發(fā)新型的深度匹配模型。

MatchZoo 提供了基準(zhǔn)數(shù)據(jù)集(TRECMQ 系列數(shù)據(jù)、 WiKiQA 數(shù)據(jù)等)進(jìn)行開發(fā)與測(cè)試,整合了當(dāng)前最流行的深度文本匹配的方法(包括 DRMM, MatchPyramid, DUET, MVLSTM, aNMM, ARC-I,ARC-II, DSSM, CDSSM 等算法的統(tǒng)一實(shí)現(xiàn)),旨在為信息檢索、數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域內(nèi)的研究與開發(fā)人員提供便利, 可以應(yīng)用到的任務(wù)場(chǎng)景包括文本檢索,自動(dòng)問答,復(fù)述問題,對(duì)話系統(tǒng)等等。

TF-Ranking 是一個(gè)可擴(kuò)展的基于 tensorflow 的用于排序的庫,由 google 于2018 年提出。 TF-Ranking 提供了一個(gè)統(tǒng)一的框架,其中包括一套最先進(jìn)的學(xué)習(xí)排序算法,并支持成對(duì)或列表損失函數(shù)、多項(xiàng)評(píng)分、排序度量?jī)?yōu)化和無偏學(xué)習(xí)排序。 TF-Ranking 速度很快并且易于使用,可以創(chuàng)建高質(zhì)量的排序模型。 統(tǒng)一的框架使機(jī)器學(xué)習(xí)的研究人員、實(shí)踐者和愛好者能夠在一個(gè)庫中評(píng)估和選擇一系列不同的排序模型。

此外,這個(gè)開源庫不僅提供了合理的默認(rèn)模型,還可以讓用戶能夠開發(fā)自己的定制模型,且提供了靈活的 API,用戶可以在其中定義和插入自己定制的損失函數(shù)、評(píng)分函數(shù)和指標(biāo)。 Microsoft Recommenders 是微軟云計(jì)算和人工智能開發(fā)團(tuán)隊(duì)與微軟亞洲研究院團(tuán)隊(duì)深度合作,基于多年來各類大型企業(yè)級(jí)客戶的項(xiàng)目經(jīng)驗(yàn)以及最新學(xué)術(shù)研究成果,搭建的完整推薦系統(tǒng)的最新實(shí)操技巧開源項(xiàng)目。該項(xiàng)目有效解決了定制和搭建企業(yè)級(jí)推薦系統(tǒng)中的幾個(gè)難點(diǎn),包括如何將學(xué)術(shù)研究成果或開源社區(qū)提供的范例適用于企業(yè)級(jí)應(yīng)用、如何集成信息檢索與推薦領(lǐng)域的學(xué)習(xí)指導(dǎo)資源倆協(xié)助從業(yè)人員深入理解并實(shí)際搭建完整推薦系統(tǒng)、如何選擇最優(yōu)算法以應(yīng)對(duì)具體應(yīng)用場(chǎng)景等。

為了協(xié)助信息檢索與推薦領(lǐng)域的算法模型的訓(xùn)練和優(yōu)化,微軟公司提供了一個(gè)大規(guī)模支持機(jī)器閱讀理解和問答系統(tǒng)等多種領(lǐng)域研究的數(shù)據(jù)集,簡(jiǎn)稱 MSMACRO。該數(shù)據(jù)集從必應(yīng)(bing)的搜索查詢記錄中取樣,每個(gè)問題都有人工生成的答案和完全人工重寫的答案。此外,數(shù)據(jù)集包含從通過 bing 檢索的 web文檔中提取的百萬個(gè)密碼,這些密碼提供了管理自然語言答案所需的信息。

使用這個(gè)數(shù)據(jù)集,本文提出三個(gè)不同層次的難度不同的任務(wù): (i) 根據(jù)一組上下文段落預(yù)測(cè)一個(gè)問題是否可以回答,然后像人類一樣提取和合成答案(ii) 基于根據(jù)問題和段落語境信息可以被理解的上下文段落,來生成格式良好的答案(如果可能) , 最后(iii) 根據(jù)給定的一個(gè)問題,對(duì)檢索得到的段落進(jìn)行排序。數(shù)據(jù)集的大小和問題來自真實(shí)用戶搜索查詢的事實(shí),該數(shù)據(jù)集的規(guī)模和真實(shí)世界的性質(zhì)使它對(duì)基準(zhǔn)測(cè)試機(jī)器閱讀理解和問答模型具有吸引力。

智東西認(rèn)為,從清華大學(xué)該報(bào)告可以看出,現(xiàn)階段人工智能人才總的來看美國(guó)的人才數(shù)量遙遙領(lǐng)先,我國(guó)人才數(shù)量在大部分領(lǐng)域領(lǐng)跑第二梯隊(duì),但與位居首位的美國(guó)相比,中國(guó)高影響力學(xué)者數(shù)量明顯不足,頂尖學(xué)者相對(duì)匱乏,中美之間還存在較大的趕超空間。當(dāng)前,人工智能已經(jīng)成為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),我國(guó)在人工智能領(lǐng)域的科學(xué)技術(shù)研究和產(chǎn)業(yè)發(fā)展,起步稍晚于以美國(guó)為代表的發(fā)達(dá)國(guó)家,但是,在最近十余年的人工智能爆發(fā)發(fā)展期我國(guó)抓住了機(jī)遇,進(jìn)入了快速發(fā)展階段。在這個(gè)階段,能夠推動(dòng)技術(shù)突破和創(chuàng)造性應(yīng)用的高端人才對(duì)人工智能的發(fā)展起著至關(guān)重要的作用。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文讀懂?dāng)?shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和AI的區(qū)別
數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能的區(qū)別到底是什么?
清華2020人工智能報(bào)告第一期!五大維度揭秘機(jī)器學(xué)習(xí)技術(shù)| 智東西內(nèi)參
《人工智能之圖數(shù)據(jù)庫》報(bào)告重磅發(fā)布
深度 | 40年認(rèn)知架構(gòu)研究概覽:實(shí)現(xiàn)通用人工智能的道路上我們走了多遠(yuǎn)?(附論文)
劍橋2019年度《AI全景報(bào)告》聚焦中國(guó),盤點(diǎn)全球AI大勢(shì)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 四子王旗| 金山区| 富宁县| 黑河市| 舟山市| 阜康市| 班戈县| 蓬安县| 保康县| 牡丹江市| 兴文县| 扎兰屯市| 北海市| 二手房| 绩溪县| 宁明县| 尉犁县| 绥滨县| 濮阳县| 扶风县| 屏东县| 长岭县| 日照市| 玛沁县| 磴口县| 闻喜县| 三门县| 新安县| 衡东县| 常宁市| 泌阳县| 黑河市| 兰坪| 车致| 桃园市| 灌南县| 车险| 陆川县| 厦门市| 山东| 炎陵县|