7月28日,在深圳舉辦的2018中國人工智能大會上,北京大學教授王立威發(fā)表了題為《機器學習簡介—方法、應用與展望》的演講,對機器學習的理論發(fā)展做了全面闡述。會后,王立威教授接受了網(wǎng)易智能的采訪,談到了人工智能的行業(yè)應用與未來發(fā)展。
出品 | 網(wǎng)易智能(公眾號 smartman163)
期號 | AI英雄總第91期
作者 | 小羿
作為北京大學信息學院教授,王立威對于人工智能的研究已有十幾年。不同于其他的人工智能專家,王立威的主要研究興趣在于機器學習理論。早在2010年,王立威就入選IEEE的AI’s 10 to Watch,是亞洲首位獲得該獎項的學者,并于2012年獲得國家自然科學基金優(yōu)秀青年基金。
目前,王立威已經(jīng)在機器學習頂級會議NIPS、COLT、ICML和頂級期刊JMLR、IEEE Trans. PAMI發(fā)表多篇論文。其中2008年發(fā)表于機器學習理論最高會議COLT的論文《On the Margin Explanation of Boosting Algorithms》是中國大陸學者在該會議上的首篇論文。
泛化理論:機器學習與深度學習的核心理論概念
在此次大會報告中,王立威詳細解釋了“機器學習”的涵義。他說,自然科學中的“機器學習”是利用方程式描述簡單的數(shù)學規(guī)律,麥克斯韋方程組、牛頓定律、薛定諤方程、洛倫茲變換這些理論都是如此,而人類也曾像“機器學習”一樣思考。但是,今天的機器學習技術,是設計復雜模型用于解決非常復雜的問題,比如區(qū)分貓和狗的圖像,這類問題無法通過設計簡單規(guī)則來完成。“今天機器學習的核心思想是,世界是復雜的,需要用極復雜的模型,從大數(shù)據(jù)中來學習。”王立威表示。
作為機器學習的一部分,王立威對深度學習的興起以及核心問題做了解釋。他稱,深度學習的重要技術成就在于深度網(wǎng)絡可以有效表示信號。早期人工神經(jīng)網(wǎng)絡是從人腦獲得啟發(fā),有仿生的意味。而最新一輪的深度學習技術是2006年提出的,真正取得成果是在2012年。取得成果的核心原因是G.Hinton等人提出逐層預訓練等新興訓練方法,以及硬件計算性能大幅提升和海量數(shù)據(jù)。正因為如此,深度學習在研究上新型網(wǎng)絡結構不斷提出,在應用上一些領域的表現(xiàn)不斷被刷新。
“但是,目前我們缺少對深層理論的理解,人工智能在學術上最重要的問題就是要建立新的理論,解釋深度學習所觀察到的現(xiàn)象?!蓖趿⑼f到。
在機器學習理論的研究上,王立威提到了泛化理論,他認為,泛化能力是機器學習區(qū)分于其他領域的核心概念。而泛化理論的目標是解釋和證明為什么以及怎樣提高訓練集的準確性可以提高測試集的準確性。
王立威在會后的采訪中向網(wǎng)易智能更加詳細地解釋了泛化理論的發(fā)展。他表示,早期的經(jīng)典泛化理論認為,有多少數(shù)據(jù),就需要相應復雜度的模型,如果少量數(shù)據(jù)用了非常復雜的模型,在已有的數(shù)據(jù)上的效果會非常好,但是在新的數(shù)據(jù)上效果會很差,新舊數(shù)據(jù)差異非常大。但是到了深度學習觀察到的結果是矛盾的,“就像我們現(xiàn)在看牛頓定律并不是在所有場合都適用的,經(jīng)典泛化理論也有自己的適用范圍?!蓖趿⑼硎?,從學術的角度來說,我們希望建立一個理論去理解深度學習,而且近一兩年有很多的學者在關注這樣的問題。
誠然,如果用物理學理論來看人工智能學科理論發(fā)展,后者顯然還沒有到達“牛頓定律”的階段。但是泛化理論讓我們看到了人工智能理論發(fā)展的一些希望。
AI應用的兩大限制四個商業(yè)領域
談到人工智能應用,王立威認為,人工智能目前的成功主要是工程技術的成功。但是有兩大限制:
第一,人工智能技術目前只適用于知識相對封閉、狹窄的領域。比如,人工智能在圖像分類的運用上,所訓練的圖像必須預定分好類,如果圖像沒有提前分類是不可以用的。
第二,凡是需要人類通過常識、經(jīng)驗判斷的領域,人工智能技術目前遠未達到廣泛應用的程度。比如2016年全國高考語文作文(見下圖),對人來說這張圖像容易理解,但對機器來說,雖然機器可以識別圖像內容,但卻無法理解背后的涵義,因為牽扯太多的背景信息。
2016年全國高考語文作文
在具體的商業(yè)應用上,王立威提到了四個領域:
首先是無人駕駛,王立威認為在無人駕駛領域,大大小小的公司已經(jīng)積累了大量的訓練數(shù)據(jù),在常規(guī)道路上常規(guī)行駛不是問題,但真正落地應用還是很難,這其中的關鍵是無法應對極端情況,包括罕見的路況和天氣。所以,王立威建議,無人駕駛領域現(xiàn)在要加大極端場景和突發(fā)情況的模擬訓練。
其次是金融保險,目前人工智能在這一領域的應用熱度很高,涉及量化交易、金融風控等。
再次是傳統(tǒng)業(yè)務,比如AI賦能電力調度,智能養(yǎng)豬等等。
最后是是醫(yī)療健康領域,目前人工智能主要用于醫(yī)療影像識別,藥物研發(fā)。
王立威表示,目前自己在醫(yī)療影像領域涉足較深。依托北京大學的一系列附屬醫(yī)院,王立威教授所在的北大信息學院與北大醫(yī)學部聯(lián)合成立了醫(yī)信交叉中心,兩個部門合作共同探索醫(yī)療影像的應用。
王立威向網(wǎng)易智能闡述了AI醫(yī)療影像發(fā)展的看法:
首先,醫(yī)療行業(yè)的AI應用比較碎片化,即使只考慮醫(yī)療影像這一個應用領域,不同病種都需要一個個去攻克,不同病種用到的具體技術也有差異巨大。
其次,在推動AI醫(yī)療影像的過程中,王立威認為,醫(yī)院必須認識到積累數(shù)據(jù)的重要性,而數(shù)據(jù)收集工作最好是由政府來主導,醫(yī)療行業(yè)制定標準,而且數(shù)據(jù)收集也需要有一個軟件工具,不能增加醫(yī)生的負擔。
最后,算法系統(tǒng)最終會成為醫(yī)生輔助工具,不僅讓醫(yī)生的效率更高,最大的價值是讓醫(yī)生從AI中學習,制定一個看病的標準。
面向未來:數(shù)據(jù)收集需要標準化,行業(yè)變革將加速
對于人工智能未來幾年的發(fā)展趨勢,王立威認為,從技術上說,AI將會解決更多封閉環(huán)境下的任務,但是沒有突破性的進展很難解決需要常識的開放環(huán)境的任務。
從行業(yè)的發(fā)展來看,王立威認為,未來5-10年數(shù)據(jù)的積累被人們所重視,當某個行業(yè)的數(shù)據(jù)形成一定規(guī)模后,行業(yè)變革將加速。
“對于當前重要的任務,是培養(yǎng)行業(yè)內收集數(shù)據(jù)的習慣與標準化流程,隨著數(shù)據(jù)的增多與數(shù)據(jù)質量的提升,一些行業(yè)將在十年內發(fā)生革命性的變化,包括醫(yī)療行業(yè)?!蓖趿⑼裤降?。(完)
- 加入社群吧 -