圖是認(rèn)識(shí)世界的一種新方式。
圖計(jì)算,正在成為下一個(gè)科技前沿。
這里的圖是「graph」,而不是圖片「image」,它自于數(shù)學(xué)中的圖論(graph theory)。圖計(jì)算是研究人類世界的事物和事物之間的關(guān)系,對(duì)其進(jìn)行描述、刻畫、分析和計(jì)算的一門技術(shù)。
Gartner 在《2021 年十大數(shù)據(jù)和分析技術(shù)趨勢(shì)》報(bào)告中預(yù)測(cè),到 2025 年圖技術(shù)將應(yīng)用于 80% 的數(shù)據(jù)和分析創(chuàng)新。圖計(jì)算技術(shù)在金融、制造、能源等領(lǐng)域有著巨大的應(yīng)用價(jià)值和前景,甚至在前沿的腦科學(xué)研究中,也能看到它的身影。
目前,圖計(jì)算已經(jīng)成為國(guó)內(nèi)外科技巨頭們競(jìng)爭(zhēng)的「新風(fēng)口」。中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民強(qiáng)調(diào):「現(xiàn)在布局高性能圖計(jì)算恰逢其時(shí),就相當(dāng)于抓住了未來(lái)大數(shù)據(jù)、人工智能和高性能計(jì)算產(chǎn)業(yè)發(fā)展的牛鼻子,其影響不可估量?!?/span>
陳文光教授做客 Founder Park by 極客公園「Rebuild」欄目 | 來(lái)源:直播截圖
5 月 30 日,在極客公園「Rebuild」視頻直播中,清華大學(xué)計(jì)算機(jī)系教授、螞蟻集團(tuán)圖計(jì)算技術(shù)負(fù)責(zé)人 陳文光,和我們聊了聊圖計(jì)算。在他看來(lái),圖計(jì)算不僅僅只是一個(gè)技術(shù),更是一種理解世界新的方式。
Founder Park: 圖計(jì)算里面的「圖」指的是什么?是我們?nèi)粘I钪械膱D片嗎?
陳文光:從英文上看,更容易分清楚一些。圖片在英文中是「image」,圖形叫「graphics」。圖計(jì)算對(duì)應(yīng)的英文是指「Graph Processing」,這里的圖其實(shí)來(lái)自于數(shù)學(xué)中的圖論(graph theory)。
在圖論中,「圖」是由節(jié)點(diǎn)和邊組成的,你可以想象這個(gè)節(jié)點(diǎn)代表實(shí)體,然后邊代表它們之間的關(guān)系。舉個(gè)例子,比如說(shuō)我們把微博用戶關(guān)系抽象成一個(gè)圖,賬號(hào)抽象成圖上的點(diǎn),關(guān)注關(guān)系則是圖上的邊。這個(gè)邊其實(shí)還是有方向的,我們叫有向圖。有些圖的邊,是沒(méi)有方向的,稱之為無(wú)向圖。
還有比如說(shuō)路網(wǎng),它用圖怎么表示呢?把地點(diǎn)特別是交叉口作為節(jié)點(diǎn),然后把路本身當(dāng)做一條邊。這時(shí)邊還可以有屬性,比如說(shuō)距離和寬窄等。
一些圖數(shù)據(jù)示例 | 來(lái)源:互聯(lián)網(wǎng)
可以看到圖數(shù)據(jù)可以很好地描述事物之間的聯(lián)系,包括描述聯(lián)系的方向和屬性。而且特別要注意的是,這種圖可能非常大。比如說(shuō)社交網(wǎng)絡(luò)賬號(hào)之間構(gòu)成的圖,它可能是有幾億節(jié)點(diǎn),幾百億邊的巨大規(guī)模。
Founder Park: 你之前曾提到「圖是認(rèn)識(shí)世界的一種新的方式」,那么之前我們認(rèn)識(shí)世界的方式是什么?圖作為一種認(rèn)識(shí)世界的方式,先進(jìn)在哪里?
陳文光:在大學(xué)數(shù)據(jù)結(jié)構(gòu)的課上,大家開始學(xué)的鏈表或者是線性表,基本上是個(gè)一維結(jié)構(gòu)。然后又學(xué)到了樹(tree),樹的應(yīng)用非常廣。比如說(shuō)廣播樹,我們今天的直播,一個(gè)視頻流要給成千上萬(wàn)的人去發(fā),并不是一個(gè)一個(gè)去發(fā),而是先發(fā)一些點(diǎn),再通過(guò)他們?cè)侔l(fā)另外一些,這樣一路發(fā)下去。樹是非常有用的數(shù)據(jù)結(jié)構(gòu),但它有一個(gè)限制,就是它上面不能有環(huán),如果有環(huán)的話就不能叫樹,而圖可以有環(huán)。
從數(shù)據(jù)結(jié)構(gòu)的演進(jìn)上看,圖是對(duì)事物之間關(guān)系的一種原生的(native)表達(dá),它用來(lái)表示關(guān)聯(lián)的時(shí)候,它的描述能力要比鏈表、樹這些數(shù)據(jù)結(jié)構(gòu)要強(qiáng)得多。所以說(shuō)當(dāng)用圖來(lái)認(rèn)識(shí)世界,特別是用來(lái)認(rèn)識(shí)關(guān)聯(lián)的時(shí)候,它是一種更加直接和先進(jìn)的方式。
傳統(tǒng)的數(shù)據(jù)庫(kù)叫關(guān)系數(shù)據(jù)庫(kù),但其實(shí)它的數(shù)據(jù)組織形式并不是關(guān)系原生的,而是以表的形式進(jìn)行組織,就是一張一張的表,然后靠表上的鍵連起來(lái)的。所以其實(shí)關(guān)系數(shù)據(jù)庫(kù)應(yīng)該叫表數(shù)據(jù)庫(kù),而圖數(shù)據(jù)庫(kù)反而應(yīng)該叫關(guān)系數(shù)據(jù)庫(kù)。
Founder Park: 圖計(jì)算是什么?它和圖數(shù)據(jù)庫(kù)的有什么關(guān)系?
陳文光:圖計(jì)算可以從廣義和狹義來(lái)區(qū)分它。
狹義的圖計(jì)算說(shuō)的是,在確定不變的圖上面來(lái)做各種各樣的計(jì)算。比如說(shuō)路網(wǎng)圖,它基本上比較穩(wěn)定,路很久才修一條。我們可以在路網(wǎng)圖上進(jìn)行某種計(jì)算操作,比如說(shuō)從水立方到故宮找一條路最短路徑,這是圖計(jì)算典型可以解決的問(wèn)題。
而廣義的圖計(jì)算能干的事會(huì)更多一些,它是指基于圖數(shù)據(jù)來(lái)做各種各樣的處理。比如說(shuō)這張圖是在變化的。在路網(wǎng)圖上,如果只把路的寬度作為邊的屬性,那它可能就是很長(zhǎng)時(shí)間不變的,但如果我們以邊上路的擁堵程度作為屬性的話,那這個(gè)圖是在變的。還比說(shuō)流圖計(jì)算,數(shù)據(jù)源源不斷地以流的方式到來(lái),該怎么處理。這些都是屬于廣義的圖計(jì)算范疇。
廣義的圖計(jì)算,可以理解是包括了圖數(shù)據(jù)庫(kù)。
Founder Park: 你之前在采訪中提到,你遇到《編譯原理》(Compilers)的合著者莫尼卡·拉姆 (Monica Lam),她對(duì)你有很大觸動(dòng)和啟發(fā),好奇這具體指的是什么?
陳文光:我是 03 年在清華大學(xué)開始工作的,一開始的學(xué)術(shù)方向是做編譯器里的編譯優(yōu)化。我們?cè)趪?guó)際頂會(huì) PLDI(Programming Language Design and Implementation)發(fā)表了一篇論文。論文能被錄用,說(shuō)明大家還是認(rèn)可這項(xiàng)工作的,但是它最后的效果是什么?在當(dāng)時(shí) CPU 測(cè)試基準(zhǔn)測(cè)試上獲得的性能提升只有 1% 左右。
這個(gè)技術(shù)是有用的,但總體上影響沒(méi)那么大。所以后來(lái)我就轉(zhuǎn)了一個(gè)方向,去做程序分析。
之后我碰到了莫尼卡·拉姆,她當(dāng)時(shí)講了一句話對(duì)我影響很大的話:「好的軟件不是靠程序分析、查錯(cuò)查出來(lái)的,而是由正確的人構(gòu)建出來(lái)的」。也就是說(shuō),好軟件要由對(duì)的人從頭把它構(gòu)建出來(lái),而程序分析實(shí)際上是在做輔助性優(yōu)化,并沒(méi)有解決整個(gè)系統(tǒng)中最重要的問(wèn)題,這項(xiàng)工作有用,但是并沒(méi)有那么有用。
受到這個(gè)思想的影響,我走上了從頭構(gòu)建一個(gè)先進(jìn)軟件系統(tǒng)的道路,2010 年,我開始做圖計(jì)算相關(guān)的學(xué)術(shù)研究共奏。
Founder Park: 之前在清華做圖計(jì)算相關(guān)的科研,為什么會(huì)想要去創(chuàng)業(yè)?
陳文光:在圖計(jì)算上,我們?nèi)〉昧艘恍┓e極成果。到了 16 年,我們研究了一個(gè)分布式內(nèi)存的圖計(jì)算系統(tǒng),它比當(dāng)時(shí)開源軟件中常用的圖計(jì)算框架 GraphX 大概要快 100 倍,內(nèi)存的需求大概只是它的 1/10。這奠定了一個(gè)好的基礎(chǔ)。
當(dāng)時(shí)我就想圖計(jì)算如何能更好地做下去。我發(fā)現(xiàn)至少到 2016 年為止我們自己開發(fā)的系統(tǒng)軟件還是非常少的,所以我一直在想原因是什么?
我在清華培養(yǎng)的博士生大概也有十多位了,他們?cè)趯戃浖矫娑挤浅?yōu)秀。我發(fā)現(xiàn)他們畢業(yè)之后,主要還是進(jìn)入工業(yè)界了。但他們很多工作可能都是在現(xiàn)有的一個(gè)大的軟件上去做一些增量式的改進(jìn)。
所以我當(dāng)時(shí)就想,我們已經(jīng)有一個(gè)很好的軟件基礎(chǔ),它領(lǐng)先于現(xiàn)有產(chǎn)品一到兩個(gè)數(shù)量級(jí)。如果能夠成立一家公司,把優(yōu)秀畢業(yè)學(xué)生能聚攏在一起,持續(xù)地去完善軟件,然后再把它進(jìn)行推廣使用。
這是在探索回答我一直以來(lái)的疑惑:我們把自己的系統(tǒng)軟件做出來(lái)了,但怎么能用起來(lái)?所以當(dāng)時(shí)就成立了費(fèi)馬科技。
Founder Park: 費(fèi)馬科技當(dāng)時(shí)你們做的不錯(cuò),為什么選擇加入螞蟻?
陳文光:圖計(jì)算要想真正發(fā)現(xiàn)起來(lái),第一步要解決:做出來(lái);第二步:有人用;第三步:大規(guī)模使用。而當(dāng)時(shí)困擾我的問(wèn)題,怎么實(shí)現(xiàn)從有人用到大規(guī)模使用。
到 2020 年的時(shí)候,我們發(fā)現(xiàn)了自身的局限性。費(fèi)馬團(tuán)隊(duì)總體上技術(shù)上是很強(qiáng),但是管理和市場(chǎng)銷售,特別是后者我們相對(duì)比較弱的。
雖然也取得了一些成績(jī),有一些標(biāo)桿的客戶,比如像京東金融,國(guó)家電網(wǎng)、民生銀行等。但整體商業(yè)化路徑是不清晰的,沒(méi)有辦法很好地大規(guī)模推廣。
我當(dāng)時(shí)覺(jué)得,圖計(jì)算要想實(shí)現(xiàn)更好地發(fā)展,還是需要技術(shù)加場(chǎng)景的雙輪驅(qū)動(dòng)。而我們當(dāng)時(shí)在學(xué)校,還更多的是以技術(shù)驅(qū)動(dòng)的角度往前推。
螞蟻?zhàn)鳛橐患医鹑诳萍脊荆兄蝾I(lǐng)先的圖計(jì)算的場(chǎng)景需求,而螞蟻當(dāng)時(shí)自身,在圖計(jì)算上也有很好的研究基礎(chǔ)。所以,我們決定加入螞蟻。
Founder Park: 圖計(jì)算現(xiàn)在處于一個(gè)什么樣的發(fā)展階段?
陳文光:如果我用一個(gè)詞來(lái)簡(jiǎn)單地來(lái)形容的話,應(yīng)該叫方興未艾。
圖數(shù)據(jù)庫(kù)受歡迎程度遠(yuǎn)高于其他數(shù)據(jù)庫(kù)技術(shù),增長(zhǎng) 11 倍 | 來(lái)源:互聯(lián)網(wǎng)
圖計(jì)算在各個(gè)行業(yè),像金融、證券、公共衛(wèi)生在這些領(lǐng)域都有一些典型的案例。大家可能都很關(guān)注它,比如在數(shù)據(jù)庫(kù)流行度排行榜網(wǎng)站 DB-Engines 上,圖數(shù)據(jù)庫(kù)的關(guān)注度,在過(guò)去十年內(nèi)是比其他的數(shù)據(jù)庫(kù)都要高。另一方面,也出現(xiàn)了一些功能比較成熟的產(chǎn)品出現(xiàn)。
我認(rèn)為圖計(jì)算整體上,還處于比較早期的階段,它的整個(gè)產(chǎn)品形態(tài)目前也沒(méi)有 100% 的定下來(lái)。如果拿關(guān)系數(shù)據(jù)庫(kù)來(lái)做對(duì)比的話,圖計(jì)算從技術(shù)的深度和應(yīng)用廣度來(lái)看,都還有比較大的差距。
Founder Park: 圖計(jì)算都有哪些具體的行業(yè)應(yīng)用?
陳文光:我首先從金融風(fēng)控的例子介紹一下。
比如說(shuō)在企業(yè)擔(dān)保的場(chǎng)景。要給一個(gè)企業(yè)貸款,那么這個(gè)企業(yè)說(shuō)我找 A 企業(yè)擔(dān)保,然后 A 企業(yè)他又找了 B 企業(yè)擔(dān)保,然后 B 又找 C 擔(dān)保過(guò),最后發(fā)現(xiàn)他們形成了一個(gè)環(huán)。那么這個(gè)擔(dān)保等于是無(wú)效的,因?yàn)槟阋粚右粚拥叵聛?lái),它回到了最初的這個(gè)出問(wèn)題的公司。
這可以都把它抽象成在圖上找環(huán)的問(wèn)題。
找環(huán)這個(gè)問(wèn)題,傳統(tǒng)的方法不是不能做。比如說(shuō)有些銀行用 MapReduce 大數(shù)據(jù)處理的方法,但在企業(yè)擔(dān)保場(chǎng)景里,它大概只能找到長(zhǎng)度為 6 的環(huán),更長(zhǎng)的就找不到了。
那么像套現(xiàn)分析的這類場(chǎng)景,不僅是需要找環(huán),而速度還要非常快。用戶去刷一個(gè)信用卡,肯定不希望后臺(tái)算上兩個(gè)小時(shí)才說(shuō)有風(fēng)險(xiǎn)。
在金融的場(chǎng)景中,「實(shí)時(shí)」是比較難的。螞蟻在 2020 年的雙 11,它的最高的交易數(shù)每秒 58 萬(wàn)筆,在如此高的吞吐率下去檢測(cè)異常,進(jìn)而保障交易能夠按時(shí)完成,這個(gè)場(chǎng)景挑戰(zhàn)是非常大的。在螞蟻很多的風(fēng)控場(chǎng)景中,我們希望在 20 毫秒內(nèi)完成圖計(jì)算環(huán)節(jié)。
圖計(jì)算的應(yīng)用不僅在金融上,在復(fù)雜電網(wǎng)的故障分析,電商產(chǎn)品的智能推薦,疫情期間的密接、次密接以及時(shí)空伴隨者發(fā)現(xiàn)都有重要的應(yīng)用。此外,大家日常生活中在螞蟻森林偷能量,它也是用圖數(shù)據(jù)庫(kù)來(lái)管理的。
Founder Park: 目前圖計(jì)算應(yīng)用比較多的行業(yè),有什么樣的特點(diǎn)?
陳文光:首先行業(yè)的數(shù)字化要有一定基礎(chǔ),能夠產(chǎn)生大量的數(shù)據(jù)。其次對(duì)復(fù)雜關(guān)系分析是有需求的,數(shù)據(jù)之間不是孤立的。比如說(shuō)目前有一些物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),每個(gè)傳感器按時(shí)間把一些數(shù)據(jù)上傳,那這些可能就用時(shí)序數(shù)據(jù)庫(kù)來(lái)處理就行。
總體來(lái)看,隨著全行業(yè)的數(shù)字化水平的深入,對(duì)于復(fù)雜關(guān)聯(lián)分析的需求進(jìn)一步增加,圖計(jì)算會(huì)有一個(gè)更好的發(fā)展。
Founder Park: 圖計(jì)算融合到 AI,能夠解決 AI 什么樣的問(wèn)題?圖計(jì)算和 AI 的結(jié)合,目前發(fā)展怎么樣了?
陳文光:AI 和圖計(jì)算融合產(chǎn)生的圖神經(jīng)網(wǎng)絡(luò),是目前正在快速發(fā)展且重要的領(lǐng)域。
人和人之間或者各種實(shí)體之間的關(guān)系數(shù)據(jù),它怎么和神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合?圖神經(jīng)網(wǎng)絡(luò),利用了表示學(xué)習(xí),通過(guò)圖的結(jié)構(gòu)先把每一個(gè)節(jié)點(diǎn)或者邊都用向量來(lái)表示特征,然后再進(jìn)一步地使用神經(jīng)網(wǎng)絡(luò)來(lái)處理。這就擴(kuò)展了神經(jīng)網(wǎng)絡(luò)使用的范圍,把實(shí)體之間的關(guān)系也引入到 AI 的處理中。
目前圖神經(jīng)網(wǎng)絡(luò)已經(jīng)有了很多的應(yīng)用。我們把圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)應(yīng)用在芝麻信用中,提高了信用評(píng)分的準(zhǔn)確率,這產(chǎn)生了不錯(cuò)的效果。
Founder Park: 我知道你們?cè)趪L試用圖計(jì)算來(lái)進(jìn)行神經(jīng)元仿真,這是想要去解決什么樣的問(wèn)題?為什么覺(jué)得圖計(jì)算在解決腦科學(xué)領(lǐng)域相關(guān)問(wèn)題,是有機(jī)會(huì)的呢?
陳文光:從科學(xué)發(fā)現(xiàn)的范式上來(lái)講,第一范式是實(shí)驗(yàn)科學(xué),第二范式是理論科學(xué),第三范式其實(shí)是以仿真模擬為基礎(chǔ)的方法。
大腦作為一個(gè)研究對(duì)象,受限于倫理和法律,想直接去研究是非常困難的,在實(shí)驗(yàn)方法和手段上都很缺乏。而仿真是理解大腦這種復(fù)雜系統(tǒng)運(yùn)行的一個(gè)基本方法。
我們可以通過(guò)仿真,來(lái)去模擬大腦背后的機(jī)制,可能最后結(jié)果是錯(cuò)的,但如果是對(duì)的,就驗(yàn)證了一個(gè)猜想。從這個(gè)角度來(lái)說(shuō),它給研究腦科學(xué)和神經(jīng)科學(xué),提供了一種減少實(shí)驗(yàn)開銷以及擴(kuò)大研究范圍的方法。
Founder Park: 目前你們進(jìn)展怎么樣了?
陳文光:這個(gè)方向其實(shí)國(guó)內(nèi)外都非常的關(guān)注。歐洲有一個(gè)叫藍(lán)腦計(jì)劃 (Blue Brain Project),它用超級(jí)計(jì)算機(jī)來(lái)模擬人腦。但實(shí)際上我們的觀察到最困難的點(diǎn),是神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)的交叉和融合。
所以我們目前在做一個(gè)事情,和實(shí)驗(yàn)神經(jīng)科學(xué)家合作,以鼠腦的聽(tīng)覺(jué)為一個(gè)基礎(chǔ),去探究以下兩個(gè)問(wèn)題。第一個(gè)是要知道單個(gè)神經(jīng)元應(yīng)該模擬成什么樣是合適的?粒度太太粗,會(huì)導(dǎo)致最后模擬的行為都是不對(duì)的,粒度太細(xì)又會(huì)使得模擬的規(guī)模受限。第二個(gè)是神經(jīng)元之間是怎么連接的?這其實(shí)非常復(fù)雜,因?yàn)楝F(xiàn)在腦科學(xué)發(fā)現(xiàn)神經(jīng)元的連接是不斷地產(chǎn)生和消失的。
我們希望能夠先找到這兩個(gè)問(wèn)題的合理解釋,然后再來(lái)做大腦的模擬,目前整個(gè)項(xiàng)目還在推進(jìn)中。
Founder Park: 目前圖計(jì)算往前發(fā)展,遇到的核心挑戰(zhàn)是什么?
陳文光:我覺(jué)得最大的挑戰(zhàn)是人才和市場(chǎng)發(fā)展能不能形成正反饋。把一個(gè)產(chǎn)品做好,它可以服務(wù)很多人,大家覺(jué)得它真的用,市場(chǎng)擴(kuò)大,人才就會(huì)被吸引進(jìn)來(lái),把產(chǎn)品進(jìn)一步做好,然后再去服務(wù)更大的市場(chǎng)。
一個(gè)正向的迭代是非常重要的?,F(xiàn)在做圖計(jì)算,既有大公司,也有一些中型創(chuàng)業(yè)公司。那么到底誰(shuí)能夠在這個(gè)領(lǐng)域里能夠持續(xù)地去吸引人,擴(kuò)大自己的市場(chǎng)服務(wù)的對(duì)象,我覺(jué)得這可能是進(jìn)一步要去解決的最核心問(wèn)題。
Founder Park: 圖計(jì)算目前在全球的競(jìng)爭(zhēng)情況是怎么樣的?螞蟻大概處于一個(gè)什么樣的位置?
陳文光:圖計(jì)算的競(jìng)爭(zhēng)還是非常激烈的,大概有這樣幾種,一種是像 Oracle 、SAP 這樣的傳統(tǒng)數(shù)據(jù)庫(kù)巨頭,他們其實(shí)不太會(huì)專門做一個(gè)單獨(dú)的圖計(jì)算產(chǎn)品,而是會(huì)把圖計(jì)算和他們的關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品合在一起,在關(guān)系數(shù)據(jù)庫(kù)上來(lái)做擴(kuò)展。
另一類是獨(dú)立的產(chǎn)品公司。比如說(shuō),Neo4j 是成立最早的圖計(jì)算和圖數(shù)據(jù)庫(kù)的公司,它的開源版本在全球影響力是非常大的。TigerGraph 也是一個(gè)目前相對(duì)來(lái)講,商業(yè)化比較成熟的圖數(shù)據(jù)庫(kù)公司。此外,國(guó)內(nèi)的創(chuàng)鄰科技其實(shí)也做得不錯(cuò)。
螞蟻是這樣的,在服務(wù)內(nèi)部業(yè)務(wù)上面我們做得還是不錯(cuò)的。整體上我們?cè)趫D計(jì)算系統(tǒng)的完整度還有深度上面都還有一定的優(yōu)勢(shì),但在產(chǎn)品的通用化上,就是如何服務(wù)外部的客戶方面還有較大的提升空間。
Founder Park: 在你推動(dòng)圖計(jì)算的發(fā)展上,其實(shí)帶有非常強(qiáng)的「產(chǎn)學(xué)研」結(jié)合的色彩。你會(huì)怎么看目前產(chǎn)學(xué)研遇到的一些問(wèn)題?
陳文光:我只能說(shuō)從我個(gè)人的一些經(jīng)歷和觀察,稍微分享一點(diǎn)觀點(diǎn)。
很多老師的學(xué)術(shù)研究,已經(jīng)比十年前的水平要高很多了。我們能看到,不少的年輕老師可以在計(jì)算機(jī)國(guó)際頂級(jí)會(huì)議上發(fā)表論文,甚至還能連續(xù)發(fā)表多篇。
這初步解決了做出來(lái)的問(wèn)題,后面我覺(jué)得要解決的是能夠用起來(lái)的問(wèn)題。解決這個(gè)問(wèn)題有幾條路線。一條路線是去做創(chuàng)業(yè)公司,但這是一個(gè)比較直接但異常艱難的路線。
另外一條就是知識(shí)產(chǎn)權(quán)的轉(zhuǎn)讓,把研究成果變成專利,然后交給企業(yè)去使用。這個(gè)方向如果我們看最近 10 年的數(shù)據(jù)會(huì)比之前更好,但是可能沒(méi)有好到大家期待的水平。
這里面的主要原因我覺(jué)得是兩個(gè)方面:一是我們大學(xué)的老師,很多時(shí)候不知道企業(yè)中真實(shí)遇到的問(wèn)題核心是什么,當(dāng)想要去做研究的時(shí)候,也沒(méi)有相關(guān)的數(shù)據(jù)資源來(lái)做支持。從企業(yè)的角度來(lái)講,他很希望老師幫他解決一個(gè)眼前的問(wèn)題,而學(xué)術(shù)上更關(guān)心的根本性的問(wèn)題,往往也不太容易提煉出來(lái)。即使想大學(xué)合作,到底去合作什么,定義這個(gè)問(wèn)題本身也很難,想合規(guī)地提供數(shù)據(jù)也非常的難。
所以這就會(huì)造成一定程度上的學(xué)術(shù)研究和企業(yè)需求之間的脫節(jié)。
Founder Park: 在解決辦法上有什么思考?
陳文光:目前能夠看到像華為、阿里以及螞蟻在內(nèi),越來(lái)越能夠用更加開放的心態(tài)來(lái)與學(xué)術(shù)界開展合作。
我可以舉些例子,前些天,螞蟻開放了一些自己的專利,此外也主導(dǎo)一個(gè)圖數(shù)據(jù)庫(kù)的國(guó)際基準(zhǔn)測(cè)試程序,我們國(guó)內(nèi)的幾家圖數(shù)據(jù)庫(kù)廠商,還有國(guó)外的像 intel 這幾家核心的公司都參與了。
這個(gè)工作的核心是給出一個(gè)測(cè)試標(biāo)準(zhǔn),它是把內(nèi)部的業(yè)務(wù)和數(shù)據(jù)的特點(diǎn)抽象成數(shù)據(jù)模型和典型查詢。數(shù)據(jù)生成器生成的圖數(shù)據(jù)在統(tǒng)計(jì)上和內(nèi)部一些真實(shí)的數(shù)據(jù)是等價(jià)的,但它避免了數(shù)據(jù)隱私的問(wèn)題。
這個(gè)事情預(yù)期在推動(dòng)產(chǎn)學(xué)研上會(huì)有比較好的效果。企業(yè)界提煉自己的需求,把它變成一個(gè)可度量的問(wèn)題,然后鼓勵(lì)學(xué)術(shù)界在這種反映了企業(yè)界真實(shí)情況的數(shù)據(jù)和場(chǎng)景下面來(lái)開展研究。
Founder Park: 在推動(dòng)科研的高水平創(chuàng)新上,你有什么思考?
陳文光:最近可以看到學(xué)校在征集從 0 到 1 的原創(chuàng)問(wèn)題。我覺(jué)得這個(gè)其實(shí)是咱們國(guó)家科技發(fā)展里面非常重要的一步。我們不是每個(gè)人都要去提一個(gè)問(wèn)題然后自己解決,才叫成果,其實(shí)提出好的問(wèn)題,是非常重要的。
如果問(wèn)題和目標(biāo)的定義都是別人,我們只是在后面去做優(yōu)化,其實(shí)很難實(shí)現(xiàn)真正的高水平創(chuàng)新。
我覺(jué)得我們到了需要去更好地定義問(wèn)題的時(shí)候了。
聯(lián)系客服