中國版AlphaFold2,來了!
Uni-Fold,官宣即開源,還為科研者提供了測試接口和在線試用。
半年前,AlphaFold2和RoseTTAFold兩個頂級AI算法齊齊引發生物學界、AI學界大地震。
半年后,這個橫空出世的Uni-Fold,不光能完整復現AlphaFold2。
其預測精度超過RoseTTAFold、與AlphaFold2相當,效率還超AlphaFold2 2-3倍。
更重要的是,背后的團隊不是如谷歌這樣的互聯網巨頭,也不是數十年深耕于此的頂尖高校團隊。
而是一家成立剛3年的AI創業公司——深勢科技。
這個Uni-Fold究竟有何看頭?接下來一看究竟。
AlphaFold2開源的消息曾一度火爆全場,等稍微冷靜下來大家才發現,真正把它用起來并不容易。
用谷歌官方提供的Colab資源嗎?可以,請排隊。
自己有算力資源想部署?也可以,不過AlphaFold2只開源了模型推理部分的代碼,并沒有開源訓練代碼。
這意味著部署好后只能按AlphaFold2設計好的流程使用,難以針對特定的研究項目做一些遷移調整。
比如拿去預測蛋白質復合物結構,研究蛋白質與小分子相互作用,又或者與電鏡實驗相結合,這些都無能為力。
再加上,該代碼基于谷歌自研的可微分計算框架JAX及TPU硬件平臺開發,高度依賴谷歌生態系統。
最后,AlphaFold2雖然模型開源,但調好的參數組合卻不開放商業使用。
谷歌母公司Alphabet對AlphaFold2有著自己的商業化打算,11月新成立的子公司Isomorphic Laboratories便是其第一步。
鑒于這樣的局限性,像深勢科技這樣的創業團隊得自己想辦法。
他們的辦法,便是根據開源模型自己復現AlphaFold2的訓練部分。
經過幾個月的攻關,他們終于在128塊英偉達V100上復現了AlphaFold2的全規模訓練。
其中遇到最大的困難是GPU資源有限,難以同時進行多次訓練來比較效果。于是他們只好在設計上下功夫,盡量減少試錯次數。
沒想到因此有了一些額外的收獲。
經過混合精度、MPI 并行以及數據異步讀取等一系列優化后,復現模型做到了在相同硬件下推理效率還比AlphaFold2公開版高上2-3倍。
另外復現的模型也不再依賴谷歌生態,增加了與英偉達GPU、國產DPU等硬件體系的適配性。
模型搞定了,那接下來最關鍵的問題就是,預測精度如何?
團隊用CASP14蛋白預測任務中的絕大部分序列進行了測試。
其中包括基于模版建模的兩種難度(TBM-easy/hard),以及最具挑戰性的無模版建模(FM),發布時Uni-Fold平均Cα-lDDT達到82.6。目前模型還在持續改進中,精度有望再上一層樓。
這個成績超過了RoseTTAFold,與公開版AlphaFold2模型接近。
對于這個精度媲美原版、推理效率還更高的蛋白質結構預測工具,他們決定將其推理代碼、訓練代碼全部開源,命名為Uni-Fold。
深勢科技公布訓練代碼的舉動受到業界廣泛好評,連深度學習預測蛋白質結構的先驅、芝加哥豐田計算技術研究所的許錦波教授都評價道:
Uni-Fold的出現,讓每個研究者都可以訓練自己的模型。這無疑將進一步推動技術的發展。對整個蛋白質折疊領域來說,都是令人激動的消息。
深勢科技這家成立僅3年的公司,為什么能成為國內首家復現Alphafold2全規模訓練的團隊?
復現后又為何要率先公開訓練代碼?
下面就來一探究竟。
實際上,在推出Uni-Fold之前,深勢科技這個初創團隊就已經頗受業內關注:
一年狂攬三輪融資,最近一輪達數千萬美元,由高瓴創投領投。
從團隊背景看,創始人兼首席科學家張林峰,北京大學元培學院出身,在普林斯頓大學獲應用數學系博士學位。
另一位創始人兼CEO孫偉杰同樣來自北大元培,后繼續在北京大學深造,獲管理學碩士學位。
孫偉杰在科技領域分析及投資經驗豐富,張林峰則偏重技術。他的研究方向包括統計物理、分子模擬和機器學習及其應用。
此外擔任首席科學顧問的是中科院院士、北京大學教授鄂維南。
北大元培系AI創業公司這個標簽,算是深勢科技受到資本青睞的原因之一。
再看技術實力,由鄂維南院士領銜的數十人科研隊伍,包含物理建模、數值算法、機器學習、高性能計算及藥物和材料計算等多個領域人才。
他們大多來自世界一流高校、科研機構和企業。
其中許多人擁有交叉背景,深勢科技特別介紹了一位高中搞過生物競賽,大學主修人工智能又參加過超算研究的同學。
這樣的人了解不同學科的基礎知識和術語體系,對團隊協作溝通大有好處。
有著多學科交叉這樣的特點,深勢科技自述致力于“以新一代分子模擬方法打造微尺度工業設計平臺”。
其中的新一代分子模擬方法,指「多尺度建模 機器學習 高性能計算」新研究范式。
新范式由深勢科技首創,在保證了計算效率和精度的基礎上還具備通用性,可為藥物、材料等領域帶來新的計算模擬及設計工具。
比如鄂維南、張林峰共同參與研究的一項技術,用機器學習方法將分子動力學極限提升至10億原子規模同時保持高精度。
這項成果在2020年獲得有「超算屆諾貝爾獎」之稱的戈登·貝爾獎,還與「量子優越性」和「人造太陽」等成果一起當選2020中國十大科技進展。
基于這樣的團隊背景和科研實力,也就不難理解深勢科技為何能在這么短的時間內復現AlphaFold2全規模訓練。
但作為一家創業公司,光有上述兩種因素還不夠,創造行業價值才是當前大環境下的題中之義。
有算法工具的突破做基礎,Unif-Fold配套解決方案也已集成到他們自己的藥物設計平臺Hermite,免費注冊即可測試使用。
Hermite基于云計算,無需操心模型部署、環境配置問題,只要打開瀏覽器就能使用Uni-Fold的各種功能。
除此之外,作為一站式藥物設計平臺的Hermite還集成了更多功能。
如預測得到蛋白質結構后還可以繼續進行蛋白質的動力學模擬、結構精修以及環區優化。
在藥物優化階段也提供了比較不同分子與蛋白靶點結合活性差別的工具。
這也是深勢科技打破蛋白質結構預測工具現狀,率先公布訓練代碼背后的考量——
他們做的不只是蛋白質結構預測這一個工具,而是為藥物設計領域打造一套模擬-AI-實驗三者驅動的解決方案和開發平臺。
而開源開放,吸引更多人來到開源社區,所積累的數據、匯聚的多學科人才、實現的應用都是平臺生態建設的重要力量。
深勢科技的微尺度工業設計平臺不僅涉及生物醫藥領域,在新能源材料研發中也有布局。
最近,深勢科技與寧德時代達成戰略合作,雙方將共建聯合實驗室,以計算驅動能源材料設計研發。
這時候推出Uni-Fold,倒也并不是心血來潮,而是聚集了天時地利人和,選擇謀定而后動。
這當中既有現實需求的驅動,也有行業大勢的推動。
對深勢自身而言,過去一直致力于以AI 物理模型驅動方式為行業創造價值。
簡單來說,就是以第一性原理的方式,將實際面臨的問題或場景演化為定義明確的物理模型。
像蛋白質的結構以及構象變化、配體與蛋白質的相互作用 (包括親和力與動力學參數的評估)、以及藥物分子晶型和劑型的溶解度等這些藥物研發過程中的關鍵問題,都可以用物理化學模型進行定義。
這些問題對應到藥物設計平臺Hermite上,就是諸如藥物優化模塊Uni-FEP、蛋白動力學采樣與結構優化模塊RiD這類的功能環節。
在推出Uni-Fold之前,Hermite就已經開啟商業化進程,被多家藥企研發人員使用。
而Uni-Fold——作為藥物設計的第一環的身份出現,直接為Hermite填補了數據驅動引擎。
它有助于深入了解生物機制,隨后將更多“黑盒子”問題轉變為物理問題。
中科院院士、北京大學教授、深勢科技首席科學顧問鄂維南評價道:
物理模型和數據驅動結合的解決方案將為蛋白結構和藥物設計行業提供更好的基礎。
事實上放眼整個行業,計算生物正在引領一場科技革命。
其核心代表就是以AlphaFold2為代表的新型蛋白質結構預測技術。
利用原有的實驗手段(比如,冷凍電鏡、X光晶體衍射等)可能需要經年累月的研究,才能解析一個蛋白質結構,而利用計算結構模型最快只需要10分鐘。
而若再向前推進,到應用端——生物醫藥領域,新藥研發的效率有望大幅提高;科學家能借助AI系統設計出自然界不存在的蛋白質,催生各種新材料,用于能源、化工、環保等行業。
因此,選擇在這時候完整復現AlphaFold2,并將其開源、開放給更多的研發人員,無疑是最快實現物盡其用、創造價值的方式之一。
在人們固有的印象中,以往生命科學的研究思路都是由表及里、從現象到本質。
當中也有不少科學家身先士卒,從本質出發探索微觀分子世界,但始終受限于實驗工具、設備等外在條件。
直到人工智能的出現,更多自下而上的問題逐步得到解決。
算力、算法的發展能夠真正縮短理論研究與解決實際問題之間的距離。
鄂維南院士曾在多個場合呼吁:“科學是人工智能下一個主戰場。”
AI Science的范式,價值已經顯現。
而深勢科技,正是站在這一科技潮頭上的先行者。
— 完 —
本文系網易新聞·網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。