機器學(xué)習(xí)幫助數(shù)學(xué)家發(fā)現(xiàn)兩大猜想,以及采用機器學(xué)習(xí)、多尺度建模和高性能計算相結(jié)合的方式解決超大規(guī)模量子隨機電路實時模擬問題,讓人們看到了人工智能應(yīng)用于科學(xué)研究,在處理數(shù)據(jù)、設(shè)計新型實驗以及創(chuàng)建更高效的計算模型方面的巨大潛力。
AI for Science新興研究領(lǐng)域出現(xiàn),有望帶來科研范式的改變!正在興起的AI for Science有望促進數(shù)據(jù)驅(qū)動和理論推演兩大科研范式的深度融合。
在計算機領(lǐng)域,Jeff Dean還強調(diào)在疾病診斷,尤其是在醫(yī)學(xué)成像上的應(yīng)用,比如在改善乳腺癌篩檢、檢測肺癌、加速癌癥的放射治療、標(biāo)記異常X射線和前列腺癌期活檢等領(lǐng)域。
另一個值得關(guān)注的方向就是利用NLP技術(shù)來分析結(jié)構(gòu)化數(shù)據(jù)與醫(yī)療記錄,輔助臨床醫(yī)生提供更準(zhǔn)確的診斷護理。
AI靠發(fā)現(xiàn)海量數(shù)據(jù)之中的隱藏模式,輔助數(shù)學(xué)家提出兩大猜想,讓人們看到了AI在科學(xué)研究上的更多潛力,AI for Science成為新的熱詞。
百度研究院認(rèn)為,AI有望帶來科研范式的改變,數(shù)據(jù)驅(qū)動與理論推演的融合將在更多學(xué)科中發(fā)揮作用。
藥物開發(fā)過程是一件代價高昂的事情,無論是在投入的時間還是金錢方面。即使是開發(fā)單個組件也需要數(shù)百名研究人員的共同努力。現(xiàn)代人工智能最有趣的應(yīng)用之一是藥物發(fā)現(xiàn)。研究人員預(yù)計,最先進的人工智能算法可以用來加速整個過程。例如,細(xì)胞計數(shù)是生物學(xué)中一個活躍的研究領(lǐng)域。視覺AI系統(tǒng)和計算機視覺可以幫助在幾秒鐘內(nèi)以難以想象的準(zhǔn)確性完成它。
AI讓基因編輯更精準(zhǔn)快速地找到靶點, AI助力在蛋白質(zhì)結(jié)構(gòu)預(yù)測上取得顯著突破。兩者的深度融合將顯著縮短藥品研發(fā)周期、降低研發(fā)成本,促進精準(zhǔn)醫(yī)學(xué)和個性化診療。
生命科學(xué)迎來數(shù)據(jù)驅(qū)動時代,核心代表正是AlphaFold2。
AlphaFold2以及人類蛋白質(zhì)組數(shù)據(jù)集的開源再次引爆計算生物學(xué)!
人工智能預(yù)測蛋白質(zhì)結(jié)構(gòu)
12 月 15 日,Nature 發(fā)布了《2021 年十大科學(xué)新聞》;12 月 17 日,Science 緊隨其后,公布了《2021 年度十大科學(xué)突破》。Nature 和 Science 都將「人工智能預(yù)測蛋白質(zhì)結(jié)構(gòu)」評為本年度最重要的發(fā)現(xiàn),Science 更是將其列為“2021 年十大科學(xué)突破進展”之首。
長期以來,蛋白質(zhì)結(jié)構(gòu)的預(yù)測一直是生物學(xué)領(lǐng)域的研究熱點和難點。傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)探測方法主要有三種:X 射線晶體學(xué)、核磁共振和冷凍電鏡。但這些方法成本較高,研究周期漫長,且進展有限。
人工智能為這一困擾生物學(xué)界數(shù)十年的難題按下了快進鍵。
今年 7 月,蛋白結(jié)構(gòu)兩大 AI 預(yù)測算法 —— DeepMind 的 AphaFold2 和華盛頓大學(xué)等機構(gòu)研發(fā)的 RoseTTAFold 相繼開源。
AphaFold2“解鎖”98% 人類蛋白質(zhì)組
7 月 16 日,DeepMind 在 Nature 發(fā)表論文,宣布已利用 Alpha Fold2 預(yù)測了 35 萬種蛋白質(zhì)結(jié)構(gòu),涵蓋了 98.5% 的人類蛋白質(zhì)組,及其他 20 種生物幾乎完整的蛋白質(zhì)組。研究團隊還公布了 AlphaFold2 的開源代碼和技術(shù)細(xì)節(jié)。
RoseTTAFold 可十分鐘內(nèi)計算出蛋白質(zhì)結(jié)構(gòu)
同日,華盛頓大學(xué)蛋白設(shè)計研究所 David Baker 教授課題組及其他合作機構(gòu)在 Science 上發(fā)表論文 ,公布了其開源蛋白質(zhì)預(yù)測工具 RoseTTAFold 的研究結(jié)果。研究團隊探索了結(jié)合相關(guān)思想的網(wǎng)絡(luò)架構(gòu),并通過三軌網(wǎng)絡(luò)獲得了最佳性能。三軌網(wǎng)絡(luò)產(chǎn)生的結(jié)構(gòu)預(yù)測精度接近 CASP14 中的 DeepMind 團隊的 AlphaFold2,且速度更快、所需計算機處理能力更低。僅用一臺游戲計算機,在短短十分鐘內(nèi)就能可靠地計算出蛋白質(zhì)結(jié)構(gòu)。
DeepMind 開源 AlphaFold2,預(yù)測出 98.5% 的人類蛋白質(zhì)結(jié)構(gòu)。同時,AlphaFold 2 在去年入選 Science 年度十大突破,被稱作結(jié)構(gòu)生物學(xué)“革命性”的突破、蛋白質(zhì)研究領(lǐng)域的里程碑。
2018 年的 AlphaFold 使用的神經(jīng)網(wǎng)絡(luò)是類似 ResNet 的殘差卷積網(wǎng)絡(luò),到了 AlphaFold2 則借鑒了 Transformer 架構(gòu)。
AlphaFold2 利用多序列比對,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。它的出現(xiàn),能更好地預(yù)判蛋白質(zhì)與分子結(jié)合的概率,從而極大地加速新藥研發(fā)的效率。
不過在進一步發(fā)展之后,數(shù)據(jù)瓶頸不容忽視:高質(zhì)量研發(fā)數(shù)據(jù)不足,以及醫(yī)藥研發(fā)可用數(shù)據(jù)與靶點價值成反比。不過目前業(yè)內(nèi)已經(jīng)有相應(yīng)的解決方案,比如建立藥物大數(shù)據(jù)實驗室、多學(xué)科融合等方法。