2020年,谷歌旗下公司DeepMind發(fā)布了AlphaFold,實(shí)現(xiàn)通過靶點(diǎn)蛋白質(zhì)的序列來預(yù)測三維靜態(tài)結(jié)構(gòu),成功解決了生物學(xué)界50年的難題。今年5月,DeepMind發(fā)布了升級(jí)后的AlphaFold3,它能夠以比較罕見的「原子精度」預(yù)測出所有生物分子的結(jié)構(gòu)和相互作用,包括蛋白質(zhì)、核酸(DNA/RNA)和更小分子的3D結(jié)構(gòu),并揭示它們?nèi)绾谓M合在一起。AlphaFold3一經(jīng)推出就登上Nature頭版,掀起了AI學(xué)術(shù)圈的巨震。谷歌DeepMind聯(lián)合創(chuàng)始人、CEO Demis Hassabis表示,AlphaFold3的發(fā)布是一個(gè)重要的里程碑,在AI理解和建模生物學(xué)的道路上,AI又邁出了重要一步!
對于藥物研發(fā)而言,預(yù)測分子如何相互作用是一件非常重要的事情,因?yàn)榇蠖鄶?shù)藥物的作用原理是與目標(biāo)蛋白質(zhì)結(jié)合。通過AlphaFold的結(jié)構(gòu)預(yù)測研究蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,進(jìn)而確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。因此,AlphaFold提供的結(jié)構(gòu)預(yù)測能力兼具極大的學(xué)術(shù)和商業(yè)價(jià)值,受到了全世界研究者的矚目。
AlphaFold的神經(jīng)網(wǎng)絡(luò)模型構(gòu)架丨圖片來源:DeepMind Blog
不過,AlphaFold3真的就是生物研究者和制藥學(xué)家的美好解決方案了嗎?很遺憾,答案是否定的,其中最關(guān)鍵的原因是,AI結(jié)構(gòu)預(yù)測模型通常只能預(yù)測生物分子的靜態(tài)3D結(jié)構(gòu),而不是溶液中生物分子系統(tǒng)的動(dòng)態(tài)行為,這種限制在AlphaFold3中也仍然存在。這對于研究來說是一個(gè)巨大的局限,因?yàn)榭陀^的真實(shí)世界是時(shí)刻動(dòng)態(tài)變化的,預(yù)測靜態(tài)3D結(jié)構(gòu)意味著只能在一個(gè)復(fù)雜的運(yùn)動(dòng)過程中截取一個(gè)瞬間的片段切片,要想基于一個(gè)切片把完整的運(yùn)動(dòng)過程研究清楚,顯然是不切實(shí)際的。
我國知名的結(jié)構(gòu)生物學(xué)家、中科院院士顏寧曾在2022年的青年科學(xué)家502論壇上分享她關(guān)于AI與結(jié)構(gòu)生物學(xué)未來的看法。顏寧老師表示,雖然非常看好AI的未來,但現(xiàn)在來看它還是非常有局限性的,小分子是一個(gè)無窮的化學(xué)世界,想要去計(jì)算難度很大,短時(shí)間內(nèi)并不看好AI可以真正取代實(shí)驗(yàn)技術(shù)。關(guān)于結(jié)構(gòu)生物學(xué)未來,她認(rèn)為,一是原位的結(jié)構(gòu)生物學(xué),即細(xì)胞內(nèi)部時(shí)空分辨率的結(jié)構(gòu)生物學(xué),二是不同構(gòu)象以及它們的變化的速度,如何去理解細(xì)胞里各個(gè)分子的動(dòng)態(tài)變化,是目前面臨一個(gè)比較大的挑戰(zhàn)。“理解自然本身就是很美妙的事情。你不理解就寢食難安。如果看到它的不同的構(gòu)象,就會(huì)發(fā)現(xiàn)新的藥物靶點(diǎn),就會(huì)理解一些突變是怎么樣導(dǎo)致疾病的,而僅靠一個(gè)構(gòu)象是沒有辦法呈現(xiàn)這些的”,顏寧老師稱,自己最先進(jìn)的職業(yè)目標(biāo)就是從非常高的時(shí)空分辨率上理解細(xì)胞里小小分子世界。
顏寧老師提及的“時(shí)空分辨率”的關(guān)鍵所在,就是AlphaFold缺失的動(dòng)態(tài)構(gòu)象信息。AlphaFold就像是一個(gè)生物分子的3D攝影師,可以為研究者提供非常高清的生物分子結(jié)構(gòu)預(yù)測的“照片”,但是,對于生物學(xué)家和制藥學(xué)家來說,他們追求的是看到生物分子整個(gè)動(dòng)態(tài)變化的“影片”。正如顏寧老師所說,很多時(shí)候單純的“看到”就已經(jīng)可以幫助到“理解”,顯然,“看到”富含動(dòng)態(tài)構(gòu)象信息的分子“影片”將會(huì)比過去的靜態(tài)“照片”更加提升科學(xué)家的“理解”水平。
那么,是否有辦法能夠補(bǔ)全AlphaFold在生物分子動(dòng)態(tài)信息方面的短板呢?這就不得不提到計(jì)算生物學(xué)里面專門用于研究分子動(dòng)態(tài)構(gòu)象變化的分子動(dòng)力學(xué)(Molecular Dynamics,簡稱MD)了。分子動(dòng)力學(xué)是一種發(fā)展了幾十年的計(jì)算機(jī)模擬實(shí)驗(yàn)方法,該技術(shù)不僅可以得到原子的動(dòng)態(tài)運(yùn)動(dòng)軌跡,還可以觀察到原子運(yùn)動(dòng)過程中各種微觀細(xì)節(jié)。它是對理論計(jì)算和實(shí)驗(yàn)的有力補(bǔ)充,廣泛應(yīng)用于材料科學(xué)、生物物理和藥物設(shè)計(jì)等。
只不過,由于使用分子動(dòng)力學(xué)模擬構(gòu)象態(tài)之間的過渡軌跡需要耗費(fèi)巨大的計(jì)算成本,舉例來說,人體內(nèi)典型的大分子蛋白質(zhì)往往由幾十萬到上百萬個(gè)原子構(gòu)成,假設(shè)我們用分子動(dòng)力學(xué)模擬方法計(jì)算一個(gè)50萬原子的蛋白質(zhì)運(yùn)動(dòng)0.001秒的“影片”,哪怕用上1000顆主流CPU并行計(jì)算,都需要耗費(fèi)超過100年的時(shí)間。這個(gè)巨大的限制讓分子動(dòng)力學(xué)的方法在過去一直都沒法成為研究界的主流。
2013年,分子動(dòng)力學(xué)在計(jì)算效率方面的窘境終于迎來了突破的轉(zhuǎn)機(jī)。這一年,美國D. E. Shaw研究所發(fā)布了分子動(dòng)力學(xué)專用比較優(yōu)秀計(jì)算機(jī)安騰的第二代,它的算力的效率可以輕松達(dá)到傳統(tǒng)超算的100-10000倍,在超算安騰的支持下,科學(xué)家能夠以天為單位輕松完成微秒級(jí)的蛋白質(zhì)動(dòng)態(tài)仿真計(jì)算,甚至可以直接看到毫秒級(jí)蛋白質(zhì)運(yùn)動(dòng)的動(dòng)態(tài)“影片”。超算安騰一經(jīng)發(fā)布就引起全世界范圍內(nèi)的關(guān)注,在往后的幾年里,通過超算安騰發(fā)表在Cell、Nature、Science等頂刊的論文數(shù)量都達(dá)到了幾十篇,可以說,超算安騰幾乎憑借一己之力讓美國生物計(jì)算領(lǐng)域的發(fā)展領(lǐng)先了世界十年以上。
D. E. Shaw研究所的單一兵博士等曾在2020年發(fā)表文章,描述了通過比較優(yōu)秀計(jì)算機(jī)安騰看到的“動(dòng)起來的蛋白質(zhì)”的畫面:利用超算安騰的超長時(shí)間模擬,觀察到結(jié)合在蛋白表面的成藥小分子,從一個(gè)結(jié)合口袋逐步“爬行”到另一個(gè)結(jié)合口袋,在此過程中蛋白構(gòu)象發(fā)生變化,其隱匿口袋打開。類似這樣的研究成果在過去是不可想象的,并且它具有能夠顛覆傳統(tǒng)生物制藥研究范式的重大意義。
目前,有部分科學(xué)家已經(jīng)開始展望將AlphaFold3這樣的AI靜態(tài)構(gòu)象預(yù)測工具,與分子動(dòng)力學(xué)這樣的動(dòng)態(tài)構(gòu)象模擬計(jì)算工具相結(jié)合的應(yīng)用場景。
首先,由于分子動(dòng)力學(xué)模擬計(jì)算的參數(shù)輸入需要的正好就是蛋白質(zhì)的靜態(tài)構(gòu)象文件(PDB文件等),因此通過AlphaFold3預(yù)測出來的大量蛋白質(zhì)靜態(tài)結(jié)構(gòu)正好可以作為分子動(dòng)力學(xué)模擬計(jì)算的輸入,通過AlphaFold3+分子動(dòng)力學(xué)模擬的組合拳,科學(xué)家和制藥學(xué)家可以針對想要研究的生物現(xiàn)象或潛在的成藥靶點(diǎn)和成藥分子,在AI模型里面進(jìn)行自由的探索和批量的預(yù)測,隨后針對其中有價(jià)值的預(yù)測成果,再通過長時(shí)間的分子動(dòng)力學(xué)模擬來補(bǔ)充更多的動(dòng)態(tài)構(gòu)象信息,來幫助發(fā)掘更多有價(jià)值的成果,最后再通過實(shí)驗(yàn)進(jìn)行比較準(zhǔn)確的驗(yàn)證??梢灶A(yù)見到,這樣的全新研究范式將會(huì)極大加速相關(guān)研究和藥物研發(fā)的效率和精度。AlphaFold3的預(yù)測本來就不需要耗費(fèi)很長時(shí)間,而類似超算安騰這樣的高性能超算又讓過去動(dòng)輒耗時(shí)數(shù)周數(shù)月的分子動(dòng)力學(xué)模擬的部分變成了幾小時(shí)就可以完成的工作量,如此一來,這樣的研究模式讓很多研究者都看到了極大的潛力。
更進(jìn)一步的,由于AI需要大量的數(shù)據(jù)進(jìn)行模型訓(xùn)練,而過去能夠獲取的生物分子結(jié)構(gòu)數(shù)據(jù)幾乎都是依靠冷凍電鏡等顯微鏡獲取的靜態(tài)構(gòu)象,因此諸如AlphaFold這樣的AI模型也只能依靠靜態(tài)構(gòu)象數(shù)據(jù)的訓(xùn)練得到靜態(tài)構(gòu)象的預(yù)測能力。試想如果能夠給AI提供大量基于分子動(dòng)力學(xué)模擬得到的生物分子動(dòng)態(tài)構(gòu)象數(shù)據(jù)來訓(xùn)練,是否就有機(jī)會(huì)在未來的AlphaFold4/5/6代實(shí)現(xiàn)動(dòng)態(tài)構(gòu)象數(shù)據(jù)的AI預(yù)測能力了呢?屆時(shí),AlphaFold應(yīng)該就可以真正升級(jí)為AlphaDynamics,到那時(shí),顏寧老師關(guān)于從非常高的時(shí)空分辨率上觀測微觀世界的目標(biāo)可能就真的徹底被有效率地實(shí)現(xiàn)了。
不過,上述很多的構(gòu)想,都需要依托于超算安騰對于分子動(dòng)力學(xué)模擬計(jì)算的加速能力,否則,構(gòu)想中的研究方法依然是需要耗費(fèi)大量時(shí)間算力的“昂貴品”。可惜的是,目前世界上僅有的幾臺(tái)超算安騰都被安置在匹茲堡超算中心和位于紐約市的D. E. Shaw研究所中,并且其上機(jī)時(shí)間會(huì)嚴(yán)格根據(jù)提交給美國國家科學(xué)院獨(dú)立專家委員會(huì)的研究提案分配,只接受美國學(xué)術(shù)機(jī)構(gòu)的使用申請,嚴(yán)格禁止中國等其他國家科學(xué)家使用。因此,對于世界上絕大多數(shù)科學(xué)家來說,分子動(dòng)力學(xué)模擬算力依舊是極其稀缺的研究資源,要想像超算安騰那樣實(shí)現(xiàn)超高速大體系長時(shí)間的分子動(dòng)態(tài)模擬,就只能依靠在傳統(tǒng)超算中心上付出數(shù)十倍于超算安騰的計(jì)算時(shí)間和成本。
對于我國來說,超高性能的分子動(dòng)力學(xué)算力將會(huì)成為決定生命科學(xué)和生物制藥這樣高精尖領(lǐng)域競爭的基石。憑借超算安騰的壟斷算力,美國一家曾經(jīng)默默無聞的AI制藥公司Relay Therapeutics,僅用18個(gè)月、不到1億美金,就確認(rèn)了一款用于治療膽管癌的高選擇性FGFR2抑制劑藥物RLY-4008的結(jié)構(gòu),這樣的研發(fā)效率打破了多年來“新藥研發(fā)費(fèi)用超10億美元,研發(fā)周期超10年”的雙十魔咒,震驚了世界,也讓Realy在醫(yī)藥圈一戰(zhàn)成名。如果再疊加AlphaFold的數(shù)據(jù)庫,藥物研發(fā)的效率很可能會(huì)進(jìn)一步大幅提升。
英偉達(dá)CEO黃仁勛曾驚嘆,“未來生命科學(xué)會(huì)像傳統(tǒng)行業(yè)那樣高度工程化。當(dāng)數(shù)據(jù)科學(xué)、人工智能和自動(dòng)化的結(jié)合時(shí),生物學(xué)會(huì)呈指數(shù)級(jí)改進(jìn),從而成為下一個(gè)黃金賽道?!?在這條黃金賽道上,我們必然不能缺席,并且高性能的超算很可能會(huì)成為賽道準(zhǔn)入的重要入場門票之一。
當(dāng)然,我們國家目前已經(jīng)是世界公認(rèn)的超算大國,在先進(jìn)的通用超算競爭領(lǐng)域,已經(jīng)有“太湖之光”“海洋之光”等足以媲美世界比較強(qiáng)性能的國產(chǎn)超算不斷在誕生和迭代超越。不過,在超算安騰制霸的分子動(dòng)力學(xué)專用超算領(lǐng)域,目前似乎還沒有效率足夠匹敵的方案出現(xiàn),我們希望在不久的將來也能擁有追趕和媲美超算安騰的、屬于我們自己的超高性能的專用領(lǐng)域超算。
免責(zé)聲明:本站刊登/轉(zhuǎn)載此文僅出于傳遞更多信息之目的,不等于贊同其觀點(diǎn)或論證其描述,不負(fù)責(zé)其真實(shí)性或有效性,相關(guān)圖文版權(quán)歸原作者所有。
(推廣)