在全球AI競(jìng)技場(chǎng)上,美國憑借先發(fā)優(yōu)勢(shì),在AI行業(yè)長期占據(jù)領(lǐng)先地位。然而,近期DeepSeek推出的低成本且高性能的開源模型R1,在通用AGI領(lǐng)域挑戰(zhàn)了現(xiàn)有技術(shù)范式。面對(duì)這一創(chuàng)新,Meta迅速展開研究,OpenAI等AI巨頭也被迫加快迭代步伐以跟進(jìn)。DeepSeek的突破不僅顯示了美國在AI領(lǐng)域的長期主導(dǎo)地位并非不可撼動(dòng),也改變了全球?qū)χ袊髽I(yè)的刻板印象——中國企業(yè)正從技術(shù)的模仿者,躍升為前沿創(chuàng)新的引領(lǐng)者。
要實(shí)現(xiàn)在全球AI競(jìng)賽中的領(lǐng)先地位,必須注重通用AGI與垂直AI的協(xié)同發(fā)展。作為AI的基石,通用AGI具備強(qiáng)大的認(rèn)知和適應(yīng)能力,能夠處理廣泛的復(fù)雜任務(wù),是實(shí)現(xiàn)智能社會(huì)的核心支撐;而垂直AI則專注于與特定行業(yè)的深度融合,依托豐富的領(lǐng)域數(shù)據(jù)和專業(yè)知識(shí),強(qiáng)調(diào)應(yīng)用落地,具有更強(qiáng)的短期商業(yè)化潛力,是各行各業(yè)獲得增量的關(guān)鍵動(dòng)力。
以AI制藥為例,中國科學(xué)院院士陳凱先在公開場(chǎng)合表示,AI為制藥行業(yè)帶來的潛在價(jià)值可達(dá)1.2萬億美元。他指出,國外研究顯示,人工智能技術(shù)的應(yīng)用可以將藥物設(shè)計(jì)時(shí)間縮短70%,并將藥物設(shè)計(jì)成功率提升10倍。
從全球市場(chǎng)格局來看,美國在AI制藥領(lǐng)域處于領(lǐng)先地位。據(jù)貝哲斯咨詢報(bào)告,2024年,美國在全球 AI制藥市場(chǎng)的占比高達(dá)54.4%,而英國和歐盟各占約12%。與之相比,以中國為主的亞太地區(qū),仍處于起步階段。
顯然,我國醫(yī)藥行業(yè)尚未迎來屬于自己的“DeepSeek”時(shí)刻,關(guān)鍵原因之一在于尚未實(shí)現(xiàn)底層技術(shù)的突破。例如,DeepMind的AlphaFold就屬于“卡脖子”的核心技術(shù)。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具AlphaFold是AI在生命科學(xué)應(yīng)用領(lǐng)域的標(biāo)桿,極大推動(dòng)了全球生物醫(yī)學(xué)研究的進(jìn)展。通過深度學(xué)習(xí)算法,AlphaFold能夠根據(jù)蛋白質(zhì)的氨基酸序列預(yù)測(cè)其三維結(jié)構(gòu),解決了長期困擾生物學(xué)家的難題,并為藥物研發(fā)提供了重要基礎(chǔ)。它使研究人員能更準(zhǔn)確地理解藥物靶點(diǎn)的結(jié)構(gòu),從而設(shè)計(jì)出更有效的藥物分子。
目前,AlphaFold3已開源,可用于非商業(yè)用途的研究。對(duì)此,復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長馬劍鵬曾評(píng)論說,“有些人說AlphaFold開源了,我們國家不用搞了,這是大錯(cuò)特錯(cuò)。首先,他們所謂的開源只是表層結(jié)構(gòu)開源了,底層技術(shù)沒有開源。第二,你把它拿來你只能做他們的東西,你沒有辦法提高,就像航空發(fā)動(dòng)機(jī)你買來可以,你能往前在進(jìn)一步嗎?不可能!
當(dāng)前,我國仍處于探索和模仿AlphaFold的階段,在構(gòu)建蛋白質(zhì)靜態(tài)結(jié)構(gòu)數(shù)據(jù)庫方面,部分研究方法借鑒了AlphaFold的思路,并幾乎完全聚焦于研發(fā)更優(yōu)的算法以實(shí)現(xiàn)超越。盡管投入了大量科學(xué)研究資源,實(shí)際效果并不理想。
那么,如何復(fù)刻DeepSeek模式,實(shí)現(xiàn)“從模仿到超越”呢?
回顧DeepSeek的技術(shù)路徑,他們沒有簡(jiǎn)單地追隨傳統(tǒng)大模型的技術(shù)路線,而是通過一系列創(chuàng)新設(shè)計(jì),實(shí)現(xiàn)了顯著的性能提升和成本優(yōu)化。例如,DeepSeek的R1采用了混合專家架構(gòu)(MoE),取代了傳統(tǒng)Transformer架構(gòu)中的前饋網(wǎng)絡(luò)(FFN)層。這一架構(gòu)設(shè)計(jì)不僅保持了模型的高性能,還顯著降低了計(jì)算量和顯存占用。
再從客觀角度分析AlphaFold的優(yōu)劣勢(shì)。盡管AlphaFold在蛋白質(zhì)靜態(tài)結(jié)構(gòu)預(yù)測(cè)方面表現(xiàn)出色,但也存在一些先天的局限性。其訓(xùn)練數(shù)據(jù)主要來源于實(shí)驗(yàn)數(shù)據(jù),擅長靜態(tài)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),但在蛋白質(zhì)動(dòng)態(tài)構(gòu)象變化建模上存在明顯短板,難以精準(zhǔn)模擬蛋白質(zhì)折疊路徑、構(gòu)象轉(zhuǎn)換以及相互作用機(jī)制,尤其是在靶蛋白與分子對(duì)接時(shí),AlphaFold的預(yù)測(cè)結(jié)果可能存在較大偏差。此外,AlphaFold的訓(xùn)練數(shù)據(jù)高度依賴靜態(tài)蛋白質(zhì)結(jié)構(gòu)庫,而這些數(shù)據(jù)的增長速度較慢,現(xiàn)有的氨基酸序列和蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)量有限,且許多數(shù)據(jù)已經(jīng)得到充分利用,無法為新的預(yù)測(cè)任務(wù)提供更多支持。
因此,借鑒DeepSeek的成功經(jīng)驗(yàn),同時(shí)規(guī)避AlphaFold的局限,我們可以制定以下三步策略,以實(shí)現(xiàn)從“模仿”到“超越”的突破:
技術(shù)路徑:選擇構(gòu)建蛋白質(zhì)動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫
蛋白質(zhì)在生物體內(nèi)并非靜態(tài)存在,其功能和行為與動(dòng)態(tài)變化密切相關(guān)。許多生物過程依賴于蛋白質(zhì)的動(dòng)態(tài)變化,而這些變化對(duì)于藥物設(shè)計(jì)和分子對(duì)接至關(guān)重要。因此,我們可以跳出由AlphaFold主導(dǎo)的靜態(tài)結(jié)構(gòu)預(yù)測(cè)框架,轉(zhuǎn)而探索動(dòng)態(tài)結(jié)構(gòu)預(yù)測(cè),以推動(dòng)技術(shù)的跨越式進(jìn)展。
構(gòu)建動(dòng)態(tài)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫是實(shí)現(xiàn)技術(shù)跨越的核心步驟。傳統(tǒng)的蛋白質(zhì)靜態(tài)結(jié)構(gòu)數(shù)據(jù)庫僅包含蛋白質(zhì)在特定條件下的單一結(jié)構(gòu),而動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫則能夠記錄蛋白質(zhì)在不同狀態(tài)下的構(gòu)象變化、能量狀態(tài)及其與其他分子的相互作用。這種轉(zhuǎn)變不僅能更全面地反映蛋白質(zhì)的生物學(xué)功能,還能為藥物發(fā)現(xiàn)和分子設(shè)計(jì)提供更有價(jià)值的數(shù)據(jù)支持。
分子動(dòng)力學(xué)模擬是構(gòu)建此類動(dòng)態(tài)數(shù)據(jù)庫的關(guān)鍵工具。通過模擬原子間的相互作用力,分子動(dòng)力學(xué)模擬能夠在納秒到微秒的時(shí)間尺度上追蹤蛋白質(zhì)的運(yùn)動(dòng)軌跡,從而捕捉其構(gòu)象變化。為了確保模擬結(jié)果的準(zhǔn)確性,還需結(jié)合實(shí)驗(yàn)技術(shù)(如核磁共振、冷凍電子顯微鏡)進(jìn)行驗(yàn)證。例如,核磁共振可以提供溶液中蛋白質(zhì)的結(jié)構(gòu)信息,而冷凍電子顯微鏡則適用于觀察較大蛋白質(zhì)復(fù)合物的結(jié)構(gòu)細(xì)節(jié)。
例如,復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的Dynamic PDB數(shù)據(jù)集,通過模擬捕捉了約12,600個(gè)蛋白質(zhì)的構(gòu)象變化,并提供了包括原子速度、力、勢(shì)能和動(dòng)能等物理屬性的全面信息,為研究提供了寶貴的數(shù)據(jù)支持。該數(shù)據(jù)集提供了精細(xì)的時(shí)間采樣間隔(1皮秒),能夠捕捉更詳細(xì)的蛋白質(zhì)動(dòng)態(tài)路徑,有助于研究者更全面地理解蛋白質(zhì)的重要構(gòu)象變化。
數(shù)據(jù)積累:打造規(guī);、高質(zhì)量的蛋白質(zhì)動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫
AlphaFold之所以能在蛋白質(zhì)靜態(tài)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域取得顯著進(jìn)展,主要得益于超過20萬套蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)和上億條蛋白質(zhì)序列的支持。這些豐富的數(shù)據(jù)資源為人工智能模型的訓(xùn)練和優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。然而,如果我們的動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫在規(guī)模和多樣性上有所欠缺,則難以全面捕捉蛋白質(zhì)復(fù)雜的動(dòng)態(tài)變化。因此,構(gòu)建一個(gè)規(guī)模至少與AlphaFold相當(dāng),甚至更大的蛋白質(zhì)動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫是實(shí)現(xiàn)進(jìn)一步突破的關(guān)鍵。
構(gòu)建大規(guī)模、高質(zhì)量、多維度的動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫的核心在于實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)的多維度采集和持續(xù)積累。分子動(dòng)力學(xué)模擬可以提供關(guān)于蛋白質(zhì)動(dòng)態(tài)行為的原子級(jí)別信息,是理解蛋白質(zhì)動(dòng)態(tài)的重要工具。同時(shí),為了更全面地捕捉蛋白質(zhì)在其復(fù)雜生物環(huán)境中的動(dòng)態(tài)變化,我們需要整合多種互補(bǔ)的實(shí)驗(yàn)方法。其中,高通量蛋白質(zhì)組學(xué)技術(shù),例如數(shù)據(jù)非依賴型采集(DIA)質(zhì)譜分析,能夠快速且準(zhǔn)確地鑒定并定量細(xì)胞和組織中的數(shù)千種蛋白質(zhì),為構(gòu)建大規(guī)模動(dòng)態(tài)結(jié)構(gòu)數(shù)據(jù)庫提供海量且高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù),并逐步實(shí)現(xiàn)深度覆蓋。 此外,通過構(gòu)建和分析動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),可以深入探索蛋白質(zhì)在不同生物過程中的調(diào)控機(jī)制。這些網(wǎng)絡(luò)揭示了蛋白質(zhì)間相互作用的時(shí)間和空間動(dòng)態(tài)變化,為進(jìn)一步研究提供了重要線索。
同時(shí),確保數(shù)據(jù)質(zhì)量至關(guān)重要,這需要嚴(yán)格進(jìn)行實(shí)驗(yàn)驗(yàn)證、數(shù)據(jù)標(biāo)準(zhǔn)化和整合,以保證數(shù)據(jù)的準(zhǔn)確性、一致性和可用性。只有這樣,才能為AI模型的訓(xùn)練和優(yōu)化提供更全面、更可靠的數(shù)據(jù)基礎(chǔ),從而推動(dòng)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的創(chuàng)新和發(fā)展。
研發(fā)范式:“計(jì)算+實(shí)驗(yàn)”,加速AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用
在完成動(dòng)態(tài)數(shù)據(jù)積累后,為了更準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu)和功能,我們可以借助“計(jì)算+實(shí)驗(yàn)”的新型研發(fā)范式,加速人工智能在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的應(yīng)用。
“計(jì)算+實(shí)驗(yàn)”方法利用計(jì)算機(jī)科學(xué)、數(shù)學(xué)模型和算法預(yù)測(cè)和分析實(shí)驗(yàn)結(jié)果,從而在實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和結(jié)果驗(yàn)證中提供支持。這種方法尤其適用于復(fù)雜系統(tǒng)的分析與優(yōu)化,特別是在生命科學(xué)和藥物研發(fā)領(lǐng)域。通過AI進(jìn)行初步預(yù)測(cè)、分子動(dòng)力學(xué)模擬驗(yàn)證與優(yōu)化,并借助實(shí)驗(yàn)技術(shù)進(jìn)行進(jìn)一步驗(yàn)證,形成了一個(gè)持續(xù)的反饋閉環(huán),不斷改進(jìn)模型并提高預(yù)測(cè)精度。
具體而言,AI可以用于對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行初步預(yù)測(cè),而分子動(dòng)力學(xué)模擬則用于驗(yàn)證和優(yōu)化這些預(yù)測(cè)結(jié)果。通過這種方式,模擬結(jié)果不僅能夠反饋至AI模型改進(jìn)其算法,還能通過實(shí)驗(yàn)技術(shù)(如冷凍電子顯微鏡、核磁共振等)進(jìn)行驗(yàn)證,將實(shí)驗(yàn)數(shù)據(jù)納入訓(xùn)練數(shù)據(jù)集,從而增強(qiáng)AI模型的泛化能力。
美國人工智能制藥公司Relay Therapeutics的案例驗(yàn)證了這一方法的有效性。Relay利用第二代安騰超級(jí)計(jì)算機(jī)進(jìn)行長時(shí)間的分子動(dòng)力學(xué)模擬,將傳統(tǒng)的靜態(tài)結(jié)構(gòu)基礎(chǔ)藥物設(shè)計(jì)升級(jí)為動(dòng)態(tài)運(yùn)動(dòng)基礎(chǔ)的藥物設(shè)計(jì),從而觀察到生物學(xué)相關(guān)的蛋白質(zhì)運(yùn)動(dòng),并結(jié)合冷凍電子顯微鏡和 X 射線晶體學(xué)等實(shí)驗(yàn)技術(shù)驗(yàn)證和優(yōu)化模擬結(jié)果。通過對(duì)FGFR2激酶的詳細(xì)分析,他們發(fā)現(xiàn)了此前未知的口袋結(jié)構(gòu),深入理解了靶點(diǎn)蛋白的運(yùn)動(dòng)及其與功能之間的關(guān)系。最終,Relay在18個(gè)月內(nèi)以低于1億美元的成本成功研發(fā)出治療膽管癌的新藥RLY-4008,突破了傳統(tǒng)藥物研發(fā)中的“10億美元、10年周期”的行業(yè)瓶頸。
可見,在超算安騰的支持下,基于“計(jì)算+實(shí)驗(yàn)”研發(fā)范式,分子動(dòng)力學(xué)模擬所提供的動(dòng)態(tài)數(shù)據(jù)精度已接近實(shí)驗(yàn)精度,為推動(dòng)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和藥物研發(fā)開辟了新的可能性。
當(dāng)下,中國式創(chuàng)新模式已經(jīng)被海外科技圈認(rèn)可。Uber優(yōu)步的創(chuàng)始人特拉維斯Travis Kalanick最近在參加All In播客節(jié)目時(shí),談到了他對(duì)中國式創(chuàng)新的理解,當(dāng)時(shí)Uber在中國推出的任何新功能都能被滴滴等對(duì)手以“史詩般的強(qiáng)度”來復(fù)制,但隨著時(shí)間推移,滴滴在本地化服務(wù)、支付整合等方面進(jìn)行了創(chuàng)新,最終在某些方面超越了Uber,成為行業(yè)的領(lǐng)導(dǎo)者。展望未來,我們有理由相信,在不久的將來,各行各業(yè)將會(huì)涌現(xiàn)出更多具有中國特色的創(chuàng)新模式。