智東西(公眾號:zhidxcom)
作者 | 江宇
編輯 | 云鵬

智東西1月29日報道,今日凌晨,2024年諾貝爾化學(xué)獎得主、谷歌DeepMind CEO Demis Hassabis帶領(lǐng)團隊研發(fā)的AI基因組模型——AlphaGenome,登上了頂級期刊Nature(自然)最新一期封面。這是繼AlphaFold之后,DeepMind又一項重磅生命科學(xué)研究登上Nature。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

AlphaGenome旨在解決生物學(xué)中一個長期未解的難題:人類基因組中約98%的非編碼區(qū)域雖然不直接產(chǎn)生蛋白質(zhì),卻調(diào)控著基因的開啟、剪接與表達,其變異常常與疾病風(fēng)險密切相關(guān),但難以用傳統(tǒng)手段解析。

為此,DeepMind研究團隊構(gòu)建了一個全新AI架構(gòu),可輸入百萬堿基長度的DNA序列,并以單堿基分辨率,預(yù)測RNA表達量、剪接結(jié)構(gòu)、染色質(zhì)可及性、轉(zhuǎn)錄因子結(jié)合位點乃至三維結(jié)構(gòu)等近6000項調(diào)控特征

該項目論文題為《Advancing regulatory variant effect prediction with AlphaGenome(借助AlphaGenome技術(shù)提升調(diào)控變異的效應(yīng)預(yù)測能力)》,也是次有AI模型實現(xiàn)了對人類基因調(diào)控“從序列到功能”的統(tǒng)一建模

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

過去40億年積淀的生命遺傳密碼,如今正被AI工具以“統(tǒng)一建?!钡姆绞街匦陆獯a。

DeepMind在2025年6月曾通過博客預(yù)告此項目,彼時AlphaGenome已向科研界開放預(yù)覽API,重點在于構(gòu)建一個更具解釋力和泛化能力的DNA序列模型,作為一種“通用型變異解讀引擎”投入研究使用。

此次正式發(fā)表在Nature的版本中,DeepMind團隊不僅完成了全模態(tài)性能評估,更在多個疾病變異機制中展示了AlphaGenome的推理能力,包括如何準確預(yù)測TAL1致癌突變的激活機制,全面驗證了AlphaGenome在剪接、表達、染色質(zhì)狀態(tài)等關(guān)鍵通路上的預(yù)測能力。

研究者認為,這一模型將為罕見病致因定位、新型治療靶點發(fā)掘、以及合成生物學(xué)設(shè)計等方向提供強有力的通用工具。

論文鏈接:https://www.nature.com/articles/s41586-025-10014-0

一、百萬級DNA輸入和堿基級預(yù)測,突破“長序列”與“高分辨率”難題

AlphaGenome的核心創(chuàng)新之一,是首次將輸入DNA序列長度提升至100萬堿基(1Mb),同時在輸出層保持了堿基級別的預(yù)測精度。

這打破了以往模型在“長序列”與“高分辨率”之間的權(quán)衡。例如,以往的SpliceAI等模型雖然具備高分辨率,但受限于只能處理1萬堿基以內(nèi)的短序列,難以捕捉遠距離調(diào)控。

而Enformer等模型雖能處理20萬至50萬堿基的長序列,卻需犧牲精度,用128bp等為單位分箱預(yù)測,無法精準描摹剪接位點、增強子與啟動子的細粒度結(jié)構(gòu)。

在訓(xùn)練流程上,AlphaGenome采取了“預(yù)訓(xùn)練+蒸餾”的兩階段架構(gòu),通過多個TPU并行處理、序列平行化、U-Net結(jié)構(gòu)和Transformer結(jié)合,既保留了細節(jié),又擴大了上下文范圍。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome模型架構(gòu)、訓(xùn)練方案和綜合評估性能

跨24項基因組軌跡任務(wù)中,AlphaGenome在22項上超越當前最佳模型;在26項變異效應(yīng)預(yù)測中,有25項達到或超過當前SOTA模型的表現(xiàn)。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲研究團隊基因組軌道上的預(yù)測性能進行了逐項評估

二、統(tǒng)一預(yù)測機制,變異影響“一鍵總覽”

與傳統(tǒng)模型需要分別針對不同任務(wù)(如剪接、表達、染色質(zhì)結(jié)構(gòu))訓(xùn)練不同網(wǎng)絡(luò)不同,AlphaGenome是第一個可在單次推理中同時輸出11類模態(tài)(modality)預(yù)測結(jié)果的統(tǒng)一模型。

它支持從一段DNA序列中,直接推斷出RNA表達水平、剪接位點及使用情況、染色質(zhì)可達性、轉(zhuǎn)錄因子結(jié)合位點、組蛋白修飾模式、三維接觸圖譜等調(diào)控特征,且適用于人類與小鼠細胞在數(shù)千種不同細胞或組織類型中的表現(xiàn)。

這種“多模態(tài)聯(lián)合”結(jié)構(gòu)為突變解析帶來了全新視角。

研究人員可以對任意一個DNA變異,通過模型快速預(yù)測它在多個調(diào)控層級的影響,并比較參考與突變版本的差異,進而推斷該變異是否會導(dǎo)致表達上調(diào)、剪接改變,或染色質(zhì)狀態(tài)變化。

論文中特別展示了模型如何成功預(yù)測致癌突變激活TAL1基因的路徑機制,驗證了其在非編碼區(qū)變異解釋中的實際價值。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome對T-ALL中TAL1致癌突變的多模態(tài)預(yù)測示例

三、剪接預(yù)測能力升級,有望推動罕見病研究

RNA剪接異常是諸多罕見?。ㄈ缂顾栊约∥s癥、囊性纖維化)的致病根源,但傳統(tǒng)AI模型往往只能識別剪接位點本身,而難以全面解析剪接使用率及剪接連接模式(splice junction)。

AlphaGenome首次在模型中引入了剪接連接點的直接預(yù)測能力(splice junction modeling),結(jié)合位點預(yù)測與使用率分析,構(gòu)建出更完整的剪接調(diào)控圖譜。

在GTEx等數(shù)據(jù)集中,該模型成功預(yù)測多個已知致病突變對剪接的影響,在ClinVar和MPRA等數(shù)據(jù)集上亦得當前最優(yōu)的評估成績,在7個剪接效應(yīng)任務(wù)中,AlphaGenome在6個上表現(xiàn)最佳。

歷史性一刻!人類基因密碼被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome在剪接變異效應(yīng)預(yù)測任務(wù)中達到SOTA水平

這項能力對于理解非編碼變異如何引發(fā)病理剪接、用于新型診斷方法開發(fā)具有重要推動作用。

結(jié)語:繼AlphaFold之后,DeepMind用AI再解“生命之書”

AlphaGenome的出現(xiàn)不僅為DNA序列建模設(shè)立了一個全新技術(shù)基線,也為生命科學(xué)研究者打開了一扇觀察遺傳調(diào)控全貌的新窗口。

其覆蓋廣泛模態(tài)、支持長序列輸入、具備單堿基預(yù)測精度的能力,使其在解碼基因調(diào)控代碼、理解變異影響路徑、指導(dǎo)合成DNA設(shè)計等領(lǐng)域具備廣泛前景,下一代疾病機制研究、罕見病診斷及合成生物學(xué)提供了通用工具基礎(chǔ)。

隨著模型向?qū)W術(shù)界開放,AlphaGenome或?qū)⒊蔀椤盎虬鍭lphaFold”的有力繼任者。