• <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    發布時間:2025-07-01 10:40 原文鏈接: 基因組密碼被解鎖:深度學習模型破解非編碼區奧秘

    人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子效應仍是重大挑戰。現有深度學習模型在預測功能基因組特征時,往往在輸入序列長度與預測分辨率之間難以兼顧,同時在多模態預測方面也存在局限性,這極大地制約了人們對基因組調控密碼的理解。

    近日,谷歌DeepMind公司推出一種深度學習模型——AlphaGenome,能夠更全面、更準確地預測人類DNA序列中的單個變異如何影響基因調控的廣泛生物過程。AlphaGenome可分析多達100萬個DNA堿基對,以單堿基分辨率預測與調控活動相關的數千種分子特性;并通過比較突變序列和未突變序列之間的預測結果,來評估基因變異的影響。在超20項基準測試中,該模型表現優異、達到或超過了現有最強外部模型的性能,為科研人員提供了從序列進行基因組軌跡和變異效應預測的工具。

    據悉,DeepMind將通過AlphaGenome API(https://github.com/google-deepmind/alphagenome),提供預覽版AlphaGenome用于非商業研究,并計劃在未來發布該模型。

    與現有DNA序列模型相比,AlphaGenome的特點包括:

    高分辨率的長序列上下文輸入預測

    AlphaGenome模型以長達100萬個堿基對的DNA序列作為輸入,對數千個功能基因組軌跡進行預測,且預測分辨率可達單堿基級別。

    ◆綜合多模態預測

    AlphaGenome能夠預測11種分子模態,包括基因表達(RNA-seq、CAGE-seq、PRO-cap)、剪接模式(剪接位點、使用率、連接點)、染色質狀態(ATAC-seq、組蛋白修飾等)及染色質可及性(Hi-C),提供更全面的基因調控信息。

    ◆高效變異評分

    除預測各種分子特性外,AlphaGenome還能在1秒內高效地評估基因變異對所有這些特性的影響。

    ◆新穎的剪接位點建模能力

    AlphaGenome能夠直接從序列中明確模擬剪接點的位置及表達水平,為理解遺傳變異如何影響RNA剪接提供更深入的見解。


    圖1. AlphaGenome模型架構、訓練機制和綜合性能評估

    AlphaGenome是首個將多模態預測、長序列上下文和單堿基分辨率統一到單一框架中的模型。AlphaGenome采用了U-Net網絡架構,借助卷積層捕捉短序列模式,通過Transformer模塊建模長距離依賴關系,實現了對100萬個DNA堿基對的高效處理。模型包含序列編碼器、Transformer模塊、成對交互模塊、解碼器和任務特定輸出頭五個核心組件,可生成一維和二維的序列表示,分別用于基因組軌跡和染色質接觸圖的預測。

    在訓練過程中,研究團隊采用預訓練和蒸餾兩階段策略,對ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共聯盟數據進行訓練這種訓練策略使得AlphaGenome在NVIDIA H100 GPU上單次預測耗時不到一秒,極大地提高了大規模變異效應預測的效率。

    接下來,研究團隊在人類和小鼠基因組中對AlphaGenome進行跨模態基準測試。

    在24項基因組軌跡預測任務中,AlphaGenome表現出色,在其中22項中性能超越外部模型。如在基因表達預測方面,與多模態模型Borzoi3相比提升17.4%;染色質構象方面,接觸圖譜相關性較Orca提升6.3%;轉錄起始軌跡方面,PRO-cap信號預測相關性較ProCapNet8提升15%;在可及性上也優于ChromBPNet10。

    在26項變異效應預測評估任務中,AlphaGenome同樣性能優異,在24項中優于外部模型。以剪接變異效應預測為例,其是首個能同時預測剪接位點、剪接位點使用情況和連接位點的系統。在ClinVar致病性變異預測等多個基準測試中,其復合評分表現突出,在6項基準測試中達到了state-of-the-art (SOTA)水平。

    對于基因表達調控相關任務,AlphaGenome在表達數量性狀位點(eQTL)效應預測上優勢明顯,其對eQTL效應大小和方向的預測準確性均超越了Borzoi等模型。在染色質可及性和轉錄因子結合變異預測中,AlphaGenome在多種族的caQTL、dsQTL和bQTL評估中均實現領先性能。

    圖2.AlphaGenome與其他方法的比較

    在解析T細胞急性淋巴細胞白血病的致癌機制時,AlphaGenome精準重現TAL1基因三種致癌變異分子效應:5'新增強子突變、內含子單核苷酸變異和3'新增強子等三類變異可通過上調TAL1癌基因表達發揮作用,展現了其在解析復雜變異機制方面的能力。

    圖3.AlphaGenome解析跨模態的變異效應

    最后,研究團隊還進行了消融實驗,以驗證對AlphaGenome性能有較大影響的關鍵設計和訓練決策。結果顯示,1 bp分辨率訓練效果最佳,尤其適用于剪接和可及性等精細任務;1 Mb輸入序列訓練并結合完整背景預測性能最優;蒸餾策略可在保證性能的同時大幅降低預測成本;多模態學習則有助于提升模型的整體預測能力。

    紀念斯隆凱特琳癌癥中心的研究員Caleb Lareau博士表示:“這是該領域的一個里程碑。我們第一次擁有了一個單一的模型,其能夠將遠程上下文、基礎精度和各種基因組任務的最先進的性能統一起來。”

    AlphaGenome首次實現兆堿基尺度下多模態調控變異的統一預測,大幅提升了變異效應預測的準確性與全面性,為疾病理解、合成生物學及功能基因組學研究提供了強有力的工具。雖然該模型當前仍存在遠端調控元件預測精度不足、條件特異性效應建模待改進等局限,未來通過整合單細胞數據、拓展數據模態等研究方向的探索,相信AlphaGenome有望進一步完善,為破解基因組調控密碼、推動生命科學研究持續貢獻力量。

    參考文獻:

    1.https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome

    2.https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf


    相關文章

    新研究破譯薇甘菊入侵基因密碼

    薇甘菊作為全球十大最具危害的惡性入侵雜草之一,以其驚人的繁殖速度和強大的環境適應性,在亞洲、太平洋地區及中國華南地區造成嚴重生態破壞。然而,其基因組層面的適應性進化機制長期未被系統解析,制約了科學防控......

    研究開發出酵母泛基因組數字模型與代謝網絡分析方法

    近日,中國科學院大連化學物理研究所研究員周雍進團隊與上海交通大學副教授魯洪中合作,在酵母系統生物學研究中取得新進展。研究團隊通過整合分析全球1807株釀酒酵母菌株的基因組與生態位數據,構建了高覆蓋度的......

    基因組大數據還原野豬橫跨歐亞的百萬年遷徙歷程

    近日,中國農業科學院農業基因組研究所農業基因編輯技術創新團隊深入解析了中亞野豬種群在跨越歐亞大陸百萬年的遷徙歷程中適應環境的獨特遺傳密碼,為理解大型哺乳動物如何應對環境變化提供了全新視角。相關研究成果......

    基因組密碼被解鎖:深度學習模型破解非編碼區奧秘

    人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......

    基因組密碼被解鎖:深度學習模型破解非編碼區奧秘

    人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......

    基因組密碼被解鎖:深度學習模型破解非編碼區奧秘

    人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......

    谷歌DeepMind推出AlphaGenome:AI破解40億年DNA密碼,開啟基因組研究新紀元

    基因組,宛如生命的藍圖,藏在我們每一個細胞之中。這套完整的DNA指令集,主導著生命體從外觀功能到生長繁殖的幾乎每一個方面,甚至是對疾病抵御的能力。2003年,人類基因組測序完成,讓人類首次窺見了DNA......

    “女媧”基因組計劃發布第八項成果

    近日,中國科學院生物物理研究所徐濤研究組和何順民研究組在《基因組、蛋白質組與生物信息學報》雜志發表論文。兩位科學家牽頭的“女媧”中國人群基因組計劃旨在構建中國人群的全基因組數據資源,支撐中國人群的疾病......

    適應雨林?古人類混血?東南亞人群基因組被破譯

    中外團隊歷時10年,在東南亞人群基因組研究領域取得里程碑式突破。北京時間14日晚,“東南亞人群基因組計劃”首期成果發表在國際期刊《自然》上,東南亞人群的遺傳演化之謎被揭開。論文通訊作者之一、中國科學院......

    東南亞人群基因組計劃首期成果發表

    東南亞是全球最重要的人類演化區域之一。該地區人群擁有極高的遺傳多樣性,但基因組學研究長期缺失,制約了人類環境適應性進化與疾病遺傳機制的深度解析,因而被稱為全球人類基因組研究“最后一塊拼圖”。中國科學院......

  • <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    伊人久久大香线蕉综合影院首页