《科學》雜志15日發布了一項突破性研究成果:美國斯坦福大學Arc研究所團隊利用人工智能(AI),開發出一種大規模基因組基礎模型“Evo”,翻開了生命的“密碼全書”。該模型采用先進架構,能夠以前所未有的精度,解析和設計從分子層面到整個基因組級別的DNA、RNA及蛋白質序列。其不僅能夠預測突變對細胞內部各個調控層級的影響,還能設計出用于操控細胞功能的DNA序列,這或將徹底改變合成生物學的發展路徑。

研究發表于本期科學封面。圖片來源:《科學》網站
科學家一直試圖借鑒大型語言模型的成功經驗,讓AI技術將DNA視為一種“語言”來建模,但現有模型捕捉廣泛基因組交互作用的能力有限。
此次,研究團隊開發了具備70億參數的Evo模型,能夠生成覆蓋整個基因組的DNA序列。該模型利用270萬來自進化多樣性微生物的基因組數據集進行了訓練,并首次報告了DNA領域的縮放定律,這項發現與語言和視覺領域已知的現象相呼應。實驗結果顯示,Evo在預測性和生成性的生物學任務中均表現優異,無論是預測突變對細菌蛋白質和RNA的影響,還是在模擬基因調控機制方面,都展現出了極高的準確性。
此外,Evo還能夠處理編碼序列與非編碼序列之間的復雜共進化關系,支持設計包括功能性CRISPR-Cas復合體和轉座子在內的復雜生物體系。這是首次實現蛋白質-RNA和蛋白質-DNA結構與語言模型協同設計的例子。在全基因組尺度上,Evo能夠生成超過100萬堿基對的序列,其預測和生成能力涵蓋了從分子到基因組的多層次復雜度,極大推進了人們對生物學本質的認識和操控能力。
團隊認為,后續模型將進一步擴展至人類及其他真核生物的基因組數據學習,通過增加上下文長度來更好地捕捉大基因組間的遠程相互作用。這將為生物學研究開辟新的視野,推動生命科學領域的持續發展。
基因組序列的變化,其實有助于生物體適應不斷改變的環境條件,進而驅動物種進化。隨著DNA測序技術的飛躍進步,科學家已能夠在全基因組范圍內繪制出基因組變異圖譜。再結合創新的AI算法,使得構建一個能深入理解DNA、RNA和蛋白質功能及其相互作用的綜合模型成為可能。換句話說,現在,人們擁有了一個解碼生命指令的基因組基礎模型。
橡膠樹是天然橡膠的主要來源。“橡膠樹育種面臨的主要困難在于周期長和效率低,通過常規育種方法將多抗、高產性狀聚合往往需要30~40年。”中國熱帶農業科學院橡膠研究所研究員程漢告訴《中國科學報》。然而,目......
記者宋喜群、馮帆從山東農業大學獲悉,該校農學院教授孔令讓研究團隊首次組裝了小麥遠緣雜交常用物種中間偃麥草和鵝觀草染色體水平的高質量基因組序列,解析了二者基因組結構差異與獨立多倍化演化路徑,對兩者攜帶的......
近日,中國農業科學院煙草研究所煙草功能基因組創新團隊發現煙草分枝發育“開關基因”,預示著未來作物株型調控有了新靶點。相關研究成果發表在《植物生物技術》(PlantBiotechnologyJourna......
近日,美國國家航空航天局(NASA)和IBM歐洲研究院合作,基于NASA衛星圖像訓練出一個人工智能(AI)模型,可預測未來幾小時的太陽外觀,甚至可以預測太陽耀斑的出現。“我更愿意把這個模型看作一架AI......
薇甘菊作為全球十大最具危害的惡性入侵雜草之一,以其驚人的繁殖速度和強大的環境適應性,在亞洲、太平洋地區及中國華南地區造成嚴重生態破壞。然而,其基因組層面的適應性進化機制長期未被系統解析,制約了科學防控......
近日,中國科學院大連化學物理研究所研究員周雍進團隊與上海交通大學副教授魯洪中合作,在酵母系統生物學研究中取得新進展。研究團隊通過整合分析全球1807株釀酒酵母菌株的基因組與生態位數據,構建了高覆蓋度的......
近日,中國農業科學院農業基因組研究所農業基因編輯技術創新團隊深入解析了中亞野豬種群在跨越歐亞大陸百萬年的遷徙歷程中適應環境的獨特遺傳密碼,為理解大型哺乳動物如何應對環境變化提供了全新視角。相關研究成果......
近日,一項發表于《自然》的研究報道了創新人工智能(AI)系統——Centaur。它可以預測人們在各種情況下做出的決定,并且優于利用心理學經典理論所做的推測。不同于谷歌Deepmind的AlphaGo等......
“我們引入AI(人工智能)模型,僅用3個月就可以篩選出5萬多組數據,如果用常規方法,那么需要的時間難以估量。”上海交通大學材料科學與工程學院教授周涵3日在上海接受采訪時說。北京時間7月2日深夜,上海交......
人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......