“人工設計的性能比受進化過程啟發的設計要好得多”,論文的作者之一,來自加州大學舊金山分校藥學院的 James Fraser 表示,“當前的人工智能模型能夠通過學習蛋白質進化的過程從而實現創新,但其與正常的進化過程不同,人們能夠調整結構以獲得特定的功能。例如,讓一種酶具有超乎想象的熱穩定性或耐酸性等。”
在另一輪篩選中,研究團隊發現,即使只有 31.4% 的序列與目前已知的天然蛋白質相似,這些由 AI 生成的酶類依然顯示出活性。與之相比,天然蛋白質中發生任何一個突變就有可能讓其停止工作。
“這項工作表明,蛋白質可以被理解為是一種由氨基酸組成的‘語言’。就像單詞一個接一個地串在一起形成句子一樣,氨基酸一個接一個地串在一起形成蛋白質。”研究人員對此表示,當前的人工智能技術已經可以通過研究原始序列數據來了解酶應該如何形成,在此之后,通過 X 射線晶體學測量發現,這些人造蛋白質的原子結構完全符合其設計預期,盡管這些序列此前并不存在。
2020 年,來自硅谷的 AI 技術企業 Salesforce Research 開發了 ProGen 系統,該系統基于一種用于生成英語文本的自然語言編程發展而來,以便將自然語言處理(NLP)方法應用至蛋白質屬性分類,進一步研究并生成新的蛋白質。
“當前結果證實,自然語言處理技術雖然是為讀寫語言文本而開發的,但其也可以用于學習一些生物學的基本原理。”研究團隊認為,就像 AI 生成圖片或文本的方式一樣。有了足夠的信息,人工智能生成的內容就可以變得類似于自然界中天然存在的事物,從而難以區分。
而對于蛋白質領域而言,其體現在設計上的廣度就更加龐大。僅以溶菌酶為例,其長度最多約為 300 個氨基酸左右,但是考慮到有 20 種天然氨基酸作為制造“單元”,那么制造一個溶菌酶就存在大約 20300 種搭配。考慮到這種近乎于無限的制造可行性,使用 AI 技術輕松、快速地推動蛋白質設計工作就顯得迫在眉睫。
“當你使用大量數據訓練 AI 模型時,它們對于結構和制造規則方面表現出十分強大的學習能力,”Salesforce Research 的人工智能研究總監、該論文的通訊作者 Nikhil Naik 對此介紹道,“人工智能了解哪些‘單詞’可以同時出現,以及它們組合在一起的可行性。”
該研究的通訊作者之一、基于 AI 技術的蛋白質設計公司 Profluent Bio 創始人 Ali Madani 博士此前曾在 Salesforce Research 擔任研究科學家。任職期間,他領導了該公司的機器學習研究計劃,并且擔任 ProGen moonshot 的架構師,從而推進了蛋白質設計的生成建模項目。2022 年,他與加州大學舊金山分校教授 James Fraser 等人合作創立了 Profluent Bio,以跨學科合作的方式推動 AI 設計蛋白質工作的研究進展。
Ali Madani 認為,“這種開箱即用、從頭開始生成功能性蛋白質的能力表明人們正在進入蛋白質設計的新時代。其為蛋白質開發工程師提供了一種多功能的新工具,我們期待看到該技術在各種疾病治療應用領域中的下一步發展。”
總體而言,該研究突出了人工智能語言模型在蛋白質設計和工程中的潛力,使用深度學習語言模型對蛋白質進行精確的從頭設計將在生物學、醫學和環境問題中展示出發展前景。不過,研究人員同時指出,在使用 AI 語言模型進行蛋白質設計和制造時,必須考慮倫理影響。