近日,一項刊登在國際雜志Bioinformatics上的研究論文中,來自加州大學爾灣分校和博德研究所的研究人員通過深度學習算法進行大規模基因表達預測,并在預測精度上獲得了顯著提升。
全基因組表達譜分析被廣泛應用于描述細胞在不同生理病理條件下的活動狀態,例如不同的癌組織細胞在各種給藥條件下會產生截然不同的生理反應和表達譜。然而由于其相對昂貴的成本,目前只有少數資金充足的實驗室能夠進行大規模全基因組表達譜分析。
雖然人體全基因組含有約22000個基因,但是大量數據表明絕大部分基因的表達譜之間存在高度關聯。基于此假設,博德研究所的研究人員開發出L1000芯片技術,能以十分低廉的價格(~5$/樣本)測量約1000個"標桿"基因的表達譜。在此基礎之上,研究人員便可以結合已有的全基因組表達譜數據,計算預測剩余的約21000個"目標"基因的表達譜。目前研究人員采用基于線性回歸的計算模型進行預測,而大量實驗表明基因表達譜之間存在廣泛的非線性關聯。因此目前的計算模型在預測精度上還受到一定限制。
來自加州大學爾灣分校的研究人員通過大規模多任務深度學習網絡進行"目標"基因表達譜預測,在原有線性回歸模型的基礎上將預測精度提高了15.33%。進一步分析表明,在約21000個"目標"基因中,深度學習算法在99.97%的基因上獲得了更加準確的預測精度。通過查看深度學習網絡各層之間的權值,研究人員發現深度學習網絡自動捕獲了全基因表達譜之間的非線性關聯,從而部分解釋了深度學習網絡相較于線性回歸模型的優勢。研究人員在文章的最后開放了GitHub源代碼,并提供了對NIH LINCS計劃約130萬個樣本表達譜預測結果的下載。
文章共同一作Yi Li表示,在過去幾年中深度學習方法在傳統AI問題上已經取得了長足進展,但是在計算生物和生物信息學上的應用,從2015年開始才在DNA序列分析上嶄露頭角。隨著各種大規模生物數據集的公布(如NIH LINCS計劃)以及各種開源工具的普及(如果谷歌的深度學習開源框架TensorFlow),相信深度學習未來將在更多其他類型的生物數據分析上取得進展。
旗葉夾角是決定小麥群體大小、群體光能攔截效率以及通風透光性能的關鍵農藝性狀,是小麥株型的重要構成因素之一。旗葉夾角因長期依賴人工測量,導致效率低、精度差、主觀性強,難以滿足大規模精準育種和栽培管理的需......
傅里葉疊層成像是一種新興的計算成像技術,其成像的正向模型包括光瞳函數的低通濾波、光瞳在頻域內的掃描采樣、傅里葉變換和復雜的成像噪聲污染。傳統基于深度神經網絡學習(如卷積神經網絡)方法在遠距離場景下,環......
時間序列預測是大規模數據無損壓縮和極端天氣預報等領域的核心技術。隨著應用場景多樣化和數據復雜性提升,現有模型在異構數據的統一表達、長序列結構依賴建模、極端天氣波動捕捉等方面存在挑戰。中國科學院計算機網......
近日,浙江大學醫學院附屬第二醫院童璐莎、高峰教授團隊,聯合浙江大學生物儀器與工程學院趙立教授團隊,成功開發出一種用于區別急性自發性腦出血的可解釋性的人工智能模型,該模型針對急性腦葉出血發病兇險,病因鑒......
華南農業大學教授劉柏平團隊與香港科技大學講師常富杰、華南師范大學教授羅瓊團隊合作,首次揭示染色質物理特性中的DNA壓縮密度是驅動染色質拓撲關聯結構域形成的關鍵因素,為理解基因組三維結構形成機理提供了全......
最近,印度理工學院(位于德里)化學工程系進行了一項研究,使用液相色譜-質譜聯用技術(LC–MS)來區分單克隆抗體(mAb)中的異變體(糖型),能夠對其進行表征,揭示了在完整水平上可辨識的峰。盡管商業軟......
表觀遺傳指的是在不改變DNA序列的情況下,基因表達和生物性狀的可繼承變化。細胞命運決定包括細胞身份的維持和轉換,這就涉及到表觀遺傳信息的繼承性和可塑性,是生命科學領域的重點前沿方向。生命的"......
4月30日,華南理工大學食品科學與工程學院黃明濤教授課題組對釀酒酵母中的未折疊蛋白響應元件(UPRE)進行了改造,并應用于基因表達的動態調控。該成果以“TailoredUPRE2variantsfor......
科技日報北京4月1日電 (記者張夢然)美國馬薩諸塞大學阿默斯特分校生物學家領導的跨學科小組最近發表了一項史無前例的研究:調查了18種靈長類動物的基因表達與大腦進化之間的聯系。研究成果發表在《......
近日,中國科學院水生生物研究所畢永紅團隊聯合德國卡爾斯魯厄工學院,研發出基于大數據挖掘和深度學習的有害藻類水華預警系統。相關研究成果作為封面文章,發表在《環境科學與技術》(EnvironmentalS......