背景
植物科學中常以高通量的方式(組學)研究生物體不同層次的復雜性,通常整合多組學數據以獲得生物體發育或在不同環境條件下的生物學的準確圖像。目前,全長異構體測序(Iso-Seq)與短讀長轉錄組學和蛋白質組學的整合已經成功地用于增加蛋白質異構體的表征,不僅有助于提高基因組和轉錄組的質量,而且有助于通過蛋白質基因組學方法鑒定由單個基因序列產生的不同功能的蛋白質異構體的多樣性。
西班牙Jesús Pascual團隊在plants上發表了題為“The Integration of Data from Different Long-Read Sequencing Platforms Enhances Proteoform Characterization in Arabidopsis”的研究。
在本文中,研究人員分析了Iso-Seq和ONT-DRS數據對擬南芥質譜蛋白質組學數據中蛋白質異構體表征的影響。結果表明,將來自Iso-Seq和ONT-DRS的長讀長測序數據整合到蛋白質基因組學中,可以增強蛋白質組學研究中的蛋白質異構體的表征和發現。這給當前的蛋白質搜索算法帶來了挑戰,同時也為進一步研究生物系統提供了一個很好的機會。
結果
1 研究中所用的不同的擬南芥蛋白質數據庫
研究人員選擇了一個與衰老葉片相關的蛋白質組學數據集,并使用三個不同的蛋白質數據庫進行蛋白質異構體對比:AtRTD2、AtRTD3(包含Iso-seq高置信度轉錄組數據),一個定制的混合數據庫AtONT-DRS(包含AtRTD3與葉片ONT-DRS轉錄組學數據)。其中AtRTD3是最新版本的轉錄組數據集,主要基于從一系列樣品和處理中產生的Iso-Seq數據,包括不同非生物脅迫下的器官和植物樣本。
圖1. 本研究中使用的不同蛋白質數據庫概述。
分析表明AtRTD2包含82,190個轉錄本,64,484個蛋白異構體,每個蛋白家族1.9個;相比之下,AtRTD3包含169,503個轉錄本,109,706個蛋白異構體,每個蛋白家族2.9個,轉錄本數目是上一版本AtRTD2中的兩倍;AtONT-DRS包含的轉錄本數量要少得多,包含43,811個轉錄本,38,092個蛋白異構體,每個蛋白家族1.9個(圖1A)。
為了避免算法低估AtONT-DRS識別蛋白質異構體的潛力,研究人員還將AtONT-DRS附加到AtRTD3中 (AtRTD3_AtONT-DRS)中執行蛋白質搜索算法(補充數據S4)。AtRTD3_AtONT-DRS包含212,308個轉錄本,包含了37,937個蛋白質家族的118,597種蛋白質異構體,每個蛋白質家族有3.1種蛋白質異構體(圖1A)。
總之,不同的蛋白質數據庫代表不同的擬南芥蛋白質組,包含不同的蛋白質異構體以及潛在的新型蛋白異構體。值得注意的是,Iso-seq生成的轉錄組數據(AtRTD3)在蛋白質水平上提供了更多的豐富度和復雜性,是目前擬南芥最準確和全面的轉錄組數據集。
2 Iso-Seq和ONT-DRS數據的整合增強了蛋白質組學數據中蛋白質異構體的表征
利用AtRTD2、AtRTD3和AtRTD3_AtONT-DRS對擬南芥衰老葉片的24個部分組成的蛋白質組學數據進行蛋白質blast,這是擬南芥蛋白質組質譜分析流程的一部分[29]。這三個數據庫鑒定出相似數量的蛋白質家族,它們之間有12,057個蛋白質重疊(圖2A)。有趣的是,260個蛋白被AtRTD2單獨鑒定,67個蛋白被AtRTD3_AtONTDRS單獨鑒定(圖2B)。
圖2. 擬南芥衰老葉片的蛋白質組學數據中鑒定出的蛋白質家族。
在蛋白質水平上,隨著數據庫中蛋白質數量的增加,鑒定的蛋白異構體的數量減少(圖3A)。研究人員在三個數據庫中發現了3,979個蛋白質異構體的重疊(圖3A)。此外,AtRTD3和AtRTD3_AtONT-DRS之間存在明顯的重疊,考慮到后者的構建方式,這并不奇怪(圖3B)。AtRTD2和AtRTD3的交集包括385個蛋白異構體(圖3B)。此外,AtRTD2單獨鑒定出2,437種蛋白,AtRTD3鑒定出258種,AtRTD3_AtONT-DRS鑒定出199種(圖3B)。
關于與AtRTD2鑒定的大量蛋白質家族和蛋白質異構體進行進一步分析揭示了一個比較復雜的情況。AtRTD2中包含的大量蛋白家族不存在于AtRTD3或AtRTD3_AtONTDRS中。進一步分析AtRTD2鑒定的肽及其分配到的蛋白質異構體,并與AtRTD3_AtONT-DRS鑒定的肽進行比較,發現在某些情況下,AtRTD2中給定蛋白質異構體在使用AtRTD3_AtONT-DRS時要么分配到另一個蛋白質異構體,要么分配到另一個蛋白質序列非常相似但屬于不同蛋白質家族的蛋白質異構體。這個觀察結果證明了測試的數據庫版本之間的注釋不一致。這可能是由于在蛋白質搜索過程中,從不同的蛋白質異構體數據集生成的肽和鑒定置信度差異的結果。
圖3. 擬南芥衰老葉片MS蛋白質組學數據中鑒定的蛋白質異構體。
3 基于Iso-Seq和ONT-DRS測序數據鑒定更多與葉片衰老相關的蛋白質異構體
本研究中使用的蛋白質組學數據來自擬南芥衰老葉片。為了進一步探索新的蛋白質異構體,研究人員采用了一種組合方法,將PacBio Iso-Seq和ONT-DRS轉錄組學數據納入蛋白質數據庫:首先對樣本的RNA-Seq數據進行了差異基因表達分析,共發現4,277個差異表達基因(log2FC > 1.5|,校正p值< 0.05))。其中,331種至少鑒定出一種來自于Iso-Seq或ONT-DRS的蛋白質異構體。然后進一步分析從長讀長蛋白質數據中鑒定出的蛋白質異構體,結果表明AtRTD3中包含的76個蛋白家族的93種Iso-Seq蛋白異構體與葉片衰老相關,如谷氨酰胺依賴性天冬酰胺合成酶1 (ASN1; AT3G47340)在衰老葉片中表達上調,其表達與細胞的糖水平有關。總之,研究人員從蛋白質家族中鑒定出了更多來自Iso-Seq的蛋白異構體和來自AtONT-DRS的蛋白異構體,這表明了長讀長轉錄組測序數據應用于蛋白質基因組學方法的潛力。
以ACO1為例,研究人員在衰老葉片的蛋白質組學數據中鑒定出了ACO1的4個蛋白異構體:來自Iso-Seq的AT4G35830.19和AT4G35830.31,來自AtONT-DRS的5a450a46-3da6-4e33-8234818a708504d8和adca2c20-e47f-4e1f-a07b-48f3fdbab3d8。這四種蛋白異構體來源于四種轉錄異構體,它們具有不同的外顯子,來自不同的可變剪接事件,具有不同的預測編碼相關特征,如過早終止密碼子(PTC)(圖4)。相比之下,AtRTD2僅包含3種ACO1蛋白異構體(補充數據S2)。
總之,包含來自Iso-seq的蛋白質信息可以鑒定與葉片衰老相關的新蛋白質異構體,還通過增加參考蛋白質組中蛋白質的覆蓋率,提高了蛋白質異構體識別的準確性。
圖4. 采用組合的長讀長蛋白質基因組學方法表征擬南芥衰老葉片中的ACONITASE 1蛋白異構體類型。
討論
從一個基因產生多種蛋白質異構體的能力代表了蛋白質功能的多樣化,并對植物生理,包括發育和脅迫反應產生影響。在這項研究中,研究人員使用蛋白質基因組學方法來評估來自第三代測序轉錄組學數據的蛋白質信息對鑒定來自于來自擬南芥衰老葉片的蛋白質組學數據的蛋白質異構體的影響。
蛋白質鑒定是任何自下而上的蛋白質組學分析工作流程的中心步驟。通常,蛋白質鑒定依賴于蛋白質數據庫,其鑒定結果的穩健性取決于所用參考蛋白質數據庫(包括注釋)的完整性和準確性。長讀長測序技術,特別是基于HiFi測序(讀長10-25 kb,準確率90%>Q30)的Iso-seq,可以無需拼接完成全長轉錄本的檢測,以高準確度的轉錄本檢測反映更加真實的蛋白異構體信息:提高蛋白質異構體鑒定的準確性;提高每個基因鑒定出的蛋白質異構體數量,發現更多新的蛋白質異構體,從而可以更好地表征擬南芥衰老葉片的蛋白質組。但同時,充分利用長讀長蛋白基因組學方法也需要新的計算開發和設計新的算法和策略,去處理日益復雜的蛋白質數據庫。
7月1日,華南農業大學教授吳珍芳團隊首次揭示了不同代謝類型豬骨骼肌的染色質空間構象及其介導的調控差異,通過整合表觀基因組學與三維基因組學分析并結合分子實驗,闡明了超級增強子調控肌纖維類型分化與轉化的分......
近日,賽納生物科技(北京)有限公司(以下簡稱“賽納生物”)與蘇州德運康瑞生物科技有限公司(以下簡稱“德運康瑞”)簽署戰略合作協議,將在空間組學領域展開深度合作,共同構建“高通量測序+空間組學”全流程解......
中國科學院華南植物園研究員康明團隊在國家自然科學基金、廣東省重點領域研發計劃、廣東基礎與應用基礎研究旗艦項目等項目的資助下,基于三種桫欏屬植物的全基因組重測序數據,在樹蕨保護基因組學研究方面取得新進展......
中國廈門,2024年9月26日——全球基因測序和芯片技術的領導者因美納以“基因組學點亮腫瘤精準醫學未來”為主題,亮相第27屆全國臨床腫瘤學大會暨2024年中國臨床腫瘤學會(CSCO)學術年會,全方位展......
科技日報北京8月6日電 (記者張佳欣)DNA包含了維持生命所需的基礎信息。理解這些信息是如何存儲和組織的,一直是20世紀最大的科學挑戰之一。現在,借助GROVER這一基于人類DNA訓練的新型......
為了更好地激發和支持中國優秀學生參與植物科學領域的研究,促進農業研究的可持續發展,先正達于2021年在學會同步設立“先正達齊爾頓研究生獎學金(SyngentaMary-DellChiltonGradu......
近日,一位名叫鄭雅婷的女生在多個社交平臺發文稱,她的碩士生導師、江南大學生物工程學院副教授楊某某將本來屬于她的論文第一作者署名占為己有。那是一篇發表于2020年6月的《分子遺傳學和基因組學雜志》(Mo......
近日,英國科研與創新署(UKRI)宣布,醫學研究理事會(MRC)、劍橋大學米爾納治療研究所(MTI)等聯合成立功能基因組學實驗室,作為英國卓越研究中心和國家資源中心,匯集英國生命健康領域學術界、產業界......
肺癌是全球癌癥致死的首位原因,而小細胞肺癌約占肺癌總數的15%,是所有肺癌亞型中惡性程度最高、預后最差的亞型,5年生存率僅為5%。與非小細胞肺癌形成鮮明對比,小細胞肺癌的治療手段單一,患者總生存率低。......
肺癌是全球癌癥致死的首位原因,而小細胞肺癌約占肺癌總數的15%,是所有肺癌亞型中惡性程度最高、預后最差的亞型,5年生存率僅為5%。與非小細胞肺癌形成鮮明對比,小細胞肺癌的治療手段單一,患者總生存率低。......