臨床代謝組學研究常見問題（一）

發布時間：2020-08-31 11:29 原文鏈接：臨床代謝組學研究常見問題（一）

　　分享一些我們舉辦完第一期微信公開課——臨床代謝組學研究策略后，所收集到的常見問題，供大家學習和參考。

　　Q：如何設置驗證集和測試集？

　　A：按我理解你想問的問題是：training set訓練集和test set測試集的設置問題。我們做分析化學、生物化學或者分子生物學的初學者通常會混淆這幾個數據集概念，通常是我們中文翻譯產生的歧義。

　　機器學習中，數據通常分為三類：Training Set訓練集，Validation Set驗證集，和Test Set測試集。B.D. Ripley在他的‘Pattern Recognition and Neural Networks’ Cambridge University Press, 1996, ISBN 0-521-46086-7 書中做了如下定義和分類。

　　訓練集Training Set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. 訓練模型或模型參數調試

　　驗證集Validation Set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. 模型或參數的優化及確定

　　測試集Test Set: A set of examples used only to assess the performance [generalization] of a fully specified classifier. 純粹測試已建立模型的預測能力

　　那么比較理想的分類的百分比是，我建議大人群的隊列研究（樣本量比較大，如 >100以上）

　　推薦1

　　推薦2

　　訓練集Training Set

　　≥50

　　驗證集Validation Set

　　測試集Test Set

　　現實情況一般受樣本量大小限制，從而演變成這樣

　　數據集

　　推薦1

　　推薦2

　　推薦3

　　訓練集+驗證集Training Set+ Validation Set

　　測試集Test Set

　　而代謝組學研究中，樣本量極少的實驗，如細胞實驗、動物實驗的代謝組學數據，也會看到不嚴謹的做法（往往也被接受）是：

　　數據集

　　訓練集+驗證集Training Set+ Validation Set

　　All

　　LOOCV: Leave One Out CV

　　K-fold CV (SIMCA：1/7-fold CV)

　　Bootstrap

　　測試集Test Set

　　N/A

　　Q：細胞樣品如何收集？使用不含EDTA的胰酶還是用刮刀收集？二者哪個更好？

　　A：細胞樣本我們發現貼壁的細胞用刮刀的方式檢測的代謝物種類比較多，但是重復性取決于細胞的種類和實驗人員本身的技術水平。所以我們實驗室在大規模收集細胞樣本的時候通常采用消化的方法。

　　Q：檢測的樣本是血漿嗎？血漿中小分子大分子物質都很多，小分子的檢測會受到大分子的干擾嗎？

　　A：您好，代謝組學可以用血漿、血清、DBS等等。在檢測之前，我們必須采用高比例的有機溶劑進行蛋白沉淀和代謝物的提取。大分子的小肽和蛋白會發生化學變性，離心沉淀或采用過濾的方式去除蛋白，從而避免大分子物質對內源性小分子代謝物產生干擾。蛋白沉淀及代謝物提取方法需經過方法學優化及考察，否則也會大大影響小分子物質的提取效率。

　　Q：請問麥特繪譜對呼出氣代謝組學研究有涉及嗎？

　　A：有的。這項研究在慢性阻塞性肺疾病COPD的研究中比較成熟，我們在肺癌、胃癌等疾病研究中已經做過了一些探索。

　　Q：組合的判斷能介紹一下嗎？

　　A：差異代謝物組合的判斷是需要技巧的，并不是說數學上統計出來p<0.05的top的組合就可以了，不懂生物學和醫學的專門研究模型的一直在這么做。組合的優化一定是統計模型+代謝通道兩者兼顧再優化的結果，是“代謝組學驅動下的分子生物學機制研究”。

　　Q：標準血清在基于液質的代謝組學研究中也一樣適用嗎？

　　A：NIST SRM1950是美國標準品物質研究所提供的，我們用這份標本實現了在不同國家、不同實驗室、不同儀器設備、不同時間采集的數據矯正，保證我們兩國（中美）四地（上海、杭州、北卡、夏威夷）產生的數據的整合。我們定量代謝組學的平臺用這份樣本作為獨立外部質控。所以，不管是氣質還是液質平臺，這份標本都適用，并且是未來實現全球代謝組學數據統一的唯一機會。

　　想了解更多臨床代謝組學的知識嗎？

　　麥特繪譜臨床代謝組學全國巡講技術交流會免費申請啦！

　　還等什么快來報名吧！

　　點擊下載申請表

更多與臨床代謝組學研究常見問題（一）相關的新聞