• <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    發布時間:2020-03-09 17:59 原文鏈接: 基因表達數據分析主成分分析PCA

    • DNA微陣列基因表達數據分析

     

    主成分分析 ( Princ ipal Component Analysis , PCA ) 是一種掌握事物主要矛盾的統計分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質,簡化復雜的問題。計算主成分的目的是將高維數據投影到較低維空間。給定 n 個變量的 m 個觀察值,形成一個 n ′ m 的數據矩陣, n 通常比較大。對于一個由多個變量描述的復雜事物,人們難以認識,那么是否可以抓住事物主要方面進行重點分析呢?如果事物的主要方面剛好體現在幾個主要變量上,我們只需要將這幾個變量分離出來,進行詳細分析。但是,在一般情況下,并不能直接找出這樣的關鍵變量。這時我們可以用原有變量的線性組合來表示事物的主要方面, PCA 就是這樣一種分析方法。PCA 的目標是尋找 r ( r

     

    基因表達數據分析主成分分析 PCA

     

    降到

     

    基因表達數據分析主成分分析 PCA

     

    在進行基因表達數據分析時,一個重要問題是確定每個實驗數據是否是獨立的,如果每次實驗數據之間不是獨立的,則會影響基因表達數據分析結果的準確性。對于利用基因芯片 所檢測到的基因表達數據,如果用 PCA 方法進行分析,可以將各個基因作為變量,也可以將實驗條件作為變量。當將基因作為變量時,通過分析確定一組“主要基因元素”,它們能夠很好地說明基因的特征,解釋實驗現象;當將實驗條件作為變量時,通過分析確定一組“主要實驗因素”,它們能夠很好地刻畫實驗條件的特征,解釋基因的行為。下面著重考慮以實驗條件作為變量的 PCA 分析方法。假設將數據的維數從 R N 降到 R 3 ,具體的 PCA 分析步驟如下:

    (1) 第一步計算矩陣 X 的樣本的協方差矩陣 S :


     

    基因表達數據分析主成分分析 PCA

     

    (2) 第二步計算協方差矩陣S的本征向量 e1,e2,…,eN的本征值

     

    基因表達數據分析主成分分析 PCA

     

    , i = 1,2,…,N 。本征值按大到小排序:

     

    基因表達數據分析主成分分析 PCA

     

    ; (3)第三步投影數據到本征矢張成的空間之中,這些本征矢相應的本征值為

    基因表達數據分析主成分分析 PCA

    。現在數據可以在三維空間中展示為云狀的點集。

    對于 PCA ,確定新變量的個數 r 是一個兩難的問題。我們的目標是減小 r ,如果 r 小,則數據的維數低,便于分析 ,同時也降低了噪聲,但可能丟失一些有用的信息。究竟如何確定 r 呢?這需要進一步分析每個主元素對信息的貢獻。

    基因表達數據分析主成分分析 PCA

    代表第 i 個特征值,定義第 i 個主元素的貢獻率為:

    基因表達數據分析主成分分析 PCA

    (8-45)

    前 r 個主成分的累計貢獻率為:

    基因表達數據分析主成分分析 PCA

    (8-46)

    貢獻率表示所定義的主成分在整個數據分析中承擔的主要意義占多大的比重,當取前 r 個主成分來代替原來全部變量時,累計貢獻率的大小反應了這種取代的可靠性,累計貢獻率越大,可靠性越大;反之,則可靠性越小。一般要求累計貢獻率達到 70% 以上。

    經過 PCA 分析,一個多變量的復雜問題被簡化為低維空間的簡單問題。可以利用這種簡化方法進行作圖,形象地表示和分析復雜問題。在分析基因表達數據時,可以針對基因作圖,也可以針對實驗條件作圖。前者稱為 Q 分析,后者稱為 R 分析。

    表 8.1 是對酵母 6000 多個基因在 7 個時間點表達數據的 PCA 分析結果,每列數據代表主元素的系數。從表中可以看出,前兩個主元素反應了 90% 以上( 76.9%+13.5% )的變化,而前三個主元素反應了 95% 以上的變化,因此取前兩個主元素即可。 圖 8.6 是對 7 個特征值的圖示。

     

    基因表達數據分析主成分分析 PCA

     

     

    基因表達數據分析主成分分析 PCA

     

    圖 8.7 是前三個主元素系數變化圖。第 1 個主元素代表各個基因表達加權平均,除第 1 個時間點外,其它所有系數都為正值( 見圖 8.7(a) )。如果某個基因對應此主元素的值為較大的正數,則基因表達上調,如果此主元素的值為較大的負數,則基因表達下調。第 2 個主元素表示在時間序貫中基因表達的變化,除第 1 個時間點外,其它系數逐個增大( 見圖 8.7(b) )。如果某個基因的表達量隨時間不斷增加,則此主元素的值為正;如果表達量隨時間不斷減小,則此主元素的值為負。第 3 個主元素系數變化曲線為拋物線形( 見圖 8.7(c) )。


     

    基因表達數據分析主成分分析 PCA


    相關文章

    驅動染色質拓撲關聯結構域形成關鍵因素獲揭示

    華南農業大學教授劉柏平團隊與香港科技大學講師常富杰、華南師范大學教授羅瓊團隊合作,首次揭示染色質物理特性中的DNA壓縮密度是驅動染色質拓撲關聯結構域形成的關鍵因素,為理解基因組三維結構形成機理提供了全......

    穩定性與可塑性:細胞命運的“天平”

    表觀遺傳指的是在不改變DNA序列的情況下,基因表達和生物性狀的可繼承變化。細胞命運決定包括細胞身份的維持和轉換,這就涉及到表觀遺傳信息的繼承性和可塑性,是生命科學領域的重點前沿方向。生命的"......

    華南理工團隊最新成果豐富酵母基因表達

    4月30日,華南理工大學食品科學與工程學院黃明濤教授課題組對釀酒酵母中的未折疊蛋白響應元件(UPRE)進行了改造,并應用于基因表達的動態調控。該成果以“TailoredUPRE2variantsfor......

    最廣泛靈長類動物大腦研究結果發布

    科技日報北京4月1日電 (記者張夢然)美國馬薩諸塞大學阿默斯特分校生物學家領導的跨學科小組最近發表了一項史無前例的研究:調查了18種靈長類動物的基因表達與大腦進化之間的聯系。研究成果發表在《......

    分子細胞卓越中心揭示人線粒體tRNAt6A修飾對線粒體基因表達調控的多重作用

    1月16日,中國科學院分子細胞科學卓越創新中心研究員周小龍、王恩多團隊在《核酸研究》(NucleicAcidsResearch)上,發表了題為Multifacetedrolesoft6Abiogene......

    北京基因組所揭示半甲基化在基因表達調控中的作用

    DNA甲基化是最早發現的表觀遺傳標記之一,在真核細胞基因表達調控中發揮重要作用。隨著DNA甲基化檢測技術的進步,研究發現DNA甲基化具有完全甲基化和半甲基化兩種狀態,以及可以穩定遺傳的半甲基化修飾。關......

    分子植物卓越中心揭示細胞分裂素快速激活基因表達的分子機制

    細胞分裂素(cytokinin)是一種重要的植物激素,在植物的生長發育中扮演著多種角色,包括維持分生組織、促進維管組織分化、調控葉片衰老和促進再生等。以往研究表明,細胞分裂素的信號傳遞類似于細菌的雙組......

    Science:新研究揭示短串聯重復序列如何影響基因表達

    幾十年來,科學家們已經知道,“垃圾DNA(junkDNA)”實際上起著至關重要的作用:盡管基因組中的蛋白編碼基因提供了構建蛋白的藍圖,但是基因組中的一些非編碼部分,包括以前被認為是“垃圾DNA”的基因......

    《科學》等多期刊連發21項研究,迄今最全人腦細胞圖譜發布!

    12日,同時發表在《科學》《科學進展》和《科學·轉化醫學》雜志上的21項研究,公布并詳細解釋了迄今為止最全面的人類腦細胞圖譜。這些研究對3000多種人類腦細胞類型進行了特征分析,闡明了某些人類腦細胞與......

    空間細胞類型組分解析新算法被提出!

    8月7日,中國科學院動物研究所翟巍巍/馬亮團隊在《自然-通訊》(NatureCommunications)上,發表了題為SONARenablescelltypedeconvolutionwithspa......

  • <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    伊人久久大香线蕉综合影院首页