數據降維和特征篩選的區別

發布時間：2022-11-24 11:33 原文鏈接：數據降維和特征篩選的區別

數據降維，一般說的是維數約簡（Dimensionality reduction）。它的思路是：將原始高維特征空間里的點向一個低維空間投影，新的空間維度低于原特征空間，所以維數減少了。在這個過程中，特征發生了根本性的變化，原始的特征消失了（雖然新的特征也保持了原特征的一些性質）。

而特征選擇，是從 n 個特征中選擇 d (d<n)個出來，而其它的 n-d 個特征舍棄。所以，新的特征只是原來特征的一個子集。沒有被舍棄的 d 個特征沒有發生任何變化。這是二者的主要區別。

主要區別在于坐標上。

特征選擇，是在給定一組特征（也即確定了坐標）后，從中選取一個特征子集，因此相當于把一些坐標去除的過程。在大部分情況下特征選擇都是在冗余變量較多的情況下使用，此時相當于坐標為斜坐標，甚至還存在冗余坐標（即用p個特征表達了k (k

降維，如果特指PCA這種線性降維方法，則降維所得的子空間是在原始坐標系旋轉下不變的。而如果坐標系恰好選取為主向量，則PCA實際上等價于對這組特殊的坐標系進行特征選擇，方式是根據樣本在坐標軸上分散的程度來決定該坐標軸的去留。而在一般情形下，PCA降維所得的子空間是由幾乎所有原始特征張成的，因此原始特征全部起作用。

因此，有學者（Zou & Hastie)提出了sparse PCA，旨在強迫使用部分原始特征張成盡量“優質”的子空間，同時實現了降維+特征選擇，從而能在分析主成分的同時還可以加入模型的解釋性。

如果涉及到非線性降維，如流形學習等方法，則與特征選擇區別甚大，此時不僅有降維，還帶有坐標軸的非線性扭轉伸縮等操作。特征選擇在更多情形下，還只是限于線性的范疇（此處的線性指對參數的線性）。

更多與數據降維和特征篩選的區別相關的新聞

儀器

NooneLost-2000型全自動菌落計數系統迅數MF5菌落計數/顯微分析多功能聯用儀 HD5000多譜超分辨菌落成像系統迅數MF4菌落計數/顯微分析多功能聯用儀迅數MF6菌落計數/顯微分析多功能聯用儀 Supcre G9 菌落計數/篩選/抑菌圈測量聯用儀 Supcre G10菌落計數/篩選/抑菌圈測量聯用儀迅數icount 60/ icount 60pro全自動菌落計數儀 Czone 9 / Czone 9 pro菌落計數及抑菌圈測量儀 HD2000 濾膜菌落計數儀

實驗室

跨介質污染控制研究所中國科學院大連化學物理研究所微流控芯片課題組安徽細胞動力學和化學生物學省級實驗室農業部煙草類作物質量控制重點開放重點實驗室廈門大學生命科學學院污染生態學實驗室新疆生物資源基因工程科技部省重點實驗室復旦大學蛋白質組學與系統生物學研究所中國中醫科學院西苑醫院藥代動力學實驗室大連化物所生物分子高分辨分離分析及代謝組學北京大學工學院能源與資源工程實驗室