數據降維,一般說的是維數約簡(Dimensionality reduction)。它的思路是:將原始高維特征空間里的點向一個低維空間投影,新的空間維度低于原特征空間,所以維數減少了。在這個過程中,特征發生了根本性的變化,原始的特征消失了(雖然新的特征也保持了原特征的一些性質)。
而特征選擇,是從 n 個特征中選擇 d (d<n)個出來,而其它的 n-d 個特征舍棄。所以,新的特征只是原來特征的一個子集。沒有被舍棄的 d 個特征沒有發生任何變化。這是二者的主要區別。
主要區別在于 坐標 上。
特征選擇,是在給定一組特征(也即確定了坐標)后,從中選取一個特征子集,因此相當于把一些坐標去除的過程。在大部分情況下特征選擇都是在冗余變量較多的情況下使用,此時相當于坐標為斜坐標,甚至還存在冗余坐標(即用p個特征表達了k (k
降維,如果特指PCA這種線性降維方法,則降維所得的子空間是在原始坐標系旋轉下不變的。而如果坐標系恰好選取為主向量,則PCA實際上等價于對這組特殊的坐標系進行特征選擇,方式是根據樣本在坐標軸上分散的程度來決定該坐標軸的去留。而在一般情形下,PCA降維所得的子空間是由幾乎所有原始特征張成的,因此原始特征全部起作用。
因此,有學者(Zou & Hastie)提出了sparse PCA,旨在強迫使用 部分 原始特征張成盡量“優質”的子空間,同時實現了降維+特征選擇,從而能在分析主成分的同時還可以加入模型的 解釋性 。
如果涉及到非線性降維,如流形學習等方法,則與特征選擇區別甚大,此時不僅有降維,還帶有坐標軸的非線性扭轉伸縮等操作。特征選擇在更多情形下,還只是限于線性的范疇(此處的線性指對參數的線性)。