• <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    發布時間:2022-11-24 11:33 原文鏈接: 數據降維和特征篩選的區別

    數據降維,一般說的是維數約簡(Dimensionality reduction)。它的思路是:將原始高維特征空間里的點向一個低維空間投影,新的空間維度低于原特征空間,所以維數減少了。在這個過程中,特征發生了根本性的變化,原始的特征消失了(雖然新的特征也保持了原特征的一些性質)。

    而特征選擇,是從 n 個特征中選擇 d (d<n)個出來,而其它的 n-d 個特征舍棄。所以,新的特征只是原來特征的一個子集。沒有被舍棄的 d 個特征沒有發生任何變化。這是二者的主要區別。

    主要區別在于 坐標 上。

    特征選擇,是在給定一組特征(也即確定了坐標)后,從中選取一個特征子集,因此相當于把一些坐標去除的過程。在大部分情況下特征選擇都是在冗余變量較多的情況下使用,此時相當于坐標為斜坐標,甚至還存在冗余坐標(即用p個特征表達了k (k

    降維,如果特指PCA這種線性降維方法,則降維所得的子空間是在原始坐標系旋轉下不變的。而如果坐標系恰好選取為主向量,則PCA實際上等價于對這組特殊的坐標系進行特征選擇,方式是根據樣本在坐標軸上分散的程度來決定該坐標軸的去留。而在一般情形下,PCA降維所得的子空間是由幾乎所有原始特征張成的,因此原始特征全部起作用。

    因此,有學者(Zou & Hastie)提出了sparse PCA,旨在強迫使用 部分 原始特征張成盡量“優質”的子空間,同時實現了降維+特征選擇,從而能在分析主成分的同時還可以加入模型的 解釋性 。

    如果涉及到非線性降維,如流形學習等方法,則與特征選擇區別甚大,此時不僅有降維,還帶有坐標軸的非線性扭轉伸縮等操作。特征選擇在更多情形下,還只是限于線性的范疇(此處的線性指對參數的線性)。

  • <option id="immmk"></option>
  • <noscript id="immmk"><kbd id="immmk"></kbd></noscript>
    伊人久久大香线蕉综合影院首页