主成分分析

AI · 11 Feb 2025

降維打擊 PCA

:::info

降維的意義: 將高維數據轉換到低維空間，同時盡可能保留原始數據的特性。目的是簡化數據、去除冗餘資訊、方便視覺化和分析。 :::

找出數據中最具代表性的方向（主成分），並將數據投影到這些方向上。第一個主成分解釋數據最大變異的方向，第二主成分解釋次大變異，依此類推。主成分彼此正交，代表它們所代表的資訊是獨立的。

線性代數向量、矩陣的基本運算：瞭解矩陣和向量的操作，尤其是加法、乘法等。特徵值與特徵向量：PCA 的核心是對共變異數矩陣進行特徵值分解。奇異值分解（SVD）：PCA 可透過奇異值分解來實現，這是重要的數學工具。
機率與統計均值、變異數與共變異數：理解這些基本統計量，共變異數矩陣在 PCA 中尤其重要。資料中心化：在進行 PCA 前，需將資料標準化或中心化，消除偏差。機率分布：理解資料的分布特性，有助於對 PCA 結果的解釋。
微積分導數與積分：在優化算法中，微積分的知識不可或缺，特別是在最大化變異數的過程中。
資料處理與標準化資料前處理：PCA 通常需要對資料進行標準化或正規化，確保不同維度的資料在同一尺度下進行比較。資料降維：理解資料降維的概念及實際應用，如在大數據中的應用。
機器學習基礎（可選）特徵提取與降維：PCA 在機器學習中的應用通常是用於特徵提取和降維，以提高模型效能。無監督學習：PCA 屬於無監督學習的技術，理解基本的無監督學習算法有助於更好應用 PCA。

pca pca2

公式如下： $𝑋_{std}=\frac{(𝑋−𝜇)}{\sigma}$ 其中，$X$ 代表數據，$\mu$ 代表每個特徵的平均值，$\sigma$ 代表每個特徵的標準差。

共變異數矩陣的公式為： $Σ=\frac{1}{𝑛−1}𝑋^𝑇𝑋$其中，$n$ 是樣本數，$X$ 是標準化後的數據矩陣。

如果是二維則形式為: $Σ = \left[ \begin{matrix} 變異數(x_1) & 共變異數(x_1,x_2)\\ 共變異數(x_1,x_2)& 變異數(x_2) \end{matrix} \right]$

計算特徵值和特徵向量對共變異數矩陣進行特徵值分解，得到共變異數矩陣的特徵值和特徵向量。特徵值表示數據在該特徵向量方向上的變異數大小，而特徵向量則代表新的座標軸，也就是主成分的方向。
選擇主成分根據特徵值的大小，選擇前 k 個最大的特徵值對應的特徵向量，這些向量將形成新的特徵空間。一般來說，我們會選擇能解釋數據總變異數較大比例的主成分。
轉換數據到新空間最後，將數據投影到選出的主成分空間中，完成降維。這可以透過將原始數據與選出的特徵向量矩陣相乘來實現。

公式為： $𝑋_{new}=𝑋_{std}𝑊$ 其中，$W$ 是包含前 k 個特徵向量的矩陣。

描述數據中各個特徵之間的線性關係。對角線上的元素代表各特徵自身的變異，非對角線元素代表共變異。 PCA 找出的主成分即為共變異數矩陣的特徵向量 (Eigenvectors)。

選擇不同的基底來描述數據，可以改變數據呈現的方式。 PCA 的過程可以視為將數據從標準基底變換到以主成分為基底的空間。