三種數據降維方法(PCA、LDA、t-SNE)比較-視覺化呈現

降維方法視覺化比較

降維方法視覺化比較

金融數據範例:90檔股票,6個特徵維度

原始特徵:ROE、P/E比、波動率、市值、Beta、負債比

原始數據 (僅2維:ROE vs P/E)

⚠️ 只看這2個維度,三類股票高度重疊,難以區分

科技股 (高波動/高市值)
金融股 (中波動/中市值)
能源股 (低波動/低市值)

🔍 關鍵洞察

📊 降維的必要性
原始數據有6個維度,但人類只能看2D/3D圖。直接選2個維度會損失大量信息,導致類別高度重疊。
✨ 降維的價值
降維算法能綜合所有維度信息,投影到2D時保留最重要的結構,讓隱藏的模式變得可見。

🔵 PCA (主成分分析)

找出數據方差最大的方向,將多維數據投影到主成分空間。保留全局結構,適合數據壓縮與去噪。

🔴 LDA (線性判別分析)

利用類別標籤,最大化類別間距離、最小化類別內距離。找出最佳分類邊界,分離效果最好。

🟢 t-SNE (t-分布隨機鄰域嵌入)

保留數據的局部鄰域結構,形成緊密群集。視覺化效果最佳,最適合探索性數據分析。