降維與維度災難@ 晨晰統計部落格新站(統計、SPSS、BIG ...
文章推薦指數: 80 %
在機器學習領域中,經常會需要針對高維度的資料進行降維,首先,我們先來簡單了解一下,為什麼資料需要做”降維”,降維是指在某些限定條件下,降低隨機變量(資料的變項)個數,得到一組「不相關」主變量的過程(根據維基百科的說明),基本上降維可分為兩個目的,”變數選擇”以及”特徵提取”,因為研究者的資料通常包含了許多多餘或不重要的資訊(這些東西又可被稱為雜訊,如果不特別處理的話可能會對之後分析資料產生不良的影響),”變數選擇”的概念其實簡單來說就是從資料當中得到哪些是對於研究標的是重要的變項,”特徵提取”是指透過某些方法把資料當中有用的變項做一個