Wenqi Sun
by Wenqi Sun
~1 min read

Categories

Tags

PCA(主成分分析)

PCA是一种无监督降维方式,它将数据投影到一组互相正交的loading vectors(principal axes)之上,并保证投影后的点在新的坐标轴上的方差最大

  1. 记数据集为n行p列的矩阵(n个数据,每个数据p维),特征均值为,数据与均值的差异可表示为

  2. 假设需求解m个loading vector ,且需满足以及

  3. 上的投影为,特征均值的投影为,则投影后数据与均值的差异可表示为,投影后的方差为(省略了系数

  4. 即为数据集X的协方差矩阵。将进行特征值分解,其中为对角矩阵,对角线上的元素为特征值(不失一般性,这里令其按从大到小的顺序排列);为正交矩阵,它的列为对应的特征向量

  5. 投影后的方差可以写成,因为,所以方差的最大值为,并且仅当时取到

  6. 上投影后的方差可以表示为(同上步类似,),又因为,所以方差的最大值为,并且仅当时取到

  7. 对于可以按上述步骤依次求得,方差的最大值为,并且仅当时取到

  8. 实际应用中首先将数据集进行标准化(减去特征均值并除以特征标准差),此时协方差矩阵,对进行SVD分解,,其中为n行n列的正交矩阵,列向量为的特征向量;为p行p列的正交矩阵,列向量为的特征向量(即同将进行特征值分解得到的);为n行p列的矩阵且非对角线上的元素为0,对角线上的元素

LDA(线性判别分析)

LDA是一种有监督降维方式,假设数据集共分为个类,需保证投影后的点在新的坐标轴上类内离散度尽可能小,同时类间离散度尽可能大

  1. 为第k个类的特征均值,为总体的特征均值,则特征均值的估计值
  2. 为第k个类的协方差矩阵,为总体的协方差矩阵,LDA假设,则协方差矩阵的估计值(省略了系数
  3. 假设投影坐标轴为,第k类中数据与均值的差异可表示为,第k类的数据投影后的离散度可表示为个类的类内离散度之和为
  4. 由PCA的第三步可以看出投影后数据的总体离散度为,其中,则类间离散度可以表示为总体与类内离散度之差,即
  5. 为了使类内离散度尽可能小,同时类间离散度尽可能大,先将类内离散度转化为常数,然后只考虑类间离散度。因此首先进行一个空间变换,使得新空间上的协方差矩阵变为单位矩阵,对进行特征值分解,记为空间变换矩阵,新空间上的数据集变为。假设在新空间上的投影坐标轴为,容易看出在新空间上的类内离散度为
  6. 新空间上的类间离散度变为,此时可以参照PCA的做法,在新空间上依次寻找互相正交的坐标轴,使得新空间上的类间离散度最大。对进行特征值分解,容易看出(证明过程见PCA的5-7步)
  7. 综上所述,最终求得的坐标轴
  8. 对于,有,等式两边同时左乘W,有,即。因此上述步骤等价于直接求解的特征值和特征向量(注意此时的特征向量 不是单位向量,而是需满足),将此时对应的特征值按从大到小排列取前m个特征值和特征向量
  9. 参考文献: The Elements of Statistical Learning(2nd Edition) Section 4.3.3