# 主成分分析
主成分分析法是一种降维的统计方法,在机器学习中可以作为数据提取的手段。
主成分分析:构造一个A,b,使Y=AX+b
。其中A维度M*N
,X维度N*1
,b维度M*1
,则Y维度M*1
。
主成分分析可以看成是一个一层的,有M个神经元的神经网络(即Y=WTX+b,主成分分析和该公式本质一样)。
PCA和自编码器差不多。
主成分分析:寻找使方差最大的方向,并在该方向投影。
Y=A(X-X')和上面的Y=AX+b,并不矛盾,b可以看成AX'。这里要使方差最大,即X-X'的绝对值最大。
ai代表一个投影方向。
找一个a1,使得yi1方差最大
限制a1是单位矢量
所以
接下来,求第二大的维度a2,二维上a2只有一个选择,或者说没得选,但三维上及更高维上,a2有多种选择:
证明β=0:
所以:
推而广之,a3:
# PCA算法流程
注意:
# PCA在人脸识别中的应用
对每一个人,用前两次拍摄4张图片训练,用后两次拍摄4张图片测试。
训练数据:295*4=1180张, 测试数据:1180张
做PCA后,取前100维向量进行测试
平均脸,就是x的均值;特征脸,是每个特征值。比如a1,面颊特别亮,说明面部是识别最有效的地方,而头发处比较黑,说明头发地方不是很有效。同理,可以把神经网络Y=WTX+b中的W拿出来看一下。
如果只有这么点头像,如何用神经网络训练?迁移学习。