-PCA-Eigenfaces-LDA-Fisherfaces-

本次实验主要是学习PCA，并基于PCA进行各种操作，此外有附加的LDA降维与PCA的对比分析以及人脸识别算法设计。

流程

①利用numpy实现PCA模型。
②利用PCA模型对testSet.txt数据集进行降维，绘制出降维后图像。
③对secom.data数据集进行降维，分析主成分数为多少时最优。
④实现基于PCA的Eigenfaces算法，并利用留出法验证。 ⑤实现基于LDA的Fisherfaces算法，并利用留出法验证。 ⑥人脸检测算法设计

内容

1. numpy实现PCA并运用于testSet.txt数据集

PCA的实现可从以下步骤进行：
①对数据去中心化
②计算数据的协方差矩阵
③计算协方差矩阵的特征向量和特征值
④选取最大的K个特征值对应的特征向量作为降维矩阵的基
对应到numpy中，我们要用到以下几个函数：
①numpy.mean 求平均值，参数axis = 1表示对行，axis = 0对列。
②numpy.cov 求矩阵的协方差，当然，我们也可以根据定义来求，即使用XX^T/(m-1)，其中m表示特征数。
③np.linalg.eig 返回特征值和特征向量，这里的特征向量是已经标准化的。
④numpy.argsort 返回从小到大的下标
我们通过利用这几个函数便可以很方便的实现PCA模型。
有了PCA的模型，我们接下来就是获取数据，对于testSet.txt而言，数据格式非常简单，我们通过split函数可以轻松的实现特征值的分离，保存为float格式便得到了数据。之后将数据传入PCA模型，得到降维后的坐标，为了更好的显示降维效果，我们可以将降维后的值重新转化到原特征空间进行显示。
最后利用plt库进行图形的显示

2. 对半导体数据进行降维处理

对半导体数据secom.data的降维与对testSet.txt的降维在本质上没有什么区别，都是利用PCA找到最大的K个特征值和特征向量。
但是，testSet.txt的数据比较特殊，他只有两维，所以如果降维的话一定是降到一维，没有所谓的主成分数选择多少最好的问题。在secom.data数据集中，每个数据包含了590个特征，我们降维的维度就有了很多个选择，因此，对半导体数据的降维除了利用PCA之外，还包括对主成分数的选取。
至于降维，就是PCA。对于主成分数目的选取来说，我们可以通过选取不同的主成分数目多次实验，对降维效果进行对比，做出最后的数目选择。在本实验中，我们对降维效果的评价标准是降维后方差的占比。
对于本数据集比较特殊的一点是，数据中存在大量的NAN数据，即无标记数据。对于每一个数据，我们利用已知特征值的平均代替本向量的缺失值。
所以，最后的实验内容记为，对数据集进行导入，并对NAN数据进行缺失平均替代处理。之后对完整数据集进行PCA，得到所有的特征值和特征向量之后，选取不同的主成分数目进行降维。分析不同主成分数对应的效果，得到最后的主成分数。

3. 实现基于PCA的Eigenfaces算法

Yale数据集包含了165张照片，为15个人的11种状态，本次实验基于此数据集进行操作。
首先，本实验的数据集比较特殊，不是常见的jpg或者png格式的图片，而是pgm。Pgm图片分为不同的模式，有P2、P5等。这些模式的读取方式不同，对于P4-P6的模式，可以使用PIL非常方便的进行读取。本次实验的pmg图片为P5模式，可利用NotePad++查看，

Yale数据集pmg图片格式查看

所以，本次实验的数据可以直接利用Image.open()直接导入，之后利用numpy转化为numpy数据即可。而对标签的获取，可以直接利用名字进行识别，取诸如“subject01”等作为对应人标签即可。
至此，我们对数据进行了导入，接下来便是利用Eigenfaces(特征脸)算法进行操作。
特征脸算法可分为以下几个步骤取操作：
①将二维图片矩阵reshape为一维向量
②将所有一维向量合并为一个矩阵，记为A
③计算所有向量的平均值（此时我们将得到一个平均脸，可以输出看一看）
④将步骤二得到的矩阵A去中心化，即每个向量减去平均值
⑤按一般步骤来说，我们这步可以计算AA^T的特征值和特征向量。但是一般由于这个过大，我们可以通过计算A^TA的特征值和特征向量去反推AA^T的特征值和特征向量。
⑥得到降维特征矩阵W
⑦将已知的数据降维到W对应特征空间中，组成一个新的特征数据集。
⑧对于新数据，利用W将其转化到此特征空间，利用聚类算法识别其对应标签。（论文中为最短欧氏距离）
根据project-4.pdf中的要求，我分别进行了三项实验，对应取N为3、5、7。每次实验中降维空间K的取值分布为1~100.每次实验重复10次进行，最后误差取平均值。

4. 实现基于LDA的fisherfaces算法

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的**可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。
fisherfaces算法可分为以下几个步骤取操作：
① 计算类内散度矩阵
② 计算类间散度矩阵
③ 计算矩阵
④ 计算的最大的d个特征值和对应的d个特征向量,得到投影矩阵
⑤ 对样本集中的每一个样本特征,转化为新的样本
⑥ 得到输出样本集