我要学数学—PCA,LDA,NCA

Mar 20, 2016

一、PCA主成分分析法

一般的，有M个N维向量，将其变为由R个N维向量表示的新空间中，先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，AB就是变换结果

1、在维规约的过程中，试图选择这样的一组基

1）希望投影后的投影值尽量分散，即投影后，字段的方差尽可能大

公式1.1.1

2）不希望第二个方向和第一个方向之间存在线性相关性，即使得投影后各字段协方差为0

公式1.1.2

2、协方差矩阵

公式1.2.1 ，公式1.2.2

C是一个对称矩阵，其对角线分别是各个字段的方差，cij=cji为i和j字段的协方差

3、协方差矩阵的对角化

设P为一组基按行组成的矩阵，Y=PX为X对P做基变换后的数据，设D为Y的协方差矩阵

公式1.3.1

我们的优化目标是找到P，D为对角矩阵且对角线元素从大到小排列，P的前K行的转置就是要求的基。

已知若A是实对称矩阵，则存在同阶正交矩阵Q使得Q^TAQ是实对角矩阵

4、算法步骤

设有m条n维数据

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3）求出协方差矩阵C

4）求出协方差矩阵的特征值及对应的特征向量

5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

6）Y=PX即为降维到k维后的数据

二、LDA线性判别分析法

LDA的目标是，将带上标签的数据点，投影到维度更低的空间中，使得不同类别之间的距离远，同一类别之中的距离近

1、二值分类

将样例数据分类，就需要找到一个线性函数，我们将其表示为向量w，y=w^Tx即为将样本数据投影到w上的点

1）wi类样例的均值点（向量）

公式2.1.1

wi表示第i类元素的集合，ni表示wi中元素的个数，x即为样例，是一个向量，所以ui是一个向量

2）wi类样例投影到w后的均值点（标量）

公式2.1.2

3）所有样例的均值点（向量）

公式2.1.3

4）所有样例投影到w后的均值点（标量）

公式2.1.4

5）投影之后wi内部的方差（标量）

公式2.1.5

这里希望类内部的方差尽量小

6）投影之后类之间的方差（标量）

公式2.1.6

c表示数据一共可划分为c类，这里希望类之间的方差尽量大

于是我们记：

公式2.1.7

公式2.1.8

拉格朗日乘子法，限制

公式2.1.9

公式2.1.10

公式2.1.11

2、k-分类

由上述方法最多可以得到c-1个wi，每一个wi均可以将样例数据在其上做投影，因此记w=[w1|w2|……|wk](k<=c-1)。由于要求特征向量的矩阵不对称，所以w可能不正交。

三、NCA相邻成分分析

1、K最邻近算法（KNN)

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别

缺点：计算量较大，因为对每一个待分类的样本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点；模型设计时较难确定“最邻近”的概念

NCA是对KNN的改进

2、Distance Metric

首先定义Distance Metric，即两点之间距离的度量方式

公式3.2.1

公式3.2.2

A是待优化的对象，通过A作用于x，y两点的坐标来度量x，y之间的距离

在这里，需要介绍一下向量范数的概念

向量范数是对三维欧式空间中向量长度概念的推广，距离的度量可以有多种定义方案，上述度量方案可视为一种R^n空间的向量范数：

公式3.2.3

我们有如下证明：

公式3.2.4

类似的，通过矩阵Q，我们定义了一个向量范数来度量两个数据点（向量）的距离

3、选择邻居的规则（随机选择）

每个点i选择另一个点j作为其邻居的概率为：

公式3.3.1

pi表示点i被正确分类的概率，Ci表示与i同类的点的集合：

公式3.3.2

公式3.3.3

优化A，使得f(A)取得最大值，此时划分正确的概率最大，也就是被正确分类的样本个数的期望值最大，为了便于计算：

公式3.3.4

公式3.3.5

Obtaining a gradient for A means that it can be found with an iterative solver such as conjugate gradient descent.

四、参考资料

http://blog.csdn.net/xiaojidan2011/article/details/11595869

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html

http://www.cnblogs.com/zhangchaoyang/articles/2644095.html

http://www.cs.toronto.edu/~hinton/absps/nca.pdf