数海钩沉

本笔记的主要内容是关于学习中可能用到的数学知识。之所以叫《数海钩沉》是为了致敬研一上过的一门关于逻辑学的课程的老师,在课上老师提起了一段关于数海钩沉的往事。数海钩沉,从词义上看便能看出写此笔记的本意,数学是现代科学的基础,为了做研究我们时时在这之间沉浮。在沉浮之间,愿各位都能在各自的领域中有所成就。

kappa系数

混淆矩阵简介

  混淆矩阵,也称误差矩阵,Confusion Matrix。是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。
  混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:如下图,第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类,同理,第一行第二列的2表示有2个实际归属为第二类的实例被错误预测为第一类。

类1 类2 类3
类1 43 2 0
类2 5 45 1
类3 2 3 49

  在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

kappa系数

  Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。
  kappa系数是一种衡量分类精度的指标。它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果所得到的.

计算公式如下:

$$
k = \frac{p_o - p_e}{1-p_e}
$$
其中,$p_0$ 是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度 。$p_e$为每一类预测分类数和实际分类数的乘积之和除以预测样本数的平方。
  以上面的混淆矩阵为例:
$$
p_0=\frac{43+45+49}{150}=0.9133,
p_e=\frac{50\times45+50\times51+50\times54}{150\times150}=0.3333,
$$
因此,$k=\frac{0.9133-0.3333}{1-0.3333}=0.8699$

结果判定

  kappa计算结果为-11,但通常kappa是落在 01 间,可分为五组来表示不同级别的一致性:0.00.20极低的一致性(slight)、0.210.40一般的一致性(fair)、0.410.60 中等的一致性(moderate)、0.610.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

马氏距离

公式推导

方差

  方差(Variance)可以度量一组数据的分散程度。是各个样本与样本均值的差的平方和的均值。计算公式如下:

$$
s^{2}=\frac{\sum_{i=1}^{n}({X_{i}-\bar{X}})^{2}}{n-1}
$$

协方差

  协方差(Covariance)可以度量两个变量变动的同步程度,也就是度量两个变量线性相关的程度。若两个变量的协方差为0,则认为二者线性无关;若大于0,则认为变量间正相关;反之,则认为是反相关。计算公式如下:
$$
cov(X,Y)=\frac{\sum_{i=1}^{n}({X_{i}-\bar{X}})({Y_{i}-\bar{Y}})}{n-1}
$$

协方差矩阵

  协方差矩阵(Covariance matrix)由数据集中两两变量的协方差组成。一个m*n的协方差矩阵如下所示:

$$
C=
\begin{bmatrix}
cov(x_{1},x_{1}) & cov(x_{1},x_{2}) &\cdots &cov(x_{1},x_{n})\
cov(x_{2},x_{1}) & cov(x_{2},x_{2}) &\cdots &cov(x_{2},x_{n})\
\vdots & \vdots &\ddots &\vdots \
cov(x_{m},x_{1}) & cov(x_{m},x_{2}) &\cdots &cov(x_{m},x_{n})
\end{bmatrix}
$$

pearson相关系数

  Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。计算公式如下:

$$
\begin{align}
p_{x,y}&=\frac{cov(X,Y)}{\sigma_{x}\sigma_{y}} \
&=\frac{E((X-\mu_{x})(Y-\mu_{y}))}{\sigma_{x}\sigma_{y}}\
&=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^{2})-E^{2}(X)}\sqrt{E(Y^{2})-E^{2}(Y)}}
\end{align}
$$

  • X、Y线性相关时,两个变量的协方差等于两个变量各自标准差的乘积,此时皮尔森相关系数为1。
  • 当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

马氏距离

  马氏距离(Mahalanobis distance)是用来表示某一点P与某一分布D之间的距离;表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。

$$
\begin{align}
&对于点X=(x_{1},x_{2},…,x_{n})^{T},与均值为\mu=(\mu_{1},\mu_{2},…,\mu_{n})^{T},协方差矩阵为S的分布,其马氏距离为:\
&\quad\quad D_{M}(x)=\sqrt{(X-\mu)^{T}S^{-1}(X-\mu)}\
& 对于两个服从同一分布并且协方差矩阵为S的随机向量X,Y,其马氏距离为\
&\quad\quad d(X,Y)=\sqrt{(\overrightarrow{X}-\overrightarrow{Y})^{T} S^{-1}(\overrightarrow{X}-\overrightarrow{Y})}\
&\quad\quad 其中,S^{-1}为S的逆矩阵,根号内的运算均为点积运算。\
&若协方差矩阵为单位矩阵,马氏距离变为欧式距离;\
&若协方差矩阵为对角线矩阵,称为标准化欧氏距离,其公式为:\
&\quad\quad d(X,Y)=\sqrt{\sum_{i=1}^{N}{\frac{(x_{i}-y_{i})^{2} }{S^{2}{i}}}},其中S{i}为(x_{i},y_{i})的方差
\end{align}
$$

参考文献:
 [1]协方差、协方差矩阵的数学概念及算法计算
 [2]协方差、相关系数(Pearson 相关系数)
 [3]度量学习中的马氏距离
 [4]维基百科:马氏距离
 [5]距离度量以及python实现(一)
 [6]谢小娇的数学基础之马氏距离

矩阵的QR分解

  若n阶实非奇异矩阵A可以分解为正交矩阵Q与实非奇异上三角矩阵R的乘积,即A=QR,则称该分解式为矩阵A的QR分解。

  • 正交矩阵—若矩阵A与A的转置矩阵乘积为单位矩阵E,则n阶实矩阵A称为正交矩阵。其满足:
    • (1)A的转置矩阵也是正交矩阵;
    • (2)A及其转置矩阵的各行是单位向量且两两正交;
    • (3)|A|=1;
    • (4)A的转置矩阵也是其逆矩阵;

  用施密特(Schmidt)正交方法求矩阵的QR分解过程,如例子所示:
$$
\begin{align}
&例:用Schmidt正交化方法求矩阵A=
\begin{bmatrix}1&2&2\2&1&2\1&2&1\\end{bmatrix}
的QR分解。\
&解:令\alpha_{1}=(1,2,1)^{T},\alpha_{2}=(2,1,2)^{T},\alpha_{3}=(2,2,1)^{T},正交化得:\
&\quad \quad \beta_{1}=\alpha_{1}=(1,2,1)^{T},\beta_{2}=\alpha_{2}-\beta_{1}=(1,-1,1)^{T},\beta_{3}=\alpha_{3}-\frac{1}{3}\beta_{2}-\frac{7}{6}\beta_{1}=(\frac{1}{2},0,-\frac{1}{2})^{T}\
&构造矩阵Q=\begin{bmatrix}
\frac{1}{\sqrt{6}}&\frac{1}{\sqrt{3}}&\frac{1}{\sqrt{2}}\
\frac{2}{\sqrt{6}}&-\frac{1}{\sqrt{3}}&0\
\frac{1}{\sqrt{6}}&\frac{1}{\sqrt{3}}&-\frac{1}{\sqrt{2}} \end{bmatrix},
R=\begin{bmatrix} \sqrt{6}&0&0\0&\sqrt{3}&0\0&0&\frac{1}{\sqrt{2}}\end{bmatrix}
\begin{bmatrix}1&1&\frac{7}{6}\0&1&\frac{1}{3}\0&0&1\end{bmatrix}
=\begin{bmatrix}\sqrt{6}&\sqrt{6}&\frac{7}{\sqrt{6}}\0&\sqrt{3}&\frac{1}{\sqrt{3}}\0&0&\frac{1}{\sqrt{2}}\end{bmatrix}\
&则有A=QR.
\end{align}
$$

参考文献:
 [1]矩阵QR分解的三种方法

To be continue…

感谢你的阅读!
{% if theme.leancloud_visitors.enable %} {% endif %}