偏度与峰度的正态性分布判断

想做一个我行我素的人，却摆脱不了条条框框的束缚

当我们应用统计方法对数据进行分析时，会发现许多分析方法如T检验、方差分析、相关分析以及线性回归等等，都要求数据服从正态分布或近似正态分布，正态分布在机器学习中的重要性后期会讲述。上一篇文章用Q-Q图来验证数据集是否符合正态分布，本文首先介绍了偏度与峰度的定义，然后用偏度与峰度检测数据集是否符合正态分布，最后分析该检测算法的适用条件以及SPSS的结果分析。

1、偏度与峰度

（1）偏度（Skewness）
偏度衡量随机变量概率分布的不对称性，是相对于平均值不对称程度的度量，通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向。
具体来说，对于随机变量X，我们定义偏度为其的三阶标准中心距:

\gamma_{1} = E[(\frac{X-\mu}{\delta})^3] = \frac{E[(X-\mu)^3]}{\delta^3} = \frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^\frac{3}{2}} = \frac{K_{3}}{K_{2}^\frac{3}{2}}
对于样本的偏度，我们一般记为SK，我们可以基于矩估计，得到有:

SK_{1} = \frac{m_{3}}{m_2^\frac{3}{2}} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline{x})^3 } {[\frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline{x})^2]^\frac{3}{2}}

其中, \overline{x} 为样本均值， m_{3} 为样本三阶中心矩， m_{2} 为样本二阶中心矩

偏度的衡量是相对于正态分布来说，正态分布的偏度为0，即若数据分布是对称的，偏度为0。若偏度大于0，则分布右偏，即分布有一条长尾在右；若偏度小于0，则分布为左偏，即分布有一条长尾在左（如下图）；同时偏度的绝对值越大，说明分布的偏移程度越严重。

【注意】数据分布的左偏或右偏，指的是数值拖尾的方向，而不是峰的位置。

（2）峰度（Kurtosis）
峰度，是研究数据分布陡峭或者平滑的统计量，通过对峰度系数的测量，我们能够判定数据相对于正态分布而言是更陡峭还是更平缓。比如正态分布的峰度为0，均匀分布的峰度为-1.2（平缓），指数分布的峰度6（陡峭）。
峰度，定义为四阶中心距 m_{4} 除以方差 \delta 的平方减3。
\gamma_{2} = \frac{K_{4}}{K_{2}^{2}} - 3 = \frac{\mu_{4}}{\delta^4} - 3 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^4}{(\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^2)^2} -3

若峰度 \approx 0 , 分布的峰态服从正态分布；
若峰度>0,分布的峰态陡峭（高尖）；
若峰度<0,分布的峰态平缓（矮胖）；

2、正态性检验

利用变量的偏度和峰度进行正态性检验时，可以分别计算偏度和峰度的Z评分（Z-score）。
偏度Z-score = 偏度值 \div 偏度值的标准差
峰度Z-score = 峰度值 \div 峰度值的标准差
在 \alpha=0.05 的检验水平下，偏度Z-score和峰度Z-score是否满足假设条件下所限制的变量范围（Z-score在±1.96之间），若都满足则可认为服从正态分布，若一个不满足则认为不服从正态分布。

3、正态性检验的适用条件

样本的增加会减小偏度值和峰度值的标准差，相应的Z-score会变大，最终会拒绝条件假设，会给正确判断样本数据的正态性情况造成一定的干扰。因此，当样本数据量小于100时，用偏度和峰度来判断样本的正态分布性比较合理。

4、SPSS结果分析

上图中可以看出分布的偏度值为0.194(偏度值的标准差0.181),则Z-score = 0.194 / 0.181 = 1.072；峰度值0.373（峰度值标准差0.360），则Z-score = 0.373 / 0.360 = 1.036。偏度值和峰度值均 \approx 0,Z-score均在 \pm 1.96之间，可认为资料服从正态分布。

参考:

关于偏度与峰度的一些探索

spss教程

注：本文摘自一名AI医疗学习者的文章

发布于 2018-12-24 22:21

正态分布

机器学习

偏度与峰度的正态性分布判断

1、偏度与峰度

2、正态性检验

3、正态性检验的适用条件

4、SPSS结果分析

文章被以下专栏收录

机器学习入门