中心趋势是描述一组值聚集的一个点的术语。中心的度量是描述中心趋势的统计量。你可能听说过三种最常用的中心度量:表示、中间值和模式。本章将定义和描述如何计算每一个。知道它们是什么很重要,知道它们是什么意思也很重要,尤其是相互之间的关系。通过观察平均值、中位数和模式之间的相互比较,我们可以更好地理解数据所讲述的故事。
该模式是数据集中大多数数字出现的地方,即频率最大的地方。这可以是一个数字或一组数字。例如,在小数据集{2,3,3,4,6}中,模式为 3,因为频率为 2 (3 出现两次),而其他值的频率为 1。
一个直方图是可视化一个分布模式最常见的方法。直方图是一种特殊类型的条形图,在 x 轴上显示数据集的值,在 y 轴上显示这些值的频率。x 轴上的值被分组到指定范围或类别的箱中。
图 1:数据集{2,3,3,4,6}的直方图显示模式为 3。
模式不一定是数字。比如说当地的高中生物课,10%的学生得了 A,40%得了 B,35%得了 C,15%不及格。在这种情况下,模式是 b 的等级。这种类型的数据集是分类数据(与数值数据相对)的一个例子,其中数据按类别排列(在这种情况下,类别中的等级)。
图 2:在这个分类数据集中,模式是 b 级。
|
对于大型连续数据集,模式是频率最高的范围。下面的直方图显示了十个面元,每个面元的宽度为 5 个单位。您可以很容易地看到模式是范围(35,40)。请记住,模式是*,其中出现最大频率(沿 x 轴的值),而不是频率是什么(即模式不是 8)。*
图 3:这个直方图显示的数据集的模式是范围(35,40)。
中位数是衡量中心的另一个标准。这个统计数据是一个数据集中 50%的值较小,50%的值较大的数字。对于具有奇数个值的数据集,中值是数据集中的实际值,正好位于中间。例如,数据集{5,6,8,12,15}的中位数为 8。两个值小于 8,两个值大于 8。
当一个数据集有偶数个值时,中位数是两个中间数的平均值。数据集{4,6,9,11,17,18}的中位数是 10,即 9 和 11 的平均值。三个值小于 10,三个值大于 10。
您可能已经注意到值必须是有序的;否则无法计算中位数。还要注意,我们不能找到分类数据的中位数,但我们可以找到数字数据的中位数。
|
请注意,小于或大于中间值的数字可以是任何数字(只要它们保持小于或大于中间值),并且中间值将保持不变。例如,以下数据集都具有相同的中位数:
{5, 6, 8, 12, 15}
{5, 6, 8, 20, 300}
{-100, -16, 8, 12, 15}
{-100, -16, 8, 20, 300}
因此,中位数本身并不能充分描述一个数据集。
有一个统计数据来说明每个值也是有帮助的。这就是为什么更常见的衡量中心的标准是平均值。
与模式和中值不同,平均值(也称为算术平均值)在计算中使用数据集中的每个值。
|
对于一个数据集{ x 1 ,xT6】2,xT10】3,…xT14】n},其中 n 是数据集中的数值个数,平均值用
我们可以改写为:
希腊文大写字母 sigma (
我们用符号
|
因为平均值在其计算中使用每个值,异常值(数据集中与同一数据集中的其他值有显著差异的值)会严重影响它。以下面两个数据集为例,其中一个有异常值:
这个例子说明了为什么平均值并不总是衡量中心的最佳标准。如果我们只知道第二个数据集的平均值,我们会认为这些值聚集在 29.25 左右,而实际上 75%的值小于 8。
当数据集的平均值、中值和模式大致相等时,平均值用于计算许多其他统计数据(例如,数据的分布情况),以执行大量分析。因此,平均值是最常用的中心度量。
让我们看看如何使用 NCES 数据找到 R 中的平均值、中位数和众数。(如果还没有下载数据,导入 R,运行 attach() 功能,先这样做。)
代码清单 2
> mean(income2011) #outputs
the mean of respondents’ income in 2011
[1] 27302
> median(income2011) #outputs
the median of respondents’ income in 2011
[1] 24000
> hist(income2011) #outputs
a histogram of respondents’ income in 2011
> hist(income2011, breaks=20) #outputs a histogram with smaller bin sizes您可以看到变量“income2011”有很大的偏差(即大多数值都落在整个数据范围的一侧)。大多数学生的家庭收入低于 5 万美元。
这种偏斜导致平均值大于中位数。回想一下,中位数不受异常值的影响,因为它是精确的中间值,而平均值受数据集中每个值的影响。在这种情况下,离群值(家庭收入为 25 万美元的学生)将平均值向右拉。当平均值不同于中位数时,表明存在异常值和偏斜分布,如本例所示。
总的来说,平均值、中值和模式可以对数据集提供有用的描述。在下一章中,您将学习计算数据集可变性的方法,换句话说,就是“分散”的值是如何相互关联的。在描述数据时,可变性和中心的度量一样重要。






