第六章 数据的分析

生活中,人们离不开数据。我们不仅要收集、整理和表示数据,还需要对数据进行分析,进而帮助我们更好的作出判断。

  1. 平均数
    • 一般地,对于 n 个数 x1, x2, x3, ..., xn, 我们把 1/n (x1 + x2 + x3 + ... + xn) 叫做这 n 个数的算术平均数(mean),简称平均数。
    • 实际问题中,一组数据里的各个数据的“重要程度”未必相同。因而,在计算这组数据的平均数时,往往给每个数据一个“权”。配权后计算得到的平均数称为加权平均数(weighted mean)
  2. 中位数与众数
    • 一般地,n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数(median). 一组数据中出现次数最多的那个数据叫做这组数据的众数(mode).
    • 平均数、中位数、众数都是描述数据集中趋势的统计量.
      • 计算平均数时,所有数据都参与了运算,它能充分地利用数据所提供的信息,因此在现实生活中较为常用,但它容易受极端值的影响。如比赛评分时,个别裁判不公正打分将直接影响运动员的成绩。为此一般先去掉一个最高分和一个最低分,然后求其余得分的平均数作为运动员的得分。
      • 中位数的优点是计算简单,受极端值影响较小,但不能充分利用所有数据的信息。
      • 一组数据中某些数据多次重复出现时,众数往往是人们尤为关心的一个量。如选举,就是选择名字出现次数最多的那个人,因而可以将当选者的名字当做“众数”。但各个数据重复的次数大致相等时,众数往往没有特别的意义。
  3. 从统计图分析数据的集中趋势
  4. 数据的离散程度
    • 实际生活中,除了关心数据的集中趋势外,人们往往还关注数据的离散程度,即它们相对于集中趋势的偏离情况。一组数据中最大数据与最小数据的差(称为极差),就是刻画数据离散程度的一个统计量。
    • 数学上,数据的离散程度还可以用方差或标准差刻画:
      • 方差(variance)是各个数据与平均数差的平方的平均数,即: s2 = 1/n[(x1-xm)2 + (x2-xm)2 + ... + (xn-xm)2 ]。其中 xm 为平均数, s2是方差,而标准差(standard deviation)就是方差的算术平方根。
      • 一般而言,一组数据的极差、方差或标准差越小,这组数据就越稳定。