编码技巧在统计学教学中的运用
摘 要:在统计计算中使用编码技巧能有效地降低计算的难度。讨论了编码技巧在计算样本方差和数据的正态性拟合优度检验中的运用,并通过两个实例验证了编码技巧在统计计算中的优势。
关键词:样本方差;编码;拟合优度检验
中图分类号:G712 文献标识码:B 文章编号:1671-9255(2014)04-0065-03
统计学最基本的工作是收集数据,然后对数据进行整理分析。然而收集来的数据往往比较复杂,特别是连续型数据,利用原始数据直接进行计算会比较繁琐。统计学作为一门实用科学,要求学生除掌握统计学的基本原理外,还必须有很强的计算能力。如今虽然计算机技术高度发达,可以利用计算机处理数据,但是对于学生来说,在学习的过程中对每一条公式,每一种方法,都需要用纸和笔借助计算器进行认真的计算,以便理解公式、熟悉公式和记忆公式并培养计算能力。在统计计算中如果能够对收集的数据进行有效处理,使计算简化,对于学生来说将是一件有意义的事情。
对数据进行编码处理可以达到简化计算的目的,既可以简化计算,又可以让学生很快掌握。在不同的计算中,编码技巧有所不同,本文将演示编码在计算样本方差及数据的正态性拟合优度检验两个方面的运用。
一、利用编码计算样本方差
样本方差是数据的一个重要的数字特征,在统计计算中占有很重要的位置。设 是一组样本观测值,称 为样本方差。[1]在该式中样本平均数 一般是近似值,直接利用
上式计算样本方差会影响结果的准确性,因此在计算中常使用另一种形式的公式:
可以看出 在很多时候计算量比较庞大,容易让学生在统计学的学习之初就产生畏难情绪,不利于后续学习。但是,如果我们对数据进行编码,就能简化计算,增强学生学习的信心。
所谓编码就是任选一个常数C,得到另一组数据 ,该组数据与 有相同的样本方差。一般的,常数C选为接近平均数的一个数最能简化计算。
例1:从一个小区随机抽取10株高粱,测得其株高(单位cm)分别为142,145,148,151,154,157,160,163,166,169,计算其样本方差。[2]
方法一:直接利用原始数据计算
根据数据,我们得到 =242545, =2418025,代入公式(1)计算得
方法二(编码法):
选择常数155,将上述数据编码得到新数据:
-13,-10,-7,-4,-1,2,5,8,11,14,
利用编码后的数据计算得 =745, =25,将上述结果代入公式(1)计算得
以上两种方法得到的结果是完全相同的,但是通过对比可见,编码过后的数据明显变小,在很大程度上降低了计算的难度。
二、编码在拟合优度检验中的运用
很多统计推断的理论都是基于正态性的假设,因此检验一组未知分布数据的正态性在统计推断中有非常重要的意义。拟合优度检验可以用来检验观测数据的正态性。正态分布是连续型分布,待检验的数据一般是连续型数据,其数据会比较复杂,如果按照拟合优度检验的一般程序进行直接运算,在计算理论概率和理论频数时计算量会较大,这时我们也可以对数据进行先编码再运算。
对于任一组数据,可以先画出直方图,直方图的纵坐标是观测频数,横坐标是每组观测数的中值(连续型数据),而直方图的形状是由纵坐标决定的,与横坐标的值没有关系,由此给我们一个启示,选择最简单的横坐标就可以很大程度的简化计算,从而得到编码的方法。
这里的编码是将数据分组后得到每组数据的中值,将中值依次编码为0,1,2,…得到编码变量,这里的编码变量可以是任何等间距的数列,使用自然数编码会最简便。利用编码变量进行拟合优度检验即可。
例2:某农场在做“三尺三”高粱提纯时调查了100株高粱的株高,得株高的频数分布如下表:[3]
用正态分布拟合优度检验检验“三尺三”高粱的株高是否服从正态分布。
通过上面的例题可以看出,使用编码之后,计算得到的 值与未编码的数据计算得到的 值是相同的。这是因为虽然用不同方式编码计算得到的平均数和标准差会不同,但由于所使用的频数是一样的,故经过标准化后得到的u值是一样的。因此使用自然数编码的计算过程是最简单的。显然编码之后的运算量有较大降低。上例中的数据,相对于实际需要及测量得到的数据来说,实在是微不足道的,但在统计收集资料时,我们得到的数据往往是相当复杂和庞大的,此时,对数据进行编码带来的计算难度的降低是非常显著的。
可见,编码技巧在统计计算中的运用能很大程度的降低计算的难度,不仅能提高学生的解题速度,也能增强学生计算的信心。除了以上介绍的两种情形可以使用编码技巧之外,编码还可以应用在统计计算的其它方面,如在方差分析中计算总平方和及处理间平方和等。在教学过程中,教师不仅可以告诉学生编码的技巧,还可以引导学生去发现,在哪些地方还可以应用这个技巧,不仅能够增强学生的学习兴趣,也能够激发学生的探索精神,从而收到良好的教学效果。
参考文献:
[1]李春喜,等.生物统计学[M].第4版.北京:科学出版社, 2008: 20-22.
[2]杜荣骞.生物统计学 [M].第3版.北京:高等教育出版社, 2009: 4-5.
[3]杜荣骞.生物统计学 [M].第2版.北京:高等教育出版社, 2003: 103.