[统计学教程] 第三章描述统计

ago520

浏览: 258019 次
性别:
来自: 深圳

最近访客更多访客>>

jklwan

u012363178

adaya

qq113220715

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

导读：
　　第三章描述统计
　　
　　教学目标：
　　本章介绍对数据进行基本统计描述的有关方法，教学目标在于帮助学生理解各种常用的描述统计方法，并能够创造性地在实践中加以使用。学习本章需要大量结合案例进行操作，熟悉各种方法。
　　本章重点：
　　本章的重点是平均指标和离散指标。
　　
　　讲义内容：
　　
　　第一节数据预处理
　　
　　一．缺失值处理
　　缺失值是指在数据采集与整理过程中丢失的内容。
　　一般情况下，数据都是以关系型表的方式采集的，如下表是某次调查中一些受访者的基本情况：
　　
　　姓名年龄性别职业收入
　　张三 20 －护士 1500
　　李四 30 女医生 2000
　　王五 35 男医生 3000
　　赵六－女护士 1000
　　
　　如果在表格中，某一个数据采集时无法获得，就会出现缺失值，例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。
　　缺失值的处理一般有两种方式，一是删除对应的记录，例如在上例中，如果张三的性别没有记录，出现缺失，则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的，但如果各个项目中都有少数的数据缺失存在，对所有缺失的记录都进行删除可能就会使总样本量变得非常小，从而损失许多有用信息。缺失值处理的第二种方式是进行插值处理，所谓插值，是指人为地用一个数值去替代缺失的数值。
　　插值处理根据插值的不同，有如下一些方法：
　　1．随机插值
　　根据缺失值的各种可能情况，等概率地进行插值。
　　例如在上例中，“张三”的性别有两种可能性，一是“男”，二是“女”，可以简单地掷一枚硬币，如果正面朝上，则赋值为“男”，如果反面朝上，则赋值为“女”。
　　2．依概率插值
　　随机插值是假定各种一个变量取各种值的可能性是相等的，但有些情况下，我们可以事先知道一个变量取各种值的概率，例如，我们知道在上述的单位中，女性占的比例是75％，男性的比例是25％，则在对“张三”的性别进行赋值时，不是按50％概率赋为“女”，而是按75％概率赋为“女”。
　　3．就近插值
　　就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值，例如在上例中，“张三”的性别出现缺失，此时可以用其邻近的“李四”的性别数据替代“张三”的性别数据，由于“李四”的性别为“女”，所以将“张三”的性别也赋为“女”。
　　就近插值是依概率插值的一种简化处理，设想在整个单位的职工中，女性占的比例是75％，则在一般情况下，与张三邻近的记录性别为“女”的概率也应当为75％，就近插值实际上就是依概率插值。
　　使用就近插值时，需要对抽样过程进行必要的了解，如果抽样时性别有交叉的情况，例如经常是调查完一名男性后就调查一名女性，则使用就近插值就会出现较多的错误。
　　4．分类插值
　　依概率插值是将记录置于总体的背景上进行插值，没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性，则可以根据这些辅助信息对总体进行分类，在每一类内部进行插值处理。
　　例如在上例中，“张三”的职业是“护士”，假定该单位中95％的“护士”性别为“女”，则在进行插值是，就不是使用全单位的女性比例75％，而是使用“护士”中的女性比例95％对“张三”的性别进行赋值。
　　
　　二．数据分组
　　数据采集中的要求是尽可能完整地保留原始状况，但在进行数据处理时，可能需要对数据进行一定的归类，以便于分析。这种数据归类的过程，称为数据分组。
　　例如在调查中，受访者的年龄是按实际年龄进行记录的，但在数据分析时，需要将其分为20岁以下、20－30岁、30－40岁、40－50岁、50岁以上等若干个组。
　　数据分组中需要考虑的内容包括
　　1．分组标志
　　一批数据可以按不同的标志进行分组，选择分组标志要根据研究目的进行。例如要研究受教育程度对收入的影响，则分组应当按学历和月收入两个标志进行，而没有必要再使用身高、体重等标志进行分组。
　　2．组数
　　按同一标志，可以将数据分成不同数量的组，例如按年龄分组，可以分为儿童、成年人两组，也可以分为青少年、中年、老年三个组，也可以按10年或者5年为一段分为更多的组。
　　组数的确定受研究目的和样本量两个因素影响。
　　研究目的不同，对于分组的细化程度也会有所不同。例如研究目的是分析不同年龄段的就业状态，则分组应当按就业身份进行细分，例如需要按5年为一段将就业人口分为6－7个组，因为在现实经济生活中，25岁与30岁年龄人群的就业状态是存在差异的。但如果要了解的是消费观念等问题，则可以将组分得粗一些，按青年、中年、老年划分就可以了。
　　组数的确定还受到样本量的影响，样本量较大时，组数也可以更大一些，反之则组数应当小一些。例如当拥有10000个样本时，将总体分为10个组也是可以的，但如果只有30个样本，分为2－3个组就已经足够了，再进一步细分后，每一组的样本量太小，就很难做出推断了。
　　初接触统计分析的工作人员往往倾向于将数据分组分得很细，以求保留更多的原始信息，例如在按学历进行分组时，希望将两年制大专和三年制大专分开。需要提醒的是，数据分组过细后，最终的统计结果会表现为一个较大的表格，有时反而不利于阅读和判断。
　　数据分组可以采用“试错”的方法，即“错了再试”，先按某种方式分组，然后进行分析，如果发现分析中存在问题，再调整分组方法。
　　3．组距
　　组距是指每个组的范围跨度。例如按年龄20－30岁分为一组，则该组的组距为10岁。
　　各组的平均组距是受组数影响的，组数越多，组距越小，反之则越大。但具体落实到每一个组，则情况还有所不同。例如按年龄将人口分为未成年、就业人口和退休人口三组时，三个组的范围分别是16岁以下，16－65岁和65岁以上，三个组的组距显然是不同的。
　　组距的确定受自然和社会规律以及样本结构两个因素影响。
　　从自然和社会规律方面来说，组距的确定是客观的，例如上例中人口的分组，是按就业身份进行划分的，这种划分方法不能被改变。
　　按样本结构确定组距是针对一些没有客观标准的标志进行分组时采用的方法，例如按收入进行分组时，组距的确定并没有客观标准。此时，可以根据样本的结构划分组距，以使每一组的样本数大致接近。
　　4．组限
　　组限指组与组之间的界限，组限与组距是一对相互影响的关系，组距调整了，组限也就发生了变化，反之，组限一旦确定下来，组距也就确定了，组距等于组的上限与下限之差。
　　组限的确定有时是客观的，需要根据实际研究的内容进行调整。例如前面的例子中未成年人与成年人的分组界限是16岁，这是按国际标准的就业人口界限确定的。但如果分组的目的是研究样本的民事行为能力，则这一分组界限就需要调整为18岁。
　　有些时候，一个组可能会缺失上限或者缺失下限，例如年龄中的“60岁以上组”，就无法获得一个确定的上限，在人的身高项目中，“150厘米以下组”就是一个缺下限组。
　　对于连续型的变量来说，相邻组的上限和下限会是同一的，例如在对收入进行分组时，“500－1000元”和“1000－1500元”就出现了重合，此时，统计惯例是将重合的值计入后一组。即上述两组的划分为“500－1000元（不含）”，和“1000元－1500元（不含）”。
　　5．组中值
　　组中值是一个组中处于中间位置的值，往往用以代表一个组的平均状况。
　　对于缺上限或者缺下限的组，组中值的计算有几种不同的情况
　　（1）根据邻近组组距推算
　　（2）对于缺下限组而言，当邻近组组距过大时，使用上限的一半计算。
　　例如，关于收入的两个组是“500元以下”、“500－1500元”，此时，计算第一组的组中值为500的一半，即250元。
　　（3）根据现实情况人为确定
　　有些情况下，一个组的上下限虽然不能确定，但可以进行模糊地判断，此时就可以利用这种模糊判断的结果，确定该组的组中值。例如在收入数据中，“5000元以上组”的组中值可以根据城市中高收入人群的平均收入情况确定为“8000元”，这种确定的依据是现实的社会经济经验数值。
　　
　　三．次数分配
　　次数分配是指观察值按分组标志分配在各组内的记录数。
　　各组中观察值的数量称为次数，也称频数。各组次数与总次数的比例，称为频率。
　　有时候，出于统计分析的目的，需要对高于或低于某一组的所有观察值的次数进行统计，这样形成的次数分配表，称为累积次数分配表。
　　
　　例：累积次数分配表
　　组别次数向下累积次数
　　500元以下 5 5
　　500－1500元 12 17
　　1500－2500元 14 31
　　2500元以上 4 35
　　
　　四．分布曲线
　　1．概念
　　在平面直角坐标系上，以分组标志为横轴，次数或者频率为纵轴，可以画出次数分配的直方图。例如上例中的次数分配情况可以表示为
　　
　　将直方图的顶端用折线连接，可以获得次数分配的折线图，折线图的含义与直方图是一致的，均反映不同组的次数分配情况，折线越高的地方，反映该组的次数越多，反之则越少。
　　当样本量较大，组距较小时，折线图会越来越平滑，直至成为一条曲线。这种曲线称为次数分布曲线，反映出数据的分布规律。
　　
　　2．分布曲线的类型
　　数据的分布特征不同，形成的分布曲线也表现出各种不同的类型，常见的分布曲线的类型有下列各种
　　（1）钟形分布
　　钟形分布是社会经济现象中最常见的分布形式，具体表现为中间隆起，两侧逐渐降低。钟形分布表明数据具有集中的趋势，大多数数据集中在中间，越往两端，数据越少。在远离中心的位置，只有极少数的数据。钟形分布的中间隆起部分称为峰，两侧称为尾。
　　以下是一个典型的钟形分布的例子。由于两侧的数据不对称，因此这种钟形分布称为偏态的钟形分布。根据较长的尾所指的方向不同，将偏态又可分为正偏（右偏）和负偏（左偏）两种，下图中较长的尾部指向左方，即数据的负方向，所以称为负偏态，或者左偏态。
　　
　　左右对称的钟形分布是一种特殊情况，因为自然现象中严格呈现出左右对称的是非常少见的。对称的钟形分布大多数是属于数据经过处理后的分布形式。其中最典型的对称钟形分布是正态分布（Normal Distribution）。例如将1万人分成250组，每组40人，每组计算一个平均身高，根据数理统计理论中的中心极值定理，我们可以知道250个组平均身高数值将表现为一种近似于正态分布的情况。
　　正态分布的概率密度函数公式为：
　　
　　尽管正态分布的名称看上去象是一种常规（Normal）的分布形式，但实际上自然现象恰好表现为正态分布的情况是非常少的。例如成年男性的身高，虽然具有钟形分布的特征，但往往表现为一种偏态的钟形，而非对称的钟形，更不可能恰好是正态分布。
　　（2）J形分布
　　J形分布一般是累积分布的表现形式，在图形上表现为一条从下向上单调变化的曲线。根据J形分布的方向，又可分为正J形和反J形。所谓反J形，是指曲线单调递减的情况，一般是用于描述向上累积的现象。
　　（3）U形分布
　　U形分布是指中间凹陷，两端翘起的分布形式，反映出某一个社会经济现象在开始和结束时某项活动比较频繁，而在中间则相对比较稳定。U形曲线一般用于描述具有生命或者质量特征的现象，例如人和动物的死亡率数据，人和动物一样，在幼年和老年的死亡率都比较高，中年的死亡率较低，从而表现为U形曲线。产品的故障率也具有这样的特征，产品使用初期和老化期的故障率都比较高，中间阶段则故障率比较低。
　　U形曲线因形状象浴缸，又称为浴缸曲线。是两个不同的因素同时对一个社会经济现象起作用的结果。如产品故障率，同时受产品自身缺陷和老化两个因素影响，在使用初期，自身缺陷造成的故障率较高，在使用后期，则老化引起的故障率较高，中间阶段则正好处于两个故障率均较低的阶段。
　　（4）多峰分布
　　多峰分布是指超过一个隆起部分的分布，数列有若干个隆起部分，反映出影响数据的主要因素有若干个不同的水平，受不同水平影响的数据分别以不同的中心点聚集，从而形成若干个峰值。
　　例如如果将某次调查中男女受访者的身高数据放在一起观察，就会发现数据表现出两个峰值，男性的平均身高和女性的平均身高分别为175CM和162CM。
　　
　　第二节总量指标和相对指标
　　
　　一．总量指标和相对指标
　　总量指标是反映社会经济现象总体规模或水平的指标，又称为绝对数。例如一个国家一定时期内的人口数、一个地区的土地面积等等。
　　相对指标是两个有联系的总量指标对比计算的比率，又称为相对数。
　　根据相比较的总量指标之间的关系不同，相对指标可以划分为若干种类型：
　　1．结构相对指标
　　例如：一个班级中有学生100人，其中男生60人，用男生人数除以总人数为60％，即为结构相对指标。
　　2．比例相对指标
　　例如：一个班级中有学生100人，其中男生60人，女生40人，用男生数与女生数进行比较，男生数为女生数的150％，即为比例相对指标，比例相对指标也可以用比例式写成1.5:1。
　　3．强度相对指标
　　例如：某地有人口100万人，土地面积100平方公里，人口数和土地面积分别是同一总体的两个不同方面，用人口数除以土地面积得人口密度为1万人／平方公里，即为强度相对指标。
　　4．比较相对指标
　　例如：甲地2001年GNP为100亿元，乙地2001年GNP为120亿元，甲地的GNP为乙地的5／6，该数值即为比较相对指标。
　　与比例相对指标不同的是，比较相对指标涉及到的两个主体并不属于同一个总体的两个部分，而是两个独立的总体。
　　5．动态相对指标
　　例如：甲地2001年的GNP为100亿元，2000年的GNP为80亿元，2001年为2000年的125％，该指标即为动态相对指标。
　　
　　二．描述总量指标和相对指标的一些常用术语
　　1．静态比较与动态比较
　　将同一时期的统计指标放在一起进行比较，称为静态比较。如果是用不同单位的同一时期指标进行相互比较，则可称为横向比较。同一单位或者不同单位的同一时期数据，称为横断面数据，表示按某一时间进行拦腰截断后，所观察到的数据。
　　将不同时期的统计指标放在一起进行比较，称为动态比较。将同一单位的不同时期指标进行相互比较，又称为纵向比较。
　　2．基期与报告期
　　在进行动态比较时，有时会用当前的数据与过去某一时间的数据进行对比。此时，将当前的数据称为报告期数据，将用于比较的过去的数据称为基期数据。
　　如果观察的是若干个时期的数据，每个时期的数据均与同一个基期数据进行对比，则这种比较方法，称为定基比较。例如，将某一时期1970年、1980年、1990年和2000年的GNP数值与1949年进行比较，所获得的4个比例，称为定基增长率。
　　如果在观察若干个时期的数据时，每一数据均与前一时期进行对比，则这种比较方法称为环比比较。例如，观察1996年至2000年的GNP增长情况，其中1996年与1995年进行比较，1997年与1996年进行比较，……，2000年与1999年进行比较，则获得的一组增长率数据，称为环比增长率。
　　3．时期和时点
　　时期是指两个时间点之间的一段时间，时点是指某一特定的时刻。
　　时期指标往往是具有动态特征的指标，例如在连续的一段时间内所进行的生产活动，要进行统计时，就必须采用时期指标。
　　时点指标是具有静态特征的指标，反映的是过去所有活动的结果，例如某一时点上的国民财富积累情况，等等。
　　
　　第三节平均指标
　　
　　平均指标指同类社会经济现象在一定时间、地点条件下所达到的一般水平。平均指标是数据描述中最基本的指标之一。
　　常用的平均指标包括下列七类：
　　
　　一．算术平均数（Arithmetic Mean）
　　算术平均数也称均值，是所有数的总和与数量之商。用公式表示如下：
　　对于分组数据，计算算术平均数时，可使用加权算术平均数方法。
　　加权算术平均数适用于三种不同的场合
　　1．分组频数数列
　　在分组数列中，已知每一组的平均水平和频数，直接进行计算。
　　对于数列是组距式的情况，每一组的水平使用组中值代替。
　　2．分组频率数列
　　在分组数列中，已知每一组的平均水平及频率，将频率作为权重进行计算。
　　尤其是当各组的频率之和为100％时，加权算术平均数的分母为1。
　　3．具有不同权重的变量求平均。
　　涉及到不同重要性的因素之间的加和问题。例如，对同一个社会经济现象有若干名专家进行评分，但由于专家的威望不同，所以评分的权威性也不同。对各位专家的评分结果，不能直接进行平均计算，而应当将威望值作为权重，进行加权平均计算。
　　
　　二．调和平均数（Harmonic Mean）
　　调和平均数是根据标志值的倒数计算出来的平均指标，其意义与算术平均数一致。可以这样理解，调和平均数是在数据来源不同的情况下计算算术平均数的一种方法，调和平均数都可以通过数据转换，调整成算术平均数进行计算。
　　
　　例如：已知某人分几次购买苹果的情况如下：
　　序号苹果价格（元／公斤）
　　x
　　购买金额（元）
　　f
　　1 4 10
　　2 4.5 14
　　3 3.5 18
　　使用调和平均数计算苹果的平均价格，方法如下
　　此例也可转化为算术平均数进行计算，根据“购买数量＝购买金额／苹果价格”，可以计算出所购买苹果的总数量，如下表：
　　序号苹果价格（元／公斤）
　　x
　　购买金额（元）
　　s
　　购买数量（公斤）
　　f
　　1 4 10 2.5
　　2 4.5 14 3.11
　　3 3.5 18 5.14
　　根据算术平均数的计算公式，也可计算苹果的平均价格，即3.91元／公斤。根据本例也可以看出，调和平均数实际上只是将进行数据转换的步骤综合在计算公式中而已，实际上所计算的，仍然是算术平均数。
　　
　　三．几何平均数（Geometric Mean）
　　几何平均数是在数列具有连乘积特征的情况下所计算的平均数。
　　算术平均数的特征是各个参与平均的变量之间是平行的关系，变量之间可以直接相加，获得总和。例如，三个人的收入分别为1000元、2000元和3000，则计算三个数的和，可得到三个人的总收入值为6000元。
　　几何平均数的特征是参与平均的变量之间是连续的关系，变量之间是通过相乘的方式来获得累积效果的。例如，某人在银行存款，本金为1000元，三年的存款利息率分别为10％，15％和20％，则三年后此人的银行存款本息之和为
　　1000元（1＋10％）（1＋15％）（1＋20％）＝1518元
　　这种具有连乘积特征的变量关系，在进行平均计算时，需采用几何平均数的方式。
　　几何平均数的计算公式为
　　其中符号表示连乘的意思。
　　以上述的某人存款的数据为例，此人存款三年的平均利息率为
　　几何平均数也有加权形式，加权几何平均数的计算公式为
　　
　　四．众数（Mode）
　　众数是一组数据中出现次数最多的变量值。
　　对于轻微偏态的单峰分布数据来说，众数反映的是数据的集中趋势位置，因此可以反映一组数据的平均状态。
　　相对于算术平均数，众数更注重大多数的特征，而不关注极端数据的特征，这样，众数就是一个较为稳健的统计量。
　　在分组式数列中，众数的计算公式如下：
　　其中：
　　L表示众数组的下限；
　　表示众数组与前一组的次数之差；
　　表示众数组与后一组的次数之差；
　　表示众数组的组距。
　　
　　五．中位数（Median）
　　中位数是位于统计数列中间位置上的数。在数列中，有一半的数据大于中位数，一半的数据小于中位数，因此中位数可以反映数列的一般水平。
　　中位数的位置计算公式为
　　中位数不容易受到极端值的影响，数列中有个别数值出现异常，一般不会影响到中位数的大小。因此，中位数是一个比较稳健的统计量。
　　对于分组数列的情况，中位数的计算公式为：
　　其中：
　　L表示中位数组的下限；
　　N表示总体单位数；
　　表示中位数所在组之前的累积次数；
　　表示中位数组的次数。
　　
　　六．分位数
　　分位数是指将一列数据K等分的各种数。
　　计算第一K分位数的方法是：
　　最常见的分位数包括四分位数（Quartile）、十分位数（Decile）和百分位数（Percentile）。
　　
　　七．截尾均值
　　截尾均值是指在一个数列中，去掉两端的极端值后所计算的算术平均数，也称为切尾均值。最常见的截尾均值的例子是在一些比赛中，计算选手的最终得分需要“去掉一个最高分，去掉一个最低分”，这种处理方法，即为计算截尾均值的方法。
　　截尾均值由于去掉了数列中影响数据稳定性的极端值，从而具有较好的稳健性，不易受到极端值的干扰。在数据序列本身存在少量错误的情况下，通过有效地判定极端值，并将极端值去掉来计算算术平均数，可以获得较为真实地反映数据情况的平均指标。
　　极端值的判定根据分析目的的不同，可以有下列各种不同的方法：
　　1．确定两端或者一端固定数量的值为极端值
　　例如确定最大值和最小值为极端值，而不去观察这两个值本身是多少。
　　2．确定一个固定范围外的数值为极端值
　　在数据处理时，人为地确定一个取值范围，超出这范围内的数值一律被当作极端值。例如在计算平均收入时，将10000元以上的收入值统一判定为极端值，不进行平均计算。
　　3．根据数据的统计结果来确定极端值
　　这种方法的特点是不事先确定极端值的范围，而是根据数据的实际数值，来推算极端值的范围。例如在计算收入数据时，约定以中位数的3倍作为极端值的范围，这样，对于不同的工资水平的地区，极端值的范围也就有所不同了。
　　
　　四．离散程度指标
　　1．极差（Range）
　　极差是数据的最大值与最小值之差，用公式表示如下：
　　极差反映出数据在空间上的分布范围，一般情况下，分布范围越大，表明数据整体越离散。
　　极差是一个不够稳健的统计量，个别极端值的存在，可能会对极差造成很大的影响。
　　2．内距（Inter-Quartile Range）
　　内距也称四分位差，是指第三四分位数与第一四分位数之差。
　　用公式表示如下
　　内距由于使用的是第三四位位和第一四分位的差，受两端的极端值影响较小，因此更为稳定。内距反映的处于中间位置的一半数据的分布范围，该范围的大小，可以反映整个数列的离散程度。
　　3．平均绝对差（Mean Absolute Deviation）
　　极差和内距都是根据数据所处的位置来进行计算的离散指标，未能充分利用所有数据的信息。平均绝对差是指各个标志值对其算术平均数的平均离差。
　　
　　4．方差（Variance）和标准差
　　平均绝对差使用绝对值来消除离差的正负号，在数学处理中，具有一些不方便之处。方差是使用求平方的方式来消除正负号，便于数学处理。
　　方差的计算公式为
　　方差的平均根称为标准差
　　方差的简捷计算方法：
　　（1）
　　（2）
　　其中，C是与之差，是x对的方差。
　　
　　5．离散系数（Coefficient of Variation）
　　当几组数据的平均水平不同时，标准差的含义也有所不同。为了对水平不同的数据进行离散程度的比较，需要计算标准差相对于平均数的大小，称为离散系数。
　　
　　五．数据变换
　　数据变换是为了更好地显示数据，以便于分析人员对数据的特征进行掌握。数据变换原则上应当是单调的，也就是说，经过变换后的数据顺序，与变换前没有发生改变。
　　1．原点变换
　　对于数据绝对值比较大，远离原点的情况，可以通过这种方式，将数据调整到原点附近，以便于观察。
　　2．尺度变换
　　对于数据差异较大或者较小，普通坐标系无法容纳的情况，通过这种变换，能够使之尺度发生变化，适应常规尺度。
　　3．一般线性变换
　　是原点变换与尺度变换同时作用的结果。
　　4．中心化变换
　　将数据批调整到以平均值为中心。
　　5．极差变换
　　将数据批调整至最大值为1，最小值为0的区间。
　　6．标准化变换
　　将数据批进行原点和尺度的同时变换，使之与标准正态分布的规格相一致。
　　7．非线性变换
　　非线性变换主要用于数据序列的变化规律不均匀的场合中，例如，当处理一批平均水平不同的数据时，需要将数据进行对数变换，以求在同一坐标系内反映不同的数据批。
　　
　　六．探索性数据分析
　　探索性数据分析是描述统计中一个重要的课题。数据分析人员经常要面对纷繁复杂的原始数据，如果不能掌握数据的基本规律，就不可能有针对性地采用各种统计方法。在实践中，数据分析往往分为两个步骤：探索性数据分析与证实分析。
　　探索性数据分析是从复杂的数据中分离出数据的基本模式和特点，让分析者发现其中的规律，以便选择分析方法。对于在探索性数据分析中发现的数据规律，分析者需要使用特定的统计模型进行证实分析，以确定规律是否正确。
　　探索性数据分析与证实分析在一次数据分析中往往要多次交替使用，在证实分析结束后，分析人员可能会发现更多有待探索的数据模式，从而需要再次使用探索性数据分析工具。
　　探索性数据分析有四大主题，分别是：
　　1．耐抗性
　　所谓耐抗性，是指分析方法对于数据局部不良行为的非敏感性。
　　原始数据来源不可能保证所有的数据均准确无误，在数据存在少量错误的情况下，如何能够不被错误数据所误导，而认识到数据的本来面目，十分重要。
　　2．残差
　　残差是指从数据中减去一个总括统计量或拟合模型后的残余部分。
　　当残差出现异常时，数据中往往有值得注意的系统性问题。残差异常的情况包括：
　　（1）残差具有周期性；
　　（2）残差呈现单调变化；
　　（3）残差的绝对值有单调上升或者单调下降的趋势；
　　（4）残差具有其他的相关特征。
　　3．重新表达
　　重新表达是指找到一个新的尺度对数据进行重新描述，以便简化分析。
　　4．图示
　　图示是以图形的方法描述数据，以帮助分析者看出数据、拟合、残差等行为，从而抓住想象不到的特点和常见的一贯行为。
　　
　　七．对误差的描述
　　所谓误差，是指观察值与真实值之间的差别。在使用同一种方法，对一个社会经济现象进行反复观察时，每次观察所获得的结果可能是不同的，所有这些观察结果与真实值之间的关系，大致可以表现为下列四种不同的情况：
　　1．观察值的期望值等于真实值，即观察值没有偏差。观察值的方差较小。
　　2．观察值的期望值等于真实值，即观察值没有偏差。观察值的方差较大。
　　3．观察值的期望值与真实值之间存在一个偏差，观察值的方差较小。
　　4．观察值的期望值与真实值之间存在一个偏差，观察值的方差较大。
　　显然，第一种结果是最为理想的调查结果，最后一种结果是最不理想的结果。
　　在2和3两种结果中，根据调查目的的不同，选择的倾向也可能有所不同。一般情况下，结果3的效果优于结果2，因为对于结果2而言，单一的一次观察由于方差太大，很难判断结果的有效性，而对于结果3来说，每一次结果的偏差是确定的，在方差较小的情况下，如果能够对偏差进行有效的估计，调查结果就是有效的。
　　
　　
　　图一：无偏差，小方差
　　
　　图二：无偏差，大方差
　　
　　图三：大偏差，小方差
　　
　　图四：大偏差、大方差
　　
　　
　　八．箱线图
　　1．次序统计量的使用
　　（1）次序统计量的概念
　　对于由N个观测值组成的一批数据，经典的统计方法往往是对全部数据进行代数运算，例如加减乘除、开方等，常见的统计量包括算术平均数和样本方差。
　　平均数和方差很容易受到样本中个别野值的影响，从而使数据的耐抗性较差。
　　例如以下一组数据的情况（见演示图表）
　　在探索性数据分析中，往往使用基于次序或者基于计数的统计量，这一类总括统计量具有耐抗性较好的特点。
　　将一组数据进行由小到大的排序，排序后的数据称为原数据的次序统计量，其中被称为第个次序统计量。
　　（2）秩、深度与五数总括
　　将数据进行排序后，从最小值向最大值计算的名次，称为数据的升秩；从最大值向最小值计算的名次，称为数据的降秩。显然，对于任何一个数据而言，有
　　升秩＋降秩＝N＋1
　　升秩和降秩中的最小值，称为一个数据的深度。
　　深度为的数为中位数。
　　当为偶数时，
　　中位数可用于描述一组数据的平均状态，相比算术平均数，中位数具有较好的耐抗性，不会因为个别数据的变化而发生大的变化。
　　两个极端值：最大值和最小值，是反映数据离散程度的量，其深度均为1。
　　由于极端值很容易受外在因素的影响，从而不够稳定，在描述一组数据时，往往还需要使用其他的总括统计量，其中最常用的是四分数（fourths）。
　　四分数中较大称为上四分数，较小的称为下四分数。
　　用中位数、四分数和极端值，可以较好地描述一个数据批，这种描述方法称为五数总括。
　　（此处使用数据演示）
　　如果数据批相对较大，同时需要一些更精确的描述，可以在五数总括基础上再增加两个统计量，即八分数。
　　加上八分数之后，数据描述即成为七数总括。
　　（3）展布和离群点
　　在经典的统计方法中，我们使用方差作为描述数据离散程度的统计量，但这一统计量比较容易受到极端值的影响。用次序统计量之间的距离来描述数据离散程度是一种较为耐抗的统计方法，两个次序统计量之间的距离称为展布。
　　极差（最大值－最小值）是比较传统的展布，但比较容易受极端值的影响。上下四分数之间的差距受极端值的影响很小，可以用来作为描述数据离散程度的统计量。
　　四分展布＝上四分数－下四分数
　　四分展布可以用来比较几个数据批各自的离散程度，四分展布在一定程度上可以用以代替标准差所起的作用。
　　在一个标准正态分布情况下，上下四分数分别为和，所以其四分展布应为。如果一批数据基本近似于正态分布，但存在少数极端值影响标准差，可以使用四分展布计算“四分伪标准差”。
　　在一批数据中，除了一部分处于核心部分的数据外，还有一些数据处于边缘部分，其行为与大多数数据有所不同，对此，我们需要进行识别。统计上习惯于将边缘部分的数据分为在外点和离群点两组概念。
　　取和为“在外截断点”，以此边缘以内的部分为常规数据部分，其数据行为与大多数数据相同，在此边缘之外的部分称为在外点（outlier）；取和为“离群值截断点”，在此之外的数据称为离群值或者离群点（extremes）。（图示在外点和离群点）
　　在一些统计软件中，允许使用者自己定义截断点的比例值，根据统计需要，取不同的为在外截断点。
　　一般情况下，在外点仍被认为是与总体具有相近数据行为的数据，但离群点则往往被视为野值。
　　
　　2．箱线图（boxplots）
　　
　　（1）箱线图的基本概念
　　箱线图是五数总括的图示法，从箱线图中可以看出一批数据的下列特征：
　　位置
　　展布
　　偏度
　　尾长
　　边远数据点
　　一个典型的箱线图如下（使用投影演示）
　　
　　
　　
　　使用美国1960年人口调查的数据，引入单批数据箱线图。
　　
　　表：1960年美国15个最大城市的人口数
　　城市人口数（万人）城市人口数（万人）
　　New York 778 Washington D.C. 76
　　Chicago 355 St. Louis 75
　　Los Angeles 248 Milwaukee 74
　　Philadelphia 200 San Francisco 74
　　Detroit 167 Boston 70
　　Baltimore 94 Dallas 68
　　Houston 94 New Orleans 63
　　Cleveland 88
　　根据数据计算；；；
　　
　　（2）利用箱线图比较几批数据（横向比较）
　　下图是某市场中各类MODEM产品按所用芯片不同进行价格比较的箱线图：
　　
　　对箱线图的解释：从MODEM的技术参数上看，目前国内市场上销售的MODEM主要使用三类芯片，即Cirrus Logic芯片、Rockwell芯片和Texas Instruments芯片，简称为CL芯片、RW芯片和TI芯片。根据2000年7月的市场情况，CL芯片主要用于600元以下的低端MODEM产品，中间价为320元，RW芯片主要用于中档MODEM，产品线很长，价格跨度从150元直至800元以上，中间价为480元。TI芯片主要为高档MODEM，价格跨度从300元至1100元，中间价为550元。
　　
　　（3）利用箱线图观察一批数据的动态表现（纵向比较）
　　以下为某一段时间内某市场上数码相机的价格变化情况。
　　
　　
　　对箱线图的解释
　　在过去的八周中，数码相机的价格基本上为稳中有降，虽然部分高端产品的价格依然居高不下，但中低端产品的型号数量明显增加，带动整体价格呈缓慢下降的态势。
　　从上图看，数码相机市场的价格上四分位由4月1日的9000元，下降至5月27日的7690元，也就是说，在最近的一周中，市场上75％的型号的数码相机价格不高于7690元，比2个月前下降了1310元。
　　代表价格平均水平的中位价由2个月前的7200元，下降到5月27日的6304元，该数值同样反映出总体价格水平正在缓慢地降低。
　　但是反映最低端产品价格的下四分位价基本没有发生变化，2个月前，最低价位的25％的产品价格在5250元以下，至5月27日，该数值为4960元，下降的幅度只有300元左右。
　　结合上述的数据可以判断，在过去的两个月中，新进入市场的数码相机产品主要为分布在5000－7000元之间的中低档产品，各厂商显然将主要的注意力都集中在这一价格段上。5000元以下的最低端市场上争夺并不激烈。
　　从产品价格的四分位差变化上也可以证明这一结论，数码相机产品价格的四分位差由3750元下降到2730元，该指标反映的是占市场主体的50％的产品价格所覆盖的区间，2个月前，占市场主体的50％的产品在3750元的价格区间上竞争，而2个月后，这一区间已经压缩到了2730元，显然，中档产品的价格正在逐渐趋同。
　　从市场变化的规律性上分析，不同层次厂商的价格趋同将带来两种可能性，一是迫使主打低端市场的厂商压低自己产品价格，以求与高端厂商拉开差距，另一种可能则是在价格已无回旋余地的情况下，低端厂商无力竞争，完全退出市场。从目前数码相机产品的特征来看，低端厂商尚有较大的降价余地，因此极有可能选择前一种方式，可以预言，数码相机的低端产品可能会在几个月之内出现较大幅度的整体降价。
　　（4）对箱线图进行尺度变换，以对比展布差异较大的几个数据批（略）

分享到：