现代心理与教育统计学 第3版

> 现代心理与教育统计学 第3版

张厚粲,徐建平
北京师范大学出版社2009/1

48.00

统计图表

  【教学目标】熟悉整理统计数据的排序与分组方法;理解各种统计图表的基本结构及制作要求;熟练绘制各种统计图表;针对不同的数据类型和研究需求,灵活运用统计图表。

【学习重点】各种统计图表的基本结构与编制方法;各种次数分布表与次数分布图;直方图、条形图与线形图。

各种科学研究的结果大多以数据的形式出现。这些直接获得的数据称为原始数据或观测数据,它们纷乱无章,初看起来难以发现问题,只有经过整理分析才能从中提取出有用的信息构成规律性的知识。因此,科学工作者在实验或调查结束后的第一项工作就是依据研究的目的要求,对原始数据加以初步整理与分析,制成简单的统计图或统计表,从中发现这些数据分布的形式和特点,再选择必要的统计方法进一步作深入研究。另一方面,研究结果的呈现既可以采用数字或文字形式,同时,也可以绘制成统计图表,用简单明了的形式来呈现。统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点,在科研结果的展示中是不可忽视的一个重要方面。本章主要介绍对数据进行初步整理的方法和各种统计图表的制作与应用。

第一节数据的初步整理

远在数理统计的理论体系建立起来以前,人们就在广泛地使用一些直观易行的方法来处理数据,从中获得有用的信息。统计表和统计图就是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。

在对数据进行统计分类以后,得到的各种数量结果称为统计指标,把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表(tabu-lation)。统计表具有简明、清晰、准确的特点,表中的数据易于比较分析。统计图(graph或 chart)是依据数字资料,应用点、线、画、面、体、色等描绘制成,简明而又有规律,并且能显示数量的图形,它是统计数据资料的可视化显示方式。一张简单的图形,可以把一大堆数据中有用的信息概括地表现出来。图形比数字更为具体形象,能形象化地呈现事实或现象的全貌,给人以简明扼要、清晰易懂的印象,便于学习和记忆。

在制定统计表和统计图时,首先要对收集的数据资料进行初步整理。整理的基本方式有排序和统计分组两种。

一、数据排序

数据排序(sort或 order),就是按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列。如按照被试的年龄或性别,或调查问卷的标识码等标准进行排列。排列后会使数据之间的某种关系有所显示。数据排序是整理数据最简单的方法。

将一组数据按照数值大小、高低、长短、多少,依升序(ascending order)或降序(descending order)排列后,就可显示出数据的分布情况。对字符型数据,如性别、职业类别等数据排序时,汉字可依照汉语拼音、笔画数排序,英文可按字母顺序排序。数据排序后,可以再进一步划分等级,如考试分数排序之后能够转化成优良中差等级别,也可确定名次。至于等级排列的顺序用升序还是降序,则要看数据及所反映的事物本身的性质和研究目的而定。

二、统计分组

所谓统计分组(grouping),就是根据被研究对象的特征,将所得数据划分到各个组别中去。对研究中所获得的大量数据进行统计分组是对数据进行整理的重要步骤。

(一)统计分组前的准备

将数据进行分组前,先要对观测数据做进一步的核对和校验。校核数据的目的是为了尽可能地消除记录误差,以便使后续的统计分析建立在一个坚实的基础上。

在研究中,采用一定的观测手段会得到大量数据。但是这些数据在获得过程中,由于不同研究者掌握的观测标准不同,观测仪器的灵敏度不稳,以及观测时某些异常因素的影响,都可以使观测结果产生一些因过失而造成的误差。因此,在对数据进行分组之前,要进一步核实,如果有充分的理由证明某个数据是受到了这些过失影响,那就要将这些数据删除出去,以免它们影响对结果的分析。在这个过程中,切忌随心所欲地删除那些不符合自己主观假设的数据。如果那样做,不仅违背科学原则,还是缺乏科研道德的表现。

尤其在心理与教育科学实验中,常常会收集到一些变异性较大的实验数据。在进行整理时,如果没有充足的理由证明某数据是由实验中的过失所造成,就不应轻易将其排除。如果要删除它们,也应遵循三个标准差准则(简称3σ),即该数据是否落在平均数加减三个标准差之外,有关具体方法将在第四章介绍。对于不能解释其产生原因的异常数据,都应遵循这个准则取舍。

(二)统计分组应注意的问题

1畅分组要以被研究对象的本质特性为基础

面对大量原始数据进行分组时,有时需要先做初步的分类,分类或分组一定是要选择与被研究现象的本质有关的特性为依据,才能确保分类或分组的正确。在心理学与教育学研究方面,专业知识的了解和熟悉对分组的正确进行有重要作用。例如在学业成绩研究中按学科性质分类,在整理智力测验结果时,按言语智力、操作智力和总的智力分数分类等。

2畅分类标志要明确,要能包括所有的数据

对数据进行分组时,所依据的特性称为分组或分类的标志。整理数据时,分组标志要明确并且在整理数据的过程中前后一致。这就是说,关于被研究现象本质特性的概念要明确,不能既是这个又是那个。另外,所依据的标志必须能将全部数据包括进去,不能有遗漏,也不能中途改变。

(三)分组的标志

分类标志有各种各样。这些分类标志按形式大致可分为性质类别与数量类别两种。

1畅性质类别。主要是根据事物的属性不同将被观测的事物加以划分,反映事物在组别、种类上的不同,不说明事物之间的数量差异。例如将一组被试分为男性与女性,按年龄将其分为老年、中年及青年等等,这些不同的类别之间不说明差别的数量。如果分类标志是成绩优劣,并分为优、良、中、差等,也是不同的性质类别。这里分类标志本身包含着好与坏,但不能直接比较其相差的多少。

性质类别可根据事物的性质及研究的需要分成不同的层次,每个层次又可分为不同数量的细目。在对观测数据按性质标志分组时,究竟分多少层次和细目,这要看研究的需要。如果要对分类的数据作进一步分析,就还要看统计方法所提供的可能性。

2畅数量类别。这是以数据的取值大小为分类标志,把数据按数值大小以分组或不分组的形式排出一个顺序来。在这种排序中,项目本身就显示了分类的数量信息,这一点与性质类别明显不同。

对原始数据进行排序和分类以后,数量小的就可以直接计算,数量大时再做进一步分组,可制成次数分布表,它便于了解数据的总情况,并对于以后的统计分析或制定图表具有重要的意义。

三、统计表

统计表的结构一般包括几个组成要素,它们的名称和编制要求如下:

表号 表的序号位于表的左上方,一般以出现的先后顺序排列。

名称 又称标题,是一个表格的名称,应写在表的上方。标题用语要简练扼要,准确得体,一望即知该表的内容。如有必要,可在表的下面附加说明,但这种情况不宜多用。表的序号和标题之间留一个汉字的空格。二者居中排在顶线的上方,长度不宜超过表的宽度,若标题字数过多,应转行排列。

标目 即分类的项目。标目的好坏决定统计表的质量,要认真酌定。标目一般在表的上面一行(table spanner)或左侧一列(stub column)。如果分类的标志只有一个,写在表的上行或左列都可以。如果分类的标志有两个,且二者没有隶属关系,则左列与上行各一个。如果两个分类标志有隶属关系,则要放在一个方向(或上面或左侧)分两行分述。标目确立了数据组织的逻辑,并确定了栏目下数据栏的性质。

数字 数字是统计表的语言,又称统计指标。它占据统计表的大部分空间,书写要整齐划一,数字应以个数位(或小数点)对准上下对齐,缺数字

的项要划“-”。表中的数字一般不带单位、%(百分号)等,单位和%一般归在标目中。表中的数字构成了表体。表注 写于表的下面,是对统计表或者表内的某些内容进行补充说明和解释。数据来源、附记等都可作为表注的内容,文字可长可短。统计表的结构和组成要素可以用简单统计表显示如下:

图 2‐ 统计表的结构和组成要素图示

  此外,一般统计表的制作中,表的各纵列之间要用线条隔开,表的两边有纵线,上下两边有横线,标目与数字间,数字与总计间,两个总标目之间都用线条隔开。表的上下二横线,即顶线和底线要略粗一些。但是,心理学研究中常用简单的三线表。这种表格通常只有三条线,即顶线、底线和栏目线,并且不用竖线隔开。

四、统计图

统计图一般采用直角坐标系,通常横坐标(abscissa)或横轴(horizontal axis)表示事物的组别或自变量 X,称为分类轴(category axis);纵坐标(ordi-nate)或纵轴(vertical axis)表示事物出现的次数或因变量 Y,称为数值轴(scale axis)。除直角坐标外,如圆形图还有角度坐标等。统计图一般由下面几个部分组成:

图号及图题 图号是图的序号。图题或标题是统计图的名称。图题的文字要言简意赅,具有说明性和专指性,使人一看就能知道该图所要显示的是何事、何物,发生于何时、何地。如果图示资料比较复杂,这时图题可用大标题与小标题。图题与图号之间也空一个汉字。与统计表格不同的是,统计图形的标题常置于图的正下方。图题的字体要与整个图形的大小相称,一般是图中使用的最大号的文字。书写顺序一般与图形标目一致,自左至右书写。

图目 写在图形基线上的各种不同类别、名称,或时间、空间的统计数量值,即横坐标上所用的各种单位名称。也叫刻度线标签。

图尺 在统计图的横坐标及纵坐标上都要用一定的距离表示各种单位,这些单位称为图尺(ruler或 scale)。图尺分点(tick)要清楚,整个图尺大小要包括所有的数据值,如果数据值大小相差悬殊,图尺可用断尺法或回尺法,减少图幅。

图形 是图的主要部分,图形线条要清晰,一般除图形线外,避免书写文字。要表示不同的结果,用不同的图形线以示区别。

图例 用来表示并标明各种图形的含义。图例(legend)的位置可选图中或图外适当的地方,注意保证整个统计图的和谐美观和均衡。

图注 凡是图形中需要借助文字或数字加以补充说明的,均称为图注。图注部分的文字要少,字号要小。它可以帮助读者理解图形所示资料,提高统计图的使用价值,又不破坏图的美观。

统计图的结构和组成要素如图2‐2所示:

图 2‐ 统计图结构要素示意图

此外,一个统计图使用的线条,除图形基线(横坐标)、尺度线(纵坐标)、轮廓线(图形的边框)外,有时也可以加参考线(也称网格线,grid)。

资料卡2‐1

图表的起源

关于图表的起源,统计学史家可以追溯到遥远的过去。沃克曾说,“表记统计在中世纪某些原始记录中已经开始应用。起初以土地为对象,后来以应服兵役的壮丁为对象。”威廉 ·配第在其1691年出版的枟爱尔兰的政治解剖枠一书中,已经懂得利用图表来反映、分析统计资料。但大多数欧美统计学史家认为创始 “表记统计”( tabel statistik)的是丹麦历史学家安彻逊教授和德国地理学家克罗姆教授。

安彻逊(H畅 P Anchersen,1700 —1765)教授在他1741年出版的枟文明国家一览表枠一书中,提供了一个包括十五个欧洲国家的简表。每个国家占一个纵栏,题目占几个横栏,如人口、面积、宗教、军事、行政组织、货币、度量衡,等等。这种表现方法,自然地利用了数字,但并没有完全摆脱文字的记述。尽管这种统计表与今天我们使用的统计表有所不同,但是它朝着这个方向发展。

克罗姆(A畅 F畅Crome,1753 —1833)1786年在基森大学(Giessen)任统计学教授时,利用图表帮助教学,由于其著作枟普通德国志枠和枟欧洲各国领土面积和人口枠,不仅使用了表,而且使用了图,特别是几何图形来实现,因而博得 “统计学拓荒者 ”的荣誉,比安彻逊又前进了一步。

此后,美国经济学家普莱费尔(William Playfair,1759 —1823)的经济学著作中大量借助图表、直方图、圆形图、条形图、颜色描述经济现象。枟图示法发展史枠( A Note on the History of the Graphical Presentation o f Data)的作者罗伊斯顿(Erica Royston)说,“普莱费尔即使不算今天图示法的发明者,也是把图示法引进统计学的第一人”。

总之,安彻逊偏重于利用图表说明历史,克罗姆偏重于利用图表说明地理,而普莱费尔则利用图表说明社会经济现象。 ———资料来源:整理自枟欧美统计学史枠P25~26,37,50~51