第十五章:资料的统计分析
1、 统计分析的作用:(1)可对资料进行简化和描述。(2)可对变量间的关系进行描述和深入地分析。(3)可通过样本资料推断总体。
2、 统计分析的步骤:(1)对应用统计分析的前提条件进行考察。统计分析是建立在树立统计理论基础上的,因此他的应用必须满足一定的理论前提。(2)制定统计分析方案:<1>再次确定自变量与因变量。<2>定义复合变量。问卷或调查表上出现的各个变量,一般称为基本变量或原始变量。用基本变量组合而成的新的变量,称作复合变量。<3>变量分组:将类别或属性相同的变量组合成有意义的数组。<4>提出统计计算的要求并提出适当的统计方法。(3)选择统计分析方法的原则。必须根据研究目的和资料本身的特点选择适当的统计分析方法。从研究目的考虑:是描述性研究还是解释性研究。描述性研究在于说明某种社会现象的状况;对于解释性研究,除了采用描述性研究的方法外,还要使用控制变量、建立因果统计模型和分类及综合变量等多种统计分析技术。研究资料的性质,主要考虑:<1>变量的测量尺度;<2>资料的收集方法;<3>数据的分布形态;<4>变量的个数。(4)对于统计结果的解释。统计分析是一种定量分析方法,但任何具体的两都是有质的规定性以及数量关系背后的社会背景情况,如果不了解这种质的规定性以及数量关系背后的社会背景情况,就可能做出肤浅、错误的甚至荒谬的解释。因此,对于统计结果的分析,有赖于对事物作深入地观察和了解,决不能凭表面的数据就轻易的下结论。
3、 单变量的统计描述:(1)变量的分布:<1>频次分布:就是变量的每一取值出现的次数。对于连续性变量,如定距变量 ,频次的计算必须分组进行。其中每组上限即下一组的下限,通常将下限包括在本组中,每组用组中值表示。<2>频率分布:用变量每个取值的频次数除以总个案数,他是一个相对指标,派出了样本规模的影响,因而可以用来比较不同的样本。一般频率分布使用比率的形式表示的。(2)统计图与统计表。<1>统计表就是以表格形式来表示变量的分布。在制作统计表时,如果有未回答或回答不符合要求的情况,可以有两种处理方法:(A)仍以调查总数为基础计算频率,这时应加入一类:未详。(B)以有效回答为基数计算频率,这时应在表的下面、紧接着表的地方注明:未详****户。<2>统计图:是以图形表示变量的分布情况。统计图虽然不如统计表精确,但是更直观、生动、醒目。(A)圆瓣图:是用一个圆代表现象总体,每一瓣代表现象中的一类,其大小代表他在总体中所占的百分比频率。(B)条形图:多用于描述定类与定序变量的分布,他是以长条的高度表示变量不同取值的频率分布的,其中长条的宽度没有意义,一般均化成等宽长条。长条的排列可以使离散的,也可以使紧挨着的。(C)直方图:是由紧挨着的长条构成的,与长条图不同的是,他的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频率的大小,长条的纵轴高度表示频率密度(频率密度=频率/组距),长条的宽度表示组距。直方图仅适用于定距变量。(D)折线图:是用直线连接直方图中条形顶端的中点而成的。当组距逐渐减小时,折线将逐渐变为平滑,趋向为曲线。 (3)集中趋势分析:是从一组数据中抽象出的一个代表值,以代表现象的共性和一般水平。除可以说明某一社会现象在一定条件下数量的一般水平外;集中趋势还可以对不同空间的同类现象或同一现象在不同时间的状态进行比较;以及分析某些社会现象之间的依存关系。<1>众数
计算中位数值。中位数一般用于描述定序及定序以上的测量尺度的变量的集中趋势。 <3>平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量。如求平均等级。对于分组值,一般用组中值来代替变量值,然后加权平均计算平均数。需要指出的是,用组中值计算的加权平均数知是用原始数据计算的平均数的近似值。由于分组是人为的,所以在变量分布不均匀的情况下,不同的分组会有不同的结果。<4>分布与三值的关系:正态分布时,三值重合;偏态分布中,三值不重合,在正偏态时,由于左边频次密集,这使得中位数偏向左方,但由于右侧的变量取值大,故平均数叫中位数偏右,即平均数>中位数>众数;而在负偏态时则相反,有平均数<中位数<众数。 (4)离中趋势分析:用以概括描述数据间差异程度的统计指标。与集中趋势相比,二者区别:<1>集中趋势描述的是现象的共性,而离中趋势描述的是现象的差异性,如果离中量数大,说明数据分布很分散,这时集中值对数据的代表性低;反之,则说明数据的分布很集中,集中值对数据的代表性高。<2>在由样本资料推论总体时,集中值告诉我们的是如何去估计与预测总体,而离中趋势则告诉我们这一估计与预测的误差大小,因此,两者是互补的。 (5)常用的李中趋势测量指标:<1>异众比率:即非众数的各变量值得总频数在观察总数中的比例。可见,异众比率是对众数的补充,异众比率越小,说明众数的代表性越好。<2>极差:是对定序及定序以上尺度的变量离散程度的测量。它等于最大观察值与最小观察值间得差。极差越小说明资料分布越集中。<3>四分互差(复旦97<名>):也是对定序及定序以上测量尺度的变量离散程度的测量指标。把一组数据按序排列,然后分成四个数据数目相等的段落,各段分界点上的数叫作四分位数,即第一个四分位数Q1以下包括了25%的数据,Q2是中位数,第三个四分位数Q3以下包括了总数据中的75%的数据。四分互差就是第三个四分位数与第一个四分位数的差,即Q=Q3-Q1。优点是可以克服极差中几支队资料分散程度度量的干扰。四分互差的间距越小,说明中位数的代表性越大,数据分布越集中。对于分组数据,求Q1与Q3的方法也可以用线性插值法或直接用公式:
而标准差则是它的正平方根。
(5)离散系数与标准分数:离散系数是标准差与平均数之百分比: 标准分数:
将原始数据标准化有两个作用:<1>确定原始数据在总体分布中的位置;<2>对不同分布的各原始数据进行比较。
4、 双变量的统计分析:(1)列联表(北大92<名>;人大98<名>:偏表、边缘表):<1>定义:又称交互分类表,所谓交互分类,指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较个组的分布状况,以寻找变量间的关系。这样的表又叫作条件次数表。表的最下一行和最右一列分别是每类地区和每种产业的总次数,称为边缘次数。其分布称为边缘分布。其余的次数称为条件次数。每一条件下的分布称为条件分布。 <2>注意:(A)在制作条件百分比列联表时,一般应将自变量放在表的最上端横行位置上。因变量放在表的最左一列。计算百分比通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,因此应计算在自变量不同取值情况下因变量的变化情况如何。 (B)在制作列联表时,应在表的最后一行汇出自变量各类数值的个案总数,并以括号括起来。 <3>列联表的作用:(A)具有对变量进行描述的作用。(B)可对不同类别进行比较。(C)是对变量关系的一种解释性分析。 <4>列联表应用:可用于各种测量层次的变量,在用于定序变量时,变量应按取值的大小顺序排列。用于定距尺度的变量时,需要事先进行分组,然后以组的首尾相接顺序排列。 <5>列联表的优点:直观、资料丰富,不仅可以看到关系的有无、大小,而且还可以了解这种关系得详细结构。 (2)消减误差比例:是指一种对变量间关系的测定,简称PRE。假设在不知道x的情况下,对y进行预测的全部误差是E1,在知道x的情况下,由x预测或解释y的总误差为E2,则由x预测或解释掉y的误差为E1-E2,消减误差比例PRE=(E1-E2)/E1。PRE越大,表示以x预测或解释y时所减少的误差越多,即x与y的关系越强。换言之,PRE的值表示的是用一个社会现象(x)来解释另一个社会现象(y)时,能够消除百分之几的错误,即x对y的解释力有多大。PRE的值在0与1之间,当E2=0时,PRE=1,说明x与y完全相关,x能百分之百解释y的变化;若E2=E1,则PRE=0 ,说明x与y之间没有关系,x对y无解释力。 (3)相关分析(复旦96<名>:相关关系;南大99<名>:相关系数;南大95<名>:相关分析 ):相关,就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。相关分析就是以一个统计指标是变量与变量间的关系,这个统计值称为相关系数。通常大多数相关系数取值在0与
其中,
<3>定序变量---定序变量:(A)Gamma系数:一般用G表示,它适用于分析两个变量间的对等关系,即两个变量无所谓自变量与因变量之分。G系数具有消减误差比例的含义。
其值在-1到+1之间,既表示相关程度,也表示相关方向。式中同序对是指某个案在两个变量上的相对等级是相同的,异序对是指某对个案在两个变量的相对等级上是相反的。
G系数是分析两个等级序列的关系的,故又称等级相关系数,在社会研究中,它所涉及的往往是研究对象本身的的某两种特征间的等级关系。 在等级分布表中,有时两个个案分数相同,分不出高低,这是一般用两级的平均值作为这两个个案的等级。
大规模调查中资料的等级分布往往是用列联表的形式给出的,这时,同序对数量等于表内每个频次乘以其右下方全部频次之和,然后加总。而异序对数量则等于表内每个频次乘以其左下方全部频次之和,然后加总。
(B)
当资料是以次数列联表形式给出时,同序对与异序对的数量计算方法同G系数,
(C)斯皮尔曼等级相关系数(Spearman),一般用
以
斯皮尔曼等级相关是以没有相同等级为前提的,如果某些个案在同一变量的等级是相同的,且相同等级不太多时,可取其平均值。
<4>定距变量---定距变量:最常用的是皮尔森相关系数:用r表示,
其中,
r系数要求调查对象的成对资料N
<5>定类变量----定距变量:两个变量中,因变量为定距变量时,采用相关比率来测量两者间的相关程度。相关比率,又称eta平方系数,简写为
其中,
<6>定类变量----定序变量:(A)用theta系数,简记为
<7>定序变量---定距变量:(A)将定序变量看作是定类变量,采用相关比例测量法。(B)将定序变量看作是定距变量,采用r相关系数。严格地说,低测量层次变量不能使用高测量层次的统计指标,但在有些情况下,由于这种提高测量层次的方法给研究结果的解释带来的危害程度不大,大部分社会学家还是接受了这种做法。
(4)一元方差分析:是关于一个定类变量和一个定距变量关系的分析。二元方差分析是对于两个定类变量与一个定距变量的关系的分析。依此类推 ,n元方差分析是指n个定类变量与一个定距变量关系的分析,二元以上的方差分析都叫做多元方差分析。方差分析是由对变量间相关关系的分析,到建立描述变量间因果关系得一般线性模型的过渡,后者是大多数多变量分析方法的核心思想。
<1>总离差平方和:TSS=
<2>组内离差平方和(人大99<名>:残差):RSS=
<3>组间离差平方和:
BSS=TSS-RSS=
<4>
(5)一元回归分析:是对相关的两个变量间关系的具体形态的一种深入分析。它不仅分析两个变量关系的有无、大小和方向,而且要了解两个变量具体是以什么方式发生关系的。回归分析是一种因果分析,它是根据两变量间关系的具体形态,选择一个合适的数学模型,用来近似的表达变量间平均变化关系,这个数学模型就是回归模型。一般用于分析定距变量间的关系,它除了具有描述和说明这种关系的功能外,还具有预测的功能,这也是相关分析所不及的。
<1>一元回归模型:对于已知相关的两个变量x与y,架设他们之间是一种线性关系,则对这一关系可以用一元线性方程y=a+bx表示,其中的a和b是待定系数。这个方程叫做回归方程,b称为回归系数,a称为截距,即x=0时,y的值。a与b的计算公式:
<2>散点图与回归直线: 为了直观的看出x与y的关系形态,往往先作关于所调查的数据的散点图,即在直角坐标系中,将由每一横坐标
<3>回归系数与r相关系数:回归系数与r相关系数都是描述两个定距变量间的线性关系的指标。r相关系数十一种对对等关系测量法,它反映的是两个变量有无关系,关系的强弱,但它不能给出一个变量x有
<4>回归分析的作用:回归分析模型是一种因果关系模型,因为增加了因果关系,因此与相关分析相比,它的作用也大于相关分析。除了具有与相关分析同样的简化资料的功能,还增加了预测的功能,即当得到了两个变量x与y的回归方程后,就可以从自变量的值经回归方程计算出y的预测值。
但应当注意的是,应用回归方程来预测因果变量时,一般不应使用超出资料所包括范围的自变量的数值,因为回归线段以外未观察到的点可能出现非线性的趋势。此外,预测的回归方程式只能反映一定时期内事物之间的相互关系,随着时间的推移,这种关系会起变化,因此回归模型也要作相应的修改,如果这时还使用原来的模型作预测就会得到错误的结论。回归分析在应用时有许多假设前提,例如其关系是线性的,自变量无测量误差等等。
5、 单变量与双变量的统计推论: (1)统计推论的一般概念:统计推论分两类<1>参数估计(复旦97<简>:什么叫统计推论?其特点是什么):就是根据一个随机样本的统计值,来估计总体的参数值。 <2>假设检验:是首先对总体的情况作出假设,然后抽选出一个随机样本,以这一样本的统计值来检验原先的假设是否正确。社会调查研究中大多采用假设检验的统计推论方法。(2)参数估计:分为: <1>点估计(复旦97<简>:进行总体参数的点估计时,衡量估计值的好坏标准有哪几条):就是从一个适当的样本统计值来估计总体的未知参数值。缺点是无法了解这种估计和推测的可信程度如何,区间估计可以弥补这一缺陷。<2>区间估计(浙大2001<名>;南大2000<名>):就是通过样本统计值来推测总体未知参数的可能范围。这一可能范围的大小,取决于我们在估计时所要求的可信度(即置信水平)的高低,对于同一样本,如果要求这种估计的可信程度越高,则总体参数的可能范围越大,反之越小,这一可能的范围称为置信区间(南大2000<名>),显然,置信水平与置信区间成正比。 (A)区间估计的一般程序:(a)确定置信水平。(b)计算标准误差。(c)根据样本统计值和标准误差确定置信区间。 (B)平均数的区间估计: (a)当总体方差
成数差的双侧置信区间为:
在
(E)r相关系数的区间估计,在置信水平1-
(3)假设检验:<1>定义:如果经验资料是由抽样调查获得的,由资料计算出的结果还不能马上验证原有理论假设是否为真,而要首先对这一结果的显著性进行检验,即检验这结果是否对总体具有显著的代表性,这种与抽样调查结合在一起的显著性检验称为统计假设检验,简称假设检验。 <2>当样本资料与原假设不符,有两种可能:(A)原假设错误。(B)样本缺乏代表性。因此,如果不对样本的代表性进行检验,剔除因样本代表性所产生的结果与假设不符的情况,而否证原理论假设,就有可能抛弃正确理论假设的错误的危险。同理,在样本结果与原假设相符的情况下,有可能犯以假当真的错误 <3>假设检验的一般概念: (A)原假设与备择假设。原假设又称虚无假设,一般用
<6>假设检验的类型:(A)参数检验:要求总体必须具备某些条件。如分布,变量层次等。参数检验的优点:当总体充分满足所需求的前提条件时,在做假设检验时可以非常准确,但在社会研究中往往很难判断总体是否合乎要求。(B)非参数检验:不要求总体具备特殊条件,且适用于各种层次的变量,它不是检验总体的某些参数,如平均数、方差等,而是检验总体某些有关的性质。非参数检验的优点:适用范围广、计算简单,当样本容量增大时,其推论准确度可以增加。近年来,非参数检验获得了越来越广泛的应用。
(C)选用何种检验方法要考虑:(a)样本的个数与类型。如单一样本还是配对样本。(b)样本的规模。一般大于100个元素的样本为大样本,小于或等于100的样本为小样本(c)变量的测量尺度。
<7>参数检验:是对于总体参数的检验,当总体的分布形式已知,而且中的某些参数,如平均数、方差等为未知时,可以先对这些参数作出假设,然后从总体中抽出一个随机样本,根据对样本的观察资料对假设的真伪作出判断。常用的三种参数检验方法: (A)Z检验:要求:(a)样本必须是随机抽取的。(b)变量必须是定距层次的变量。(c)总体应呈正态分布,不过当样本容量相当大时(n>100),这一要求可以放松。 可以用于以下参数的检验: (a)大样本的总体均值检验:这时用于检验原假设的统计量(又称检验值)是
(B)t检验:要求:(a)被检验总体成正态分布。(b)样本必须是随机抽取的。(c)变量应为定距尺度的变量。一般说来,t检验多用于小样本。 可以用于t检验的参数有: (a)小样本的总体均值检验:原假设为:
(C)F检验:要求:(a)样本随机抽取。(b)有一个变量是定距变量。(c)要求各自总体均为正态分布并具有相等的方差。
(c)r相关系数与回归系数的检验:计算相同系数r与回归系数b的公式具有相同的分子,因此对r的检验亦即对b的检验。此时,原假设与备择假设的形式一般为:
<8>非参数检验(复旦97<简>:什么叫做非参数检验? 其适用范围和优缺点):(A)
(B)
(a)列联表的检验:列联表通过将两变量交互分类,旨在发现其间是否存在某种联系,因此在对列联表进行检验时,原假设应为:变量x与变量y无关;备择假设应为:变量x与变量y相关。检验统计量:
(b)二分变量的相关测量,所谓二分变量就是取值只有两类的定类变量。对于2*2的列联表,可用
(c)正态总体方差检验:这时原假设为:
没有评论:
发表评论