社会学博客: 袁方《社会学研究方法教程》笔记:第十五章：资料的统计分析

第十五章：资料的统计分析

1、 统计分析的作用：（1）可对资料进行简化和描述。（2）可对变量间的关系进行描述和深入地分析。（3）可通过样本资料推断总体。

2、 统计分析的步骤：（1）对应用统计分析的前提条件进行考察。统计分析是建立在树立统计理论基础上的，因此他的应用必须满足一定的理论前提。（2）制定统计分析方案：<1>再次确定自变量与因变量。<2>定义复合变量。问卷或调查表上出现的各个变量，一般称为基本变量或原始变量。用基本变量组合而成的新的变量，称作复合变量。<3>变量分组：将类别或属性相同的变量组合成有意义的数组。<4>提出统计计算的要求并提出适当的统计方法。（3）选择统计分析方法的原则。必须根据研究目的和资料本身的特点选择适当的统计分析方法。从研究目的考虑：是描述性研究还是解释性研究。描述性研究在于说明某种社会现象的状况；对于解释性研究，除了采用描述性研究的方法外，还要使用控制变量、建立因果统计模型和分类及综合变量等多种统计分析技术。研究资料的性质，主要考虑：<1>变量的测量尺度；<2>资料的收集方法；<3>数据的分布形态；<4>变量的个数。（4）对于统计结果的解释。统计分析是一种定量分析方法，但任何具体的两都是有质的规定性以及数量关系背后的社会背景情况，如果不了解这种质的规定性以及数量关系背后的社会背景情况，就可能做出肤浅、错误的甚至荒谬的解释。因此，对于统计结果的分析，有赖于对事物作深入地观察和了解，决不能凭表面的数据就轻易的下结论。

3、 单变量的统计描述：（1）变量的分布：<1>频次分布：就是变量的每一取值出现的次数。对于连续性变量，如定距变量，频次的计算必须分组进行。其中每组上限即下一组的下限，通常将下限包括在本组中，每组用组中值表示。<2>频率分布：用变量每个取值的频次数除以总个案数，他是一个相对指标，派出了样本规模的影响，因而可以用来比较不同的样本。一般频率分布使用比率的形式表示的。（2）统计图与统计表。<1>统计表就是以表格形式来表示变量的分布。在制作统计表时，如果有未回答或回答不符合要求的情况，可以有两种处理方法：（A）仍以调查总数为基础计算频率，这时应加入一类：未详。（B）以有效回答为基数计算频率，这时应在表的下面、紧接着表的地方注明：未详****户。<2>统计图：是以图形表示变量的分布情况。统计图虽然不如统计表精确，但是更直观、生动、醒目。（A）圆瓣图：是用一个圆代表现象总体，每一瓣代表现象中的一类，其大小代表他在总体中所占的百分比频率。（B）条形图：多用于描述定类与定序变量的分布，他是以长条的高度表示变量不同取值的频率分布的，其中长条的宽度没有意义，一般均化成等宽长条。长条的排列可以使离散的，也可以使紧挨着的。（C）直方图：是由紧挨着的长条构成的，与长条图不同的是，他的条的宽度是有意义的，实际上它不是用长条的高度而是用长条的面积表示频率的大小，长条的纵轴高度表示频率密度（频率密度=频率/组距），长条的宽度表示组距。直方图仅适用于定距变量。（D）折线图：是用直线连接直方图中条形顶端的中点而成的。当组距逐渐减小时，折线将逐渐变为平滑，趋向为曲线。（3）集中趋势分析：是从一组数据中抽象出的一个代表值，以代表现象的共性和一般水平。除可以说明某一社会现象在一定条件下数量的一般水平外；集中趋势还可以对不同空间的同类现象或同一现象在不同时间的状态进行比较；以及分析某些社会现象之间的依存关系。<1>众数（北大92<问>：试用分布理论简述算术平均数、中位数和众数三者之间的关系）：就是出现频率最高的变量值。众数可以适用于任何测量层次的变量，对于定类和定序变量，众数可直接从变量的频率分布中观察到；对于定距变量，如果变量是在第I组具有最高的频率密度，则用第I组的组中值表示变量的众数。<2>中位数 ：是将观察总数一分为二的变量值。若将数据从小到大顺序排列，则取值于（N+1）/2处的变量值。当N为偶数，由于（N+1）/2处无数值，取中间位置左右两数的平均值。对于经过分组的资料，中位数的位置则是通过计算累计百分比频率得到的。即首先计算出含有累积频率50%的区间，然后求出这个区间的上下限值（U、L）最后利用公式

计算中位数值。中位数一般用于描述定序及定序以上的测量尺度的变量的集中趋势。 <3>平均数：仅适用于定距及定距以上变量，但有时也可用于定序变量。如求平均等级。对于分组值，一般用组中值来代替变量值，然后加权平均计算平均数。需要指出的是，用组中值计算的加权平均数知是用原始数据计算的平均数的近似值。由于分组是人为的，所以在变量分布不均匀的情况下，不同的分组会有不同的结果。<4>分布与三值的关系：正态分布时，三值重合；偏态分布中，三值不重合，在正偏态时，由于左边频次密集，这使得中位数偏向左方，但由于右侧的变量取值大，故平均数叫中位数偏右，即平均数>中位数>众数；而在负偏态时则相反，有平均数<中位数<众数。（4）离中趋势分析：用以概括描述数据间差异程度的统计指标。与集中趋势相比，二者区别：<1>集中趋势描述的是现象的共性，而离中趋势描述的是现象的差异性，如果离中量数大，说明数据分布很分散，这时集中值对数据的代表性低；反之，则说明数据的分布很集中，集中值对数据的代表性高。<2>在由样本资料推论总体时，集中值告诉我们的是如何去估计与预测总体，而离中趋势则告诉我们这一估计与预测的误差大小，因此，两者是互补的。（5）常用的李中趋势测量指标：<1>异众比率：即非众数的各变量值得总频数在观察总数中的比例。可见，异众比率是对众数的补充，异众比率越小，说明众数的代表性越好。<2>极差：是对定序及定序以上尺度的变量离散程度的测量。它等于最大观察值与最小观察值间得差。极差越小说明资料分布越集中。<3>四分互差（复旦97<名>）：也是对定序及定序以上测量尺度的变量离散程度的测量指标。把一组数据按序排列，然后分成四个数据数目相等的段落，各段分界点上的数叫作四分位数，即第一个四分位数Q1以下包括了25%的数据，Q2是中位数，第三个四分位数Q3以下包括了总数据中的75%的数据。四分互差就是第三个四分位数与第一个四分位数的差，即Q=Q3-Q1。优点是可以克服极差中几支队资料分散程度度量的干扰。四分互差的间距越小，说明中位数的代表性越大，数据分布越集中。对于分组数据，求Q1与Q3的方法也可以用线性插值法或直接用公式：

文本框:

文本框: 进行计算。其中L1、L3为含有累计百分比25%与75%的区间的下限，U1、U3为对应上限，n1、n3为含有累计百分比25%与75%的区间的频次；cf1与cf3为含有累积百分比25%与75%所在组以前组的累积频次。（4）方差与标准差。只适用于定距变量。方差等于每一观察值与其平均数的差的平方和除以观察总数，即

而标准差则是它的正平方根。

（5）离散系数与标准分数：离散系数是标准差与平均数之百分比：标准分数：

文本框:

将原始数据标准化有两个作用：<1>确定原始数据在总体分布中的位置；<2>对不同分布的各原始数据进行比较。

4、 双变量的统计分析：（1）列联表（北大92<名>；人大98<名>：偏表、边缘表）：<1>定义：又称交互分类表，所谓交互分类，指同时依据两个变量的值，将所研究的个案分类。交互分类的目的是将两变量分组，然后比较个组的分布状况，以寻找变量间的关系。这样的表又叫作条件次数表。表的最下一行和最右一列分别是每类地区和每种产业的总次数，称为边缘次数。其分布称为边缘分布。其余的次数称为条件次数。每一条件下的分布称为条件分布。 <2>注意：（A）在制作条件百分比列联表时，一般应将自变量放在表的最上端横行位置上。因变量放在表的最左一列。计算百分比通常是按照自变量的方向，因为研究的目的是要了解自变量对因变量的影响，因此应计算在自变量不同取值情况下因变量的变化情况如何。（B）在制作列联表时，应在表的最后一行汇出自变量各类数值的个案总数，并以括号括起来。 <3>列联表的作用：（A）具有对变量进行描述的作用。（B）可对不同类别进行比较。（C）是对变量关系的一种解释性分析。 <4>列联表应用：可用于各种测量层次的变量，在用于定序变量时，变量应按取值的大小顺序排列。用于定距尺度的变量时，需要事先进行分组，然后以组的首尾相接顺序排列。 <5>列联表的优点：直观、资料丰富，不仅可以看到关系的有无、大小，而且还可以了解这种关系得详细结构。（2）消减误差比例：是指一种对变量间关系的测定，简称PRE。假设在不知道x的情况下，对y进行预测的全部误差是E1，在知道x的情况下，由x预测或解释y的总误差为E2，则由x预测或解释掉y的误差为E1-E2，消减误差比例PRE=（E1-E2）/E1。PRE越大，表示以x预测或解释y时所减少的误差越多，即x与y的关系越强。换言之，PRE的值表示的是用一个社会现象（x）来解释另一个社会现象（y）时，能够消除百分之几的错误，即x对y的解释力有多大。PRE的值在0与1之间，当E2=0时，PRE=1，说明x与y完全相关，x能百分之百解释y的变化；若E2=E1，则PRE=0 ，说明x与y之间没有关系，x对y无解释力。（3）相关分析（复旦96<名>：相关关系；南大99<名>：相关系数；南大95<名>：相关分析）：相关，就是指两个变量间存在一种连带关系，即当一个变量的值发生变化时，另一个变量的值也相应地发生变化。相关分析就是以一个统计指标是变量与变量间的关系，这个统计值称为相关系数。通常大多数相关系数取值在0与之间，0代表无相关，代表完全相关，相关系数越大，表示相关程度越强。<1>注意：（A）虽然相关系数可以描述变量之间关系的有无、大小和方向，但相关系数多大时才能断定两个变量有必然的、规律性的联系，是很难说的，在统计学中，需要大到0.7以上，但社会现象间很少有这样密切的联系，所以研究人员一般要结合定性分析来断定是无内在的、本质的联系。（B）数据所显示出的相关（或无关）关系，实际上也可能并不反映变量间存在有意义的关系。 <2>定类变量==定类变量：（A）Lambda系数：（a）对称形式，用表示，即用于测量的两个变量间的关系是对等的，即无自变量与因变量之分。（b）非对称形式，用表示，几所测量的两个变量间有自变量与因变量之分，x为自变量，y为因变量。

文本框:

其中， =Y变量众数的频次； =Y变量每个取值之下的X变量的众数的频次； =Y变量每个取值之下的X变量的众数的频次；为X变量的每个取值之下的Y变量众数的频次；N= 调查对象总数。Lambda的取值在0-1之间。Lambda系数具有消减误差比例的含义。（B）Tau-y系数，简称系数，它是测量变量间非对称关系的，其中y为因变量，x为自变量。系数也具有消减误差比例的含义。通常都用经过简化的公式：计算，其中（j=1，2?r）为的边缘分布次数，为（i=1，2?c）的边缘分布次数；为同属于和的个案总数。的取值在0-1之间。通常值比值更好，但值较值易于计算。此外，二者都是测量变量间非对称关系的，因此与、与的意义是不同的。

<3>定序变量---定序变量：（A）Gamma系数：一般用G表示，它适用于分析两个变量间的对等关系，即两个变量无所谓自变量与因变量之分。G系数具有消减误差比例的含义。

其值在-1到+1之间，既表示相关程度，也表示相关方向。式中同序对是指某个案在两个变量上的相对等级是相同的，异序对是指某对个案在两个变量的相对等级上是相反的。

G系数是分析两个等级序列的关系的，故又称等级相关系数，在社会研究中，它所涉及的往往是研究对象本身的的某两种特征间的等级关系。在等级分布表中，有时两个个案分数相同，分不出高低，这是一般用两级的平均值作为这两个个案的等级。

表示仅在变量x上同等级的对数，表示仅在变量y上同等级的对数，表示在两个变量上都同级的对数。、、叫做同分对，G系数不考虑同分对，而只考虑同序对与异序对。

大规模调查中资料的等级分布往往是用列联表的形式给出的，这时，同序对数量等于表内每个频次乘以其右下方全部频次之和，然后加总。而异序对数量则等于表内每个频次乘以其左下方全部频次之和，然后加总。

（B）系数，与G系数一样，系数也是等级相关系数，其值也在-1到+1之间，也具有消减误差比例的意义。不同于G系数的是，系数测量的两个变量间的关系是非对称性的，即所测两个变量有自变量x与因变量y之分，因此，其计算公式：

当资料是以次数列联表形式给出时，同序对与异序对的数量计算方法同G系数，等于列联表中的每个频次乘以它有面的所有同行频次之和，然后加总。

（C）斯皮尔曼等级相关系数（Spearman），一般用表示。与G系数和系数不同，斯皮尔曼相关系数不失考虑个案对在两个变量上的相对等级，而是考虑单个个案在两个变量上的等级差异，它在计算每个个案在两个变量上的等级时，不仅要做高低的比较，还要考虑等级的差异是多少。

以表示第i个调查对象在两个变量上的等级差异，为它在x变量上的等级值，为它在y变量上的等级值，N表示全部调查对象总数，则，取值在-1到+1之间。

斯皮尔曼等级相关是以没有相同等级为前提的，如果某些个案在同一变量的等级是相同的，且相同等级不太多时，可取其平均值。

<4>定距变量---定距变量：最常用的是皮尔森相关系数：用r表示，

其中，是变量x的平均数，为x变量的第I个观察值；是y变量的第I个观察值。r值在-1到+1之间。

r系数要求调查对象的成对资料N 50而且两个变量的分布应近似于正态分布。r系数是测量的两个变量间对等关系的，并且，r的平方值具有消减误差比例的含义。在实际计算时，一般采用下属经过简化的公式：

变量x与变量y间存在线性关系这一假设，是r系数的前提，如果两个变量间的关系不符合线性相关的假设，用r相关系数进行分析就会犯错误。 分析两变量间非线性关系的相关比例测量法：测量一个定类变量与一个定距变量相关程度的，即因变量（定距变量）在自变量（定类变量）各值上的差异情况。两定距变量是非线性关系时，可将一个变量看作是定类变量，采取比例相关测量法分析，由于定类变量不具有数量大小的概念，故不存在是否线性相关的问题，因此两个非线性相关的变量关系分析可用相关比例测量法来测量。

<5>定类变量----定距变量：两个变量中，因变量为定距变量时，采用相关比率来测量两者间的相关程度。相关比率，又称eta平方系数，简写为，

其中，是因变量y的平均数，是在每个自变量值（）上因变量的平均数。E= ，其值在0-1之间。具有消减误差比例的含义。eta平方系数的计算公式可简化为其中是自变量值的个案总数，N是全部调查对象总数。相关比例测量法基本上是用于分析非对称关系的，但要求并不严格。

<6>定类变量----定序变量：（A）用theta系数，简记为 ，其值在0-1之间。系数是专门用于测量定类变量与定序变量间关系有无和强度的，它测量的是变量间非对称关系，并且不具有消减误差比例的含义。（B）采用测量两个定类变量关系的 系数和 系数，即将定序变量作为定类变量处理。虽然这样做会损失数据的某些信息，如等级差别，但方便了统计分析工作，因此在社会研究时大多数人都采用这两个指标分析一个定类变量与一个定序变量的关系。

<7>定序变量---定距变量：（A）将定序变量看作是定类变量，采用相关比例测量法。（B）将定序变量看作是定距变量，采用r相关系数。严格地说，低测量层次变量不能使用高测量层次的统计指标，但在有些情况下，由于这种提高测量层次的方法给研究结果的解释带来的危害程度不大，大部分社会学家还是接受了这种做法。

（4）一元方差分析：是关于一个定类变量和一个定距变量关系的分析。二元方差分析是对于两个定类变量与一个定距变量的关系的分析。依此类推，n元方差分析是指n个定类变量与一个定距变量关系的分析，二元以上的方差分析都叫做多元方差分析。方差分析是由对变量间相关关系的分析，到建立描述变量间因果关系得一般线性模型的过渡，后者是大多数多变量分析方法的核心思想。

<1>总离差平方和：TSS= 。表示全体观测值对总平均数（推测值）的离差平方和。

<2>组内离差平方和（人大99<名>：残差）：RSS= ，表示各观测值队本组平均数的离差平方和，它不是由自变量而是由其他未知因素引起的。又称剩余平方和。

<3>组间离差平方和：

BSS=TSS-RSS= ，表示各组的平均数与总平均数的离差的平方和。它是由于自变量值的不同引起的差异。

<4> 其中分别是BSS与RSS相应的自由度，，（m为变量x值的类别数，N为观测总数）。即，F越大就表示x与y越可能相关。由此可见，方差分析的基本思想就是把推测的全部误差（TSS）分为两部分；可被自变量x消减的部分（BSS）和剩余部分（RSS），然后从这两部分的相互比较中看x与y是否相关。如果两个变量一个定序一个定距，当把其中的定序变量看作为定类变量时，也可以使用方差分析，实际上许多社会调研人员都是这么做的。

（5）一元回归分析：是对相关的两个变量间关系的具体形态的一种深入分析。它不仅分析两个变量关系的有无、大小和方向，而且要了解两个变量具体是以什么方式发生关系的。回归分析是一种因果分析，它是根据两变量间关系的具体形态，选择一个合适的数学模型，用来近似的表达变量间平均变化关系，这个数学模型就是回归模型。一般用于分析定距变量间的关系，它除了具有描述和说明这种关系的功能外，还具有预测的功能，这也是相关分析所不及的。

<1>一元回归模型：对于已知相关的两个变量x与y，架设他们之间是一种线性关系，则对这一关系可以用一元线性方程y=a+bx表示，其中的a和b是待定系数。这个方程叫做回归方程，b称为回归系数，a称为截距，即x=0时，y的值。a与b的计算公式：

<2>散点图与回归直线: 为了直观的看出x与y的关系形态,往往先作关于所调查的数据的散点图,即在直角坐标系中,将由每一横坐标与相应的纵坐标 (i=1,2,---n)所确定的点标示出来。x与y间存在一种线性关系时，虽然有多条直线来近似的刻画这种关系，但其中只有一条直线的代表性最好，这条直线就是回归直线。回归直线的方程就是回归方程，回归方程中的a就是回归直线的y轴的截距，回归系数b就是回归直线的斜率，b值具有描述自变量对因变量的影响的大小和方向的作用。

<3>回归系数与r相关系数：回归系数与r相关系数都是描述两个定距变量间的线性关系的指标。r相关系数十一种对对等关系测量法，它反映的是两个变量有无关系，关系的强弱，但它不能给出一个变量x有的变化时，y的变化具体有多大。b值可以做到这种区分，不过b值却无法反映两个变量间关系的强弱。此外，b与r值不同的是，b值所描述的是一种因果关系，而相关关系只是因果关系的必要条件。尽管有上述不同，但回归分析与相关分析之间有着密切的关系，实际上r值所要表示的，就是以回归方程作为预测工具时所能减少的误差比例，r值越大，就表示回归方程的预测能力越强，即散点图中的点越靠近回归直线。因此，我们用作为决定系数，在社会研究中往往要先计算r值，然后再决定是否用回归分析进行预测。

<4>回归分析的作用：回归分析模型是一种因果关系模型，因为增加了因果关系，因此与相关分析相比，它的作用也大于相关分析。除了具有与相关分析同样的简化资料的功能，还增加了预测的功能，即当得到了两个变量x与y的回归方程后，就可以从自变量的值经回归方程计算出y的预测值。

但应当注意的是，应用回归方程来预测因果变量时，一般不应使用超出资料所包括范围的自变量的数值，因为回归线段以外未观察到的点可能出现非线性的趋势。此外，预测的回归方程式只能反映一定时期内事物之间的相互关系，随着时间的推移，这种关系会起变化，因此回归模型也要作相应的修改，如果这时还使用原来的模型作预测就会得到错误的结论。回归分析在应用时有许多假设前提，例如其关系是线性的，自变量无测量误差等等。

5、 单变量与双变量的统计推论： （1）统计推论的一般概念：统计推论分两类<1>参数估计（复旦97<简>：什么叫统计推论？其特点是什么）：就是根据一个随机样本的统计值，来估计总体的参数值。 <2>假设检验：是首先对总体的情况作出假设，然后抽选出一个随机样本，以这一样本的统计值来检验原先的假设是否正确。社会调查研究中大多采用假设检验的统计推论方法。（2）参数估计：分为： <1>点估计（复旦97<简>：进行总体参数的点估计时，衡量估计值的好坏标准有哪几条）：就是从一个适当的样本统计值来估计总体的未知参数值。缺点是无法了解这种估计和推测的可信程度如何，区间估计可以弥补这一缺陷。<2>区间估计（浙大2001<名>；南大2000<名>）：就是通过样本统计值来推测总体未知参数的可能范围。这一可能范围的大小，取决于我们在估计时所要求的可信度（即置信水平）的高低，对于同一样本，如果要求这种估计的可信程度越高，则总体参数的可能范围越大，反之越小，这一可能的范围称为置信区间（南大2000<名>），显然，置信水平与置信区间成正比。（A）区间估计的一般程序：（a）确定置信水平。（b）计算标准误差。（c）根据样本统计值和标准误差确定置信区间。（B）平均数的区间估计：（a）当总体方差 已知的时候，根据抽样分布理论，满足标准正态分布N（0，1），式中n为样本容量，M为待估总体平均数。区间为待估平均数M、置信水平为1- 的双侧置信区间。在置信水平为95%时，总体平均数的置信区间为：。（b）当总体方差 未知时，分两种情况：a：当时，总体平均数的双侧置信区间为：。值需要查t分布表。 b:当时,总体平均数的双侧置信区间为: 。从上面的公式可知，置信区间与样本大小成反比。只要将样本加大，就可以提高估计的精确程度。（C）方差的区间估计：（a）当样本 时，由抽样分布理论可知， 满足自由度为n-1的 分布。对于给定置信水平1- ，区间即待估总体方差 的双侧置信区间， 的值可由 分布表查出。（b）当样本 时，总体方差在置信水平1- 下的双侧置信区间为。由总体平均数与方差的讨论可知，总体参数的区间估计方法的选择除考虑参数的类型以外，还应考虑样本的规模。在大样本的情况下，常采用正态分布，而在小样本时，则要采用其他类型的分布。（D）总体成数的区间估计：当样本规模 时，总体成数的双侧区间估计是： ，其中 =1-置信水平，值由查正态分布表得到；为样本成数；P为总体中某类所占百分比，当总体成数未知时用样本成数代替。有时，我们还要对两个总体均值差或成数差进行估计。这时，若两个样本都是大样本（n1>100,n2>100），则两个总体均值差的双侧置信区间为：

文本框:

成数差的双侧置信区间为：

文本框:

在未知时用代替。在两个总体成数未知时，用对应的样本成数代替。

（E）r相关系数的区间估计，在置信水平1- 的要求下，总体r相关系数的置信区间可由如下方法求出：首先将样本相关系数带入公式： =1.151log 中求出值，则总体值得置信区间为，由上式 =1.151log ，将两值对应的两个r值求出，这两个r值即为相关系数的置信区间端点值。

（3）假设检验：<1>定义：如果经验资料是由抽样调查获得的，由资料计算出的结果还不能马上验证原有理论假设是否为真，而要首先对这一结果的显著性进行检验，即检验这结果是否对总体具有显著的代表性，这种与抽样调查结合在一起的显著性检验称为统计假设检验，简称假设检验。 <2>当样本资料与原假设不符，有两种可能：（A）原假设错误。（B）样本缺乏代表性。因此，如果不对样本的代表性进行检验，剔除因样本代表性所产生的结果与假设不符的情况，而否证原理论假设，就有可能抛弃正确理论假设的错误的危险。同理，在样本结果与原假设相符的情况下，有可能犯以假当真的错误 <3>假设检验的一般概念：（A）原假设与备择假设。原假设又称虚无假设，一般用表示，它常常是根据已有的资料或根据周密考虑后确定的。但直接用于假设检验的不是原假设，而是所谓的备择假设，又称研究假设，备择假设就是与原假设相反的假设，用表示，它是当原假设被推翻时需要接受的假设。假设检验依据的是小概率原理，就是说小概率事件被认为是在一次观察中不可能出现的事件，因此，如果再一次观察中出现了小概率事件就应当否定此事件是小概率的说法。假设检验的逻辑就是求出是正确的可能性，如果能证明这种可能性极小，就应否定，接受。（B）显著性水平与否定域（接受域）：显著性水平（人大99<名>：显著度；南大99<名>）：是指假设成立的标准，即小概率的值，用表示。显著性水平意味着总体参数值与样本统计值具有同等特性的概率为，抽样误差不超过。在进行研究时，通常是先决定显著性水平的大小，若样本统计值达到这一水平，则可确认样本具有较好的代表性，原假设可以成立。拒绝域：就是在显著性水平下，拒绝原假设的区间，它位于抽样分布的一端或两端的小区域内，根据小概率原理，当由样本算出的统计值落入此区域内时，则原假设被否定。反之接受域就是接受的区间，它位于抽样分布的中间区域内，若由样本算出的统计值落入此区域内，则接受。（C）双边检验与单边检验：拒绝域位于抽样分布两端的检验即双边检验。当拒绝域只集中在抽样分布的右端，则叫作右侧单边检验，如果是在左边就叫做左侧单边检验。一般来说，双边检验较单边检验更难否定，因此在提出备择假设时，最好说明方向。 <4>假设检验的步骤：（A）建立原假设与备择假设。（B）根据总体的分布形态和变量的测量层次以及样本的规模等，选择能反映的统计量和确立成立条件下的这一统计量的分布。（C）根据问题的需要，规定适当的显著性水平，并据此确立拒绝域或接受域。（D）根据样本统计量的观测值进行判断，若其落入拒绝域，则拒绝原假设，接受备择假设，反之接受原假设。 <5>弃真与纳伪：在进行判断时，无论是作出拒绝或接受假设的判断，都不会百分之百的正确，都会有一定错误。（A）判断的第一类错误是弃真的错误：即原假设反映了客观世界的真实情况，但却在检验中被作为错误的看法而加以拒绝。犯弃真错误的概率为。（B）假设检验的第二类错误是纳伪的错误：即原假设不是真的却被作为真的加以接受。显然当拒绝时，犯弃真错误的可能性是很小的，而在接受拒绝时，犯纳伪的错误的可能性却很大。由此可知，和在假设检验中的作用是不等的。 一般选择的是常规的已存的现象，没有充分的根据是无法否定的，而要把研究的看法或猜想作为备择假设 ，因为一旦备择假设被接受，那么它被否定的概率是很小的。由于社会研究一般是证实假设，即希望否定原假设，因此特别注意弃真的错误。弃真与纳伪这两种错误是相互对立的，即在一定条件下，弃真的错误增大时，纳伪的错误就会减少，反之也一样，完全消除两者的矛盾是不可能的，为了同时减少犯这两种错误的概率，一般采取增大样本容量的方法。

<6>假设检验的类型：（A）参数检验：要求总体必须具备某些条件。如分布，变量层次等。参数检验的优点：当总体充分满足所需求的前提条件时，在做假设检验时可以非常准确，但在社会研究中往往很难判断总体是否合乎要求。（B）非参数检验：不要求总体具备特殊条件，且适用于各种层次的变量，它不是检验总体的某些参数，如平均数、方差等，而是检验总体某些有关的性质。非参数检验的优点：适用范围广、计算简单，当样本容量增大时，其推论准确度可以增加。近年来，非参数检验获得了越来越广泛的应用。

（C）选用何种检验方法要考虑：（a）样本的个数与类型。如单一样本还是配对样本。（b）样本的规模。一般大于100个元素的样本为大样本，小于或等于100的样本为小样本（c）变量的测量尺度。

<7>参数检验：是对于总体参数的检验，当总体的分布形式已知，而且中的某些参数，如平均数、方差等为未知时，可以先对这些参数作出假设，然后从总体中抽出一个随机样本，根据对样本的观察资料对假设的真伪作出判断。常用的三种参数检验方法：（A）Z检验：要求：（a）样本必须是随机抽取的。（b）变量必须是定距层次的变量。（c）总体应呈正态分布，不过当样本容量相当大时（n>100），这一要求可以放松。 可以用于以下参数的检验： （a）大样本的总体均值检验：这时用于检验原假设的统计量（又称检验值）是。（b）大样本的总体成数检验：这时用于检验原假设的统计量是，其中为样本成数值，为假设的总体成数值。（c）大样本的总体均值差检验：当甲总体的样本规模与乙总体的样本规模均大于100时，其平均数的差异可由Z检验值来检验，，分别为样本的平均数和方差，分别为的平均数和方差。原假设为：，备择假设为：（或，或）。（d）大样本的总体成数差检验：在甲总体的样本容量与乙总体的样本容量均大于100时，其成数差异可以由Z进行检验，，分别为样本与样本的成数。相应的原假设为：，备择假设为：（或，或）。（e）G相关系数、 系数的检验：G系数描述的是两个定序变量的相关程度与方向，若样本中G不等于零，我们就要检验在总体中G是否也不为零，即变量间的关系是真的。因此，原假设为：G=0，备择假设为，检验统计量，为同序对，为异序对，n为样本大小，G是样本的Gamma值。由于系数与G系数的计算公式中都是以同序对及异序对的差作为分子的,故均可通过 =S的检验来推断总体的情况。

（B）t检验：要求：（a）被检验总体成正态分布。（b）样本必须是随机抽取的。（c）变量应为定距尺度的变量。一般说来，t检验多用于小样本。 可以用于t检验的参数有：（a）小样本的总体均值检验：原假设为：，备择假设为：（或，或），检验统计量。（b）小样本的总体均值差检验：统计量为：，而原假设为：。（c）配对样本的比较：原假设为：。统计量为：，其中m为配对数目，；为d的平均数，为d的标准差。

（C）F检验：要求：（a）样本随机抽取。（b）有一个变量是定距变量。（c）要求各自总体均为正态分布并具有相等的方差。，E是样本的相关比率系数，n为样本的规模，k是分组数。 F检验一般用于：（a）方差分析的检验：这时原假设一般形式为：（即各类间平均数相等）。备择假设为：有一个以上的类别平均数不同。检验的统计量为：，BSS为组间平方和，RSS为组内平方和。（b）对两个总体或多个总体的差异作检验：当样本超过2个时，一般采用F检验，这时原假设形式为：。

（c）r相关系数与回归系数的检验：计算相同系数r与回归系数b的公式具有相同的分子，因此对r的检验亦即对b的检验。此时，原假设与备择假设的形式一般为： ：总体中r=0，b=0；：总体中，检验统计量，n为样本大小，r为样本相关系数。这个检验统计量是以变量x和y成线性关系为前提的，两个变量若是非线性关系，这一方法就不适用了。 判断两变量在总体中是否有线性关系的方法：一般可用F检验值进行检验，此时：

：x与y在总体中是线性关系，即r=E

：x与y在总体中是非线性关系，即，检验统计量，k为x变量值的类别数，E为样本相关比率系数，r为样本线性相关系数。

<8>非参数检验（复旦97<简>：什么叫做非参数检验？其适用范围和优缺点）：（A）检验是目前统计中应用最广泛的非参数检验法，要求：（a）两个变量均为定类变量。（b）样本必须随机抽取。

（B）检验一般用于：

（a）列联表的检验：列联表通过将两变量交互分类，旨在发现其间是否存在某种联系，因此在对列联表进行检验时，原假设应为：变量x与变量y无关；备择假设应为：变量x与变量y相关。检验统计量：。公式中，为期望频次，可由边缘分布求得：。在查分布表求临界值时，需要用到自由度的概念，统计量的自由度为：df=（r-1）（c-1）。当算出的值大于某一显著性水平下的临界值时，则原假设在这一显著性水平下被拒绝。在用值对列联表进行检验时，每一格值的要保持一定数目之上，若其中有的格值太小则有可能引起判断失误。一般要求在r*c的表中的格数不应超过20%，也有人认为所有格值不应小于10 。

（b）二分变量的相关测量，所谓二分变量就是取值只有两类的定类变量。对于2*2的列联表，可用值来测定变量间的相关，较为常用的有：第一，系数，（n为样本大小），其值在0-1之间。系数也可用于r*c列联表，但这时值会超过1，为克服这一缺点，设计出了V系数。第二：V系数，，其中n是样本的大小，m是表的行数r与列数c中的较小数，即m=min(r.c)，V值由0-1。显然，在2*2表时，V= 。第三，C系数，，其值最小为零，表示两变量完全无关，但其上限是可变的，最大不超过0.707，即使两变量完全相关，亦无法达到1。

（c）正态总体方差检验：这时原假设为：，检验统计量为，自由度df=n-1。

检验是检验两变量间在总体中关系的有无，而不是关系的强弱程度，因此显著的话能说明相关关系存在，但并不能说明这种相关关系在实际中是否重要。的统计显著性一方面受相关关系强弱的影响，另一方面也受到样本规模的影响，同样的相关强度，样本规模不同，就会具有不同的显著性水平，即使是一个很弱的相关，但只要样本足够大，也会具有统计显著性。因此，在大样本统计检验显著时，还需要进一步确定相关强度的高低，以确定这种相关有无实际意义。

2007-01-22

社会学博客

2007-01-23

袁方《社会学研究方法教程》笔记:第十五章：资料的统计分析

没有评论:

本站关注者

博客归档

订阅社会学博客

社会学资源

社会学笔记讲义

访问统计