2007-01-23

袁方《社会学研究方法教程》笔记:第十七章:多元分析概论

第十七章:多元分析概论

1、 多元分析的一般概念1)详析模式与多元分析:控制多个变量的方法与控制一个变量的方法一样,也可采用分表法,只是分表的层次更多而已。实际上,当变量数目超过4个时,由于表的层次过多、过大,使用这一方法是很困难的,特别是当要从一组因素去确定一定数目的变量,而且希望分析这些变量之间的关系时,困难就更大。为解决这一困难,所用办法是将上述的逻辑程序倒转过来,即“不摸索着去推断数据的结构性质”,而是先提出某一结构的假设,然后考察这个结构是否真正符合数据。

2)多元分析的类型和应用<1>类型A)美国库利和柯尼斯变量的组数和群体数分为下述四类:因素分析,复相关、偏相关和典型相关;多因方差分析;判别分析和聚类分析。B)英国统计学家根据研究目的将多元分析方法分为两大类:相依性分析和互相依性分析。回归分析、判别分析、典型相关分析均属于相依性分析,他们的共同特点是分析所涉及的变量是不平等的,即有自变量与因变量之分。相依分析的目的在于分析多个变量对某个或某些变量的共同影响或相对效应。互相依性分析所涉及的变量是平等的,分析的目的是变量之间的相互关系,以简化这种相互关系。因素分析、聚类分析等均属于互相依性分析。

每一种多元分析方法都是建立在一些列假设前提的基础之上的,这些假设既包括这一方法所涉及的变量的测量层次,而且也包括这些变量间相互关系的性质,以及资料的不同来源等。因此,在选择一种多元分析方法时,应首先考察这一方法所要求的前提条件是否得到满足,若某些条件未获得满足,就要想办法进行某种统计处理,例如定类变量,可先将其变为虚拟变量后再引入回归模型。

<2>优点和局限:多元分析较之于单变量和双变量分析能更真实反映复杂的社会现象之间相互联系与相互依存的关系,但其局限是:A大多数多元分析方法都是在分析前先形成一个假设,然后再探寻与资料的符合程度,因此多元分析大多是与事先的理论研究密切联系在一起的,这就要求研究者具备很好的专业训练。此外,选择何种理论假设模型是由研究者决定的,这就是它很难避免研究者主观因素的影响

B)多元分析是一种高级分析手段,一般要求变量具有较高的测量层次,在社会研究中这种要求往往很难达到。为此研究人员利用许多统计手段将这些低层次变量转化为定距变量处理,从而使多元分析的影哟国内范围得到一定程度的扩大

C)多元分析一般要求每一项记录来自同一时点和同一单位,这在大规模的社会调查研究中也是难于保证的,这就为进行同一时点上地区差异的分析和同一单位的历史变化的分析带来了困难。

D)多元分析包括了高深的数学问题并涉及大量的数字处理与运算,随着计算机技术的发展和统计软件包的问世,这方面的困难有了很大克服。但当变量的数目太多,或设备缺乏以及受过专业训练的统计人员不足时多元分析方法实际应用仍受到很大限制

E多元分析常碰到一个问题是对于结果的解释。由于分析中变量的选择,使用的分析方法是因研究者而异的,而且由于多个变量间相互作用的复杂性等,使得对于分析结果的解释要较之于双变量和单变量分析更为困难

2、 相依性分析:

1)多元相关分析:<1>偏相关:是指用一个统计值来测量当控制了其他变量的影响后,某一变量与另一变量间关系的有无和大小。根据控制的变量的数目,可以将相关分为:一阶段相关、二阶段相关、三阶段相关等等。 偏相关分析的要求:所有变量为定距变量,测量偏相关关系的统计值称为偏相关系数,其值由-1+1。偏相关系数用符号 表示,在r下标点前面的是欲测偏相关的两个变量的名称,点后面是控制变量的个数与名称。例如, 表示控制变量Z后,变量XY的偏相关。为了简便起见,我们常把变量编号表示成如 的形式,这是偏相关系数中的变量符号仅用变量的顺序号表示即可,例如用 表示控制 后,变量 的偏相关。

一阶相关的偏相关系数: ,式中的 分别表示两个变量 的全相关,它就是测量两个定距变量相关关系的皮尔森相关系数。实际上它是偏相关系数的一个特例,即控制变量个数为零时的偏相关,故又称零阶相关。一阶相关的偏相关系数的计算是建立在零阶相关基础上的,这是与偏相关分析的原理分不开的。偏相关分析的目的是排除其他变量的影响,以测量两个变量间的“净关系”,式中 是为排除其他变量的影响时变量 的全作用,但这种作用中有一部分可能是另一个变量的作用所致, 分别表示 的影响力,则( )就是从 的总作用中剔除 所造成的影响后的净作用。同理,二阶相关的公式: 。三阶相关的公式:

偏相关系数也可用于详析分析,具体做法

A)计算xy的全相关系数 B)引入检验变量A,计算xy的偏相关系数

C)比较 ,若 = ,说明xy的关系不受变量A的影响;若 =0,说明xy的关系完全由A引起;若 ,说明xy间的关系部分由A引起的。

分表法与偏相关系数法比较:(A)相同点:都是利用统计控制区除其他变量的影响,以揭示两变量统计关系的真伪,进行更深入的因果分析。(B)不同点:分表法适应于各种类型变量,除可对变量关系进行检验外,还可进行条件关系分析和联合作用分析。缺点是当类别很多、表很大时,这种直观分析方法困哪较大,而且为了保证分表中每个单元有足够的案例,需要的样本规模也较大。偏相关系数在这两个方面优于分表法,缺点是不宜于条件关系和联合作用的分析,应用范围受到限制。

若计算两个定序变量的偏相关系数,则采用Gamma系数。以一阶相关为例,具体做法:依据变量A的值将样本分组,然后分组计算个组中的同序对数 和异序对数 ,则偏相关Gamma系数为: ,其中控制变量A可以是定序变量,也可以是定类变量。当控制变量为两个或更多个时,计算偏相关系数的公式是相同的

当变量xy均为定类变量(或一个为定类变量、一个为定序变量)时,应当采用偏 (或偏 系数)。具体做法是:根据控制变量的值将样本分组,以每组个案数与样本所含个案总数的比例为权数,计算各个分组的相关系数值的加权平均数,即:

其中 是每组Lambda值, 是每组个案数,N为样本个案总数。

<2>复相关:不是在对某一变量的众多因素中区别出某个变量的单独作用,而是用一个统计值来测量多个变量对一个变量的共同作用。复相关系数用符号: 表示,在r下标的点前面是被作用变量的名称,点后面的是作用变量的个数与名称。复相关系数值在01之间,其平方值称为决定系数,具有消减误差比例的含义。其原理是线引入变量 ,以其来尽量解释y,然后再引入 ,以其尽量解释所剩余的误差,然后再引入 依此类推,则 所代表的是对y的最大解释,其平方根,即复相关系数,就是各个xy的最大相关。

复相关也要求所有变量均为定距变量,其相关系数的计算也是以皮尔森相关系数为基础的。两变量( )与某一变量(y)的复相关系数为: ,将偏相关系数 的值按上面所讲的公式带入本式,可得: 其中 为变量 两两全相关系数。同理可得三个变量( )与某一变量y的复相关系数计算公式: 。即每高一阶的复相关系数可以低一阶复相关系数为基础计算出来。

当变量不全为定距变量时,要进行复相关分析,必须先将定序或定类变量转换为一组虚拟变量。转换的方法:如果是一个二分变量,则只要将赋予其中一值 1分,另一值0分,这一定序或定类变量就转变为定距变量了。统计学上将这种由非定距变量通过赋值01两值而变为定距变量称为“虚拟变量”。虚拟变量因为是定距变量,因而可以运用复相关分析。

<3>典型相关:是一种分析两组变量之间的相关关系的方法,它所测量的是两组变量的最大相关。其基本原理是利用标准化直线方程分别将每组变量组合为一个典型变量,然后计算这两个典型变量的相关。例如有5x变量与3个典型变量,其对应的典型变量是: 其中 表示 变量 的贡献; 表示 变量对其典型变量 的贡献。

建构典型变量 的准则是使两者间的相关系数 最大, 称为第一典型相关系数。因此,典型相关就是两组变量的线性组合的最大相关。应当指出的是,因为每个变量组都有多个变量,第一典型变量不能完全解释所有误差,故而还应做第二次组合,这次组合的准则是:(A)第二对典型变量 的相关 也是最强的。(B)第二个典型变量与第一个典型变量无关,即 由此可得第二个典型相关 。同理可得第三对典型变量和第三个典型相关

典型相关要求所有变量均为定距变量,典型相关系数值在01之间,其平方值具有消减误差比例的含义。显然,当两组变量中某一组变量的个数为1时,典型相关就是复相关。

当资料是由概率抽样调查获得的,则无论是偏相关系数、还是复相关系数或是典型相关系数均要进行假设检验。

2)多元方差分析:是对多个定类变量与一个定距变量关系的分析,他是由相关分析到因果分析的一个过渡。多元方差分析与一元方差分析的原理一样,都是将总方差分为两部分:消减方差和剩余方差,通过计算F值和相关系数E的值来检验和测量定类变量对定距变量的作用。不同的是,多元方差分析定类变量的数目增多,因此分析内容较多。

3)多元因果分析:通常采用建立因果模型的方法,所谓建立因果模型就是利用统计手段将变量间的因果关系用一个或一组数学方程式表达出来。在社会研究中因果模型受到高度重视,主要原因在于它与实际估计模式参数的方法论结为一体,从而为人们提供一种以高度可读性因果图表去表述理论的手段。因果模型所用技术一般具有某种可对理论进行检验的、精确严格的假设式演绎方法。最著名的因果模型是多元线性回归分析模型。此外还有路经分析模型和对数线性分析模型等。在这些模型中因果关系一般是某一特定时间内个体单位数兴建的一种非对称关系,而不是一定时间内有序时间的相互关系。

<1>多元线性回归:它是社会研究中多个变量之间数量关系最简单的表达方式,是研究两个或多个自变量与一个因变量之间的线性关系的方法。所谓线性关系是指定量表达式的各项之间是可加的,所以这种表达式又叫做线性可加模型。 其中: y轴的截距。 为当 保持不变时, 变化一个单位, 的变化量。其他类推。 称为偏回归系数。 为当 一定取值时,随机变量y的平均数。

多元线性回归出要求自变量间的关系是线性可加的之外,还要求所有变量均为定距变量。和相关分析不同,不得将一组虚拟变量均引入回归方程,必须放弃其中一个虚拟变量,否则回归系数无解。

根据抽样数据建立的多元线性回归,必须经过F检验,以确认回归直线以及每一个自变量偏回归系数的建立。由于抽样误差的可能性不会大于给定的显著性水平 ,从而以最大的限度保证了所建多元直线方程和偏回归系数的可靠性。

在多元直线回归中,我们要计算复相关系数 ,即全部自变量与因变量的相关程度。决定系数 表示使用所确立的多元线性回归方程解释y时,所能减少的误差的比例,其值越大,表示多元回归对y的解释力越强。

决定系数是鉴别多元线性回归方程品质的一个非常重要的指标,如果决定系数过小,表示在所使用的回归方程中很可能遗漏了某些重要因素。在此情况下,不仅表示所选择的自变量意义不大,而且很可能破坏了使用多元线性回归的假定,从而使所求得的偏回归系数有误。但也不能由此采用相反的做法,即引进的自变量多多益善。实际上如果引进了许多与y无关的变量或彼此间相关性很强的自变量,都会引起所求回归方程偏回归系数的失真或甚至无解。为了判别在多元线性回归中应引进哪些自变量,那些自变量更重要,从而应先引入方程,常采用逐步回归的方法。但是任何一种统计技术或计算机程序都是由人去操作运用的,他们不能代替人的思考。只有当对现象的本质和内部联系有了一定的认识之后,才能考虑某种确定的统计工具。否则,轻率的选择某种统计工具,或者干脆靠计算技术出来代替分析,所的结论都是不可靠的,甚至是危险的。

多元线性回归除了适用于多个自变量的情况外,还适用于虽然自变量只有一个,但它与因变量的关系却是非线性的。例如: xy的关系是一个多项式的关系。实际上,只要将 当作不同变量,就可以将上述多项式回归转化为k元线性回归。

回归分析不仅在横剖因果研究中得到广泛应用,同样在纵贯的时间系列分析中也有广泛的应用。把回归分析运用于社会分析时,还要注意因果联系中的滞后效应

<2>逐步回归:它不是首先建假想模型,不是一次将我们认为对因变量有影响的因素作为自变量引入回归方程,而是逐步引入,若引入的自变量对因变量有显著影响,就将其保留;反之则将其去掉。这样,最后得到的回归方程之中只包含那些对因变量作用显著的自变量,而未引入回归方程的其余因素,增加任何一个对回归效果都没有显著的改进。

逐步回归的具体步骤是

A)确定有可能影响因变量y的自变量,假定在某项研究中我们确定了5个自变量 。(B)计算每个自变量与y的皮尔森相关系数 ,然后从中选出与y相关性最强的自变量引入方程,假定 最大,则 应被引入回归方程:即 C)逐一考虑其余变量 与已被选入回归方程的变量 y的共同作用,即计算复相关系数,并从中选出相关最强的自变量进入回归方程,假若 最大,则 应被引入,得到二元线性回归方程: 。(D)同第三步一样,逐一考虑其余变量与被选入变量对y的共同作用,再从中选出复相关最强的自变量进入回归方程,依此类推。在每引入一个自变量后,都须进行F检验,以确定引入后回归方程对于y的解释是否显著增加,若达到研究所要求的显著度,则保留该步中引入的变量,否则将其舍弃。通过逐个引入自变量注册检验最后所得到的回归方程包含的都是对因变量作用显著的自变量,这些自变量的重要性与其被引入的次序相同,即最先引入的变量最重要,其次被引入的第二重要。显然,逐步回归中进入回归方程的自变量多个数多少与研究所要求的显著性水平有关。

逐步回归不仅可以从众多的自变量中找出一些最重要的自变量,从而使研究得以简化,而且当个自变量之间相关程度较高时,使用一般线性回归方程将会出现系数失真或无解情况,逐步回归通过自动的放弃一些变量,从而避免了上述问题。逐步回归可与一般回归混合使用。

<3>路径分析:一般回归分析和逐步回归分析都是研究多因一果型关系,路径分析则是对多层次因果关系的分析方法。

与一般回归分析不同,路径分析不使用一个而是用一组线性回归方程刻画多个变量之间的关系,对于各因变量的分析不仅要分析其受直接作用力的大小,也要分析其受间接作用力的大小。此外,路径分析也不同于逐步回归分析,它不是寻找一个有效的因果模型,而是以一个有效的因果模型为出发点,这一因果模型其实是一个内容复杂的假设,然后用资料验证这一假设。

<4>对数线性分析:由L.古德曼(Goodman)所首创,多用于自变量与因变量均为定类变量的多元因果分析。分析时先将数据制成列联表,再将列联表中所有格值分别取对数,这也也是本法称作对数线性分析的缘故。因为取了对数,各自变量对格值的影响就可以看成是线性可加的了,然后以各种模型与调查结果进行拟合检验,以确定最佳的模型分析

对数分析不仅可对因变量每一自变量间的直接关系及美对自变量间的关系进行分析,更重要的是可对三变量或多个变量之间的关系,即对变量间的多种交互作用进行分析

4)判别分析:目的就是描述由几个已知类别得来的对象的差异性,试着寻找一“判别物”,依其将这些群体分离。在判别分析中,作为判别物的是由若干判别因子组成的线性判别函数: 其中 称为判别系数,表示各个判别变量的贡献,它是由过去的资料求得的。

判别分析中,判别变量均要求为定距变量。

3、 互相依性分析:目的是研究多个变量之间的相互关系,从中找出一个简单的结构。常用的方法有:1)聚类分析是一种分类技术,它是依据研究者的理论或对变量的实际相关情况将变量分类,然后测量这一分类方式是否有效。分类是人类认识世界最基础的手段之一,但在古老的分类学中,人们主要是依靠经验进行分类,聚类分析则是依靠科学的定量方法进行分类,因而更精确可靠。

在社会研究中,一个概念往往要通过一组指标(或变量)来进行测量,但这些变量往往并不是互不相关的,有些变量甚至呈现出很高的相关性,因此可通过聚类分析将变量聚合为若干类,从而使我们能更清晰地了解问题。聚类分析适合于各种测量层次的变量。

根据聚类的准则,可分为两类

<1>距离法:通过变量间的距离量度变量的相似性,距离越短,相似性越佳,越可合并为一类。在距离法中,变量被看作多维空间的一个点,则两变量 欧氏距离为: 其中 表示变量 之距离, 表示第K个个案在 上的观测值, 为第K个个案在 上的观测值,n为个案数。

根据计算的距离 ,通常采用谱系聚类法将变量间的关系理顺成谱。其基本思想是先把P个变量各自看成一类,然后选择距离最小的合并为一新类;再计算新类和其他类的距离,然后将距离最近的合并为新的一类;这样每次减少一类,直到所有变量成为一类为止。

<2>相关系数法:是通过变量间的相关系数来量度聚类中变量的相似性的,相关系数越大,相似性越佳,越可合并为一类。相关系数不限于适用于定距变量的皮尔森相关系数r,如果是定类变量,可采用 系数或 系数等。相关系数求出后,仍采用谱系聚类法进行聚类,但与距离法不同的是首先将相关系数最大的合并为一类,然后再逐步合并,直到所有变量成为一类的谱系图。

谱系图作出后,应将变量分为几类为宜,一般用归类系数进行判断: 归类系数应大于1。通常要求归类系数 ,作为分类的标准。对于所分类别还应作出社会学的解释,这样聚类的结果才有意义。

以上介绍了变量群的聚类分析,它又称为R型聚类分析。但如果研究个案群的归类,则称为Q型聚类分析

2)因素分析:也是旨在简化大量变量之间的关系的方法,但它不是像聚类分析那样,将这众多的变量归成少数几类而是从众多变量的相关变量中抽取若干共同因子。

3)最小空间分析:是一种较新但极有发展潜力的分析方法,可适用于各种尺度的变量,最小空间分析以相关系数为基础,通过绘图的方法来简化多个变量之间的相互关系。多个变量之间的相互关系,可用一维空间来表示,也可用二维空间或多维空间表示,空间越大,情况越复杂,最小空间分析就是要找出一个最小而又最能代表实际情况的空间达到简化变量间关系得目的。


2007-01-22

没有评论: