第十七章:多元分析概论
1、 多元分析的一般概念:(1)详析模式与多元分析:控制多个变量的方法与控制一个变量的方法一样,也可采用分表法,只是分表的层次更多而已。实际上,当变量数目超过4个时,由于表的层次过多、过大,使用这一方法是很困难的,特别是当要从一组因素去确定一定数目的变量,而且希望分析这些变量之间的关系时,困难就更大。为解决这一困难,所用办法是将上述的逻辑程序倒转过来,即“不摸索着去推断数据的结构性质”,而是先提出某一结构的假设,然后考察这个结构是否真正符合数据。
(2)多元分析的类型和应用:<1>类型:(A)美国库利和柯尼斯按变量的组数和群体数分为下述四类:因素分析,复相关、偏相关和典型相关;多因方差分析;判别分析和聚类分析。(B)英国统计学家根据研究目的将多元分析方法分为两大类:相依性分析和互相依性分析。回归分析、判别分析、典型相关分析均属于相依性分析,他们的共同特点是分析所涉及的变量是不平等的,即有自变量与因变量之分。相依分析的目的在于分析多个变量对某个或某些变量的共同影响或相对效应。互相依性分析所涉及的变量是平等的,分析的目的是变量之间的相互关系,以简化这种相互关系。因素分析、聚类分析等均属于互相依性分析。
每一种多元分析方法都是建立在一些列假设前提的基础之上的,这些假设既包括这一方法所涉及的变量的测量层次,而且也包括这些变量间相互关系的性质,以及资料的不同来源等。因此,在选择一种多元分析方法时,应首先考察这一方法所要求的前提条件是否得到满足,若某些条件未获得满足,就要想办法进行某种统计处理,例如定类变量,可先将其变为虚拟变量后再引入回归模型。
<2>优点和局限:多元分析较之于单变量和双变量分析能更真实反映复杂的社会现象之间相互联系与相互依存的关系,但其局限是:(A)大多数多元分析方法都是在分析前先形成一个假设,然后再探寻与资料的符合程度,因此多元分析大多是与事先的理论研究密切联系在一起的,这就要求研究者具备很好的专业训练。此外,选择何种理论假设模型是由研究者决定的,这就是它很难避免研究者主观因素的影响。
(B)多元分析是一种高级分析手段,一般要求变量具有较高的测量层次,在社会研究中这种要求往往很难达到。为此研究人员利用许多统计手段将这些低层次变量转化为定距变量处理,从而使多元分析的影哟国内范围得到一定程度的扩大
(C)多元分析一般要求每一项记录来自同一时点和同一单位,这在大规模的社会调查研究中也是难于保证的,这就为进行同一时点上地区差异的分析和同一单位的历史变化的分析带来了困难。
(D)多元分析包括了高深的数学问题并涉及大量的数字处理与运算,随着计算机技术的发展和统计软件包的问世,这方面的困难有了很大克服。但当变量的数目太多,或设备缺乏以及受过专业训练的统计人员不足时多元分析方法实际应用仍受到很大限制。
(E)多元分析常碰到一个问题是对于结果的解释。由于分析中变量的选择,使用的分析方法是因研究者而异的,而且由于多个变量间相互作用的复杂性等,使得对于分析结果的解释要较之于双变量和单变量分析更为困难。
2、 相依性分析:
(1)多元相关分析:<1>偏相关:是指用一个统计值来测量当控制了其他变量的影响后,某一变量与另一变量间关系的有无和大小。根据控制的变量的数目,可以将相关分为:一阶段相关、二阶段相关、三阶段相关等等。 偏相关分析的要求:所有变量为定距变量,测量偏相关关系的统计值称为偏相关系数,其值由-1到+1。偏相关系数用符号
一阶相关的偏相关系数:
偏相关系数也可用于详析分析,具体做法:
(A)计算x与y的全相关系数
(C)比较
分表法与偏相关系数法比较:(A)相同点:都是利用统计控制区除其他变量的影响,以揭示两变量统计关系的真伪,进行更深入的因果分析。(B)不同点:分表法适应于各种类型变量,除可对变量关系进行检验外,还可进行条件关系分析和联合作用分析。缺点是当类别很多、表很大时,这种直观分析方法困哪较大,而且为了保证分表中每个单元有足够的案例,需要的样本规模也较大。偏相关系数在这两个方面优于分表法,缺点是不宜于条件关系和联合作用的分析,应用范围受到限制。
若计算两个定序变量的偏相关系数,则采用Gamma系数。以一阶相关为例,具体做法:依据变量A的值将样本分组,然后分组计算个组中的同序对数
当变量x与y均为定类变量(或一个为定类变量、一个为定序变量)时,应当采用偏
<2>复相关:不是在对某一变量的众多因素中区别出某个变量的单独作用,而是用一个统计值来测量多个变量对一个变量的共同作用。复相关系数用符号:
复相关也要求所有变量均为定距变量,其相关系数的计算也是以皮尔森相关系数为基础的。两变量(
当变量不全为定距变量时,要进行复相关分析,必须先将定序或定类变量转换为一组虚拟变量。转换的方法:如果是一个二分变量,则只要将赋予其中一值 1分,另一值0分,这一定序或定类变量就转变为定距变量了。统计学上将这种由非定距变量通过赋值0与1两值而变为定距变量称为“虚拟变量”。虚拟变量因为是定距变量,因而可以运用复相关分析。
<3>典型相关:是一种分析两组变量之间的相关关系的方法,它所测量的是两组变量的最大相关。其基本原理是利用标准化直线方程分别将每组变量组合为一个典型变量,然后计算这两个典型变量的相关。例如有5个x变量与3个典型变量,其对应的典型变量是:
建构典型变量
典型相关要求所有变量均为定距变量,典型相关系数值在0到1之间,其平方值具有消减误差比例的含义。显然,当两组变量中某一组变量的个数为1时,典型相关就是复相关。
当资料是由概率抽样调查获得的,则无论是偏相关系数、还是复相关系数或是典型相关系数均要进行假设检验。
(2)多元方差分析:是对多个定类变量与一个定距变量关系的分析,他是由相关分析到因果分析的一个过渡。多元方差分析与一元方差分析的原理一样,都是将总方差分为两部分:消减方差和剩余方差,通过计算F值和相关系数E的值来检验和测量定类变量对定距变量的作用。不同的是,多元方差分析定类变量的数目增多,因此分析内容较多。
(3)多元因果分析:通常采用建立因果模型的方法,所谓建立因果模型就是利用统计手段将变量间的因果关系用一个或一组数学方程式表达出来。在社会研究中因果模型受到高度重视,主要原因在于它与实际估计模式参数的方法论结为一体,从而为人们提供一种以高度可读性因果图表去表述理论的手段。因果模型所用技术一般具有某种可对理论进行检验的、精确严格的假设式演绎方法。最著名的因果模型是多元线性回归分析模型。此外还有路经分析模型和对数线性分析模型等。在这些模型中因果关系一般是某一特定时间内个体单位数兴建的一种非对称关系,而不是一定时间内有序时间的相互关系。
<1>多元线性回归:它是社会研究中多个变量之间数量关系最简单的表达方式,是研究两个或多个自变量与一个因变量之间的线性关系的方法。所谓线性关系是指定量表达式的各项之间是可加的,所以这种表达式又叫做线性可加模型。
多元线性回归出要求自变量间的关系是线性可加的之外,还要求所有变量均为定距变量。和相关分析不同,不得将一组虚拟变量均引入回归方程,必须放弃其中一个虚拟变量,否则回归系数无解。
根据抽样数据建立的多元线性回归,必须经过F检验,以确认回归直线以及每一个自变量偏回归系数的建立。由于抽样误差的可能性不会大于给定的显著性水平
在多元直线回归中,我们要计算复相关系数
决定系数是鉴别多元线性回归方程品质的一个非常重要的指标,如果决定系数过小,表示在所使用的回归方程中很可能遗漏了某些重要因素。在此情况下,不仅表示所选择的自变量意义不大,而且很可能破坏了使用多元线性回归的假定,从而使所求得的偏回归系数有误。但也不能由此采用相反的做法,即引进的自变量多多益善。实际上如果引进了许多与y无关的变量或彼此间相关性很强的自变量,都会引起所求回归方程偏回归系数的失真或甚至无解。为了判别在多元线性回归中应引进哪些自变量,那些自变量更重要,从而应先引入方程,常采用逐步回归的方法。但是任何一种统计技术或计算机程序都是由人去操作运用的,他们不能代替人的思考。只有当对现象的本质和内部联系有了一定的认识之后,才能考虑某种确定的统计工具。否则,轻率的选择某种统计工具,或者干脆靠计算技术出来代替分析,所的结论都是不可靠的,甚至是危险的。
多元线性回归除了适用于多个自变量的情况外,还适用于虽然自变量只有一个,但它与因变量的关系却是非线性的。例如:
回归分析不仅在横剖因果研究中得到广泛应用,同样在纵贯的时间系列分析中也有广泛的应用。把回归分析运用于社会分析时,还要注意因果联系中的滞后效应。
<2>逐步回归:它不是首先建假想模型,不是一次将我们认为对因变量有影响的因素作为自变量引入回归方程,而是逐步引入,若引入的自变量对因变量有显著影响,就将其保留;反之则将其去掉。这样,最后得到的回归方程之中只包含那些对因变量作用显著的自变量,而未引入回归方程的其余因素,增加任何一个对回归效果都没有显著的改进。
逐步回归的具体步骤是:
(A)确定有可能影响因变量y的自变量,假定在某项研究中我们确定了5个自变量
逐步回归不仅可以从众多的自变量中找出一些最重要的自变量,从而使研究得以简化,而且当个自变量之间相关程度较高时,使用一般线性回归方程将会出现系数失真或无解情况,逐步回归通过自动的放弃一些变量,从而避免了上述问题。逐步回归可与一般回归混合使用。
<3>路径分析:一般回归分析和逐步回归分析都是研究多因一果型关系,路径分析则是对多层次因果关系的分析方法。
与一般回归分析不同,路径分析不使用一个而是用一组线性回归方程刻画多个变量之间的关系,对于各因变量的分析不仅要分析其受直接作用力的大小,也要分析其受间接作用力的大小。此外,路径分析也不同于逐步回归分析,它不是寻找一个有效的因果模型,而是以一个有效的因果模型为出发点,这一因果模型其实是一个内容复杂的假设,然后用资料验证这一假设。
<4>对数线性分析:由L.古德曼(Goodman)所首创,多用于自变量与因变量均为定类变量的多元因果分析。分析时先将数据制成列联表,再将列联表中所有格值分别取对数,这也也是本法称作对数线性分析的缘故。因为取了对数,各自变量对格值的影响就可以看成是线性可加的了,然后以各种模型与调查结果进行拟合检验,以确定最佳的模型分析。
对数分析不仅可对因变量每一自变量间的直接关系及美对自变量间的关系进行分析,更重要的是可对三变量或多个变量之间的关系,即对变量间的多种交互作用进行分析。
(4)判别分析:目的就是描述由几个已知类别得来的对象的差异性,试着寻找一“判别物”,依其将这些群体分离。在判别分析中,作为判别物的是由若干判别因子组成的线性判别函数:
判别分析中,判别变量均要求为定距变量。
3、 互相依性分析:目的是研究多个变量之间的相互关系,从中找出一个简单的结构。常用的方法有:(1)聚类分析:是一种分类技术,它是依据研究者的理论或对变量的实际相关情况将变量分类,然后测量这一分类方式是否有效。分类是人类认识世界最基础的手段之一,但在古老的分类学中,人们主要是依靠经验进行分类,聚类分析则是依靠科学的定量方法进行分类,因而更精确可靠。
在社会研究中,一个概念往往要通过一组指标(或变量)来进行测量,但这些变量往往并不是互不相关的,有些变量甚至呈现出很高的相关性,因此可通过聚类分析将变量聚合为若干类,从而使我们能更清晰地了解问题。聚类分析适合于各种测量层次的变量。
根据聚类的准则,可分为两类:
<1>距离法:通过变量间的距离量度变量的相似性,距离越短,相似性越佳,越可合并为一类。在距离法中,变量被看作多维空间的一个点,则两变量
根据计算的距离
<2>相关系数法:是通过变量间的相关系数来量度聚类中变量的相似性的,相关系数越大,相似性越佳,越可合并为一类。相关系数不限于适用于定距变量的皮尔森相关系数r,如果是定类变量,可采用
谱系图作出后,应将变量分为几类为宜,一般用归类系数进行判断:
以上介绍了变量群的聚类分析,它又称为R型聚类分析。但如果研究个案群的归类,则称为Q型聚类分析。
(2)因素分析:也是旨在简化大量变量之间的关系的方法,但它不是像聚类分析那样,将这众多的变量归成少数几类而是从众多变量的相关变量中抽取若干共同因子。
(3)最小空间分析:是一种较新但极有发展潜力的分析方法,可适用于各种尺度的变量,最小空间分析以相关系数为基础,通过绘图的方法来简化多个变量之间的相互关系。多个变量之间的相互关系,可用一维空间来表示,也可用二维空间或多维空间表示,空间越大,情况越复杂,最小空间分析就是要找出一个最小而又最能代表实际情况的空间达到简化变量间关系得目的。
没有评论:
发表评论