2007-01-22

谢宇教授方法论系列讲座:选择性、实验法和评估研究

谢宇教授方法论系列讲座(五)

主题:选择性、实验法和评估研究

Selectivity, experimentation, and evaluation research

主讲:谢宇教授(美国密西根大学社会学系教授)

主持:马戎教授(北京大学社会学系主任,博士生导师)

时间:20021030日晚700900

地点:五四体育馆体教电教厅

马戎主任:今天由谢宇教授给我们做方法论的第五个讲座,大家欢迎!

谢宇教授:谢谢大家!今天是第五讲,也是方法论的最后一讲。我想把以前讲的东西归纳一下,再把一些新的思想介绍一下。感兴趣的同学可以根据我后面讲的东西去参考具体的文献,去掌握这些方法,我在这里只是简单介绍一下。今天的题目是选择性,实验法和评估研究。我会先把这个题目解释一下,下一个定义,然后再讲他们之间的关系。听过我的讲座的人可能会得到这样一个共识,就是社会学研究中最根本的问题就在于因为选择性的存在,观察数据所提供的变量关系可能是虚

假的。因为社会现象是多变的,是有差异的,因为这些差异性,我们在取样时就会产生差异,如果你不注意这些差异的话,你得到的变量关系就有可能是表面上的虚假关系。因此社会学方法论当中最根本的问题就是由于选择性的存在,使我们观察到的变量关系可能是虚假的。这是对我们最大的一个挑战。那怎么来解决这个问题呢?有两种方法可以解决这个问题,一种是用观察数据建立一个统计模型,也称为“结构法”。组与组之间的差别可能是不可比较的,那我们有一个办法,就是把各个组之间的差异全部测量出来,然后用统计的方法建立一个统计模型,把所有因素都考虑进去。比如我的一个老师,现在也在威斯康星大学做教授,他就讲过传统的社会分层的模型没有考虑到人与人之间的权力关系,而马克思就考虑到了阶级是由权力不平等造成的,因此他的模型能够解释更多的现象。这是一种方法,是用数据和模型来完善一些关系,弥补一些漏洞。但是这种方法有很大的缺陷,因为它不知道自己漏掉了什么,这就需要另一种方法,叫实验法,也可以称为“简化法”,是通过实验来解决选择性的问题。所有的方法都是这两种方法的演变和具体实现。

下面我们来讲评估研究,评估研究也称“项目评估”,是指试图评估社会项目的有效性的一种应用性研究。评估研究实际上不是一种研究方法,只是一种应用性的研究,其目的只是在于评估研究项目的有效性。我刚才讲了选择性,选择性大致可以分为两种。一种叫可观察到的选择性,这种选择性是指如果接受与未接受社会干预的两组研究对象在观察特征上是有差异的,那么这种选择性就称为可观察的选择性。在多元统计分析中,可以通过统计分析使这两种研究对象具有可比性,这就解决了可观察的选择性问题。另一种选择性是未观察到的选择性,这种选择性是无法测量到的特征的选择性。在社会学研究中,更为困难的问题就是处理未测量特征的选择性。这个问题是社会科学中最大的问题,你解决了这个问题就解决了社会科学中最大的难题。这个问题也被称为“内生问题”,原因是项目参与者对于被评价的结果变量而言是有内生选择性的。人是有目的性的,他是根据他的目的性在参与研究项目的,这种目的性就是一个内生问题,而不是受外来因素控制和影响的。这个问题比较难以解决,统计模型需要很强的不切实际的假设。有一位经济学家通过建立这方面的一个模型而得了诺贝尔奖。但是他这个模型需要的假设太多,难以操作化,因此现在对这个模型持批评态度的人越来越多了。因为他的假设太多,我们根本无法知道未观察到的选择性的存在性。这一潜在的威胁对所有根据观察数据进行研究的人都是存在的。我们做社会科学研究的人都是用的观察数据。只要我们用的是观察数据,我们在写文章,做报告时,我们的结论就有可能是错误的,因为有可能有未观察到的选择性存在。极端一点来说,所有的社会科学的观察资料都是不科学的,都是可以提出疑问的。我在星期五讲美国社会和美国社会学的时候,会讲到经验研究在美国社会学是一个很大的主流,但在最近20年,我们已经意识到经验研究和统计分析是有局限性的,并不是万能的,我们的数据和方法都是有缺陷的,我们的结论也有可能不成立。因为我们在做研究的时候要做出种种假设,不做假设就得不到这种结果,社会科学的统计分析中不做假设是寸步难行的。

那么这种观察性偏差是怎么产生的呢?我们就要探讨一下这种偏差的来源。一个来源是影响结果的未观察到的前提条件在组与组之间存在差异,就是说我们还没有做实验之前,组与组之间已经存在差异,即控制组与实验组之间存在差异。如上大学的人和不上大学的人之间就有差异,上大学的人能力比较强,工作比较努力,不上大学的人工作能力较弱,工作也不是很认真。假如你要测量这两组人,一组上了大学,一组没有上大学之后的生产能力的话,其实在他们都还没有上大学时,他们的能力差异就已经存在了,这就是产生观察性偏差的第一个来源。另一个来源是研究中未观察到的反映在组与组之间存在差异,有的人反映大,有的人反映小,有的人得益多,有的人得益少。也就是结果变量Y与未观察到的变量Z之间有相互关系。在教育的例子中,有一部分人通过接受大学教育后提高得快,一部分提高得慢。也就是你提供的机会和条件是一样的,但是不同的人的反映不一样,同样的输入,可能有不同的输出,这是另外一个来源。这两个来源都会导致观察性偏差。一个是没有观察之前就已经存在的差异,另一个是对同一过程的反映存在差异。我们回到第二讲关于简单比较那部分。我讲过简单比较要有两个假设,就是实验组对象与控制组对象大体上是相当的。一个假设是得到干预的实验组假如没有得到干预的话就和控制组没有得到干预的情况大体相当;另一个假设是没有得到干预的控制组假如得到了干预就会和得到干预的实验组的情况大体相当。第一个假设就是说实验组和控制组在起点上是相同的,在没有受到干预之前,实验组和控制组是大体相当的。有了这个假设,就没有了可能出现观察性偏差的第一个来源。而第二个假设是说如果控制组和实验组一样都受到干预后,实验组和控制组也是大体相当的,也就是在接受干预的过程中不会产生不同的反映,这就没有了可能出现观察性偏差的第二个来源。这两个来源都没有了,就不会出现观察性偏差。下来我们要讲实验,实验是指操纵某些变量来观察其它变量的作用的一种研究。实验是一种研究,这种研究的特征是我们可以通过人为的方

法来操纵一些变量,后面我会讲到怎样操纵变量。我们先来回顾一下产生忽略变量偏差的两个条件,一个是有关条件,就是忽略的变量要与主要的因变量有关,第二个是相关条件,就是忽略的变量要与主要的自变量相关,只有这两个条件同时存在,才可能产生忽略变量偏差。而实验的关键就是破坏产生忽略变量偏差的第二个条件――相关条件,就是使忽略的变量与自变量是相互独立的,这样我们就可以忽略这个变量。而在这里,第一个条件是无法破坏的,它是客观存在的。比如在我们讲的受高等教育与工作能力的例子中,你没有接受高等教育之前的能力水平,智力状况等等都是无法改变的,我们能够通过实验破坏的是第二个条件,就是使所有因素都和主要的自变量都成正交。讲实验的时候都要讲到内部有效性,内部有效性是指对于参与实验者而言实验所得的结论是有效的。假如存在这个有效性,那我们就说这个实验有内部有效性,合适的实验设计都可以建立内部有效性。最简单的实验设计法就是“前测―后测”控制组设计。我们先不考虑其他因素,只是通过随机抽样的方法选取样本。对抽取的样本,我们先对其进行检测,就是前测,看他们在接受干预之前的状况。在他们接受了干预后,我们再对他们进行后测,看他们的变化。在这个设计中,前测并不是必需的,其设计主要是为了提高准确性,而并不是为了避免偏差。另外,对于实验组合控制组的协变量的测度和考虑也不是必须的,其目的都是为了提高准确性,在样本很大的时候就不需要了。

很多人可能会不理解,为什么我们在统计的时候要考虑多方面的因素。一个原因是如果我们忽略了一些变量,就有可能造成忽略变量偏差,我们得到的结论就有可能是错误的;另一种考虑是我们要提高精确度,在你做实验的时候,如果你考虑了其他的变量,你的实验结果的精确度就会提高。但是一般来讲,你只能包括实验前的变量,而不能包括实验以后产生的变量,因为包括了这些变量,就会包括进很多假设,你得出的结论就是有前提假设的,这种结论就有可能是不可靠的。因此如果包括其他变量与不包括其他变量得到的结果不一样的话,你应该相信那个更简单的模型,因为它的假设条件少,结论更可靠。

讲完了内部有效性我们就要讲外部有效性。研究有可能是内部有效的,却是外部无效的。外部有效性要求在对结论一般化的时候,提出这样一个问题,就是你的实验结果在多大程度上是普遍适用的,它有多大的普遍意义。你不知道你的实验结果在实验对象范围之外是否适用。比如你在大学生群体中做的实验,你就不知道你的实验结果在没有上过大学的人中间适用不适用。许多因素都会威胁到外部有效性或代表性。一个因素是你所做实验的对象不能代表实验对象以外的总体,这就会产生样本选择性偏差。第二个原因是你做的实验得到的结果在小范围是适用的,在大范围就不适用,我在后面会给你们一个例子。

那么区别内部有效性和外部有效性是不是有价值呢?这种区分是一种传统方法上的区分,但这种区分是不是有价值呢?我们一直是认可这种区分的,但是绝大多数经济学家认为这是没有意义的。因为评估研究的最终目的是为了对实际项目的有效性作因果推理,如果研究是外部无效的,那么它就是毫无意义的,因此假如一个研究没有外部有效性的话,这个研究本身就没有意义。所以你的研究出发点就应该是建立在这个项目是不是有效,而不是说这个实验是不是有效。那为什么这么多年来这两者的区分会一直存在呢?这来源于心理学。为了证明小样本实验的有效性,心理学家普遍接受这两者的区别。心理学家的样本基本上都是小样本,虽然他们不敢保证他们的研究结果在整个研究总体中都是成立的,但是他们想证实他们的结论在他们所抽取的小样本中是成立的。因此他们就把内部有效性和外部有效性区分开来。但是很多经济学家对此是持批评态度的。我希望你们也能培养一种批评的态度。

下面我们转入下一个问题,讲一下准实验设计,准实验设计使用的范围很广,没有固定的模式,也没有固定的方法,有一些比较接近于实验法,有一些是用于特殊解释的多元回归,这只是一个标签。准实验设计是自然发生的,是在自然环境下发生的,不是人为强加一些变量进行控制的,研究者可以将类似于实验设计的方法应用到他们收集数据的过程中来。因为准实验设计是来自于自然环境,来自于观察数据,他的内部有效性就可能受损,严格来讲,准实验设计的内部有效性都不是完全的,都有可能不成立,你只能知道他的结果的可信性,你不知道他完全的可靠性。但是因为准实验设计的数据来自于自然环境,来自于实际社会,因此他的外部有效性得到加强。准实验方法其实是通过统计控制或结构方法来实现的。用观察数据时,我们不能通过随机指定来控制误差,这种误差就会影响到准实验设计的内部有效性。那么我们就通过多元分析来控制误差。我们把可能忽略的变量考虑到统计模型中,对它们进行测量。比如美国社会存在这样一个现象,就是老师的工资比较低,而且女老师的工资要比男老师的工资低。很多人就认为这是一种男女不平等。有一个研究就对以下变量进行了多元分析,一个是性别,一个是个人能力,另一个是课程。这个研究就发现,男老师因为个人能力比较强,他们教的课程多是理工类的,而女老师多教一些语言艺术类的课,而教理工类课程的老师的工资是要比教语言类课程的老师高的,因此男老师的工资比女老师高。这里就是能力和课程造成了男女老师工资的差异,但是造成这种差异的原因中可能还有其他我们没有考虑到的因素,比如性别歧视,但是性别歧视造成的差异不会大于现有的差异状况,而只会小于这个量。

我们再来考虑一下实验法,实验法的创始人就认为任何研究结论都要通过实验来验证。他当时还不承认吸烟对人的健康有害,他认为已有的研究结论都是建立在观察数据上,而观察得到的数据是可能有选择性偏差的,是不可靠的。但是我们现在还是肯定吸烟和导致肺癌是有直接的因果关系的,因为假设这其中有选择性偏差,那这种选择性偏差会极大的偏离其实际可能的数值,而这么大的偏差是不可能是由人的行为造成的。因此我们现在还是认为,虽然吸烟和得肺癌之间的因果关系是由观察数据得出来的,但我们现在还是相信这种因果关系。因为我们无法通过实验法来解决这个问题,我们只能依靠观察数据。实验法解决了选择性问题,这种方法又称为简单模式。下面我给大家举一个例子,我所住的城市旁边有一个城市叫Ypsilanti,这是一个比较贫困的城市。研究者在这里用实验的方法进行了一个学前教育的研究。一组人接受了学前教育,一组人没有接受这种学前教育。通过追踪调查发现,27年后,这两组人之间产生了很大的差异。接受过学前教育的人,他们的行为、收入等各方面表现都要比没有接受学前教育的人要好。这是比较著名的一个实验,这个实验现在还在继续。

我下面给你们介绍一篇文章,作者是Manski and Garfinkel。其中Manski是我的老师,他是一位经济学家,是经济统计学方面的专家。这本书的名字叫“evaluating welfare and training program”。在这本书的绪言中,他们提出实验设计有一个经常被忽视的缺陷,就是通常研究者不能将实验背景下取得的结果推广到自然环境中,你的结果在实验环境下可能是好的,离开了这个环境就有可能不适用,因此Manski and Garfinkel对实验法提出了公开的批评。事实上,简化模式的实验评估需要特殊的带有推测的结构性假设。这个假设就是个体与组织对项目做出反应回答时,实验的答案与真实的答案要是相同的。如果你不做这个假设,你的实验是徒劳的,实验结果根本没有实际作用。而这个假设在社会科学中是很难成立的,在实验中有效的结论,在实际生活中未必有效。我可以给你们举一个例子,在底特律进行过一个调查,调查的是问卷的回答率。研究者想知道怎样才能提高回答率。他们操作时采用了这样的方法,当被访者不愿意回答时,他们提出给一定的报酬,而且这个报酬的数量还随着被访者不愿回答的次数而增加。的确,收到钱的人的回答率要高于未收到钱的人。但是这个实验只是局限于一定群体,如果每个人都知道了这件事情后,你们再去做这个调查的话,就实施不了了。所以,很多情况下,你的理论可能是很好的,在真正实行的时候就会有一个反效应,尤其是在研究政策的时候更要注意这个情况。一个政策可能在小地区之内是很好的,但是当它被推广到全国时会是一个什么情况,会不会产生动荡,这都是很大的问题。所以你要考虑到整体,当你把结论从实验的环境推广到实际的环境时,情况就有可能发生变化。因此Manski and Garfinkel提出来的问题就是一个缺乏外部性的问题,是外部性受损的问题。关于前面这部分大家有没有什么问题?

问题一:经济学家经常用到思想实验的方法,我想问一下思想实验的方法有什么缺陷性?

谢教授:我们在做研究的时候,先要建立一个理论框架,而这种理论框架的建立就需要思想实验。另外当实验结果出来以后,你无法预测你的实验结果推广以后会出现什么情况,这时你也需要思想实验。但是这种思想实验还不是一个经验研究,还只是一个逻辑层面的思维。

问题二:谢教授,我想问一下是不是在一种极端情况下,内部有效性就意味着外部无效性?

谢教授:不一定,过分的强调内部有效性确实会损坏外部有效性,但并不是说内部有效性会完全否定外部无效性。好我接着讲,Manski and Garfinkel就建议以结构法作为起点,结构法是通过观察数据对因果关系建立模型的一种统计方法。这种方法是通过收集数据和理论上的因果关系来建立模型的。我们还是举启蒙教育这个例子,在这个例子中,我们就控制家庭的社会地位,父母对孩子的参与,家庭关系是否和睦,社区的关系,学校的好坏等等。我把能够考虑到的因素尽量考虑进去,建立一个比较完整的统计模型,这就是结构法。

下面我再给你们几个定义,一组是外生变量和内生变量。外生变量是指那些只能在方程中作为自变量的那些变量;内生变量是指那些在某些方程中作因变量,可能在其他方程中作自变量的变量。另外一组概念是结构方程和简化方程,结构方程是将内生变量作为自变量得到的理论性方程;简化方程是所有自变量都是外生变量的方程,即在简化方程中忽略了那些中间变量。我们来比较一下这两种方法,结构式方法的优点是:

第一,它是在自然条件下得到的,一些结果直接用于总体,相反,实验法得到的结果必须要推广。第二,它是建立在理论之上,但同时又可以

检验理论,相反,简化法只是对简单问题的简单回答,它不需要理论,它不回答有效性的问题,这种方法在科学上是有不足的,但是很实用。

简化法的优点在于:第一,在简化法中,内生偏差由于随机指定而被抵消,可以建立很好的内在有效性,而实验法在这里是有缺陷的。举一个例子,我们指定一部分人去学计算机,另一部分人不学计算机,但结果往往和我们希望的不一样,那些被指定去学计算机的人有一些对计算机不感兴趣,他们会想方设法去干别的事情。相反,那些被指定不能学计算机的人反而会通过种种途径去学习计算机。可见在这里,内生偏差不可能通过随机指定来消除,因为人的行为是有目的性的,为了达到这种目的,他们会充分发挥自己的主观能动性,内生偏差在这里会产生很大的影响,这样实验法就无效了。简化法的第二个优点是它只需要很少的假设,得到的结论更加简单;第三,它并不需要复杂的统计模型,因此

公众与政府官员很容易理解。

我下面要讲到的东西技术性比较强,可能花的时间会比较多,前面讲的有没有什么问题?

问题一:在生物学里,有一种小规模实验的方法,您认为这种方法能否在社会学中得到应用?

谢教授:我现在所知道的社会学的实验方法有两种,一种是小范围的实验,通过控制很多外部因素来实现,但这种方法不容易得到推广。还一种方法是大范围的,分层次,长时段的实验方法,这种实验花费很大,也比较难控制。这些方法采用生物学的模式是不大可行的,因为你无法保证调查对象的稳定性。

问题二:谢教授,我想问一下结构法是不是不存在内部有效性和外部有效性之分?

谢教授:结构法不谈内部有效性和外部有效性的问题,他的结果要么不成立,成立的话就是有外部有效性,因此他不区分内部有效性和外部有效性。

接下来我就讲几个研究设计方法。我先讲准实验设计方法,我会给你们举一些例子。一种是利用空间差异进行准实验设计,一种是利用时间差异进行准实验设计,还有一个是聚类设计。讲完这些之后,我再讲一下固定效应模型,然后再讲工具变量估计,这是结构法的一种特殊情况。

第一个是利用空间差异的准实验设计,在美国有这样一个实验,某一特定的政策在A州中实施,但没有在B州中实施。比如在一个州中把最低工资提高了,在另一个州没有提高,而且在其他方面,A州和B州是可比的,然后观察结果变量在A州与B州之间的差异。有些经济学家以为通过提供贫困群体的最低工资可以改善他们的生活状况。另外有些经济学家则认为提高最低工资水平反而会害了那些较贫困的人,因为最低工资提高后,物价也跟着上涨,物价上涨就导致需求下降,需求下降又导致失业增多,这样造成了一个循环,结果还是贫困人群遭殃。但是研究结果表明提高了最低工资后他们的生活状况并没有发生什么变化,物价也没有怎么上涨,失业率也没有提高,这和理论上是不太吻合的。还有一个例子是一位经济学家提出一个市场转型模型,这一模型认为随着经济改革的深化,市场会出现转型,而在这个转型过程中,教育回报率是随着市场经济的发达程度的提高而增大的。我和我以前的一个学生就做了一个研究,按照前面的模型,在中国经济改革的步伐在地区之间存在差异,教育回报率在地区之间的差异与经济改革深度在地区之间的差异就会是相联系的,经济越发达,教育回报率就越高。但是我们的研究结果表明情况恰恰是相反的,市场经济越发达的地区,教育回报率越低,而市场经济相对不发达的地区,教育回报率反而越高。这是我们利用空间差异做的实验设计。

下面我们讲利用时间差异做的准实验设计,比如我们想研究种族差异的持续缩小是否存在显著性,特别是民权运动以来,我们希望能够看到种族差异的缩小,我们就可以检验不同种族的社会政治经济状况在时间上的变化,是不是种族差异减小了。另外在检验教育成果的时候,我们也可以用到时间差异的准实验设计,比如我们要检验新的教学方法是否有效,我们就可以收集不同时点的教育水平,教育状况的数据,然后做一个纵向分析,就可以得出结论。虽然你不可能肯定你的因果关系的正确性,但是你可以增加它的可信度。

我们下面讲固定效应模型的例子,这个是一个血缘模型,一个人的成长,成功都和他的家庭背景,社会环境有关,这里就有两种处理方法,一种是把所有相关的因素都考虑进去。第二种方法是把所有因素中共享的部分固定,解除对这部分因素的控制,这就是固定效应模型。固定效益模型有一个假设,就是你观察的层次要比你考虑的层次要低。比如你考虑家庭层次,你要观察的就是家庭中的个人。如果你的理论是在家庭层面上,而你的观察的层面也在家庭的层面上的话,你就没有自由度。固定效应模型是给每一个分析单位一个参数,现在假设有1000个家庭,每个家庭有两个兄弟,我们的观察点一共有2000个。而实际上我们用的参数只有1000个,所以这里我们浪费了1000个观察资料,但是如果你只从家庭层面上抽取1000个样本进行研究的话,你就没有自由度了。固定效应方法的性质是它控制了所有共同的特征。这个性质的好处就是,在固定效应层次上,没有观察到的异质性也被控制住了。但是因为它控制了所有共同特征,这也使它浪费了许多信息。在上面这个例子中,我们就浪费了一半的信息。这里有没有什么问题?

问题一:请问一下,您说在固定效应层次上,没有观察到的异质性也被控制住了,这一点是怎么得出来的?

谢教授:用这个模型可以保证把所有观察到的共同特征和没有被观察到的不同特征都控制住了,这就是他的特点,其主要目的就是把观察不到的特征控制住。比如有些东西,像父母对孩子的感情等是无法观察的,我们就通过固定效应模型把他们都控制住。

问题二:您为什么说数据会损失一半?

谢教授:因为我们原来在个人层面上有2000个数据点,但我们考察的是家庭层面的,所以我们用到的只是1000个参数,这就浪费了1000个数据点,因此信息损失一半。但我们之所以要做2000个数据点然后再损失这一半的信息,这是为了保证研究的自由度。

最后一个方法是工具性变量方法,现在很多领域都考虑到这种方法,但是各个领域对它的使用不一样。这种方法的条件是工具性变量Z除非通过X,否则不会作用于Y Z这个信息就是我们强加的。统计就是处理信息,当我们没有信息时,我们有两种办法,一种是去收集信息,另一种是去制造信息。什么是假设,假设就是制造信息。有了这个Z后,就意味着ZY相关,但不直接作用于Y,如果你找的变量与Y不相关的话,这个变量就是无效的,另外ZX也要是相关的,但这种相关关系不能太强,关系太强了的话,这个变量就也不是工具性的变量。所以这个变量Z既要与Y相关,又不能直接作用于Y,与X也要相关,但相关关系又不能太强。只有这样Z在这里起到的作用才是工具的作用。因此这里最关键的问题就在于找到一个好的Z非常困难。我给你们举一个例子,比如说你哥哥上大学的愿望对你上大学的愿望会有影响,而你哥哥上大学的愿望又是受到他的同学的上大学的愿望的影响,因此你上大学的愿望是受到你哥哥的同学上大学的愿望影响的,只是这种影响是通过你哥哥的上大学的愿望来实现的,在这里,你哥哥上大学的愿望就是起到了工具性变量的作用。大家明白了吧,好,我今天就讲到这里。

马戎主任:今天的讲座就到这里,星期五谢宇教授会给我们带来他的最后一个讲座,主题是美国社会和美国社会学,地点在理教207,欢迎大家参加。

发表时间:2004-12-9 12:58:00





2007-01-22

没有评论: