2007-01-22

谢宇教授方法论系列讲座:忽略变量偏差和生态学分析

主题:忽略变量偏差和生态学分析

Omitted-variable bias and ecological analysis

主讲:谢宇教授(美国密西根大学社会学系教授)

主持:马戎教授(北京大学社会学系主任,博士生导师)

时间:20021028日晚700900

地点:五四体育馆体教报告厅

马戎主任:今天谢宇教授给我们讲方法论的第四讲,希望大家在讲座期间尽量少走动,以保持安静。好,下面我们用掌声欢迎谢宇教授。

谢宇教授:谢谢大家!这是方法论的第四讲,上一次我把社会学方法的基本概念介绍了一下,今天我先把上次没有讲完的抽样理论讲完,然后我会讲到忽略变量偏差与生态学分析。今天的内容比较多,可能提问的时间会比较少。首先我们讲抽样设计,这些你们都已经学过了,我在这里只是给你们做一个简单的复习。第一个是简单随机抽样。它实际上是一个很简单的操作,先给总体中的每一个元素一个数值,然后通过随机抽取一部分作为样本,这个过程经常是由计算机来操作的。这种方法与抽奖是一个道理,简单是指每个元素被抽到的概率是一样的。第二种抽样方法是系统抽样或叫等距抽样,是先根据总体的规模和样本的规模计算抽样差距,然后对总体的所有元素进行排序,根据抽样差距把总体分成等距的多个部分,在第一个部分中随机抽取一个元素,然后按照抽样差距依次抽样。这种方法比简单随机抽样还简单,但是使用这种方法时要注意一点,就是在对总体进行排列时,排列顺序不能与自然排列有关,否则抽出来的样本就不具有代表性,可能会忽略很多重要的信息。要强调的一种抽样方法是分层抽样,分层抽样要比简单随机抽样和系统抽样更复杂。但是任何方法都是有得有失的,付出的代价越多得到的回报也越多。分层抽样虽然复杂,但是他有他的好处,他抽出来的样本保证了某些重要特征的代表性。比如我们要抽取一个样本容量为100的样本,假如我们用简单随机抽样的话,我们无法保证样本的性别比。但是如果我们的研究需要保证男女性别比例相同的话,我们就要用分层抽样的方法。我们先把总体分成两个子总体,在这个例子中我们先把男性和女性分成两个不同的子总体,然后在每个子总体中随机抽取50个人,这样就保证了男女性别比为11。这种抽样方法用的很多,在研究不同种族,不同地区,贫富差距等问题时,我们都可以用这个方法来进行抽样

。有了分层抽样的基础就可以过度抽样。过度抽样是指当子总体比例不一致时,在一个子总体中抽样多,在另一个子总体中抽样少,目的是使样本比例比较平衡,因为在总体中他们的比例是不平衡的。比如研究贫困问题,贫困的人在总人口中是少数,如果我们要保证样本中有相对平衡的贫困人和非贫困人,相对于贫困人的总体而言,我们抽取的贫困人的概率就要比在富人中抽取相应数量的样本的概率更大。这种方法还可以用于做民族之间的比较研究。比如汉族人口占中国人口的绝大多数,我们在抽样时可以用过度抽样的方法,增加少数民族的人数,使各个组的比例比较平衡,这样就可以增加样本中任何一组的代表性。分层抽样的应用很多,在美国做研究时要分成南方和北方,在中国分成城市和农村,这就是为了保证样本的代表性。

整群抽样与分层抽样是相反的,它是从经济的角度考虑的,是为了省钱。但是要省钱就要付出代价,整群抽样的代价就是抽取的数据质量不高。比如我们对北大学生的经历很感兴趣,我们在抽样时,非常经济的一种方法就是我去随机抽取一个班级,把这个班级的所有个体作为一个样本,然后对他们进行研究。因此整群抽样是把总体分成不同的组,然后以组为单位进行随机抽取,抽到的组中的所有元素都进入样本。它跟分层抽样不同,分层抽样是先把总体分成不同的子总体,然后在每一个子总体抽取样本,这样就保证了样本的代表性,而整群抽样得到的数据的质量就不高。但是整群抽样比较实用,比如你要做一个乡村研究,你不可能在全国各地都抽取一个村庄进行研究,而只能进行整群抽样,虽然样本质量不高,但比较实用,也比较经济。另外一个是整群抽样获得的样本的有效性较低,因为整群抽样抽得的样本的内部重复的概率很大,很多样本无效,致使可用的样本数量大大降低。为了使整群抽样做得比较好,我们要假设各个群体之间没有很大的差别,假如这个假设不成立,抽取的样本比简单随机抽样具有更大的差异,从而降低样本有效性。比如就刚才那个北大的例子,我们要使整群抽样做得比较好,就假设北大学生在班级与班级之间没有很大的差别。他们的知识面,家庭经济条件,朋友关系程度等都比较相似。如果这个假设成立的话,一个班与另一个班没有很大的差别,这时整群抽样不会造成很大的有效性的降低,假如班级与班级之间差别很大,那么整群抽样对有效性的丧失就会很大,这个问题我在后面还会讲到。一般来说,整群抽样只会降低有效性,而不会增加有效性,降低多少,要看具体的问题。我现在用稍微系统一些的方法来讲这个事情,我们来探讨一下样本统计量中方差的来源。一个来源是总体差异,一个总体中的所有元素之间是有差异的,总体差异是元素差异的总和。我第一讲讲的就是社会现象之间有差异性,而且这种差异性是必然存在的,我们社会学研究也就是对这种差异的研究。我们之所以要抽样,就是因为总体内部各元素之间有差异,如果社会现象之间没有差异的话我们就没必要抽样了。我第一讲讲过社会科学与自然科学的区别就在于社会科学说研究的社会现象有差异,而自然科学可以通过一个典型现象得到真理性的规律,从而举一反三。社会科学就不行,他必须关注社会现实的总体,而总体内部是有差异的,这就要求我们在做研究的时候要进行抽样,从样本来推测总体。

既然总体内部有差异,那么哪一个元素被选择,哪一个元素不被选中就会影响到样本,从而影响呢最后得到的样本参数,具体的说是因为总体中的各元素的某一变量值不同,导致了元素之间的差异。因此我们要进行抽样,而抽样是一种随机选择,这种随机选择必然会造成另一种差异。因为你对不同元素的选择会直接影响到样本统计值。

可见,样本统计量中方差的来源主要有两个,一个是总体差异,这种差异是客观存在的,另一个是抽样差异,就是在对样本进行选择时造成的差异,这种差异其实是由总体差异决定的,如果总体之间不存在差异的话,我们就不需要抽样,也就不存在抽样差异。因此我们可以对总方差进行分解,把总体方差分解成两部分,组间差异和组内差异。组间差异是指各组平均值之间的差异,一个班级和另一个班级差在什么地方,就差在平均值。组内差异是同一组中各元素相对于组平均值的差异。方差分析就是组间差异加上组内差异。组间差异大的时候组内差异就比较小,而组内差异大的话,组间差异就会比较小。也就是内部异质性越大,外部同质性越强;内部同质性越强,外部异质性越大。因此分层在这个地方就有很大的作用,我们在做分层抽样的时候,通过分层就可以减少抽样方差,因为我们在对总体进行分层之后再抽样,这就控制了组间方差,抽样方差就只是组内方差,而由于分层之后组内元素同质性较强,因此组内方差也会比较小。各层之间的异质性越强,层内同质性越强,分层得到的精度越大。因此,假如层与层之间差异很大,或者层内部各元素较均匀的时候,我们使用分层抽样得到的效果就会很好,相反假如层与层之间没有什么差异,我们做分层抽样就没有什么意义。比如我们做城乡差别的研究,就必须进行分层抽样,因为城乡之间存在很大差异。另外美国的南方和北方也要分层,他们在经济上,文化上都存在很大差异,如果你不分层的话就会损失很大的精度。过分层抽样,我们就引出了设计效应。设计效应就是复杂样本设计的抽样方差与同样规模的简单随机抽样的抽样方差的比值。设计效应是一个比值,是复杂抽样方差和简单随机抽样方差的比值。那么分层抽样的设计效应会大于1还是小于1呢?因为我们做分层抽样的时候控制了组间差异,这就使得分层抽样的方差会小于简单随机抽样的方差,因此分层抽样的设计效应会小于1,仅当各层之间无差异时分层抽样的设计效应会等于1。而整群抽样的设计效应呢,因为整群抽样的样本有效性较差,内部差异较大,整群抽样的抽样方差会大于简单随机抽样的方差。因此,整群抽样的设计效应会大于1,仅当各群之间无差异时,设计效应会等于1。我们比较一下分层抽样和整群抽样就能看到,假如层间异质性很强,层内同质性很强时,用分层抽样的效果会比较好,精度会比较大。如果这种情况下用整群抽样的话,就会大大降低抽样的有效性。以上就是抽样的部分,这部分我们就讲到这里。

下面我们转入另一章,分析因果推论的潜在危险。从一定程度上来讲,我要讲的这一部分是第二个讲座有关因果推理的一个延伸,只是我们在这里加入了生态学分析。真正的因果关系是很难找到的,它有几个潜在的危险,一个是伪相关,一个是表面上的时间顺序,你不要以为知道了事情发生的前后顺序就能找到因果关系,发生在前面的不一定是原因,发生在后面的也不一定是结果。另外一个是忽略变量偏差,这个我们在上一讲中也讲到过,在这里我还要强调一下。第四个是样本选择性偏差,我刚刚讲完了样本选择的问题,因此我们要到现在来讲样本选择性的偏差。

我们先讲伪相关。AB之间有关系,但是这种相关是通过C来实现的,假如AB的关系是又C造成的,那么AB在表面上的因果关系就是伪相关。比如有人认为数学成绩取决于语言能力,语言能力越强,数学成绩越好,这里就忽略了一个智力因素,智力强的人语言能力强,数学成绩也好,因此语言能力与数学成绩的相关是通过智力因素来实现的。语言能力与数学成绩之间的因果关系就是伪相关。第二个就是表面上的时间顺序。我曾有幸和一位社会学大师进行过一次座谈,他对我讲,社会科学要找到真正的因果关系是很难的。当时我就提出来是不是能够根据事情发展的前后顺序来寻找因果关系,在前的是原因,在后的是结果,因此我们通过纵向研究就可以找到这种因果关系。他立刻提出了反对意见,他举了一个例子,圣诞节前夕会有一个购物高潮,那么是圣诞节造成了这种购物高潮,还是购物高潮造成了圣诞节?我一想,这确实很有道理。我们人的行为是有目的性的,这种目的性促使我们去预测事物的发展方向,从而提前做好某些准备,这就导致了有些事情结果在前,而原因在后。有很多人做很多事情是为了将来,而不是为了现在,因此我们要侧重从理论上对它进行分析,找出真正的因果关系。第三个威胁到因果推论的因素是忽略变量偏差,这一点我们前面讲过了,我这里再强调一下。忽略变量偏差的产生要有两个条件,一个是忽略的变量要与自变量相关,另一个是忽略的变量要与重要的因变量相关。这两个条件都要成立,缺少其中一个都不会造成忽略变量偏差,我等下讲到生态学分析的时候会再讲到这两个条件。

问题:谢教授,我想问一下忽略变量偏差和前面的伪相关有什么区别吗?他们都是因为忽略了一个中间变量而造成的。

谢教授:这个问题问得很好,从统计上来讲,它们之间是没有区别的。这是一个概念性的东西,这四个因素在本质上都是一样的,我只是根据比较传统的方法把他们区分出来,但是在统计学意义上,他们是一样的。我这里把忽略变量偏差强调出来,其实其他几个都是忽略变量偏差的一种表现形式,而忽略变量偏差也是其他几个的表现形势之一,其实从统计学意义上而言,他们在本质上是一样的。

我再举一个例子,假如北京有两家医院,一家非常好,有先进的设备,一流的医生,管理和服务也特别好,另一家是很差的医院,设备陈旧,技术落后,医生医德不好等等。假如你以哪个医院死的人少来衡量医院的好坏的话,就会出现忽略变量偏差,因为肯定是好的医院死人多。死亡是与病情有关的,病情越严重,死亡率越高,另外病情越严重越容易被送到好医院,因为差的医院看不了,所以好医院死的人会比差医院要多,如果你忽略了病情这个变量的话,就会造成忽略变量偏差,因为病情严重与否与死亡有直接关系,另外病情的严重程度也会影响到对医院的选择,因此忽略了病情因素而得出死人少的医院是好医院的结论造成了忽略变量偏差。

第四个是抽样选择性偏差。假如你所得到的样本对总体没有很好的代表性,就会造成抽样选择性偏差,比如有一个面对物理学研究生的奖学金,这个奖学金是根据研究生入学考试GRE的三个部分成绩来评定的,一个部分是语言,一个部分是数学,一个部分是分析。物理学家不知道该把奖学金给哪些人,就请了一个社会学家来评定。最后社会学家认为这个奖学金应该给语言能力好的人,为什么物理学系的奖学金要由语言能力来决定?因为申请这个奖学金的人都是数学和分析能力很强的人,他们的差异关键就在于语言能力。这个问题的关键在于样本的选择性,假如他这个奖学金是面向所有同学的话,就不会出现这样的结果,而他的样本是来自于读物理学的研究生,所以才出现这样一个抽样选择性偏差的

问题。

接下来,我举另外一个例子,这是一个模型,叫Willis and Rosen模型。他们这个模型讲的是高等教育的经济回报的问题,他们认为有些人通过接受高等教育能够增加他们的生产能力,这些人如果不让他们去读大学而是让他们去从事体力劳动的话,他们创造不了多大的社会价值。另外,有些人你让他去接受高等教育反而不如让他去接受生活技能的训练,读大学对他们没有什么收益。这就是两组不同的人,一组人不读大学要比读大学要好,一组人是读大学要比不读大学好,如果你让这两种不同的人去做他们不擅长的事情,他们就不会有很大的发展空间。这就是一种自我选择,高等教育的经济回报有的人高,有的人低,回报高的人就去读大学,而那些没有去读大学的人正是那些回报低的人。人和人是不一样的,去读大学的人正是因为回报高才去读,不选择读大学的人,他们选择了另外一种适于他们工作,并且回报高的职业。因此高等教育的回报率是因人而异的,如果你在抽样的时候不考虑到这种差异,就会出现抽样选择性偏差。

下面我们要切入今天的正题,就是生态学谬误。生态学谬误是这样一个错误,对于汇总层次上的信息判断到组成这个汇总层次的低一级分析单位上,这就可能犯了生态学谬误。就是你把高层次的信息、经验、发现应用到低层次的分析单位上,你就可能犯了一个错误,我要强调这只是一种可能的错误,这种错误就叫生态学谬误。也就是说假如你利用汇总层次的证据或事实,你把这种证据或事实作为对个体的推理,你的理论是建立在个人层次上,你就可能犯了生态学谬误。我给你们举一个例子,有两个班级,A班和B班,A班学生学一门课的平均时间是10小时,平均成绩是90分;B班学生学这门课的平均时间是15小时,而平均成绩是80,由此我们得出结论:虽然A班学生比B班学生花的时间少,但成绩比B班学生好,因此学习时间和成绩是负相关的。这个结论对不对,那个地方有问题?问题就出在这里,你的理论假设是在个人层面上,花多少时间学习是个人的事情,而你的结论是以班级为单位的,统计数据也是在班级层面上,这两个不吻合,这就有可能造成生态学谬误,不能由此得出学习时间会造成成绩负效的结论。这里可能的现象是在一个班级里面,就个人而言,学习时间对成绩是正相关的,但是由于两个班级学习起点不同,智力水平不同,一个班级学生花的时间少,但是成绩提高较快,另一个班级学生花的时间较多,但是成绩提高较慢。因此对于个人而言,花的时间的多少和学习成绩是成正向关系的,但你平均了以后,在班级的单位上就是负面关系,这就是一个很经典的生态学谬误。

我们讲生态学谬误就必须讲到Mr Robinson,他是一个很有才华的社会学家。他在1950年发表了一篇论文,这篇文章已经成为一篇很经典的文章,我现在都常教导学生去读这篇文章。在他这篇文章里就提出了生态学谬误的问题。这篇文章产生了一个危机,对他自己也产生了一个危机,在他写完这篇文章后就决定歇笔了,为什么呢?因为1950年以前,所有的数据都是汇总的数据,都是以地区为单位的,Robinson就说假如我们社会科学的目的是要了解人类的行为的话,这种汇总数据是不能用来推论人的行为的。人们为什么结婚,为什么生育,为什么上学等等,假如我们要研究这些的话,用汇总的材料是办不到。因此Robinson在写了这篇文章后,就决定不再做研究了。

这是对社会学的一个很大的挑战,这个危机也给下一代人带来了机会,这就是“调查革命”。这个“调查革命”的发起就是为了应付Robinson提出的挑战。在研究中,我们不用政府提供的汇总材料,而去做个体和家庭的研究,收集个体层面上的资料。我们密西根大学社会学系在那个时候就做出了很大的贡献,不仅从理论上,也在实践上做了很多事情,这些我会在星期五的关于美国社会和美国社会学的讲座中详细讲到。调查革命就提出来要收集以个人为单位的,这种单位是要与你的理论层次相一致的数据。你们没有经历过那段只有汇总数据的日子,当时所有社会学研究用的都是政府提供的汇总数据,正是因为有了调查革命,才有了密西根大学社会学系的兴起。我再讲的另外一个人物叫Gary King,他是哈佛大学的一个政治学家,他最近出了一本关于生态学谬误的热门书。他这本书里讲的是怎样解决生态学谬误,你们如果对这个感兴趣的话,可以去看一下他这本书。下面我们要讲一下为什么会产生生态学谬误,是因为未观察到差异性偏差或忽略变量偏差。这就回到了刚才那位同学问的问题,其实这些原因在本质上是一致的,忽略变量偏差只是其中的一种表现形式。这里我们就要回顾一下造成忽略变量偏差的两个条件,一个是忽略的变量要和因变量有关系,另一个是忽略的变量要与自变量有关系。在那个学生成绩和花的时间的关系的例子中,忽略的变量是什么?就是学生的个人学习能力,学习能力强的学生花的时间少,学习成绩也好,学习能力较差的学生花的时间多,成绩还相对较差。也就是说学生的学习能力既影响到学生的个人学习时间,也影响到学习成绩的好坏,因此当你忽略了学习能力这个变量时就会造成忽略变量偏差。另外一个是这种差异是以班级为单位的,假如班级与班级之间不存在能力的差异的话,也不会出现这种忽略变量偏差,因此你在寻找差异的时候是应该找以班级为单位的原因,而不是找以个人为单位的。我先讲抽样,再讲生态学谬误,然后才讲忽略变量偏差,其实当我们在利用抽样获得的数据进行分析的时候,可能出现的错误都是因为忽略了某些变量造成的。下面我们再来举一个例子,这是一个忽略变量偏差的例子,不过这里也有生态学谬误的因素。这是一个真实的例子,佛罗里达州是还保留有判死刑的一个州,有一个社会学家花了20年的时间做了一个调查,对300多个凶杀案进行了分析。凶杀案是很容易被判死刑的,在美国种族问题是很敏感的问题,在判刑的问题上是不是有种族歧视,是不是黑人更容易被判死刑?我们来看

下面的数据。

佛罗里达州20个县的326位被告凶杀案的有关信息

被告人的种族 被判死刑 总计 比率%

白人 19 141 162 12

黑人 17 149 166 10

326位被告人中,白人有162位,其中19位被判了死刑,所占比率为12%。黑人有149位被告犯了凶杀案,被判死刑的有17位,占10%。这个数据和我们的最初的想法刚好是相反的,白人被判死刑的概率比黑人还要高。请问为什么?

学生一:可能白人和黑人犯的罪行不一样,白人犯的罪行更严重。

谢教授:你们想一下造成忽略变量偏差的两个条件,被忽略的这个变量是什么,在这里它既要和种族有关系,又要和被判死刑有关系。如果这个变量是罪行的话,那么罪行和种族有什么关系,是白人更容易犯严重的罪行吗?

学生二:这可能和法官的种族有关系,一般法官会偏袒自己种族的人。

谢教授:显然,美国社会的白人法官要大大多于黑人法官,按照你的说法白人法官会偏袒白人的话,白人中被判死刑的人应该更少才对,怎么会更多呢?要注意忽略的变量应该与因变量有关系。

学生三:可能佛罗里达州的白人更多,黑人更少。

谢教授:我们的案例中被告凶杀案的白人和黑人的数量是差不多的。

学生四:是不是与被害者的种族有关系,如果被害者是白人就更容易被判死刑。

谢教授:对,讲的很好,原因就在这里。为什么呢,这里有两个条件,首先,被害者的种族和犯罪者的种族是相关的,第二是杀了白人更容易判死刑。通过下面这个图表就可以看出来。被告人的种族 被害者的种族 被判死刑 比例%

白人 白人 19 132 12.6

黑人 0 9 0

黑人 白人 11 52 17.5

黑人 6 97 5.8

可见,白人杀白人被判死刑的概率很高,黑人杀白人被判死刑的概率更高,而白人杀黑人就几乎没有被判死刑的,黑人杀黑人被判死刑的概率也比较小。因此这里忽略的变量是被害者的种族,当被害者是白人时,不管被告人是白人还是黑人,被判死刑的概率都较高,当被害者是黑人时,被判死刑的概率就比较低。可见,在美国,种族歧视还是很严重的。我们这里犯错误的原因是认为罪行是与罪犯的种族有关,而实际上被判的罪行是与被害者的种族有关的。因此,我们在考虑问题的时候,要把造成忽略变量的偏差的两个条件都考虑进去,忽略的变量是否与因变量有关系,同时这个变量是否与自变量有关系,只有当这个变量满足了这两个条件时,忽略了这个变量才会造成忽略变量偏差。上面这个案例

其实也是一个生态学谬误的问题,因为我们从第一个表中得到的结论是被判的罪行与罪犯的种族有关系,而实际上被判的罪行是和他所犯的罪行有关的,如果被害人是白人的话,被告人就更容易被判死刑。因此从这个角度来看,这也是一个生态学谬误。我举这个例子的目的有两个,一个是要让你们明确忽略变量偏差所需要的两个条件,另外一个是让你们明白忽略变量偏差和生态学谬误在本质上是一样的。

接下来我要讲多层次数据的处理手段,这部分是这一讲中比较新的东西,也比较难理解。多层次数据就是说你的数据的来源是多层次的,既有团体层次的数据,也有个体层次的数据。比如你的学习能力是个体的,家庭背景是个体的,但是教师水平,设备等都是以班级为单位的。假如你的研究单位是个体,你就不能用班级层次的数据来汇总;假如你的研究单位是团体,你也可以用个体层面的数据来汇总。我这里讲两个模型,一个是随机效应模型,一个是固定效应模型,然后再讲层次分析。我在讲到这两个模型的时候,会讲到组内差异和组间差异的问题。我先讲第一个模型,随机效应模型,在这个模型里,要引入组的概念,我们分析得到的数据时要分析两部分差异,组与组之间的差别和组内的差别。组与组之间的差异是随机的,我们对两个组各取一个平均值,两个平均值相减就得到了组内方差。假如各组之间没有选择性,那么既可以用组间方差,也可以用组内方差。在这种情况下,如果你仅有一组这一层的变量的话,就不会出现生态学谬误。在这里最好的方法是两个都用,这样得到的数据会更加科学。但是如果你只有一个层次的变量,你就只用这个也行,只是效度不如前一个高。由于随机变量模型无法完全解决这个问题,这就引入了固定效应模型,这一手段是用来控制“非观察的异质性”,组间差异不一定符合统计模型。此手段放弃组间差异,仅关注组内方差,它之所以被称为固定效益模型,是因为总体的异质性所产生的共同特征已被各组的阿尔法所控制。这种方法在方法论上不是很牢靠的,但是在方法论上很严格很站得住脚的方法,会牺牲很多统计的信息。最后一个就是多层次分析,第一个随机效应模型讲的是组与组的差异,这种差异是随机的,第二个固定效应模型就是把这种差异作为一个固定不变的东西,这种差异是不可以用统计模型来进行分析的。前一种是不对差异进行考虑,只把它作为一个随机变量,第二种是考虑这种差异,但把这种差异固定下来,不对其进行分析。这两者代表两个极端,他们居中的一种方法就是多层分析方法。这种方法有一个很强的理论来源,就是人与人是有差异的,而且人的表现,行为方式是随着环境的变化而变化的。那么我们就想知道人在不同环境下的表现是怎样的,他的行为是怎样的,这是社会学上一个很重要的东西。涂尔干提出了“社会事实”的概念,说人到了一个团体之中,就要受到环境的影响,行为方式也会发生变化。当我们想知道人是怎样受到环境影响时,就要用到多层次分析方法,这就是多层次分析方法的理论来源。在使用这个方法时,研究的因变量是个人层次的,但自变量(或解释变量)即可以是个人层次上的,也可以是更高水平层次上的,比如社会环境,学校,班级等。当你的数据具备这样的要求时,你就可以做多层次分析。多层次分析的关键在于宏观层次和微观层次的自变量的交互作用。自变量有两个层次,一个是个人的,一个是环境的。比如个人的行为随着环境的变化而变化,这就是说个人作为自变量时,其参数是随着环境的改变而改变的,这就是一种交互作用。因此,如果个人水平上的变量随着环境的变化而变化的话,你就可以做多层次分析。我可以给你们一个例子,这是我和我的一个学生做的一个研究。我们做这个研究实际上是为了批评一种市场交换模型。他这种模型认为教育的回报率是与市场发展程度成正比的,市场经济越发达的地方,教育回报率会高。为了反对他的观点,我们就做了一个地区差异比较,发现在市场经济发达的地方受教育水平较高,但是教育的回报率并不高。而在市场经济不发达的地方受教育水平较低,但是教育的回报率却比较高,而且市场经济发达的地方的教育回报率反而比市场经济相对不发达的地方要低。这就反映出很多光靠市场经济不能解释道问题。这种现象在单位中也存在,收益好的单位,大家得到的钱都比较多,但是差异并不是很大,也就是回报率比较小,反而那些收益差的单位,其领导得到的报酬比一般员工得到的要多的多,这是一个体制的问题。好,我今天要讲的东西讲完了,大家有没有什么问题?

问题一:谢教授,您讲教育回报率随着市场发展而降低,这里您有没有考虑到教育对政治资本的影响,是不是教育水平越高,政治资本越大,因此回报率也更高?

谢教授:我们考虑到了政治资本的因素,政治资本是不随经济发展而变化的,它确实会受到教育水平的影响,但我们这里讲的回报率是指经济回报率,不考虑政治因素。

马戎主任:由于时间的关系,我们今天的讲座就到这里。

发表时间:2004-12-9 12:57:00





2007-01-22

没有评论: