第七章:抽样
1、 抽样与抽样调查(北大2004<简>:抽样调查的基本原理):抽样调查:从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特性。这种从总体中选出一部分的过程就是抽样,所选出的这部分代表称为样本(人大2000<名>)。(1)与整体调查相比,抽样调查的优越性:<1>调查费用较低;<2>速度快;<3>应用范围广;<4>可获得内容丰富的资料;<5>准确度高。(2)抽样成功的依据(假设):<1>部分是包含于整体之中的;<2>部分与整体有同样的特征、现象、关系及过程;<3>部分能够为研究者提供一个有关群体生活、群体态度、价值和意见的更为清晰的脉络。
2、 抽样术语:(1)个体与抽样单位(人大97<名>:抽样单元):个体是收集信息的基本单位,即分析单位。个体与抽样单位在有些研究中是相同的,但在实际抽样中,抽样单位往往是多层次的。(2)研究总体和调查总体(复旦97<名>:研究圈;人大2000<名>:总体):研究总体是在理论上明确界定的个体的集合体,它必须受几个方面的限定:内容、单位、范围、时间。实际上,样本式从调查总体而不是研究总体中抽取的。调查总体是研究者从中实际抽取调查样本的个体的集合体。它往往是对研究总体的进一步界定,即对时间、范围作更进一步规定。(3)抽样框(北大2002<名>;复旦97<名>;南开2000<名>;南大99<名>):又称抽样范畴,是从中抽取样本的抽样单位名单。在一次抽样中,抽样框的数目是与抽样单位的层次相对应的。(4)参数值与统计值(人大97<名>:参数、估计量;):参数值是关于总体中某一变量的综合描述。统计值则是关于调查样本中某一变量的综合描述。抽样调查的重要内容之一就是通过样本的统计值推算总体的参数值,从而达到由部分认识总体的目的。(5)抽样误差(北大99<名>;复旦96<名>):总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时总会有偏差,这种偏差就是抽样误差。(6)置信水平与置信区间:置信水平是指总体参数值落在样本统计值某以正负区间内的概率。而置信区间是指在某以置信水平下,样本统计值与总体参数值的误差范围。
3、 抽样的基本程序:(1)界定研究总体和调查总体。对研究总体的界定过程也就是对他的基本构成单位,所包含的内容以及空间与时间的范围等作出规定的过程,同时也是确定调查对象,及它的内涵、外延及数量的过程。(2)确定抽样单位,编制抽样框。即将总体案抽样单位划分为各部分,这些部分必须互不重叠且能合成总体,然后毫无遗漏的编号排列成表,每个抽样单位唯一的与表上的一个号码相对应。抽样框是概率抽样一个最基本的要求,它的质量关系着抽样的质量。(3)设计和抽取样本。包括确定样本所包含个体的数目,选择抽样的具体方法。(4)评估样本于对总体进行估计。样本对于总体的代表性问题始终是抽样中关注的中心问题。
4、 样本准确性与精确性(北大95<问>:抽样调查中的误差份哪两类?其来源是什么?如何减少两类误差?北大2002<简>:简述影响调查样本代表性的主要因素): (1)样本准确性:指样本没有偏差。偏差也称系统误差,其来源主要有:<1>抽样程序的缺点,即未能遵守随机原则;<2>无回答,无回答是样本偏差的主要来源之一。事实上,一个包含比初始选定的单位少于80%的样本几乎肯定是有偏差的,在这种情况下应通过二访、三访或其他手段提高回答率。(2)样本精确性:指抽样误差的大小。抽样误差是抽样这种方法所固有的误差,是随机误差。抽样误差可以定量进行估计,因此研究人员对于抽样误差的估计具有很大的主动性。(3)样本评估:样本评估分两阶段,正式调查前和结束后,后者是计算抽样误差并由样本统计值推论总体参数值等。在确定了样本规模和抽样方法抽出样本后,应先对抽出的样本进行评估,目的是初步检查样本对于总体的代表性,以剔出那些偏差太大的样本,重新抽样。评估可以采取收集若干容易得到的资料,例如年龄、性别、文化程度等作为样本于总体之间的比较的方法。一般地说,比较的变量越多,杨本越可靠。
5、 概率抽样(北大93<简>:试说明概率(随机)抽样得主要方法;人大97<简>:简述概率抽样的随机化原则;吉大2000<简>:简述概率抽样的类型及特点):(1)概率抽样:是总体中每一个体都有一个已知不为零的被选机会进入样本。概率抽样分为等概率抽样(随机抽样)和不等概率抽样。(2)简单随机抽样(纯随机抽样):是一种特殊的等概率抽样方法,总体中每一个体均有同等被选机会,而且样本中每一个体是被单独得选出的。他是一种元素抽样。分重复抽样和不重复抽样。(3)随机数字表(南开2000<简>:利用随机数表抽样的基本程序是什么? ):随机数字表是由数字0-9组成的表,由电子计算机编制而成。下面举例说明如何用随机数字表进行抽样:假定研究总体N=528,即总体中有528个个体,我们欲抽选一个由10个个体组成的样本,因为N是个三位数,因此首先从表中的50列数字中随机抽取三列,例如我们选中了第25-27列,然后由上到下从这三列中选出头10个001-528之间的不同的数,当然,不一定非要从这三列的第一行数字开始,可以从任意行开始,直到抽够10个数字为止。如果从这三列抽出的符合要求的数字不足时,就要另外随机抽取三列,从中继续抽取。如果N是四位数,则抽样时首先从表中的50列中抽取四列,再依上法抽出样本。(4)分层抽样(北大96<简>:说明分层抽样与定额抽样的特点及区别;北大97<简>:分层抽样与整群抽样的分类原则有何不同?为什么?北大98<简>:分层抽样与配额抽样有何异同?浙大99、2000<名>;南大2000<名>):分层抽样就是先将总添一种或几种特征分为几个子总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。<1>分层抽样的优点:(A)当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。由于它是按群体的特征分布从不同层获得尽可能均衡的样本数,使样本与总体更相似。(B)分层抽样可以提高总体参数估计的精确度。由于它可以将一个内部差异很大的总体分成一些内部比较相似的子总体,从而每一个子总体内抽出一个小样本就能较好的代表总体。(C)有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求,因为我们可以将每一类看作一个总体。(D)便于行政管理。 (5)系统抽样(或等距抽样,机械抽样)(复旦98<名>;南大94<简>:等距抽样的基本步骤;南大<简>:等距随机抽样的抽样方法):<1>系统抽样是简单随机抽样的一个变种,具体做法是:(A)将总体的所有个体前后排列起来。(B)计算抽样距离。抽样距离K=N/n(N为总体包含个体数;n为样本所含个体数);(C)在头K个个体中,用完全随机的方式抽取一个个体,设其所在的位置的序号是k。(D)自k开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为k,k+K,k+2K…k+(n-1)K。 <2>系统抽样的优点:(A)与简单随机抽样相比,更易实施,工作量较少;(B)样本在总体中的分布更平均,故而抽样误差小于或至少等于简单随机抽样,即较其更精确。(C)系统抽样可看成是分层抽样,它等于将总体分为几层,每K 个分子为一层,也就是说可以看作是每层只抽一个个体的分层抽样。两者不同的是,系统抽样的样本个体在每一层的相对应位置上,二分层抽样则是由每层随机抽取的。系统抽样在总体中分布更均匀,精确度叫分层抽样更好。<3>系统抽样是以总体的随机排列为前提的,如果总体的排列出现有规律的分布时,就会使系统抽样产生很大误差,降低样本的代表性。 <4>系统抽样适用于同质性较高的群体。当总体内不同类别之间所含个体的数目相差过于悬殊时,采用此法样本的代表性可能较差。这种情况一般使用分层抽样。 (6)整群抽样(聚类抽样)(北大94<简>:试述分层抽样、整群抽样的抽样误差的来源,及他们对这两种抽样分层原则的影响):整群抽样是将总体按某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群众所有个体合起来作为总体的样本。<1>整群抽样与分层抽样异同:(A)它们在第一步都是根据某种标准将总体分为一些小群(B)但两者的抽样方式不同。分层抽样中所有子群均要抽取一个子样本,作为总体样本的一部分,即总体样本在各层中均有分布。而整群抽样则不然,它是抽取若个子群并将抽出子群的全部个体和起来作为样本,因此,总体样本分布在部分子群众。(C)由于抽样方式的不同,导致两者间划分子群的原则也不同。在分层抽样中,层的划分依据的是层之间异质性高,层内则尽可能同质的原则。整群抽样因仅抽取某几个子群作为整体的代表,如果子群间差异显著,且每个子群内同质性很高,那么这种情况下抽取的几个子群显然无法代表总体。因此,整群抽样得分群原则应与分层抽样不同,它是使得群体间异质性低,群内异质性高,因此,分层抽样适用于界质分明的群体,而整群抽样适用于界质不清的总体。<2>整群抽样的优点:(A)它可以通过转换抽样单位扩大抽样的应用范围;(B)它可以节省人财物力;(C)许多调查往往很难得到总体的所有个体的可靠名单,有时即使可以得到,所需费用也十分昂贵,这就限制了抽样的应用范围。这种情况下,使用整群抽样获得抽样框就容易得多。(D)整群抽样通过将抽样单位由个人转换成群体,使由简单随机抽样和分层抽样所不能进行的抽样调查成为可能 ,扩大了抽样的应用范围。<3>整群抽样的缺点:(A)样本分布不均匀,样本的代表性较差,与其他抽样方法相比,相同样本数,抽样误差较大;(B)分析整群样本的资料,如抽样误差,统计推断,假设检验要比前面几种抽样方法复杂;<4>分类:分为等规模整群抽样和不等规模整群抽样,前者总体内所有的群规模都相等,而后者总体内各群大小不一,这种情况下,往往出现样本规模随机变动的问题,为了解决此问题,往往采用子抽样的方法,即从抽出的样本群中再抽一次样,得到所需样本。(7)多阶段抽样(多级抽样):在整群抽样中,当子群数或子群内部个体数目较多,彼此间的差异不太大时,常采用更经济方法,即不将样本子群众的所有个体作为样本,而是再从中用前述各种随机抽样的方法抽取样本,因而最终样本的获得经过两次抽样,我们称其为二阶段整群抽样,同样可做三阶段、四阶段…即多阶段整群抽样。对于群体规模不等的多阶段整群抽样,通常使用概率比例抽样法:是根据每一群的规模分配样本容量。在将总体划分成子群时,每个子群中个体的含量常常不同,在这种情况下,二阶段抽样由于第一次抽取子群大小不同,只有在第二阶段抽样是采取措施,才能使总体中每个分子具有同等进入样本的概率。 多阶段抽样的特点:多阶段抽样通过采用由高级抽样单位过渡到低级抽样单位的方法,解决了低级抽样单位不易获得的抽样框的问题,并且可以使样本的分布较为集中,从而大大降低调查所费人财物力。此外,多阶段抽样由于在各阶段抽样时可根据具体情况灵活选用不同抽样方法,故能综合各种抽样方法的优点,提高样本质量。因此,它特别适用于调查范围大、单位多、情况复杂的调查对象。多阶段抽样由于每阶段抽样都会产生误差,因此经多阶段抽样得到的样本的误差也相应增加,这是它的不足。
6、 非概率抽样(人大96<名>):(1)非概率抽样是根据研究任务的要求和对调查对象的分析,主观地、有意识地在研究对象的总体中进行选择,因此每个个体进入样本的概率是未知的,而且由于排除不了调查者的主观影响,因而无法说明样本是否重现了总体的结构,用这样的样本推论总体是极不可靠的。(2)偶遇抽样(方便抽样):是指研究这将在一定时间、一定环境里所能遇见到或接触到的人均选入样本的方法。优点是方便省力,但样本代表性差,有很大偶然性。 (3)主观抽样(判断抽样,立意抽样)(南大98<名>):主观抽样中的“主观”有两种含义:<1>主观判断的意思,这时,主观抽样又称为立意抽样或判断抽样,即研究者依据主观判断选取可以代表总体的个体作为样本;<2>第二种含义是有目的地选择样本的意思。 (4)定额抽样(配额抽样)(北大96<简>:说明分层抽样与定额抽样的特点及区别;北大98<简>:分层抽样与配额抽样有何异同?北大2003<名>;南大95、96、97、99<名>):它与分层抽样中的比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分为若干类或层,然后在各层中抽样,样本中各层(类)所占比例与他们在总体中所占比例一样,但不同的是,分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。定额抽样是以代表总体为目的的,因此它必须对总体的性质有充分的了解,定额抽样假定:<1>只要类型划分较细,那么同一类型中的每一个个体都是同质的,因而无需采用随机抽样。<2>只要类型划分合理,而且分配给各类的名额符合总体中各类人员的分布,那么样本就可以准确地反映总体。(5)滚雪球抽样(北大92、93<名>):是先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。当调查总体的个体信息不充分时,常采用此种方法。但是,用这种方法抽样最后仍有许多个体无法找到,还有些个体因某些愿意被提供者故意漏掉不提,这两者都可能具有某些值得注意的性质,因而可能产生偏误。(6)空间抽样:是针对一个变动的总体,如游行队伍、集会等进行抽样的方法,这种总体虽然是变动的,但在空间上是有限的。空间抽样最重要的是要在同一时间对整个总体进行抽样,以防止它的组成经历太大的变化。
2007-01-22
没有评论:
发表评论