第十四章:资料整理
1、 资料分析(复旦96<简>:理性分析与统计分析有什么关系与区别):资料分析不仅决定着收集到的资料是否有价值,而且能够很好的检验假设和理论,或者适当地回答所研究的问题,还能够以可以理解和令人信服的形式描述研究成果。通过分析,研究者可以将认识从具体提高到抽象、从个别提高到一般,并可从中发现新问题、提出新假设,将研究引向深入。在某种意义上来说,分析的水平决定着整个研究的水平。(1)社会统计学:是有关社会资料收集、整理、分析和推论的一整套方法,它不仅包含全部抽样理论、统计检验理论和大部分的社会测量法,而且使分析技术获得极大的发展,主要是多元统计方法的发展,如路径分析、因素分析等。
2、 资料整理:就是对收集到的原始资料进行检查、分类和简化,使之系统化、条理化,以为进一步分析提供条件的过程。因此,资料整理既是资料收集工作的继续,又是资料分析的前提。
3、 定性资料的整理: (1)资料的审查:目的是消除原始资料中的虚假、差错、短缺、余冗等现象,以保证资料真实、可信、有效、完整、合格,从而为进一步整理分析打下基础。对定性资料的审查主要集中在真实性、准确性和适用性上。<1>真实性审查:也称信度审查,即看资料是否真实可靠的反映了调查对象的客观情况。方法:(A)根据已有的经验和常识进行判断。(B)根据材料的内在逻辑进行核查。(C)利用资料间的比较进行审核。(D)根据资料的来源进行判断。 <2>准确性审查:也就是效度检查,一方面是审查收集到的资料符合原设计要求及对于分析所研究的问题有效用的程度。另一方面是审查资料对于事实的描述是否准确,特别是有关的事件、人物、时间、地点、数字等要准确无误,切忌事实资料含混不清,模棱两可,数据资料笼统模糊。<3>适用性审查,也就是考察资料是否适合分析与解释。主要包括:资料的分量是否合适、资料的深度与广度如何、资料是否集中紧凑是否完整等。<4>对于文献资料的分析评价,首先是进行所谓的“外在批判”,即审查:是在什么地方、什么时间、什么人、为什么目的、用什么方法编写这些文献的。<5>还要进行“内在的批判”,即了解资料的编写者表达的什么内容,在什么条件下编写这些资料,内在批判要注意:(A)对作者适用的词,特别是多义词,价值语进行反复的推敲。(B)在文笔的表现上特别要区分“事实”和“对事实的解释与推论”。(C)要进行多方面的研究,看作者是否真实的反映了客观事实,资料的叙述是否正确,有无夸张扭曲,或偏执于一家之言;叙述是否准确,叙述者写作上的表现能力如何等。<6>实地审查:是在搜集资料的过程中进行的,边搜集边审查。<7>系统审查:是在资料收集完毕后集中进行的审查。<8>测不准效应:指由于观察者的参与,改变了被观察对象的自然状态,被观察者或单位可能做出种种假象来掩饰事实的本来面目,使真实状态的测定不可能了。 <9>棱镜效应:指社会现象的感知和解释都要通过观察者这面棱镜,通过它的价值标准和以往的经验再折射出来,从而使观察资料不准确。 (2)资料的分类:分类是将资料分门别类,使繁杂的资料条理化系统化,为找出规律性的联系提供依据。<1>确定分类标准:分类的关键在于选择和确定分类标准。分类标准的选择往往是基于某种假设或理论,本身就是对所研究问题的一种分析和认识。分类标准可分为:(A)品质标准:就是反映事物属性差异的标准。例如性别、民族、企业所有制等。 (B)数量标准:就是反映事物数量差异的标准。例如以人口作为划分大中小城市的标准。<2>确定分类标准的原则:(A)有效性原则:(a)这一分类方式对于研究目的是有效地。(b)这一分类能有效的反映现实社会现象。(c)为此,分类必须服从于研究目的,必须能反映现象的本质特征。(B)互斥性原则:指分类标准应当互斥,以使同一条资料只能归于一类。(C)完备性原则:指分类标准的确定应当使每一份资料都有所归属。(D)各类别必须处在同一分类层次。 <3>资料分类的方法:(A)前分类:指收集资料前就已定下分类标准,然后按分类指标收集和整理资料。(B)后分类:指在资料收集完成后,在根据资料的性质、内容和特征分类。定量资料一般采用前分类,定性资料一般采用后分类。 <4>分类的功用:<1>指出社会现象或社会单位的类型。<2>反映总体的内部结构。<3>分析社会现象之间的依存关系。 (3)资料的汇总和编辑:基本要求:<1>完整和系统;<2>简明集中;<3>拉扎斯菲尔德提出以下操作步骤:(A)定义对个案进行分类的标准。(B)决定在各个个案记录的指标中登载于这一分类标准上的项目或与这一分类有关的项目。(C)根据各指标在标准上的位置,给予数值和符号。(D)为了决定表示各个案位置的最终指数,要汇总各个案记录的分数。
4、 定量资料的整理: (1)资料的审查:<1>完整性审查:(A)资料总体的完整性。(B)每份资料的完整性。<2>统一性审查:首先是检查所有问卷、报表登记填报方法是否统一;其次要检查对同一指标的数字所使用的量度单位是否一致,以及不同表格对同一指标的计算方法是否统一等。对于统计资料的统一性审查包括:(A)审查指标的定义和分组的标准是否与自己研究的分类相一致。(B)审查指标统计总体范围是否一致。 <3>合格性审查:(A)提供资料者的身份是否符合所规定的调查对象的身份。(B)所提供的资料是否符合填报要求。(C)所提供的资料是否正确无误。方法:(a)判断检验。就是根据已知情况判断资料是否真实正确。(b)逻辑检验。即从资料的逻辑关系来检验其是否正确真实。(c)计算检验。通过各种数字运算来检验各项数字的正确性。<4>整个审查要经历三阶段:(A)由调查员进行审查。(B)有现场专职的检查员进行检查。(C)调查结束后由调查组织机关的检查员进行检查,重点是检查回答登记错误,计算错误及调查员是否对英调查对象均进行了调查,有无作弊等。 (2)资料的分类和编码:<1>编码(复旦98<名>):就是将文字资料转化为数字形式的过程。编码的目的使用一组变量表示各项调查问题,用每一变量的不同取值表示对这一问题的不同回答,从而使文字资料转化为数字形式。<2>编码步骤:(A)对回答进行分类。(B)建立回答类别与变量数值之间的对应关系。(C)注意:(a)对于开放性问题,因实现不能预料到答案的情况,故无法在设计问卷时事先分类,这时,编码就要从对问题的回答进行分类开始。(b)一般的讲,开始时分类可细一些,当分析不要求过细的分类时可以将某些类别进行合并。分类的多少还要考虑统计分析方面的问题。(c)任何调查都不免有一些回答这对一个问题不做任何回答的情况,为此对问卷中的每个提问要增加一个无回答编码。对无回答编码的原则是明确区分无回答与其他回答,通常的习惯是用9或几个9来代表无回答。对无回答的项目,不能一概简单地认为是缺失数值或回答率低。统计缺失数据时,应结合回答人的情况分析。如行政人员不回答“技术职称”是正常的。 <3>编码项目:问卷编号、问卷所属区域或部门、其他要进行统计的分类标准。 <4>编码方法:(A)预编码:方法是在设计问卷时对回答的每一个种类都指定好其编码值,并印在问卷上。预编码主要限于回答类别事先已知的问题,这些问题主要是封闭性问题,或回答已经是数字而不需要做转换的问题。优点:处理资料时比较简单,省时省力。缺点:无法用于开放性回答,因为我们无法事先知道回答的种类。(B)后编码(南大2000<名>):是指对问卷的编码过程是在问卷回收之后进行的,而不是与问卷设计同时进行的,多用于对开放性问题的编码。比较费时费力。(C)边缘编码:实际上是一种预编码方法,它与一般预编码的不同之处在于,这种方法不仅指定了编码值,而且给出了每个项目记录回答的空间,现在应用得最多。边缘编码是在问卷上每个调查项目旁边的空白处标明填写编码的位置。问卷回收后,将每份问卷上的回答变成指定位置上的编码。(D)编码簿:用以指示每个编码的意义和变量的位置。作用是建立变量和调查内容、变量值与回答类别的一一对应关系。它可以(a)作为编码工作的指南。(b)使研究者在分析过程中便于查找变量及各种编码所代表的意义。(E)编码簿的主要项目:(a)问题号码。是在调查表或问卷上的问题的题号,有了题号就可以知道这一题目在资料卡片上的哪几列。(b)变量号码。有了变量号码,研究者可以知道变量的代号,方便分析计划的拟定,在分析时直接饮用变量号码而不必提及变量名称。(c)项目名称。又称变量名称,用概括性语言表明项目的含义。(d)编码的内容说明。即给出每一项目问题答案的分类以及分配给每一类别的数字。(e)列序号。即每一项目应当占哪几列。 (3)资料的登录:<1>个案登录:即将各个调查对象的全部数据资料以编码的形式记录在一张张卡片上,即建立个案档案。<2>总体登录:即将所有调查对象的全部数据记录在一张资料卡片上,这种方法适用于为电子计算机处理作准备。 (4)资料的汇总:就是根据研究目的,对分类后的各种数据进行计算和加总,汇集到有关的表格之中,以集中系统地反映调查资料总体内部的数量情况。汇总的目的:<1>初步了解数据的分布情况。<2>为编制次数分布表作准备。<3>为深入的统计分析作准备。<4>便于保存调查资料。
5、 计算机处理资料的一般过程。(1)输入前的准备:<1>资料的审查。<2>资料的分类与编码。<3>登录,即将问卷中的回答转录到资料卡片上。一般将编码、登录与数据输入过程结合起来,为此,越来越多地采用也边编码的方式。(2)输入数据:指通过对计算机输入设备的操作,将资料卡片中的资料送入计算机贮存起来,以备调用。输入方式:<1>键盘输入;<2>卡片输入;<3>光电输入。(3)资料的净化(复旦98<简>:对录入的数据进行检查的主要方法):<1>幅度检查(北大99<名>):使用一个自编的简单程序或者已有的统计软件可以将某一变量的分布显示出来,这样就可以检查出一部分错误。例如,变量性别的取值只有两个-----1(男)、2(女),因此,5和8是违规数字。这样,我们首先了解到,性别这个变量的数据有错误。然后,我们可以变出一个程序列出含有性别变量的违规值的学生的编号,通过核对问卷,就可以知道这些违规值是如何出现的,以及如何修正了。<2>逻辑检查:利用变量之间的逻辑关系来净化资料。(4)数据的处理。
没有评论:
发表评论