forcode最近在使用"二分类logistic回归"来玩一个数据库:"2002年中国老年人健康长寿调查",这个数据库非常庞大,16064个案例,数百个变量,调查范围包括了大陆、港澳台和东亚的一些国家。forcode是为了7月6日北京大学举办的一个全国人口会议论文而准备的,我目前编码了六十几个比较有价值的变量,试验用其中的各个变量作为因变量,其他变量作为自变量所能得到的类确定系数和chi平方值,这是我第一次实战研究一个真实的大型数据库,得到了一些有用的经验:
1、变量重新编码的问题。由于logisitc回归要求对分类变量进行虚拟编码,对于性别、民族、城乡、职业这种分类变量都需要重新编码,有时候问卷上一个问题有四五个选项,这样编码时可能合并某几个选项为一项,简化为二分类变量,由于变量非常多,编码工作很繁重,如果在编码的过程中不养成良好的习惯:即使将编码前后的变量代码、对应的问卷问题、编码规则记录在一个excel表格中的话,你在后面做回归的时候,会发现你可能忘记了前面是如何编码的,那对于回归系数的解释就可能弄反了。forcode的经验是,在编码时,记得打开一个excel文件,建立起变量名称、对应问卷问题和答案选项、变量原来的代码、新变量的代码、编码规则、变量分类的一览表格。
2、在SPSS中,很多变量都会有一个选项:缺失值,在做分析的时候,这些缺失值必须排除在分析之外,这就要用到SPSS的data菜单中的select cases功能,你设定了案例过滤的代码之后,记得要把这个代码复制到excel文件下方备份。因为SPSS文件关闭重启后是不能保存select cases的代码的,forcode差点吃了这个亏,花了很大精力对比筛选写出的代码,差点全丢了。这个习惯是必须养成的。
3、逐步条件回归(Forward conditional stepwise)很有用。你可以逐次加入几十个变量,设定筛选的P值标准,这样可以得到一个每个系数都显著的模型,这就免去了手工一次次加入变量的麻烦,而且SPSS会给出每一步骤获得的chi平方增量和类确定系数值,方便你判断新加入的变量的价值。
--
最新奇有趣的新技术、科幻、社会学信息:
http://www.qixianglu.cn
forcode科幻小说《抽水马桶的秘密》:
http://www.cmfu.com/showbook.asp?Bl_id=60008
没有评论:
发表评论