社会学博客: forcode经验：SPSS做logistic回归的几点小经验

2007-06-18

forcode经验：SPSS做logistic回归的几点小经验

forcode最近在使用"二分类logistic回归"来玩一个数据库："2002年中国老年人健康长寿调查"，这个数据库非常庞大，16064个案例，数百个变量，调查范围包括了大陆、港澳台和东亚的一些国家。forcode是为了7月6日北京大学举办的一个全国人口会议论文而准备的，我目前编码了六十几个比较有价值的变量，试验用其中的各个变量作为因变量，其他变量作为自变量所能得到的类确定系数和chi平方值，这是我第一次实战研究一个真实的大型数据库，得到了一些有用的经验：
1、变量重新编码的问题。由于logisitc回归要求对分类变量进行虚拟编码，对于性别、民族、城乡、职业这种分类变量都需要重新编码，有时候问卷上一个问题有四五个选项，这样编码时可能合并某几个选项为一项，简化为二分类变量，由于变量非常多，编码工作很繁重，如果在编码的过程中不养成良好的习惯：即使将编码前后的变量代码、对应的问卷问题、编码规则记录在一个excel表格中的话，你在后面做回归的时候，会发现你可能忘记了前面是如何编码的，那对于回归系数的解释就可能弄反了。forcode的经验是，在编码时，记得打开一个excel文件，建立起变量名称、对应问卷问题和答案选项、变量原来的代码、新变量的代码、编码规则、变量分类的一览表格。
2、在SPSS中，很多变量都会有一个选项：缺失值，在做分析的时候，这些缺失值必须排除在分析之外，这就要用到SPSS的data菜单中的select cases功能，你设定了案例过滤的代码之后，记得要把这个代码复制到excel文件下方备份。因为SPSS文件关闭重启后是不能保存select cases的代码的，forcode差点吃了这个亏，花了很大精力对比筛选写出的代码，差点全丢了。这个习惯是必须养成的。
3、逐步条件回归（Forward conditional stepwise）很有用。你可以逐次加入几十个变量，设定筛选的P值标准，这样可以得到一个每个系数都显著的模型，这就免去了手工一次次加入变量的麻烦，而且SPSS会给出每一步骤获得的chi平方增量和类确定系数值，方便你判断新加入的变量的价值。
--
最新奇有趣的新技术、科幻、社会学信息：
http://www.qixianglu.cn
forcode科幻小说《抽水马桶的秘密》：
http://www.cmfu.com/showbook.asp?Bl_id=60008

没有评论:

发表评论

社会学博客

2007-06-18

forcode经验：SPSS做logistic回归的几点小经验

没有评论:

本站关注者

博客归档

订阅社会学博客

社会学资源

社会学笔记讲义

访问统计