最近在做患病与否和PRS、年龄、性别等回归方程,这里把我的做法做一个总结,以下以SPSS为例
R中也一样glm一下
1、数据你们都有的整理好扔到SPSS里,顺便整理下个数据格式,连续型变量要设为标度
2、回归
我用的是患病与否做因变量,所以我选择二元逻辑回归(分析→回归→二元logistics)
因变量:患病与否
自变量:你想分析的,连续型变量不用处理,二分类变量需要在分类里选择分类变量
保存选择概率就好了,绘制ROC需要
选项里能选的都选上,反正能多出点看看数据情况
确定会出相应的回归曲线
结果主要看这两张表
第一张表主要是以曲线判定预测正确率
第二张表B为方程系数、显著性(sig.)为显著性差异、Exp为or值最后两列为上下限
方程公式为P=1/(1+EXP(x)),上图为例年龄、性别、PRS均显著,所以x=0.118age+0.439sex+0.876*PRS-11.938
3.ROC曲线绘制及cutoff值确定
分析→ROC曲线
验证变量:上一步保留的概率
状态变量:患病与否等因变量
同样的能勾选的都勾选了
查看结果
个案情况
区域大于0.7就是比较好了,当然太大就要怀疑一下了,比如0.9以上,过于优秀了,p值一样的要小于0.05。
数据量小时线不是那么平滑,可以双击曲线,add interdependent line→spline→apply,然后选中原线条按delete
这里就是cutoff值了,第一列和第二列差值最大值对应的变量为cutoff值
cutoff的具体判定方法如下图