在进行回归分析时,根据不同类型的因变量,我们需采取不同的方法。当因变量为连续性变量时,可直接建立多元线性回归模型;反之,当因变量为分类变量,如客户流失与否,收入高低等,普通线性回归模型便无法应用,这时便引入了Logistic回归模型。
Logistic回归模型是一种广义的线性回归分析模型,尽管名称中包含“回归”,但实际上它更像是分类算法,是一种监督学习的分类方法。在SPSS Modeler中,该模型被归类于分类建模模块。
Logistic回归模型的核心原理是将事件的发生概率作为因变量。假设因变量Y为二分类变量(“是”或“否”),我们将其转换为数字形式,将“是”标记为1,将“否”标记为0。事件发生的概率p定义为P(Y=1|X),则事件不发生的概率为1-p,即P(Y=0|X)。当概率p大于等于0.5时,Y取值为1;反之,取值为0。
引入一个概念:比值或优势(odds),即事件发生的概率与事件不发生的概率之比,表示为odds=p/(1-p)。对odds取对数后得到因变量的公式。
通过构建线性表达式,得到模型的数学公式。将公式写成矩阵形式,令参数向量为w,对公式进行变换,得到Logistic函数,其取值范围为[0,1],是一个S型函数。Logistic回归模型的核心任务是求解参数w。
Logistic回归通常采用极大似然估计法求解参数,而非普通回归模型的最小二乘法(OLS)。
以实际案例为例,首先导入数据集,数据来源于SPSS Modeler的练习数据集,因变量为客户是否流失。数据预处理后,添加Logistic回归分析节点,设置二项式过程,并引入虚拟变量来处理分类变量。
运行模型后,分析输出结果。表格1概述了建模样本量和缺失值情况,表格2解释了因变量编码,表格3展示了虚拟变量的编码解释。混淆矩阵(表格4)用于直观判断模型预测准确性,表格5显示了模型在纳入变量之前的基本信息。表格6和7分别展示了变量的显著性检验和模型的拟合优度检验,表格8进一步解释了模型的混淆矩阵,表格9显示了参数估计矩阵。表格10为最后的参数估计结果,表格11为变量的相关系数矩阵。
基于模型预测,对于新数据中的客户,模型判断其不会流失,对应不流失的概率(1-p)为76%。通过模型预测,我们能对客户流失风险进行评估,并据此采取相应措施,以降低流失率。