学海无涯,回头是岸

线性模型 vs. Logistic模型——离散选择模型之二

18 12月
作者:Ayan|分类:计量模型

线性模型 vs. Logistic模型——离散选择模型之二

前言:为什么因变量是分类变量的时候,我们会选择Logistic模型、而非最常见的线性回归模型?或者,换个说法:线性回归模型的劣势是什么?Logistic模型的优势又是什么?——针对这些问题,本文为您详细解答!


本文为离散选择模型(Discrete Choice Model, DCM)系列文章的第二篇。




1. 为什么是Logistic回归?

在分析变量之间的相关关系的时候,一般最先想到的是线性回归模型。例如,图1展示了气温([公式])和冰淇淋的销量([公式])之间的关系:


图1:气温(X)和冰淇淋的销量(Y)之间的关系

线性回归模型可以描述因变量[公式]和自变量[公式]之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第[公式]次观测到的样本为[公式],则:

[公式]

[公式][公式]轴上的截距,[公式]为斜率,[公式]为误差项。为什么需要将误差项[公式]包含在模型中?

  • 有些变量是观测不到或者无法度量的,又或者影响因变量的因素太多,无法一一度量

  • 外界随机因素对的影响很难模型化,如自然灾害、恐怖时间、设备故障等

  • 在度量的过程中会发生偏差

给定[公式]组观测值[公式],我们就可以用最小二乘法得到参数[公式][公式]的估计值。

现实情况中经常会遇到因变量是二分类变量的情形。例如——

  • 顾客是否会购买某种商品:Y=1购买,Y=0不买

  • 选民是否会投票给某位候选人:Y=1投票,Y=0不投票

  • 求职者决定是否在某企业入职:Y=1入职,Y=0不入职

  • 交通事故中是否有人员伤亡:Y=1有人员伤亡,Y=0无人员伤亡

若因变量为二分类变量(Y只能取0或1),在建模分析与Y相关的影响因素的时候,使用Logistic回归可能是一个较好的选择;而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件


2. 线性回归模型的假设

线性回归模型的成立需满足以下几条假设[1]:

  • [公式] ...... (1)

  • [公式] ...... (2)

  • [公式] ...... (3)

  • [公式] ...... (4)

  • [公式] ...... (5)

条件(1)为线性假设,即自变量[公式]每增加一个单位对[公式]的影响都是一样的([公式]的值增加[公式]);

条件(2)-(5)均和误差项[公式]有关。假设(2)表示对任意[公式]的取值,误差项[公式]是一个期望为零的随机变量(即[公式][公式]不相关)。这就意味着,在式[公式]中,由于[公式][公式]都是常数,因此对于一个给定的[公式]的值,[公式]的期望值为:

[公式] ...... (6)

假设(3)表示对任意[公式]的值,误差项 [公式] 的方差都相同(都是 [公式])。

假设(4)和(5)说明误差项[公式]是一个服从正态分布的随机变量([公式]),且相互独立(即[公式][公式]不相关)。图2展示了误差项[公式]在线性回归模型中的影响。


图2:误差项在线性回归模型中的影响

只有当以上5个基本条件都满足时,利用最小二乘法得出的参数的估计值才是无偏的。不幸的是,因变量是二分类变量时,无法满足条件(3)和(5)。以下分别予以说明。


首先考虑假设条件(5)。

当因变量[公式]时,根据条件(1)则有:

[公式] ...... (7)

当因变量[公式] 时有:

[公式] ......(8)

也就是说,对任意的[公式],误差项[公式]只能取两个固定的值:[公式]或者[公式]——而非如图2中所示的正态分布。因此条件(5)不满足。


再考虑假设条件(3)。

若记[公式]的概率值为[公式],则相应的 [公式] 的概率为 [公式] ,如下表所示:

[公式]的均值为:

[公式] ...... (9)

带入(6)可得:

[公式] ...... (10)

[公式]的方差为:

[公式]

[公式]

[公式] ...... (11)

当 [公式] 在 [公式] 处固定时, [公式] 方差等于相应的 [公式] 的方差(见(1)式)。也是说,[公式]的方差随着[公式]的改变而改变——这与(3)式相矛盾!


由此可见,直接套用(1)式中的线性回归模型对二分类变量([公式] or [公式])进行拟合时,自变量的系数估计值会存在偏差。更为关键的一点是:从(10)中可以看出,当假设条件(1)、(2)成立时,[公式]的概率值([公式])和自变量[公式]成线性关系——这就意味着概率值[公式]可能会出现大于1(或者小于0)的情形(如图3)——这一点无论是在理论上还是在实际计算的过程都行不通!因此,在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。


图3:线性概率模型



浏览168 评论0
返回
目录
返回
首页
离散选择模型(Discrete Choice Model, DCM)简介——之一 Logit究竟是个啥?——离散选择模型之三

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。