学海无涯,回头是岸

Logit究竟是个啥?——离散选择模型之三

18 12月
作者:Ayan|分类:计量模型

前言:人们经常说“Logit模型”——这里的“Logit”究竟是什么?小伙伴们可知道“Logit”应该理解成Log-it?且听Eric为您慢慢道来!

本文为离散选择模型(Discrete Choice Model, DCM)系列文章的第三篇。


人们常说的“Logit模型”,这里的“Logit”到底是指什么?要回答这个问题,得先弄清楚一个概念——Odds!

1. 何为Odds?

在英语里,Odds的意思就是指几率、可能性。《老友记》里面有这么一个场景:大家坐在一起玩转瓶子(Spin the bottle)的游戏——每次转动瓶子,瓶子的细口所指向的那个人就和转瓶子的人Kiss一下。当Joey和Emily连续亲了3次之后,Chandler说道——What
are the odds? 意为:真是太巧了!

图1《老友记》第4季第16集


在统计学里,概率(Probability)和Odds都是用来描述某件事情发生的可能性的。概率描述的是某事件A出现的次数与所有结果出现的次数之比。公式表示:

[公式] ........ (1)


概率[公式]是一个0到1之间的实数;[公式]表示一定不会发生,而[公式]则表示一定会发生。以掷骰子为例。掷出点数为6的概率为:

[公式]


图2 掷骰子


Odds指的是事件发生的概率事件不发生的概率之比。公式表示为:

[公式] ........ (2)


继续上面掷骰子的例子。出现点数6的概率[公式],出现其它点数的概率[公式]。根据式(2)可以得到掷出点数为6这一事件的Odds为:

[公式]


用更通俗的解释:平均来看,掷出6点的成功的概率失败的概率之比为1:5。和概率论中许多其它的概念一样,Odds也是在赌博中产生的一个概念。假设甲乙二人掷骰子对赌;若甲出1块钱赌掷到6点,乙需要投注5块钱才能保证公平。



2. Odds和概率之间的关系

换一个角度来看:由式(2)可以推导出如下关系:

[公式]

[公式]


也就是说,事件A的Odds 等于 事件A出现的次数 和 其它(非A)事件出现的次数 之比;相比之下,事件A的概率 等于 事件A出现的次数 与 所有事件的次数 之比。在图3中,随机摸出一个球、颜色为红色的概率为3/5,其所对应的Odds为3:2。


图3 随机摸球实验


下表1和图4展示了概率[公式]从0.01变化到0.99时,相应的Odds变化的情况。注意:(1)当概率等于0.5的时候,Odds等于1(等分);(2)概率[公式]的变化范围是[公式],而Odds的变化范围是[公式]。再进一步,如果对Odds取自然对数,就可以将概率P从范围[公式]映射到[公式]Odds的对数称之为Logit


表1 Odds和概率P之间的关系


图4 概率P和Odds之间的关系


图5 概率P和 Logit 之间的关系


从概率[公式],这就是一个Logit变换。实际上,所谓 Logit 模型可以理解成 Log-it(即 it 的自然对数——这里的 it 指的就是Odds)。


图6 Logit变换


与概率不同,Logit的一个很重要的特性就是没有上下限——这就给建模带来极大方便。我在DCM系列文章第二篇《线性模型 vs. Logistic模型——离散选择模型之二》中提到:不能直接套用线性回归模型

[公式] ........ (3)

对概率[公式]进行建模——因为(3)式左边[公式]的取值范围是[公式],而概率[公式]的取值范围是[公式]。但是,由于 Logit 和[公式]都是在[公式]上变化,我们可以尝试建立Logit 和[公式]之间的对应关系,例如:

[公式] ........ (4)


如果将[公式][公式]看成向量形式,则:

[公式] ........ (5)


上面(5)式正是二项Logit模型的基本形式。


更多的证明需要用到效用理论;后续文章会依次给出。


欢迎批评指正。


浏览44 评论0
返回
目录
返回
首页
线性模型 vs. Logistic模型——离散选择模型之二 有感于我国第一艘国产航母「山东舰」入列

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。