ReLogit:罕见事件Logistic回归

迈克尔·汤姆斯, 加里·京治, 曾朗彻

主要文章内容

摘要

我们研究罕见事件数据,即二进制因变量,其因变量(事件,如战争、否决、政治激进主义或流行病感染)比零(“非事件”)少几十到数千倍。在许多文献中,这些变量被证明很难解释和预测,这个问题似乎至少有两个来源。首先,流行的统计程序,如逻辑回归,可能严重低估了罕见事件的概率。我们建议进行优于现有方法的修正,并根据文献中报告的一些估计影响改变绝对和相对风险的估计。其次,对于罕见事件数据,常用的数据收集策略效率极低。由于害怕用太少的事件来收集数据,数据收集过程中出现了大量的观察结果,但相对而言,这些观察结果很少,而且解释性变量测量也很差,例如在国际冲突数据中,有超过四分之一的二人组,其中只有少数处于战争状态。事实证明,存在更有效的采样设计来进行有效的推断,例如对所有可用事件(例如战争)和一小部分非事件(和平)进行采样。这使得学者们可以节省99%的(非固定的)数据收集成本,或者收集更有意义的解释性变量。我们提供了链接这两个结果的方法,使这两种类型的校正能够同时工作,并提供了实现所开发方法的软件。

文章详细信息

文章提要栏