2.1. 多项式logit模型
让我们考虑多项式响应Y(Y)具有类别及其对应的概率.让和=是的向量模型参数。假设我们已经观察到n个对具有=观测频率向量是多项式分布随机向量的实现带索引、和,一个已知协变量值的向量。从k个第th类为和是相应类别概率的向量。根据定义k个第个类别是.矩阵X(X)包含行假设为全秩,并且在模型中存在截距参数时每设置一个.让成为模型矩阵。log-odds可以表示为
哪里是的第个元素和是单位矩阵。
2.2. MLE程序
根据参考文献中的注释[9],多项式log-likelihood可以写成
系数向量的相应得分函数具有以下形式:
回归系数的最大似然估计量(MLE)是方程的解,通常采用牛顿-拉普逊近似[9].
2.3. 审查Firth的GLM惩罚方法
删除一阶MLE偏差t吨GLM的第个回归参数,Firth[10]提出了以下评分函数:
有罚款期限
哪里是基于log-likelihood函数的标准得分函数、和是对应信息矩阵的逆矩阵评估时间:.针对上述修正的分数方程,相应的惩罚对数似然函数和似然函数为和分别是。对于这个问题,惩罚函数被称为Jeffreys不变先验,其影响是渐近可忽略的。公牛等。[4]将Firth的一般思想应用于多项式logit模型,以减少回归估计中的有限样本偏差。对于多项式logit模型,观测信息矩阵,使用作为块对角矩阵块,对于秒 = k个和否则。然后,方程中给出的惩罚分数函数(三)对于多项式logit模型,可以用以下形式替换:
哪里是一个对称矩阵th元素,的三阶累积量和表示我第个对角块“帽子”矩阵包括块,每个尺寸经过一些代数运算后,上述惩罚分数函数采用以下形式:
哪里是的第个元素.方程的解(来自方程式(4))由于帽子矩阵的结构复杂,计算繁琐。Kosmidis和Firth[18]使用等效泊松技巧,为多项式logit模型提出了一个可选的惩罚得分函数,该函数更灵活(简单且计算效率高),以便于说明。下面讨论了这种方法的细节。
2.4. 用等效泊松回归求解多项式响应中的分离问题
方程中的多项式模型(1)可以方便地嵌入到泊松对数线性模型中。使用指示器功能(1,如果秒 = k个多项式响应的对数线性模型可以写成(使用参考文献中使用的类似符号[18]):
哪里是独立泊松随机变量的期望值,和干扰参数。如Kosmidis和Firth所述[18]方程中给出的多项式logit模型(1)方程中的泊松对数线性模型(5)是完全指数族,因此Firth[10]偏差减少惩罚项可以直接应用于每个模型的可能性。然而,他们认为在给定的参数化下,第一类惩罚泊松似然不能分解为所需多项式似然的乘积(对于)和一个不含因此,全参数向量的偏差减少估计的标准计算在泊松对数线性模型中,不提供对多项式模型。Kosmidis和Firth[18]提供了一个解决方案,用于使用通过施加约束而导出的泊松模型的限制版本有关此约束的更多详细信息,请参阅参考[18]. 在这种约束下,方程中的泊松模型(5)变成了一个标准链接的广义非线性模型的形式:
为了简化上述非线性模型的似然评分方程的计算算法,Kosmidis和Firth[18]应用参考文献中导出的广义非线性模型(方程(13))的惩罚似然的一般结果[17]并针对上述模型提出了以下减小偏差的调整得分函数:
哪里是关于的预期信息,表示Hessian矩阵关于、和是的第个组件矩阵
具有和注意到这一点后不依赖于秒并取代、科斯米迪斯和费尔斯[18]提出了以下调整得分函数的简单形式:
哪里是的第个分量.仅数量在上述偏差中,减少分数等式将受到约束的影响Kosmidis和Firth[18]还利用定理1证明了这些调整后的得分函数与那些(方程(4))直接从方程式中模型的可能性惩罚中获得(1). 惩罚估计方程(PMLE)估计可以使用Kosmidis和Firth提出的以下标准迭代过程进行估算[18]. 新值从候选人处获得通过求解以下迭代方程:
具有为受限参数化计算。Kosmidis和Firth建议[18],方程式(7)可以通过以下步骤实现:
设置.
使用计算新值.
方程中的拟合模型(5)按最大似然,但使用调整后的响应代替获得新的估计和.
这个-在降维估计(称为PMLE)下计算的期望信息矩阵的逆块可用于为估计量生成有效的SE。
使用上述泊松技巧的惩罚方法最初是为了减少多项式模型MLE中的有限样本(一阶)偏差而提出的。然而,这些偏差减少了等式中的分数函数(6)可用于解决前面在多项式响应中讨论的分离和近分离问题。因为方程式中给出的函数(6)保证有限估计即使在一个或多个反应类别中有空单元格,标准得分函数(方程式(2))没有惩罚的衍生。这个想法与海因策和申佩尔提出的想法类似[16]用于解决逻辑回归中的分离问题。PMLE的SE的相应估计可以从hat矩阵的对角元素的根中获得.
2.5. 复杂测量数据的加权PMLE
本文的主要动机是应用上述方法分析从具有分层聚类设计(多阶段设计)的横断面调查中提取的数据(前面提到),这是一种复杂的设计。因此,在模型估计中结合根据逆向选择概率计算的单个抽样权重,对回归参数和相关SE进行准确估计是非常必要的是多项式响应k个的类别我第个主题()来自j个第个簇()和来自小时第th层(). 再一次,让我们如果主题为hji公司在样本中选择,否则为0是被选入调查的概率,该概率由研究设计确定,可能取决于协变量或附加变量,例如筛选不在泊松模型中的变量,用于多项式响应[11]. 这个概率可以通过乘以多级抽样方案中每个阶段的选择概率来计算。因此,样本中的每个受试者都有已知的体重.结合抽样权重,方程式中给出的惩罚估计函数(6)成为测量数据的以下加权估计函数:
解决为测量数据提供加权PMLE。该方程可以使用前面描述的相同程序求解,加权PMLE的SE可以从稳健方差估计量的平方根中获得。