总结

多元二元或分类结果的贝叶斯分析通常依赖于概率或混合效应逻辑回归模型,这些模型对单个结果没有边际逻辑结构。此外,当为协方差参数选择简单的非信息先验时,也会出现困难。基于这些问题,我们提出了一种新型的多元logistic分布,可用于构建二元和分类数据的多元Logisic回归分析的似然。个体结果模型具有边际逻辑结构,简化了解释。我们采用贝叶斯方法进行估计和推理,为后验计算开发了一种有效的数据增强算法。该方法在神经毒性研究中的应用进行了说明。

Résumé

Les分析了bayésienes de résultats multivaries s binaires ou qualitatifs reposent sur des modèLes de ré)gression probit ou logistiqueáeffects mixtes,n’ayant pas de structure marginale logistike pour Les resultats individuels。再加上对先验非信息性的选择,这是对协方差参数的简单选择。塞斯对新一代分销逻辑的提出者提出的理论提出质疑。勒莫代尔possède une结构边缘化的逻辑体系导致了个体化、简单化的交互。我们采用了一种估计和推理的方法,开发了一种有效的后验计算算法。该方法说明了神经生态学的应用。

1.简介

在许多应用领域,如流行病学和生物医学研究中,逻辑回归是分析二进制和有序分类结果数据的标准方法。logistic模型的回归系数具有简单的优势比解释,主题研究人员很容易理解。在许多情况下,结果数据是多元的或相关的(例如,由于对同一研究对象或同一家族的受试者的重复观察),因此有一个模型很有吸引力,该模型能够维持对个体结果的边际逻辑解释,同时适当地解释依赖结构。

为了激发这个问题,我们关注一项神经毒理学研究的数据,在该研究中,大鼠幼崽在出生前和出生后以0、5、50或150 mg/kg的剂量暴露于杀虫剂甲氧基氯(MXC)。从39窝幼崽中(~10/剂量组),随机选择一只雄性和一只雌性幼崽进行神经运动测试。记录每只幼崽在三个年龄段(出生后第31、47、66天)的活动水平(0=正常,1=升高)。科学兴趣集中于将活动增加的可能性与MXC剂量、年龄和性别联系起来。研究人员希望以逻辑回归模型为基础进行推断,这些模型对生物医学期刊的读者来说很容易解释。

可用于此类数据的常见频率法包括通过广义估计方程(GEE;Zeger和Liang,1986年;普伦蒂斯,1988年;Lipsitz、Laird和Harrington,1991年;凯里和泽格,1993年和混合效应logistic回归(斯特泰利、莱尔德和威尔,1984年). 由于参数解释的简单性和对相关结构错误指定的鲁棒性,GEE方法通常是首选方法。相反,逻辑结构在从混合效应模型中整合出随机效应时丢失了。尽管这些模型确实有集群特定的逻辑解释,但这一解释可能对主题研究人员来说并不熟悉。尽管GEE方法解决了这个问题,但其合理性依赖于大样本参数,并且在小样本到中等样本中的性能通常不清楚。

受MXC应用(其中样本量较小)的启发,本文提出了边际逻辑模型的精确贝叶斯分析。虽然也提出了基于相似性的边际逻辑拟合方法(Fitzmaurice和Laird,1993年;Glonek和McCullagh,1995年),模型规范的复杂性是一个相当大的实际限制。

在分析多元类别数据时,贝叶斯方法与基于拟似然和似然的频率统计方法相比有几个重要的优点。首先,通过使用马尔可夫链蒙特卡罗(MCMC)算法获得精确后验分布的估计,不需要依赖大样本证明,但MCMC迭代次数很容易增加。此外,贝叶斯方法更灵活,因为外部实质性信息和数据可以通过信息先验分布合并,当这些信息可用时,或者可以选择非信息先验。本文的动机是需要开发多元逻辑回归的贝叶斯方法,该方法允许简单的非信息先验分布(对参考分析有用),导致简单高效的计算,并且(概念上)易于推广到更复杂的数据结构,涉及混合分类和连续结果、多层次数据或信息审查。

关键步骤是选择一个合适的似然函数。一种可能性是根据边际响应概率和多路关联参数将可能性参数化(Fitzmaurice和Laird,1993年;Glonek和McCullagh,1995年). 除非进行简化假设,否则该方法复杂且涉及大量参数。例如,在MXC研究中,共有2个6−1=63个参数用于指定从每个同胞对获得的六个二进制结果的联合分布。Qu、Piedmonte和Medendrop(1995)相反,根据潜在正态响应变量指定可能性,这些变量通过非线性随机效应模型与预测因子相关。可以仔细选择链接以产生边际逻辑解释。虽然该模型简单且简约,但对于贝叶斯推断并不理想,因为非线性随机效应结构可能导致在选择扩散先验时出现不正确的后验分布或缓慢混合。即使有信息丰富的先验信息,由于条件后验分布缺乏简单形式,有效的后验计算也具有挑战性。

计算方面的考虑导致在分类数据的贝叶斯分析中广泛使用概率模型。由于概率模型可以根据线性回归模型下的潜在正态变量来指定,因此可以通过简单的辅助变量吉布斯抽样算法进行后验计算(Albert and Chib,1993;Chib和Greenberg,1998年;Chib,2000年等)。这种简单的结构有助于推广到更复杂的数据结构,例如具有混合分类和连续响应变量的聚类数据(Dunson、Chen和Harry,2003年). 为了概括基本的正规结构,Chen和Dey(2000)提出了一类多元正态基本变量的富标度混合。多元概率模型的一个优点是,依赖结构可以根据基础连续变量分布的相关系数进行简约描述。

尽管由于协方差结构的计算和建模相对容易,probit模型显然很有吸引力,但在参数解释方面存在一些问题。具体来说,由于标准正态分布函数没有闭合形式,回归系数不能解释为类别概率简单函数的变化。相反,系数对潜在正态平均值的变化有着更为深奥的解释。因此,最好使用逻辑模型。

本文提出了一种新的基于潜在连续变量的多元logistic回归的可能性。依赖结构通过连续多元logistic分布的参数进行简约建模。由于传统的多元logistic分布在两个变量之间的相关性数量上受到严格限制,我们提出了一种新的具有无限制相关性结构的多元Logisic密度。后验计算非常简单,并且基于用于概率模型的Albert and Chib(1993)方法的扩展。与贝叶斯混合效应logistic模型相比,该方法的优点包括对回归参数的边际logistic解释,在均匀不适当先验下的适当后验分布,以及由于不需要计算随机效应而可能提高的计算效率。

第2节推导了所提出的多元logistic密度并讨论了其性质。第3节提出了多元有序分类数据的应用。第4节研究后验分布适当性的条件。第5节概述了后验计算的算法。第6节将该方法应用于MXC示例,并且第7节讨论结果。

2.多元Logistic分布

为了通过潜在的连续变量说明模型规范,首先考虑单变量逻辑回归模型:

(1)

哪里是0/1二进制结果,x个是一个q个×1预测向量,以及β是未知回归系数的向量。该模型相当于= 1(z(z)>0),其中1(·)是指示函数,每个论坛是具有位置参数的独立逻辑分布随机变量x个β具有密度函数

(2)

使用这种潜在变量规范,可以将模型推广到多元情况,其中= (1, …,知识产权)'是二进制变量的向量X(X)是一个第页×q个行预测矩阵x个ij公司通过出租ij公司= 1 (z(z)ij公司>0)其中z(z)= (z(z)1, …,z(z)知识产权)'遵循具有单变量logistic边缘的联合分布论坛这种模型的实施受到缺乏具有逻辑边际的灵活多元分布的阻碍(甘贝尔,1961年;马利克和亚伯拉罕,1973年;卡斯蒂略、萨拉比亚和哈迪,1997年). 为了适应我们模型的灵活相关结构,本文提出了一种新的多元逻辑密度。

将物流密度概括为第页维数,我们考虑密度具有灵活的相关结构、易于解释的参数以及简化计算的形式。满足这些标准的密度可以通过转换遵循传统多元分布(如多元正态分布或多元分布)的变量得出分配。为了说明这种方法,假设e(电子)1, …,e(电子)j个是由无位置或尺度参数的连续多元分布产生的同分布连续随机变量F类(·)表示一元边际分布的c.d.fe(电子)j个.自F类(e(电子)j个) ∼U型(0,1),它位于该日志之后[F类(e(电子)j个)/{1 −F类(e(电子)j个)}]平均值为零的逻辑分布,因此论坛.因为每个z(z)j个具有边际物流分布z(z)= (z(z)1, …,z(z)第页)'是一个第页-带位置参数的多维logistic分布μ= (μ1,…,μ第页)′.

为了简化符号,我们定义了不带尺度参数的多元logistic分布。它是根据位置向量参数化的μ、自由度ν和相关矩阵R(右),要求是正定的,对角线上为1。密度函数,表示为论坛,隐式定义为z(z)= (z(z)1, …,z(z)第页)',其中z(z)j个= μj个+日志[F类ν(e(电子)j个)/{1 −F类ν(e(电子)j个)}],F类ν(·)表示标准单变量的c.d.f具有ν自由度的分布,以及e(电子)= (e(电子)1, …,e(电子)第页)'遵循多元平均自由度ν分布0、和缩放矩阵R(右)常规多元的一般形式密度,包括位置和比例参数,为

多元逻辑密度的显式形式是

(3)

哪里ν(x个) =F类−1ν(e(电子)x个/(1 +e(电子)x个))和R(右)对角线限制为1。表达式(3)也是z(z)= (z(z)1, …,z(z)第页)',其中z(z)j个= μj个+日志[F类−1e(电子)j个)/({1 −F类−1e(电子)j个)}],φ~Γ(ν/2,ν/2),以及e(电子)= (e(电子)1, …,e(电子)第页)′∼N个第页(· |0,R(右)),使用N个第页(· |μ,R(右))表示第页-多维多元正态分布。

密度(3)具有正态混合尺度的相关结构,具有单变量logistic边缘。在以下情况下第页=1,很明显,表达式(3)减少到中的形式(2)。对于第页>1,单变量边际密度z(z)j个,用于j个= 1, …,第页,具有单变量逻辑,论坛,表单。通过选择非对角线R(右)密度可以解释一般的依赖结构。

提出的多元logistic分布的一个有用特征是两个密度论坛论坛当ν和σ2选择得当。这一事实使我们能够构建一种高效的重要性抽样算法,用于估计精确的后验分布。如后文所述,通过替换适当的多元变量可以得到后验分布的近似值多元logistic的分布。Gibbs采样器用于从近似后验值生成样本,在计算后验总结时,我们通过为样本分配重要权重来校正近似值。物流和Albert和Chib(1993)注意到了单变量病例中的分布。为了使近似值几乎准确,我们设置论坛(选择一个值来计算单变量的方差和logistic分布相等)并设置论坛(选择一个值以最小化单变量之间的积分平方距离和单变量logistic密度)。在实际数据分析中,这种近似的性能反映在采样权重的低变异系数上,以及加权或不加权样本对结果的影响很小。在续集中,我们删除了参数ν并使用符号论坛表示a第页-多维logistic分布论坛自由度。我们使用其中之一论坛论坛表示中定义的单变量logistic密度(2)

3.多种分类结果

什么时候?由多个二进制结果组成,我们模型下的可能性为

(4)

虽然没有简单的闭合形式表达式来表示ij公司伊克遵循与概率分析中使用的类似策略,我们可以基于ρ进行推断jk公司,中的元素j个第行和k个相关矩阵的第h列R(右)。的元素R(右)度量元素之间的依赖性通过基础变量的相关性,z(z)

将可能性推广到结果是多光子的情况,以便ij公司∈{1…,d日}的j个= 1, …,第页,我们有

(5)

哪里α= (α0,α1, …,αd日−1,αd日)'是阈值参数

这种可能性意味着j个第个结果:

(6)

因此,与有序分类数据的常用逻辑正态随机效应模型不同,我们的模型为每个结果建立了边际逻辑回归模型。这个公式隐含地假设数据由嵌套在受试者体内的不同亚单位的相同类型结果的测量值组成通过允许阈值参数随j个,可以允许数据由不同类型的分类结果组成,可能具有不同数量的类别。

4.前期规范和后期规范

通过为参数分配先验值,完成了模型的贝叶斯规范。尽管可以通过在自由度ν上放置一个先验值来增加模型的灵活性,但出于上述原因,我们将ν视为一个固定常数(≡7.3),而不是一个参数。为了简单起见,我们假设先验密度可以表示为π(β,R(右),α) =π(β)π(R(右))π(α). 对于β,我们将指定一个正常的先验密度π(β)=Nq个(β;β0,Σβ),或者指定一个不正确的统一先验π(β) ∝ 1. 在任何之前R(右)可以接受,在R(右)是在相关矩阵的空间上具有支持的均匀密度。最后,对于阈值参数,我们选择了一个不适当的一致先验π(α) ∝ 1(α1<α2< ⋯ <αd日−1)。

在混合效应二元回归模型中,当为参数选择均匀不适当的先验值时,后验分布的不适当性是一个令人烦恼的问题,这已引起了大量的研究(Natarajan和McCulloch,1995年,1998;Natarajan和Kass,2000年;Natarajan,2001年;孙、筑川和何,2001年). 这里提出的方法的一个吸引人的特点是,在易于实际验证的条件下,均匀的不适当先验值会导致适当的后验分布。验证适当性的一种相对简单的方法是,每个受试者放弃所有结果,只留下一个单独的结果,留下由独立结果组成的简化数据集减少如果可以验证π(α,β,R(右)|减少)是正确的,那么π显然也是正确的(α,β,R(右)|). 由于相关参数R(右)不出现在减少的数据可能性中,它遵循π(α,β,R(右)|减少) =π(α,β|减少)π(R(右)),式中π(α,β, |减少)是通过拟合一元logistic回归模型获得的后验密度减少使用原件q个预测变量和指定不适当的均匀先验分布π(α,β) ∝ 1(α1<α2< ⋯ <αd日−1). 由于π的支持(R(右))是有限的,它遵循π(α,β,R(右)|减少)当且仅当论坛.π适当性的充分条件(α,β|减少)在不适当的统一规定下陈绍(1999),2000)在二元logistic回归的特殊情况下,回归系数具有唯一的有限MLE是适当的一个充要条件。这种情况在实践中很容易验证,因为像SAS PROC LOGISTIC这样的程序会自动检查MLE的存在。

5.后验计算

关注多个二元结果案例βR(右),给定一个随机样本n个观察,1, …,n个,可以表示为

(7)

其中π(|β,R(右)) =∏n个= 1π(|β,R(右))是似然函数,π(β,R(右))是参数的先验密度,π(|β,R(右))是中定义的单个主题的可能性贡献(4)。由于似然的复杂性,高效的后验计算具有挑战性。然而,如果有MCMC算法可以从

(8)

其中π*(|β,R(右))表示替代模型下的近似可能性(4),然后关于π的近似推断(β,R(右)|)可以基于π*(β,R(右)|). 或者,稍微多花点力气,精确的后π(β,R(右)|)可以通过从π中取样来估计到任何所需的精度水平*(β,R(右)|)然后分配适当的重要性权重(黑斯廷斯,1970年,第2.5节)。什么时候?由多个二进制结果组成,是π的最佳选择*(|β,R(右))是-链接模型,

(9)

哪里论坛论坛是在中定义的常量第2节。此近似下的后验计算可以使用有效的MCMC算法完成,如下一节所述。

5.1. 基于似然逼近的MCMC算法

提出的MCMC算法受Albert and Chib(1993)的数据增强算法的启发,也与Chib和Greenberg(1998)首先,注意可能性(9)可等效指定如下:

(10)

我们的后验计算算法侧重于参数和潜在变量的近似联合后验分布,可表示为:

(11)

哪里论坛是一个(0/1)指示符函数截断z(z)和π(R(右))是在相关矩阵空间上支持的任何分布。在近似下β,z(z)、和φ有标准的共轭形式。计算π的情况(β)通过选择正常先验值β和设置−1β=0

我们的算法在从β,z(z)、和φ、和更新R(右)使用Metropolis步骤。特别是,在为选择初始值之后β,R(右)、和φ,算法重复以下步骤(对于= 1, …,T型)以下为:

  • (1)

    对于= 1, …,n个,示例z(z)()从完全条件分布z(z)

具有z(z)ij公司在零上(零下)截断,如果ij公司= 1 (ij公司= 0).

  • (2)

    对于= 1, …,n个,样品φ()从φ的完全条件分布

  • (3)

    样品β()从其完全条件分布:论坛,其中

  • (4)

    样本的候选值第页*=第页(第页−1)/2独特元素R(右)以下为:

哪里Ω通过实验选择,以产生理想的接受概率。如果论坛是正定的,集论坛有可能

并设置R(右)()=R(右)(−1)否则。如果论坛非正定,则设置R(右)()=R(右)(−1)

在该算法中R(右)在单个随机行走Metropolis步骤中联合更新。另一种策略是使用多个Metropolis步骤一次更新一个,每个步骤用于R(右)

5.2. 使用重要性权重进行精确推断

参数泛函的后验期望,

可以通过表格的加权样本平均值一致地进行估计

(12)

哪里B类是MCMC算法的老化间隔,以及w个()表示迭代时的采样重要性权重(黑斯廷斯,1970). 因为马尔可夫链的平稳分布是π*(β,R(右),z(z)|),而不是π(β,R(右),z(z)|),适当的取样重量为

等效计算公式为

(13)

哪里论坛是表达式中定义的转换吗(3)e(电子)= (e(电子)1, …,e(电子)知识产权)′. 后验均值、矩和百分位数都可以使用表达式计算(12)选择适当的小时(·).

5.3。有序分类响应变量的修改

假设= (1, …,知识产权)′,= 1, …,n个,是由累积logistic模型产生的有序分类变量向量(5),其中ij公司∈ {1, …,d日}. 第4.1节中所述的MCMC抽样方法可通过合并更新阈值参数的步骤5推广到这种情况,α= (α1, …,αd日)’,通过从其均匀的完全条件分布中抽样,并在步骤1中适当修改条件分布。特别是在步骤1中,z(z)()从相同的正态分布中得出,但z(z)()ij公司被截断为介于α 论坛−1和αij公司。继续执行步骤2–4,无需修改。要更新α,在步骤5中:

  • (5*)

    对于k个= 1, …,d日−1个样品αk个从区间[max上的均匀分布{z(z)()ij公司以下为:ij公司=k个},最小值{z(z)()ij公司以下为:ij公司=k个+ 1}].

重要抽样权重如表达式所示(13)

6.应用

在本节中,我们回到MXC的神经毒性研究(Chapin等人,1997年)在中进行了简要描述第1节.怀孕母鼠暴露于0 mg/kg和5 mg/kg的MXC(n个= 11), (n个=10),50毫克/千克(n个=10),或150 mg/kg(n个=8)出生前一周和出生后一周每天。然后,从出生后第7天到出生后第21天,以与母亲相同的剂量直接给幼崽喂食。在三个年龄段(第31天、第47天和第66天)的每一窝幼崽中分别测试一只雄性和一只雌性幼崽,使用一组不同尺度的神经行为项目。由于缺少最高剂量水平的数据,其中三窝幼崽的数据不完整,只产生了一只幼崽。

为了便于说明,我们将注意力局限于一个单一的二元结果变量,即高运动活动,如果幼犬表现出比对照平均值高的运动活动量,则编码为1,否则编码为0。因此,对于数据完整的垃圾,是一个6×1矢量,通过将两个幼崽的三个二进制观测值串联在一起而获得第次产仔。活动增加的边际概率建模为logit Pr(ij公司= 1 |x个ij公司,β) =x个ij公司β,其中x个β011(测试时间=47)+β21(测试时间=66)+β1(剂量=5 mg/kg)+β41(剂量=50 mg/kg)+β51(剂量=150 mg/kg)+β61只(雄性幼犬)。

我们的分析说明了结果变量之间相关性的两个来源:(i)同一窝中不同幼崽之间的依赖性,以及(ii)同一幼崽窝中相同幼崽的重复观察之间的依赖。为了获得最小结构的相关矩阵,我们假设一窝幼崽中的幼崽是可交换的。因此,6×6矩阵R(右)可以被图案化为

(14)

哪里R(右)1是对称的3×3相关矩阵R(右)2也是对称的。这个ij公司的第个元素R(右)1描述了th和j个同一幼犬的纵向观察。这个ij公司的第个元素R(右)2描述了th和j个对同一窝中两个不同幼崽的观察。来自不完整垃圾的数据提供了以下信息R(右)1但不是R(右)2

通过设置π为参数指定非信息性先验分布(β,R(右)) ∝ 1. 使用中描述的MCMC算法估计参数的后验分布第4节为了适应不完整的垃圾,我们修改了吉布斯采样算法的步骤1,如下所示。潜在变量z(z)从步骤1所示的多元正态分布中得出,但截断界限仅适用于z(z)ij公司如果ij公司观察到。马尔可夫链用除截距外的所有回归系数初始化为零。最初的10000个观察结果作为老化数据被丢弃,额外的100万次迭代被用于计算后期总结。

参数的自相关往往较低,表明采样效率较高。回归参数的Lag-10自相关,β,范围为0.006至0.035。相关参数的自相关性稍高,因为这些参数是在随机行走步骤中更新的,但lag-50自相关性仍小于0.30。样本权重相对恒定(变异系数=0.39),且中心接近1(平均值=1.02,中位数=1.02),表明多变量分布接近多元logistic。根据标准诊断测试和痕迹图检查,没有证据表明缺乏收敛性。

表1给出了回归系数的后验总结。总结表明,活动水平在性别(男性比女性活动少)和年龄(活动在第31天最高,在第47天最低)方面存在明显差异。活动水平也存在强烈的剂量相关差异,与未暴露的对照组相比,暴露的幼鼠活动水平增加。特别是,前三个治疗组的活动水平随着剂量的增加而增加,在150 mg/kg剂量水平下有所下降。在低剂量水平下,MXC似乎会使动物变得不安,导致异常高的活动。随着剂量的增加,动物可能会生病,导致高剂量组的活动水平下降。贝叶斯展望与频率分析相比的一个优点是,可以根据后验概率评估衰退的重要性。由于最高剂量水平下降的后验概率为0.95(数据未显示),因此人们强烈认为下降是真实的。与混合效应回归分析相比,我们的边际逻辑分析的优势在于,我们可以根据边际优势比总结结果,如表1

表1

接触MXC幼鼠活动的多元logistic回归分析

协变量平均值(95%置信区间)OR(95%置信区间)Pr(βj个< 0)
拦截β00.36 (−0.41, 1.13)
第47天β1−1.05 (−1.8, −0.33)0.35 (0.16, 0.72)0.998
第66天β2−0.42 (−1.19, 0.33)0.65 (0.3, 1.4)0.862
剂量=5 mg/kgβ0.66 (−0.18, 1.53)1.94 (0.83, 4.6)0.062
剂量=50 mg/kgβ41.94 (1.03, 2.92)6.94 (2.79, 18.57)< 0.001
剂量=150 mg/kgβ51.05 (0.05, 2.1)2.87 (1.05, 8.19)0.020
男性β6−1.06 (−1.68, −0.46)0.35 (0.19, 0.63)>0.999
协变量平均值(95%置信区间)OR(95%置信区间)Pr(βj个< 0)
拦截β00.36 (−0.41, 1.13)
第47天β1−1.05 (−1.8, −0.33)0.35 (0.16, 0.72)0.998
第66天β2−0.42 (−1.19, 0.33)0.65 (0.3, 1.4)0.862
剂量=5 mg/kgβ0.66 (−0.18, 1.53)1.94 (0.83, 4.6)0.062
剂量=50 mg/kgβ41.94 (1.03, 2.92)6.94 (2.79, 18.57)< 0.001
剂量=150 mg/kgβ51.05 (0.05, 2.1)2.87 (1.05, 8.19)0.020
男性β6−1.06 (−1.68, −0.46)0.35 (0.19, 0.63)>0.999

CI=可信区间。

表1

接触MXC幼鼠活动的多元logistic回归分析

协变量平均值(95%置信区间)OR(95%置信区间)Pr(βj个< 0)
拦截β00.36 (−0.41, 1.13)
第47天β1−1.05 (−1.8, −0.33)0.35 (0.16, 0.72)0.998
第66天β2−0.42 (−1.19, 0.33)0.65 (0.3, 1.4)0.862
剂量=5 mg/kgβ0.66 (−0.18, 1.53)1.94(0.83,4.6)0.062
剂量=50 mg/kgβ41.94 (1.03, 2.92)6.94 (2.79, 18.57)< 0.001
剂量=150 mg/kgβ51.05 (0.05, 2.1)2.87 (1.05, 8.19)0.020
男性β6−1.06 (−1.68, −0.46)0.35 (0.19, 0.63)>0.999
协变量平均值(95%置信区间)OR(95%置信区间)Pr(βj个< 0)
拦截β00.36(−0.41,1.13)
第47天β1−1.05 (−1.8, −0.33)0.35 (0.16, 0.72)0.998
第66天β2−0.42 (−1.19, 0.33)0.65 (0.3, 1.4)0.862
剂量=5 mg/kgβ0.66 (−0.18, 1.53)1.94 (0.83, 4.6)0.062
剂量=50 mg/kgβ41.94 (1.03, 2.92)6.94 (2.79, 18.57)< 0.001
剂量=150 mg/kgβ51.05 (0.05, 2.1)2.87 (1.05, 8.19)0.020
男性β6−1.06 (−1.68, −0.46)0.35 (0.19, 0.63)>0.999

CI=可信区间。

表2给出了对同一只幼崽和同一窝中两只不同幼崽进行的三次纵向测量的相关矩阵的后验总结。分析显示相关性相对较低,所有95%的可信区间均为零。与其他类似的基于多变量的logistic模型相比,我们的方法的一个优点是我们能够非常简单地描述相关观测值之间的关联。通过多路比值比进行模型规范要复杂得多,关联模型中出现多达57个参数。

表2

第31、47和66天测量相关矩阵的后验总结

后验均值(95%置信区间)
同一只小狗不同的小狗
第31天第47天第66天第31天第47天第66天
第31天10.08−0.030.07−0.010.03
(1.00, 1.00)(-0.12、0.28)(−0.23,0.17)(−0.21,0.34)(−0.21,0.20)(−0.18, 0.23)
第47天10.160.080.05
(1.00, 1.00)(−0.05, 0.36)(−0.22, 0.36)(−0.17, 0.26)
第66天10.16
(1.00, 1.00)(−0.13, 0.44)
后验均值(95%置信区间)
同一只小狗不同的小狗
第31天第47天第66天第31天第47天第66天
第31天10.08−0.030.07−0.010.03
(1.00, 1.00)(−0.12, 0.28)(−0.23,0.17)(−0.21,0.34)(−0.21,0.20)(−0.18, 0.23)
第47天10.160.080.05
(1.00, 1.00)(−0.05, 0.36)(−0.22, 0.36)(−0.17, 0.26)
第66天10.16
(1.00, 1.00)(−0.13, 0.44)
表2

第31、47和66天测量的相关矩阵的后验汇总

后验均值(95%置信区间)
同一只小狗不同的小狗
第31天第47天第66天第31天第47天第66天
第31天10.08−0.030.07−0.010.03
(1.00, 1.00)(−0.12, 0.28)(−0.23,0.17)(−0.21,0.34)(−0.21,0.20)(−0.18, 0.23)
第47天10.160.080.05
(1.00, 1.00)(−0.05, 0.36)(−0.22, 0.36)(−0.17, 0.26)
第66天10.16
(1.00, 1.00)(−0.13, 0.44)
后验均值(95%置信区间)
同一只小狗不同的小狗
第31天第47天第66天第31天第47天第66天
第31天10.08−0.030.07−0.010.03
(1.00, 1.00)(-0.12、0.28)(−0.23,0.17)(−0.21,0.34)(−0.21,0.20)(−0.18, 0.23)
第47天10.160.080.05
(1.00, 1.00)(−0.05, 0.36)(−0.22, 0.36)(−0.17, 0.26)
第66天10.16
(1.00, 1.00)(−0.13, 0.44)

为了评估我们的结果对先验分布选择的敏感性,通过选择一个完全非结构化的相关矩阵并对非结构化相关模型参数放置均匀的先验分布来重复分析。与之前的分析不同,之前的分析假设雄性和雌性大鼠的相关结构相同,之前的规范允许相关参数因性别而异。尽管相关模型增加了灵活性,但所得的后验分布并未显示出相关参数中任何明显的性别差异,所有95%可信区间包括0.0。关于回归系数的推断对相关结构的选择也不敏感,所有后验均值的差异小于0.05(后验均值:β0= −0.34, β1= 1.03, β2= 0.41, β= −0.66, β4= −1.90, β5=−1.03,β6= 1.05).

为了进一步研究模型结构和先验分布的影响,还通过设置R(右)2= γR(右)1在里面方程式(14),并使用以下两个先前的规范:π(β, γ,R(右)1)?1和π(β, γ,R(右)1) ∝ |R(右)1|−(3+1)/2。两种分析的回归估计值与表1回归系数的后验均值相差不到0.05。对于这两项分析,γ的后验平均值为0.11,95%可信区间为零,这表明对同一窝中两只不同幼崽的观察结果之间的相关性大大小于对同一幼崽的观察结果之间的相关性。最后,通过为回归系数选择多元正态先验值来重复分析论坛对于j个= 0, …,第页该分析的结果与表12

为了将我们的结果与频率拟似然估计进行比较,我们还使用SAS PROC GENMOD中实现的GEEs方法拟合了一个相同的边际logistic模型。回归系数的点估计值因工作相关矩阵的选择而有所不同,但与表1特别是当指定独立工作相关矩阵时论坛当通过将单个大鼠作为嵌套在窝中的非结构化子簇来指定工作相关结构时,大鼠内相关估计值在-0.12到0.55之间。这些相关性估计与表2,因为贝叶斯估计与观测到的二进制变量相对,属于未观测到的连续变量。贝叶斯方法产生准确可信区间,作为MCMC计算的副产品,与此不同,SAS PROC GENMOD仅提供工作相关矩阵参数的点估计。此外,由于MXC应用中的样本量较小,我们的精确贝叶斯方法似乎比依赖渐近参数进行推理的方法更具辩护力。

7.讨论

本文提出了一种基于新的多元逻辑密度的贝叶斯多元逻辑回归方法,其结构便于后验计算。特别是,可以使用修改的Albert and Chib(1993)的数据增强算法从后验近似中获取样本,然后在构建精确后验摘要时为这些样本分配重要权重。该算法易于编程,在我们考虑的情况下具有很高的效率。

混合效应logistic回归是目前多元分类数据分析中最常用的方法之一。由于常规实施基于最大似然的方法以及将这些方法推广到更复杂的环境(变量选择、混合离散和连续结果、多级数据结构、具有生存时间的联合建模等)方面的困难,贝叶斯方法变得越来越受欢迎。这种流行主要是由于WinBUGS软件的可用性(鲁恩、托马斯和施皮格尔哈特,2000年),它可以为各种贝叶斯模型实现吉布斯采样。

混合效应逻辑回归的贝叶斯方法的一个主要缺点是,当选择扩散或不适当的先验时,性能较差。这些问题的出现是由于在选择均匀不合适的先验值时后置值不合适,以及在选择弥散但合适的先期值时近乎不合适。除了具有逻辑-正态混合效应模型所缺乏的边际逻辑解释外,我们的方法的一个主要优点是,在温和的正则性条件下,后验是适当的。此外,正如我们在应用中所证明的那样,即使选择了一致的不适当先验,我们的后验计算算法也是有效的。

目前,由于使用底层正态框架易于建模和计算,probit模型在涉及分类或离散时间生存数据的复杂应用中得到了非常广泛的应用。我们的方法利用底层正态框架的吸引人的特征来开发逻辑模型的分析方法。Logistic模型比probit模型更容易解释,特别是对于在单变量结果分析中经常使用Logistic回归的生物医学研究人员。由于从本质上来说,将我们的方法推广到使用了probit模型的任何数据结构都是很简单的,因此所提出的方法应该被证明是非常有用的。

参考文献

凯里
,
五、。
Zeger公司
,
S.L.公司。
(
1993
)。
用交替逻辑回归建模多元二进制数据
生物特征
 
80
,
517
526

卡斯蒂略
,
E.公司。
,
萨拉维亚
,
J.米。
、和
哈迪
,
A.S.公司。
(
1997
)。
对数据进行连续二元分布拟合
统计学家
 
46
,
355
369

查宾
,
R.E.公司。
,
哈里斯
,
M.W.公司。
,
戴维斯
,
B.J.公司。
,等人。(
1997
)。
围生期/幼年期接触甲氧基氯对成年大鼠神经、免疫和生殖系统功能的影响
基础与应用毒理学
 
40
,
138
157

,
男-女。
戴伊
,
D.K.博士。
(
2000
)。
相关有序数据模型的贝叶斯分析
.英寸
广义线性模型:贝叶斯观点
,
D.K.博士。
 
戴伊
,
韩国。
 
天哪
、和
英国。
 
马利克
(编辑)。
纽约
以下为:
马塞尔·德克尔

,
男-女。
,
问:M。
(
1999
)。
多光子量子响应模型的Bayes估计的存在性
统计与数学研究所年鉴
 
51
,
637
656

,
男-女。
,
问:M。
(
2000
)。
二分量子响应模型后验分布的适当性
美国数学学会会刊
 
129
,
293
302

芯片
,
美国。
(
2000
)。
相关二进制数据的贝叶斯方法
.英寸
广义线性模型:贝叶斯观点
,
D.K.博士。
 
戴伊
,
韩国。
 
高希
、和
英国。
 
马利克
(编辑)。
纽约
以下为:
马塞尔·德克尔

芯片
,
美国。
格林伯格
,
E.公司。
(
1998
)。
多元probit模型分析
生物特征
 
85
,
347
361

邓森
,
D.B.博士。
,
,
Z.公司。
、和
哈利
,
J。
(
2003
)。
集群规模和亚单位特定结果联合建模的贝叶斯方法
生物计量学
 
59
,
521
530

菲茨莫里斯
,
总经理。
莱尔德
,
N.M.公司。
(
1993
)。
基于似然的纵向二进制响应分析方法
生物特征
 
80
,
141
151

格洛内克
,
G.F.V.公司。
麦库拉
,
第页。
(
1995
)。
多元逻辑模型
英国皇家统计学会杂志B辑
 
57
,
533
546

甘贝尔
,
E.J.公司。
(
1961
)。
二元逻辑分布
美国统计协会杂志
 
56
,
335
349

黑斯廷斯
,
W.K.公司。
(
1970
)。
马尔可夫链蒙特卡罗抽样方法及其应用
生物特征
 
57
,
97
109

利普希茨
,
美国。
,
莱尔德
,
N。
、和
哈灵顿
 
D。
(
1991
)。
相关二进制数据的广义估计方程:使用优势比作为关联度量
生物特征
 
78
,
153
160

伦恩
,
D.J.博士。
,
托马斯
,
A。
、和
Spiegelhalter公司
,
D。
(
2000
)。
WinBUGS-A贝叶斯建模框架:概念、结构和可扩展性
统计与计算
 
10
,
325
337
.内政部:

马利克
,
H·J。
亚伯拉罕
,
B。
(
1973
)。
多元逻辑分布
统计年鉴
 
1
,
588
590

纳塔拉詹
,
R。
(
2001
)。
二元随机效应模型中修正Jeffreys先验对方差分量的适用性
统计与概率信件
 
51
,
409
414
.内政部:

纳塔拉詹
,
R。
麦卡洛赫
,
C.E.公司。
(
1995
)。
一类二项响应混合模型后验分布存在性的注记
生物特征
 
82
,
639
643

纳塔拉詹
,
R。
麦卡洛赫
,
C.E.公司。
(
1998
)。
具有扩散固有先验的吉布斯采样:数据驱动推理的有效方法?
 
计算与图形统计杂志
 
7
,
267
277

纳塔拉詹
,
R。
卡萨丁
,
R.E.公司。
(
2000
)。
广义线性混合模型的参考贝叶斯方法
美国统计协会杂志
 
95
,
227
237

普伦蒂斯
,
共和国。
(
1988
)。
与每个二元观测值特定的协变量相关的二元回归
生物计量学
 
44
,
1033
1048

,
年。
,
皮埃蒙特
,
M.R.先生。
、和
梅登多普
,
S.V.公司。
(
1995
)。
聚类有序数据的潜在变量模型
生物计量学
 
51
,
268
275

斯特尔泰利
,
R。
,
莱尔德
,
N。
、和
器皿
,
J。
(
1984
)。
二进制响应序列观测的随机效应模型
生物计量学
 
40
,
961
970

太阳
,
D。
,
茑川
,
R.K.公司。
、和
,
Z.公司。
(
2001
)。
分层线性混合模型中具有不适当先验的后验的性质
中国统计局
 
11
,
77
95

Zeger公司
,
S.L.公司。
,
K.Y.公司。
(
1986
)。
离散和连续结果的纵向数据分析
生物计量学
 
42
,
121
130

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)