跳到主要内容

广义logistic分布及其回归模型

摘要

定义了一种新的广义非对称logistic分布。在某些情况下,现有的三参数分布对重尾数据集的拟合较差。提出的新分布仅由三个参数组成,与各种现有分布相比,它能适应更大范围的重左尾和右尾数据。新的广义分布具有逻辑、最大和最小Gumbel分布作为子模型。研究了新分布的一些性质,包括模态、偏度、峰度、危险函数和矩。我们提出了最大似然法来估计参数,并评估该方法的有限样本量性能。提出了一种基于新分布的广义logistic回归模型。Logistic-Logistic回归、Weibull-极值回归和log-Fréchet回归是广义Logistic回归模型的特例。该模型被应用于拟合一种新绝缘技术的失效时间和心脏移植研究的存活率。

介绍

物流配送在各个学科中的应用可以在(Johnson等人。1995)以及其中的参考文献。物流分布的累积分布函数(CDF)定义为

$$F(x)={左(1+\exp\left(-\frac{x-\mu}{\sigma}\right)\right$$
(1)

注意,逻辑分布是大小随机样本最大值和最小值的平均值的极限分布n个指数型对称分布(Gumbel1958).

标准物流配送的CDF为F类()=(1 + e(电子)负极)−1 −  ∞  <  < ∞. 峰度为4.2的标准logistic密度函数约为零,比正常密度函数更尖峰,尾部更重。这些特性使得logistic分布成为拟合对称非正态数据的一种流行选择。

第一种极值分布通常被称为冈贝尔分布(1958),他对极值分析和极值统计在人类寿命分布、放射性排放和洪水分析中的实际应用做出了重要贡献(参见例如Johnson等人。1995). Gumbel使用分布对来自不同分布的样本的最大值和最小值进行建模。最大和最小Gumbel分布的CDF分别定义为

$$ {F}(F)_{Gu-\max}\left(x;\mu,\sigma\right)=\exp\left\{-\exp\left(-\frac{x-\mu}{\sigma\right)\right\},-\infty<x<\infty,-\infty<\mu<\infty,\sigma>0$$
(2)
$$ {F}(F)_{Gu-\min}\left(x;\mu,\sigma\right)=1-\exp\left\{-\exp\ left(\frac{x-\mu}{\sigma}\right$$
(3)

哪里μσ分别是位置和比例参数。Gumbel分布适合于拟合倾斜数据,而logistic分布适合于对称数据。值得注意的是,这两种分布之间存在关系。如果X(X)~甘贝尔(μX(X)σ)和Y(Y)~甘贝尔(μY(Y)σ),然后(X(X) − Y(Y))后勤(μX(X)负极μY(Y)σ).

为了提高logistic分布和Gumbel分布的拟合优度,文献中研究了这些分布的许多推广。例如,普伦蒂斯(1976)提出了logistic IV型模型来模拟二项回归数据。斯图克尔(1988)提出了logistic回归模型。Balakrishnan和Leung(1988)提出了三类广义logistic分布。约翰逊等人(1995)总结了物流配送的几种推广。瓦希德和阿里(2001)提出了斜logistic分布(SLD)。Nadarajah提出并研究了SLD的扩展(2009)通过引入一个尺度参数。古普塔和昆杜(2010)定义了logistic分布的两个推广,即使用Azzalini提出的斜正态方法的斜logistic(1985)并将II型逻辑分布定义为比例反向危险族的成员,以基线分布作为逻辑分布。这个T型-X(X)Alzaatreh等人提出的框架(2013)Aljarrah et al(2014)是两种常用的方法,用于推导各种分布的泛化,包括logistic分布。最近,Ghosh和Alzaatreh(2018)定义了指数logistic(EEL)分布作为logistic分布的推广,并研究了其各种性质。

与logistic分布类似,文献中出现了Gumbel分布的几个推广。对于甘贝尔极值分布的一般化,可以参考皮涅罗和法拉利(2016).

关于广义logistic分布和Gumbel分布的文献已经有很长的列表。为什么我们还要开发另一类广义逻辑分布?正如Johnson等人指出的那样(1994,第15页)“对于大多数实际用途,使用四个参数就足够了。毫无疑问,至少需要三个参数;对于某些用途,这就足够了”。主要动机是开发高度灵活的三参数分布,可以适应广泛的左右偏态数据。此处提出的方法具有现有概括中不具备的几个优点:

  1. (a)

    所提出的方法不是要建立一个单一的广义logistic分布,它可以应用于生成不同的广义Logisic分布族。Aljarrah等人使用类似技术研究了广义正态分布(2019)结果表明,这一分布比阿扎里尼提出的偏态正态分布灵活得多(1985)及其推广。

  2. (b)

    作为广义逻辑分布族的一员,本文定义并详细研究了指数逻辑{广义威布尔}分布(E-L{GW})。这种分布有三个参数:位置、比例和形状参数。如本文所示,E-L{GW}分布是logistic分布和Gumbel分布的推广。

  3. (c)

    E-L{GW}在两个方面比现有的logistic和Gumbel分布的推广更灵活:(i)它非常适合左偏和右偏数据。现有的广义logistic或Gumbel分布可以拟合重度右偏数据,但无法拟合重度左偏数据。(ii)与现有的一般化方法(如斜逻辑(Gupta和Kundu)相比,它非常适合偏度和峰度范围更广的数据2010)β-物流配送(Nassar和Elmasry2012)广义逻辑分布(Ghosh和Alzaatreh2018)广义甘贝尔(库雷2010)以及斜法线(Azzalini1985)及其五参数广义分布(Choudhury和Abdul2011).

  4. (d)

    假设响应服从E-L{GW}分布而导出的广义回归模型是一种非常灵活的模型,它以logistic-logistic回归、Weibull-极值回归和log-Fréchet回归为特例。

在第2节中,我们定义了E-L{GW}分布。研究了E-L{GW}分布的一些性质,包括概率密度函数(PDF)、危险函数和分位数函数的形状。第节研究了矩的表达式、风险函数的性质以及均值、方差、偏度、峰度和形状参数之间的关系.在第节中4提出了最大似然法估计分布参数,并进行了仿真研究,以评估该方法的小样本性能。在节中5建立了基于E-L{GW}分布的广义logistic回归模型。在节中6,对几个实际数据集的应用表明了新分布及其回归模型的灵活性和实用性。第节给出了总结和结论7.

指数逻辑{广义威布尔}(E-L{GW})分布

让随机变量R(右)成为标准的物流配送。使用形状参数ξ > 0,位置参数− ∞  < μ < ∞, 刻度反射参数σ ≠ 0,并遵循Aljarrah等人(2019)用于定义组合指数正态{GW}分布,我们定义组合E-R(右){GW}家族作为

$$ {F} X(_X)(x) =0.5+\操作符名{sgn}\左(\sigma\右)\左(0.5-\exp\left\{-\左({left({\overline{F}}_R\左(\frac{x-\mu}{\sigma}\右)}^{-\xi}-1\右)/\xi\right\}右)$$
(4)

其中sgn(σ)是参数的符号σ请注意,中定义的CDF(4)减少到\( {F} _R(_R)\左(\frac{x-\mu}{\mid\sigma\mid}\right)\)分发为ξ → 0.对应的PDF(4)由提供

$$ {f} X(_X)(x) =\ frac{f_R\左(\frac{x-\mu}{\sigma}\右)}{\mid\sigma{\left({\overline{f}}_R\左)}^{\xi+1}}\exp\left \xi}-1}{\xi}\右)$$
(5)

E-L{GW}分布可由方程式定义(4)通过出租R(右)为逻辑随机变量,如下所示:

定义(E-L{GW}分布):E-L{GW}分配的CDF和PDF分别定义为

$$ {F} X(_X)(x) =0.5+\operatorname{sgn}\left(\sigma\right)\left,(0.5-\exp\left\{left(1-{left,1+\exp\leaft(\frac{x-\mu}{\sigma}\right,右)}^{\xi}\rift)/\xi\right\}\right)$$
(6)

$$ {f} _X(X)(x) =\frac{1}{\mid\sigma\mid}\exp\left(\frac{x-\mu}{\sigma}\right){\left \},-\infty<x,\mu<\infty,\sigma\ne 0,\xi>0$$
(7)

注意,E-L{GW}是作为对称logistic分布的推广导出的,用于拟合高度偏斜的数据。当与各种现有的三参数分布进行比较时,这可以很好地比较性能。以下推论提供了一些特殊的子模型。

推论1:E的PDF ‐ 长{GW}(μσξ)英寸(7)减少为以下子模型:

  1. a)

    什么时候?ξ → 0,中的PDF(7)减少为物流配送(1).

  2. b)

    什么时候?ξ=1和σ < 0,中的PDF(7)减少到最大Gumbel分布的PDF(2)具有位置和比例参数μσ分别是。

  3. c)

    什么时候?ξ=1和σ > 0,中的PDF(7)减少到最小Gumbel分布的PDF()具有位置和比例参数μσ分别是。

证明:a)\(\将{\xi\设置为0}{\lim}{f} X(_X)(x) =\frac{1}{\mid\sigma\mid}\exp\left(\frac{x-\mu}{\med\simma\mid{\right)/{\left.案例(b)和(c)通过替换直接获得ξ=1英寸(7).

分位数函数用于从概率分布生成伪随机数。命题1给出了E-L{GW}分布的分位数函数。

提案1:E-L{GW}分布的分位数函数由下式给出

$$ {Q} X(_X)(u) =\mu+\sigma\log\left({\left\{1-\xi\log\leaft(\frac{1}{2}-\运算符名{sgn}\左(\sigma\右)\左(u-\frac{1}{2}\右)\right\}}^{1/\xi}-1\右),u\in\左(0,1\右)$$
(8)

证明:通过设置F类X(X)(X(X)(u个))=u个在等式中(6)并解决X(X)(u个)就以下方面而言u个,中的分位数函数(8)获得。

提议2:

  1. a)

    如果T型是标准指数随机变量,那么X(X)=μ+σ日志((1 + ξT)1/ξ − 1) 遵循E-L{GW}(μσξ)等式中的分布(6).

  2. b)

    如果X(X)~E-L{GW}(μσξ),然后(2μ − X(X))~E-L{GW}(μ −σξ).

证明:使用CDF方法,(a)和(b)中的结果如下。

将CDF用于E-L{GW}分布的风险率函数(HRF)(6)和PDF格式(7),它由

$$h(x)=\left\{\begin{array}{l}\frac{1}{\sigma}\exp\left(\frac}x-\mu}{\sigma}\ right){\left\{\exp\leaft(\frac{x-\mu{\simma}\right)+1\right\}}^{\xi-1},\kern10em\sigma>0,\\{}\frac{\exp\ left(\frac{x-\migma}{\σ右){\left\{\exp\left(\frac{x-\mu}{\sigma}\right)+1\right\}}^{\xi-1}}{\mid\sigma\mid\\left\{\exp\ left(\frac{1}{\xi}\left[{\left\{\exp\left(\frac{x-\mu}{\sigma}\right)+1\right\}}^{\xi}-1\right]\right$$
(9)

数字12显示E-L{GW}分布的PDF和HRF图。PDF可以是正偏态或负偏态,而HRF则显示出随J形增加、随S形增加和随形状增加而减少。图中的图表1表明分布趋于对称ξ → 0,当σ > 0,当σ < 0.当参数的符号σ更改后,PDF的曲线将反映在直线上x个=0.也作为ξ增加,当σ > 0,作为ξ增加,当σ < 0.图中的图形2显示中的危险函数(9)在以下情况下增加σ > 0.何时σ < 0时,危险函数增加或第一个常数增加,然后减小。

图1
图1

E-L{GW}分布的PDF图μ=0

图2
图2

E-L{GW}分布的HRF图μ=0

指数逻辑{广义威布尔}分布的性质

在本节中,研究了E-L{GW}分布的一些性质。这些特性包括HRF的模态、形状特性、力矩和力矩母函数。

模式:

定理1:E-L{GW}分布为单峰分布。模式位于点x*=μ每当ξ={0,1}。否则模式位于x点*=μ + σ日志(u个*),其中u* 满足等式

$$\xi u+1=u{\左(u+1\右)}^{\xi},u>0$$
(10)

证明:请参阅附录.

推论2:HRF在任何时候都会增加σ > 0,与直线渐近=1/σ作为x个 → ∞ 无论何时σ < 0

证明:请参阅附录.

值得注意的是,图。2与上述结果和推论2中曲线的渐近特征相一致。

力矩:矩对于描述和识别分布特性很有价值,例如中心、方差、偏度和峰度。为了推导E-L{GW}的矩,我们首先在方程(5),通过应用指数序列,如下所示。

$$ {f} X(_X)(x) =\frac{f_R\左(\frac{x-\mu}{\sigma}\右)\exp\left(1/\xi\right)}{\mid\sigma\mid}\sum\limits_{i=0}^{\infty}\frac{{\左(-1\右)}^i{\左)}}{i!{\xi}^i}$$

应用负二项级数展开\({\left(1-x\right)}^{-r}=\sum\limits_{j=0}^{\infty}\frac{\Gamma\leftx个  < 1开\({\左({\上划线{F}}_R\左(\左(x-\mu\右)/\sigma\右)\右)}^{-\左(\xii+\xi+1\右){),我们得到

\( {f} X(_X)(x) =\frac{f_R\left(\frac{x-\mu}{\sigma}\right)\exp\left伽马\左(\xi i+\xi+1 \右)}{\左({F} _R(_R)\左(\frac{x-\mu}{\sigma}\right)}^j\),可以写为

$$ {f} X(_X)(x) =\sum\limits_{i=0}^{\infty}\sum\limits_{j=0}^{\infty}\frac{\omega_{i,j}}{\mid\sigma\mid}{k}_{\左(j+1 \右)}\左(\左(x-\右)/\西格玛\大)\右)$$
(11)

哪里

$${\omega}_{i,j}=\frac{{left(-1\right)}^i\exp\left(1/\xi\right$$
(12)

k个(j个 + 1)(x个)=(j个 + 1)(f)R(右)(x个)(F类R(右)(x个))j个表示指数化的PDFR(右)带功率参数的随机变量j个 + 1

定理2:n 任何μ都存在E-L{GW}分布的绝对矩σ ≠ 0,ξ > 0满足不等式

$$E\左({\left|X\右|}^n\right)\le{E}^{-1}{\左(1+\xi\右)}^{1+1/\xi}\sum\limits_{i=0}^n\left(\begin{array}{l} n个\\{}i\end{数组}\right){\left|\mu\right|}^{n-i}{\left |\sigma\right|1}^iE\left({\leght|L\right|}^i\right$$
(13)

哪里是一个标准的logistic随机变量。

证明:请参阅附录.

以下定理给出了E-L{GW}的矩的级数表达式。

定理3:r 力矩E(X(X)第页)E-L{GW}分布的

$$E\left({X}^r\right)=\sum\limits_{n=0}^r\sum\limits\{i=0}^{\infty}\sum\limits_{j=0}#{\inffy}\left{c} 第页\\{}n\end{array}\right){\mu}^{r-n}{\sigma}^n{\omega}_{i,j}E\左({左}_{j+1}^n\right)$$
(14)

哪里ωj个定义于(12)和\(E \左({左}_{i+1}^n\right)\)n个幂参数指数logistic分布的矩j个 + 1,由Ali等人给出(2007)作为

$$E\左({左}_{j+1}^n\right)=\左(j+1\右)n!\left(sum\limits_{k=0}^{infty}\frac{{}{{left(-j-2\right)}P_k}{k!{\left(k+1\right}\右)$$

证明:请参阅附录.

提案3:假设X(X)包含PDF(6),则为的力矩生成函数(MGF)X(X)由提供

$$ {M} _X(X)(t) ={e}^{\mut+1/\xi}\sum\limits_{i=0}^{\fraty}\frac{\Gamma\left(\sigma t+1 \right){\left xi\右)$$
(15)

哪里

$$\左\{\开始{数组}{l} t吨\在\左(-\infty,1/|\sigma|\right),\kern3.1em\operatorname{}\xi\ge 1,\sigma<0\\{}t\in\left(-1/\ sigma,\infty\right{}t\in\left(-1/|\sigma|,1/|\sigama|\right),\operatorname{}\kern1.8em\xi<1,\sigma\ne 0.\end{array}\right$$

证明:请参阅附录.

在图中,根据参数绘制E-L{GW}分布的平均值和方差ξ对于μ=0和σ={1, −1}. (a) 显示了当σ > 0,平均值减少为ξ增加,当σ < 0,平均值增加为ξ增加。此外,图。(b) 表明方差随着ξ增加。

图3
图3

E-L{GW}分布的平均值和方差图μ=0, σ={1, −1} ,以及的各种值ξ

在图中4,我们根据参数绘制E-L{GW}分布的偏度和峰度ξ什么时候μ=0和σ={1, −1}. 4(a) 显示了当σ > 0,偏度随着ξ增加,E-L{GW}分布左偏,当σ < 0,偏度随着ξE-L{GW}分布呈右偏态。分布对称为ξ → 0.我们注意到E-L{GW}分布的偏度由以下公式测量ξ、和参数σ扮演着两个角色:表征尺度特性和确定左偏(σ > 0)或向右倾斜(σ < 0)。4(b) 显示峰度随着ξ增加,并且不受σ.

图4
图4

E-L{GW}分布的偏度和峰度μ=0和σ={1, −1} 对于各种值ξ

E-L{GW}的灵活性与斜法向(SN)(阿扎里尼1985),扩展斜广义正规(ESGN)(Choudhury和Abdul2011),广义正态(GN)(Aljarrah等人。2019)、β-广义逻辑(BGL)(Nassar和Elmasry2012)比例反向危险物流(PRHL)(古普塔和昆都2010)广义甘贝尔(GG)(库雷2010)和EEL(Ghosh和Alzaatreh2018). 1总结了这些分布的偏度和峰度的范围。结果表明,E-L{GW}拟合了最宽的偏度和峰度范围,但PRHL可以拟合平顶分布。

表1一些广义logistic和Gumbel分布的偏度和峰度的比较

估算和模拟

估算

在本小节中,我们讨论E-L{GW}分布参数的最大似然估计方法。x个1x个2, …,x个n个是具有参数的E-L{GW}分布的随机样本θ=(ξμσ)t吨,log-likelihood函数由下式给出

$$\mathrm{\ell}\left(\boldsymbol{\theta},\boldsymbol{x}\right)=-n\log\mid\sigma\mid+\sum\limits_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\rift)+\ left(\si-1\right)\sum\limits_{i=1}^n\log\left[1+\exp\left压裂{n}{\xi}-\frac{1}{\xi}\sum\limits_{i=1}^n{\left[1+\exp\left(\frac}x_i-\mu}{\sigma}\right)\右]}^{\xi}$$

出租z(z)=经验((x个 − μ)/σ),分布参数的得分函数由下式给出单位n个(θ)=(?)ℓ/∂ξ ∂ℓ/∂μ ∂ℓ/∂σ),其中

$$\frac{\mathrm{\partial\ell}}{\paratil\xi}=-\frac}{\xi}\sum\limits_{i=1}^n\left[{\left({z} _ i+1\右)}^{\xi}\log\left({z} _ i+1\right)\right]+\frac{1}{\xi^2}\sum\limits_{i=1}^n{\left[{z} _ i+1\right]}^{\xi}-\frac{n}{\xi^2}+\sum\limits_{i=1}^n\log\left({z} _ i+1\右)$$
(16)
$$\frac{\mathrm{\partial\ell}}{\paratil\mu}=\frac{1}{\sigma}\sum\limits_{i=1}^n\left[{z} _ i{\左({z} _ i+1\右)}^{\xi-1}\right]-\frac{1}{\sigma}\sum\limits_{i=1}^n\frac{\xi{z} _ i+1} {z_i+1}$$
(17)
$$\frac{\mathrm{\partial\ell}}{\paratil\sigma}=\frac{1}{\sigma}\sum\limits_{i=1}^n\left[{z} _ i\日志{z} _ i{\左({z} _ i+1\right)}^{\xi-1}\right]-\sum\limits_{i=1}^n\frac{\left(1+\xi\log{z} _ i\右侧){z} _ i+1+\日志{z} i(_i)}{\西格玛\左({z} i(_i)+1\右)}$$
(18)

参数的最大似然估计(MLE)可以通过求解非线性方程来获得(16), (17)和(18). 的初始值μσ被认为是平均值±数据的标准偏差。的初始值σ被视为(或-)如果数据向左(或向右)倾斜。的初始值ξ取1。

模拟

通过仿真研究探讨了MLE对E-L{GW}分布参数的性能。考虑了E-L{GW}模型的许多参数组合,即高度、中度和弱左(或右)偏,并表示模型的所有可能形状。不同样本量n个={50,100,200,500,1000}也被考虑。参数的MLEξμσ重复计算200次,以计算每组参数组合和样本量的偏差和标准偏差(SD)。2显示了仿真结果,图56展示插图。结果表明,偏差和SD随着样本量的增加而减小。随着样本量的增加,估计的PDF曲线也越来越接近实际曲线。这些结果表明,MLE方法可以用来估计E-L{GW}分布的参数。

表2使用MLE方法的参数估计偏差和SD
图5
图5

E-L{GW}模拟和理论PDF的图形(200个装配密度,所有拟合的平均密度,理论密度)n个=50、100、200、500和1000。左栏参数:ξ=0.5,μ =  − 1和σ=−1.中柱参数:ξ=2,μ=0和σ =  − 2.右栏参数:ξ=6,μ=2和σ =  − 

图6
图6

E-L{GW}模拟和理论PDF的图形(200个装配密度,所有拟合的平均密度,理论密度)n个=50、100、200、500和1000。左栏参数:ξ=0.5,μ =  − 1和σ=1.中柱参数:ξ=2,μ=0和σ=2.右列参数:ξ=6,μ=4和σ=

基于E-L{GW}的广义logistic回归模型

在本节中,我们通过假设响应提出了一个广义logistic回归模型Y(Y)遵循E-L{GW}分布。如果兴趣变量是非负的,例如生存时间,T型,然后是响应Y(Y)定义为日志(T型). 在下文中,我们推导了一个用于建模寿命数据的广义logistic回归模型。单变量生存函数和删失数据回归问题可以使用协变量效应的参数模型进行估计。当参数模型能够很好地拟合寿命数据集时,参数模型可以精确地估计出感兴趣的数量。原因是,这些估计以这种方式基于很少的参数。根据E-L{GW}分布,考虑以下回归模型:

$$ {y} _ i={\boldsymbol{v}}_i^T\boldsymbol{\beta}+\sigma{z} _ i,i=1,\点,n$$
(19)

其中响应变量=日志(t吨)是生存时间的对数t吨β=(β0β1 …, β第页)T型、和σ0是未知参数。每个具有协变量向量\({\boldsymbol{v}}_i^T=\左(1,{v}(v)_{i1},\点,{v}(v)_{ip}\右)\)线性预测模型\({\mu}_i={\boldsymbol{v}}_i^T\boldsymbol{\beta}\).随机误差z(z)具有E-L{GW}密度(7). 形状参数ξ可以被视为一个干扰参数,可以针对E-L{GW}分布的特殊情况进行测试。它也可以用协变量向量建模\({\xi}_i=\exp\left({\boldsymbol{v}}_i^T\boldsymbol{\gamma}\right)\)这取决于协变量向量\(粗体符号{v}}_i^T\)和参数向量γ=(γ0γ1 …, γ第页)T型.相应的生存函数为

$$S\左({y} _ i|\mu\left(\boldsymbol{v}\right),\sigma,\xi\left _i^T\boldsymbol{\gamma}\right)}\rift)/\exp\left({\boldsymbol{v}}_i^T\boldsymbol{\gamma}\right)\right\}\rift)$$
(20)

中生存函数的相应PDF(20)由提供

$$f\左({y} _ i\右)=\frac{1}{\mid\sigma\mid}\exp\left(\frac{y_i-{\boldsymbol{v}}_i^T\boldsymbol{\beta}}{\sigma}\right){\left \gamma}\right)-1}\exp\left\{\left(1-{\ left(1+\exp\leaft(\frac{y_i-{\boldsymbol{v}}_i^T\boldsymbol{\beta}}{\sigma}\right)}^{\exp\left({\boldsymbol{v}}_i^T\ boldsympol{\gamma}\rift)}\ right)/\exp\leaft({\ boldsimbol{v}}_i ^T\ boldsymbol{\gama}\righ)\right\}$$
(21)

广义logistic回归模型由许多流行的回归模型作为嵌套模型组成。一些特殊的回归模型如下:

  1. 1

    Logistic-Logistic回归模型:该模型作为特例从(20)何时γ1=γ1 = … = γ第页=0和γ0 →  − ∞ (或ξ → 0)。生存函数是

$$S(y)={\left\{1+\exp\left(\frac{y-{\boldsymbol{v}}^T\boldsymbol{\beta}}{\mid\sigma\mid}\right)\right\}}^{-1}$$

这是logistic-log-logistic回归模型,Lawless(2003第303页)。

  1. 2

    Weibull-极值回归模型:该模型是作为特例从(20)何时γ0=γ1 = … = γ第页=0(或ξ=1) 、和σ > 0.生存函数为

$$S(y)=\exp\left\{-\exp\ left(\frac{y-{\boldsymbol{v}}^T\boldsymbol{\beta}}{\sigma}\right)\right\}$$

这是经典的Weibull回归模型,Lawless(2003第296页)。

  1. 三。

    Log-Fréchet回归模型:该模型作为特例从(20)何时γ0=γ1 = … = γ第页=0(或ξ=1) ,以及σ < 0.生存函数为

$$S(y)=1-\exp\left\{\exp\leaft(-\frac{y-{\boldsymbol{v}}^T\boldsymbol{\beta}}{\mid\sigma\mid}\right)\right\}$$

这是log-Fréchet回归模型(Alamoudi et al。2017).

一个样本(1v(v)1), …, (n个v(v)n个)第页,共页n个考虑独立观测,其中每个随机响应由=最小值{日志(t吨),日志(c(c))},其中c(c)是审查时间。我们假设非信息审查和独立的观察寿命和审查时间。设Ω和C类表示其中的个体集合分别是log-lifetime和log-censoring。模型参数的总对数似然函数θ=(σβT型γT型)T型表示为

$$\mathrm{\ell}\left(\boldsymbol{\theta}\right)=\sum\limits_{i\in\Omega}\log\left[f\left({y} _ i\right)\right]+\sum\limits_{i\在C}\log\left[S\left中({y} _ i\右)\右]$$
(22)

哪里S公司()是中的生存功能吗(20)和(f)()是的PDFS公司()英寸(21). MLE公司\(hat{\boldsymbol{theta}})参数向量的θ=(σβT型γT型)T型E-L{GW}回归模型的(22).

应用

在本节中,我们应用E-L{GW}分布拟合两个偏斜数据,并应用广义logistic回归建模两个截尾寿命数据。对于前两个数据集,将E-L{GW}分布的拟合与其他最近推广的logistic和Gumbel分布的拟合进行了比较,即Ghosh和Alzaatreh的EEL分布(2018)、古普塔和昆都的PRHL分布(2010),GG作者:库雷(2010)Aryal和Tsokos改变了极值(TEV)(2009). 在这些应用中,使用最大似然法估计模型参数。

使用Akaike信息准则(AIC)和Kolmogorov-Smirnov(KS)统计量及其第页-值。当AIC和KS的值很小,并且第页-KS值很大。一些模型的拟合PDF图被演示用于视觉比较。给出了这两个数据集的描述性统计。对于第三和第四个应用,将广义logistic回归模型与一些嵌套子模型进行了比较。使用AIC、校正AIC(AICC)和贝叶斯信息准则(BIC)统计数据比较拟合优度。估算过程很简单,前两个数据集使用R编程语言,而第三和第四个数据集则使用SAS编程语言。

表3数据集的汇总统计

脂联素数据

数据包括Patrício等人116次脂联素测量(2018). 该数据集符合第节中提出的E-L{GW}模型2以及EEL、PRHL、GG和TEV分布。4表明第页-分布的KS统计值足以拟合数据。虽然这五种分布都有三个参数,但E-L{GW}为数据集提供了最佳拟合。因此,E-L{GW}分布是EEL、PRHL、GG和TEV分布的更佳替代分布。表中样本数据的大偏度和峰度以及表中广泛的理论偏度和峰度1建议E-L{GW}比其他可比分布更适合。7显示了拟合分布的估计PDF。

表4脂联素数据集的MLE、标准误差(SE)(括号内)和拟合优度度量
图7
图7

脂联素数据集:安装E-L{GW}、GG和TEV PDF。b条安装E-L{GW}、GG和TEV CDF

涡轮增压器数据

此数据集包含故障时间(10h) Xu等人的一种发动机的涡轮增压器(2003). Alzaatreh等人研究了这些数据(2016)和Cordeiro等人(2019)分别使用Weibull-gamma{log-logistic}和奇Lomax-Lomax分布。对于这个数据集,我们拟合了E-L{GW}、EEL、PRHL、GG和TEV模型。样本数据略微向左倾斜,并且比正常值略平。预计所有分布都应适当。5显示所有模型都正确地拟合了数据集,而E-L{GW}根据第页-KS检验统计值。如前所述,更符合数据的四种分布的形状参数估计值在统计上并不显著。这并不奇怪,因为左倾程度很小。然而,如果没有形状参数,对称分布无法正确拟合数据。8显示了涡轮增压器数据集的装配模型。

表5涡轮增压器数据集的MLE、SE(括号内)和拟合优度度量
图8
图8

涡轮增压器数据集:已安装E-L{GW}、GG和PRHL PDF。b条安装E-L{GW}、GG和PRHL CDF

广义logistic回归模型在H类绝缘数据截尾中的应用

数据是40台新的H级绝缘电机在190℃下运行时发生故障的小时数摄氏度,220摄氏240度°C和260Nelson提供的°C(2004). 发现故障时的检查时间与上次检查时间之间的中间时间视为故障时间。该测试旨在评估此类绝缘材料在设计温度为180℃时的中位寿命摄氏度。平均寿命超过20000需要h。数据包括(n个=40)观察(观察或右删失)。审查指标为0表示审查,1表示观察。每个电机组被分配四个测试压力等级中的一个(每个等级10个电机组)。七辆摩托艇(一辆在220级,一辆在240级,五辆在260级)在后续行动中丢失,并被视为已被审查。响应变量=日志(t吨)是故障时间(小时)的对数t吨或审查时间的对数c(c)和协变量v(v)指测试应力水平(190、220、240和260)。

对数据进行分析,以确定和测试压力水平(v(v)). 考虑以下回归模型:

$$ {y} _ i={\贝塔}_0+{\贝塔}_1{v} _ i^{\ast}+\sigma{z} _ i, $$

哪里\( {v} _ i^{\ast}=\左({v} _i-180\右)\)是通过减去设计应力值180而获得的中心应力水平,以及遵循E-L{GW}分布(21)使用shape参数\({\xi}_i=\exp\left({\gamma}_0+{\gama}_1{v} i(_i)^{\ast}\right)\)对于=1, …, 40. 这些应用中的模型参数是用极大似然法估计的。6表明E-L{GW}回归模型的AIC、AICC和BIC统计值小于其他拟合模型。估计数β1γ1在5%水平上显著,并且测试压力水平有显著差异。使用似然比(LR)统计来比较E-L{GW}回归模型与一些嵌套模型。如表所示6E-L{GW}模型比其他嵌套模型更适合这些数据。7显示了LR统计数据和相应的第页-值。表7中的结果意味着E-L{GW}优于所有子模型。因此,应该使用E-L{GW}回归模型来分析数据。

表6参数的MLE(括号中的SE),第页-SE以下的值,以及H级绝缘数据的拟合优度测量
表7 H级绝缘数据的LR统计

广义logistic回归模型在删失心脏移植数据中的应用

数据包括n个=103名心脏移植患者,其中69名患者接受了移植,34名患者没有接受。数据来自Crowley和Hu(1977)由Kalbfleisch和Prentice报道(2002). 这些数据可用于评估移植对患者生存的影响。响应变量=日志(t吨)是存活时间的对数,单位为天(从登记到死亡或直到研究结束的时间)。协变量为v(v)1(验收时的年龄)和v(v)2(移植状态:1=移植,0=未移植)。存活状态或审查指标为0表示存活,1表示死亡。因此,对数据进行分析,以研究生存时间与协变量年龄和移植状态之间的关系。考虑以下回归模型:

$$ {y} _ i={\beta}_0+{\beta}_1{v}(v)_{i1}+{\β}_2{v}(v)_{i2}+\西格玛{z} _ i, $$

哪里遵循E-L{GW}分布(21)使用shape参数ξ=经验(γ0 + γ1v(v)1)对于=1, …, 103. 这些应用中的模型参数是用极大似然法估计的。8表明E-L{GW}回归模型的AIC、AICC和BIC统计值小于其他拟合模型。估计数β1β2、和γ1在5%水平上有显著性差异,且移植状态有显著差异。LR统计量用于将E-L{GW}回归模型与一些嵌套模型进行比较。9显示了LR统计数据和相应的第页-值。如表所示8E-L{GW}模型给出了所有模型中最佳的拟合优度统计量。

表8参数的MLE(括号中的SE),第页-低于SE的值和心脏移植数据集的拟合优度度量
表9心脏移植数据集的LR统计

总结和结论

logistic和Gumbel(最大和最小)分布已被广泛研究,并且考虑了许多推广以模拟实际应用。我们对logistic和Gumbel分布提出了一种新的推广,称为广义指数logistic分布。我们研究了这种新分布的结构特性以及参数与平均值、方差、偏度和峰度之间的关系。只有三个参数,E-L{GW}可以拟合具有非常大范围偏度(左右)和峰度的数据。提出的开发广义分布的方法对实践者具有很大的潜力。建立了基于E-L{GW}分布的广义logistic回归模型。现有的一些回归模型是子模型,这使得广义logistic回归模型成为建模各种响应变量的良好选择。应用四个实际数据集来说明新分布及其回归对拟合偏态数据的有用性。应用表明,这些广义logistic和Gumbel分布可以有效地拟合高度偏斜的数据集。

数据和材料的可用性

感兴趣的读者可以联系第一作者。

缩写

AIC公司:

Akaike信息准则

AICC公司:

更正的AIC

银行保函:

贝塔广义逻辑

银行识别码:

贝叶斯信息准则

客户尽职调查:

累积分布函数

EEL公司:

指数逻辑

E-L{GW}:

指数逻辑{广义威布尔}

ESGN公司:

扩展斜广义正规

GG公司:

广义甘贝尔

GN(通用):

广义正规

人力资源:

危险率函数

堪萨斯州:

科尔莫戈罗夫·斯米尔诺夫

LR公司:

可能性比

MGF公司:

力矩发生函数

大型企业:

最大似然估计

PDF格式:

概率密度函数

项目风险水平:

比例逆向危险物流

标准偏差:

标准偏差

SE:

标准错误

SLD(SLD):

偏斜的物流分布

序号:

倾斜法线

TEV公司:

转换的极值

参考文献

  • Alamoudi,H.H.,Mousa,S.A.,Baharith,L.A.:使用删失数据在log-Fréchet回归模型中的估计和应用。国际期刊高级统计概率。5(1), 23–31 (2017)

    第条 谷歌学者 

  • Ali,M.M.,Pal,M.,Woo,J.:一些指数分布。韩国公社。斯达。14(1), 93–109 (2007)

    谷歌学者 

  • Aljarrah,M.A.,Famoye,F.,Lee,C.:一种新的广义正态分布:性质和应用。Commun公司。统计理论方法。48(18) ,4474–4491(2019)

    第条 数学科学网 谷歌学者 

  • Aljarrah,M.A.,Lee,C.,Famoye,F.:关于使用分位数函数生成T-X分布族。J.Stat.分销申请。1, 2 (2014)

    第条 谷歌学者 

  • Alzaatreh,A.,Lee,C.,Famoye,F.:生成连续分布族的新方法。Metron公司。71(1), 63–79 (2013)

    第条 数学科学网 谷歌学者 

  • Alzaatreh,A.,Lee,C.,Famoye,F.:广义伽马分布族:性质和应用。Hacettepe J.数学。斯达。45, 869–886 (2016)

    数学科学网 数学 谷歌学者 

  • Aryal,R.,Tsokos,P.:关于变形极值分布及其应用。农林。分析。71(12), 1401–1407 (2009)

    第条 数学科学网 谷歌学者 

  • 阿扎里尼:一类包含正态分布的分布。扫描。J.统计。12, 171–178 (1985)

    数学科学网 数学 谷歌学者 

  • Balakrishnan,N.,Leung,M.Y.:I型广义逻辑分布的订单统计。Commun公司。统计模拟。计算。17(1), 25–50 (1988)

    第条 谷歌学者 

  • Choudhury,K.,Abdul,M.M.:扩展偏斜广义正态分布。地铁。69, 265–278 (2011)

    第条 数学科学网 谷歌学者 

  • 库雷,K.:广义甘贝尔分布。J.应用。斯达。37(1), 171–179 (2010)

    第条 数学科学网 谷歌学者 

  • Cordeiro,G.M.、Afify,A.Z.、Ortega,E.M.M.、Suzuki,A.K.、Mead,M.E.:分布的奇数Lomax生成器:特性、估计和应用。J.计算。申请。数学。347, 222–237 (2019)

    第条 数学科学网 谷歌学者 

  • Crowley,J.,Hu,M.:心脏移植数据的协方差分析。美国统计协会。72, 27–36 (1977)

    第条 谷歌学者 

  • Ghosh,I.,Alzaatreh,A.:一类新的广义逻辑分布。Commun公司。统计理论方法。47(9), 2043–2055 (2018)

    第条 数学科学网 谷歌学者 

  • Gradshteyn,I.S.,Ryzhik,I.M.:积分、级数和乘积表,第6版。圣地亚哥学术出版社(2000)

    数学 谷歌学者 

  • 甘贝尔,E.J.:极值统计。纽约哥伦比亚大学出版社(1958)

     谷歌学者 

  • Gupta,R.D.,Kundu,D.:广义逻辑分布。J.应用。统计科学。18, 51–66 (2010)

    数学科学网 谷歌学者 

  • Johnson,N.L.,Kotz,S.,Balakrishnan,N.:连续单变量分布:第1卷,第2版。约翰·威利父子公司,纽约(1994年)

    数学 谷歌学者 

  • Johnson,N.L.,Kotz,S.,Balakrishnan,N.:连续单变量分布:第2卷,第2版。威利,纽约(1995)

    数学 谷歌学者 

  • Kalbfleisch,J.D.,Prentice,R.L.:失效时间数据的统计分析,第2版。威利,纽约(2002年)

     谷歌学者 

  • Lawless,J.F.:《寿命数据的统计模型和方法》,第2版。Wiley,Hoboken New York(2003年)

    数学 谷歌学者 

  • Nadarajah,S.:偏态逻辑分布。Asta Adv.Stat.分析。93, 187–203 (2009)

    第条 数学科学网 谷歌学者 

  • Nassar,M.M.,Elmasry,A.:广义逻辑分布研究。J.埃及。数学。Soc公司。20(2), 126–133 (2012)

    第条 数学科学网 谷歌学者 

  • Nelson,W.B.:加速测试:统计模型、测试计划和数据分析。威利,纽约(2004)

    谷歌学者 

  • Patrício,M.,Pereira,J.,Crisóstomo,J.、Matafome,P.、Gomes,M.、Seiça,R.、Caramelo,F.:使用抵抗素、血糖、年龄和BMI预测乳腺癌的存在。BMC癌症。18, 29 (2018).https://doi.org/10.1186/s12885-017-3877-1

    第条 谷歌学者 

  • Pinheiro,E.C.,Ferrari,S.L.:甘贝尔极值分布的推广与风速数据应用的比较审查。J.统计计算。模拟。86(11), 2241–2261 (2016)

    第条 数学科学网 谷歌学者 

  • Prentice,R.L.:剂量反应曲线的Probit和Logit方法的推广。生物计量学。32(4), 761–768 (1976)

    第条 数学科学网 谷歌学者 

  • Stukel,T.:广义逻辑模型。美国统计协会。83(402), 426–431 (1988)

    第条 数学科学网 谷歌学者 

  • Wahed,A.S.,Ali,M.M.:偏逻辑分布。J.统计研究。35, 71–80 (2001)

    数学科学网 谷歌学者 

  • Xu,K.,Xie,M.,Tang,L.C.,Ho,S.L.:神经网络在发动机系统可靠性预测中的应用。申请。软计算。2(4), 255–268 (2003)

    第条 谷歌学者 

下载参考资料

致谢

作者非常感谢经办编辑和两位匿名审稿人提出的各种建设性意见和建议,这些意见和建议极大地改善了论文的呈现。

基金

研究工作没有资金支持。

作者信息

作者和附属机构

作者

贡献

作者MAA、FF和CL在相互协商的情况下完成了这项工作,并共同起草了手稿。所有作者阅读并批准了最终手稿。

通讯作者

与的通信穆罕默德·阿尔贾拉.

道德声明

竞争性利益

通讯作者代表所有作者表示,不存在利益冲突。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

附录

附录

定理证明1

的导数(f)X(X)(x个)英寸(7)由提供

$$ {f} _X(X)^{\素数}(x)=-\frac{1}{\西格玛\mid\sigma\mid}{\左(\exp\left(\frac}x-\mu}{\sigma}\right)+1\右)}^{\xi-2}\exp\左(\ left(\ frac{x-\mu{\simma}\rift)+\left\{1-{\左}-1\right\}/\xi\right)w(x)$$

哪里\(w(x)=\exp\left(\frac{x-\mu}{\sigma}\right){\left.通过设置w个(x个)归零并替换\(\exp\left(\frac{x-\mu}{\sigma}\right)\)通过u个,我们获得(10). 如果ξ={0,1} ,然后从(10)模式为u个=1,相当于,x个=μ.何时ξ ≠ {0,1} ,然后是右侧的曲线(10),k个(u个)=u个(u个 + 1)ξ在中是凸的u个(k个(u个) > 0代表全部u个 > 0)。因此,曲线k个(u个)和线路ξu + (10)左侧的1最多可以相交两次。这意味着w个(x个)=0最多有两个解决方案,这也是(f)(x个)=0.现在,自\(\underset{x\to-\infty}{\lim}{f} X(_X)(x) =\underset{x\to\infty}{\lim}{f} X(_X)(x) =0\),然后(f)X(X)(x个)正好有一个模式。注意,如果我们假设(f)X(X)(x个)有两种(或更多)模式,则w个(x个)=0将有三种解决方案(两种模式和本地最小值)。这与w个(x个)=0最多有两个解决方案,因此,(f)X(X)(x个)是单峰的。

推论2的证明

什么时候?σ > 0,危险函数的导数(9)由提供

$${h}^{\prime}(x)=\frac{1}{\sigma^2}\exp\left(\frac}x-\mu}{\sigma}\right)\left\{\xi\exp\ left(\ frac{x-\mu{\simma}\rift)+1\right\}{\left\{\exp\ leaft$$
(23)

发件人(23),小时(x个) ≥ 0代表所有− ∞  < x个 < ∞, 因此,小时(x个)无论何时都在增加σ > 0.何时σ < 0,通过使用L'Hopital规则,我们发现

\(underset{x\to\infty}{\lim}h(x)=underset}x\to\fity}{lim}\frac{1}{\sigma}\exp\left(\frac{x-\mu}{\sigma}\ right){left\{\exp\ left(\ frac{x-\mu}{\simma}\right)+1\right\}}{\xi-1}+left(\si-1\right)\exp left(2 \ frac{x-\mu}{\sigma}\right){\left\{\exp\left(\frac{x-\mu}{\simma}\rift)+1\right\}}^{\xi-2}}{\frac}1}{\sigma}\mid\sigma\mid\exp\left(\frac{x-\mu}{\sigma}\right){\left\{\exp\left(\frac{x-\mu}{\sigma}\right)+1\right\}^{xi-1}\exp\left(\frac{1}{xi}\left(\frac{x-\mu}{\sigma}\right)+1\right\}^{xi}-1\right)}=\frac{1}}\).

定理证明2

Z轴=(X(X) − μ)/σ,并使用二项式展开,得出

$$E\left({\left|X\right|}^n\right)\le\sum\limits_{i=0}^n\left(\begin{array}{l} n个\\{}i\end{array}\right){\left|\mu\right|}^{n-i}{\left |\sigma\right|}^iE{\leght|Z\right|1}^i$$
(24)

哪里Z轴是E-L{GW}随机变量μ=0和σ=1

现在,使用定义,我们有

$$E\left({\left|Z\right|}^i\right)=\underset{-\infty}{\overset{\infty}{\int}}{\left |Z\right |}^i \exp(Z){\ left(1+exp(Z)\right$$
$$\kern2.04em=\bunderset{-\infty}{\overset{\infty}{\int}}{\left | \mathrm{z}\right |}^i\frac{\exp\left(\mathrm{z}\right)}{\left(1+\exp\left(\mathrm{z}\right)\ right)}^2}g\left(\mathrm{z}\right)dz$$
(25)

哪里(z(z))=(1 + 经验(z(z)))ξ + 1经验{−[(1 + 经验(z(z)))ξ − 1]/ξ}. 通过使用初等微积分,我们发现\(\underset{-\infty<z<\infty}{\sup}\left\{g(z)\right\}={e}^{-1}{\ left(1+\xi\right)}^{1/\xi+1}\).来自(25)我们得到,

$$E\左({\left|\mathrm{Z}\right|}^i\右)\le{E}^{-1}{\左(1+\xi\right)}^{1/\xi+1}E\左$$
(26)

哪里\(E\left({\left|L\right|}^i\right)=\underset{-\infty}{\overset{\infty}{\int}}{\left | \mathrm{z}\right|}^i\frac{\exp\left标准logistic分布的绝对矩。

使用(26)英寸(24),结果为(13)获得。

定理证明3

Z轴=(X(X) − μ)/σ.我们有

$$E\left({X}^r\right)=\sum\limits_{n=0}^r\left(\begin{array}{c} 第页\\{}n\end{array}\right){\mu}^{r-n}{\sigma}^nE\left({Z}^n\right)$$

使用公式(11)、时刻E类(Z轴n个)获得方式为

$$E\左({Z}^n\右)=\sum\limits_{i=0}^{\infty}\sum\limits_{j=0}^{\infty}{\omega}_{i,j}E\左({左}_{j+1}^n\right)$$
(27)

因此,结果是(14)来自(27)直接。

命题3的证明

Z轴=(X(X) − μ)/σ,然后是的MGFZ轴可以写为

$$ {M} Z轴(_Z)(t) ={\int}_{-\infty}^{\infty}\exp\left(zt+z\right){\left$$
(28)

设置时u个=[(1 + 经验(z(z)))ξ − 1]/ξ英寸(28),我们获得

$$ {M} Z轴(_Z)(t) ={\int}_0^{\infty}{\左({\left(1+\xiu\right)}^{1/\xi}-1\右)}^t\exp\左(-u\右)du$$
(29)

使用广义二项式定理\({\left(x+y\ right)}^{\alpha}=\sum\limits_{i=0}^{\ infty}\frac{\Gamma\left, (29)可以写为

$$ {M} Z轴(_Z)(t) =\sum\limits_{i=0}^{\infty}\frac{\Gamma\left(t+1\ right){\left$$

通过在Gradshteyn和Ryzhik中使用公式(3.382–4)(2000),我们获得

$$ {M} Z轴(_Z)(t) =\sum\limits_{i=0}^{\infty}\frac{\Gamma\left(t+1\right){\left$$
(30)

现在,MGFX(X)=μ + σZ定义为

$$ {M} X(_X)(t) =E\左(\exp(Xt)\右)=\exp\左(\ mut\右){M} Z轴(_Z)\左(\sigma t\right)$$
(31)

使用(31)带有(30),结果为(15)获得。

注意,增加的值t吨这使得(15)存在可以直接从(29)通过注意到u个 < ((1 + ξu)1/ξ − 1) < e(电子)u个什么时候u个 > 0, 0 < ξ < 1和0 < ((1 + ξu)1/ξ − 1) < u个什么时候u个 > 0,ξ ≥ 1

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用本文

Aljarrah,M.A.,Famoye,F.&Lee,C.广义逻辑分布及其回归模型。J Stat Distribute应用程序 7, 7 (2020). https://doi.org/10.1186/s40488-020-00107-8

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s40488-020-00107-8

关键词

2010年数学学科分类