跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2023; 50(11-12): 2648–2662.
2022年1月1日在线发布。 数字对象标识:10.1080/02664763.2021.2019688
预防性维修识别码:项目编号10388823
PMID:37529575

使用带有时变和自由索引协变量的非对称时间序列模型的混合物对美国各州的新型冠状病毒肺炎病例进行稳健聚类

关联数据

补充资料

摘要

在本文中,我们使用正态尺度混合(TP-SMN)族,在灵活的两件分布类下,开发了一个具有时变和自由索引协变量的混合自回归(MoAR)过程模型。这种新颖的时间序列族(TP-SMN-MoAR)模型被用于检查美国313个县报告的19型冠状病毒病例的灵活和稳健聚类。TP-SMN分布允许对称/非对称分布以及重尾分布,为处理离群值和复杂数据提供了灵活性。通过开发TP-SMN族的适当层次表示,可以构造伪似然函数,从而通过EM型算法得出最大伪似然估计。

关键词:EM算法、协变量、自回归模型的混合、基于模型的聚类、正态分布的比例混合、两段分布

1.简介

在许多科学领域,可以同时实现多个时间序列。在生物和医学图像分析中,例如在心电图(ECG)、脑电图(EEG)和功能磁共振成像(fMRI)实验中。同样,传染病的例子包括不同地区的死亡率或每日接种疫苗。如果这些时间序列中存在相当大的可变性或异质性,则可能需要根据其时间序列属性来确定子组。时间序列数据集的聚类是一种重要的统计方法,受到了广泛关注(参见Liao[16]并进一步讨论Esling和Agon中的不同方法[10]). 时间序列聚类的主要统计方法之一是使用混合模型,该模型以行为类似的数据组的形式检查数据中的潜在模式。

基于混合模型的时间序列聚类的一些文献包括Cadez. [8]他使用混合马尔可夫链模型。熊和杨[32]使用混合自回归移动平均回归模型对ECG、EEG、人群和温度数据集进行聚类。Luan和Li采用了各种形式的混合效应模型[15],赛勒. [9]和Scharl. [31]用于时间进程基因表达数据集的聚类。阮(Nguyen). [29]考虑使用MM[最小化-最大化]算法对空间相关时间序列数据进行聚类的混合自回归模型,然后他们考虑使用基于边际似然的推断来获得Nguyen模型参数的最大伪似然(MPL)估计. [28].

基于高斯分布的时间序列数据集聚类在应用中存在一些问题,例如,离群值的存在和不对称行为会对结果产生显著影响。因此,在时间序列模型的结构中使用对称/非对称的轻/重尾分布为许多应用提供了灵活而稳健的方法,如Maleki和Nematolahi[22],扎林. [33],加萨米. [12]哈贾贾比和马勒基[13],加萨米. [11]和Maleki. [19,21]. 基于正态(TP-SMN)族比例混合的两段分布是一类丰富的对称/非对称分布,由Maleki和Mahmoudi引入了轻尾/重尾分布[20]、莫雷夫韦吉等。[27]和Arellano-Valle等。[2]. TP-SMN分布在对各种统计模型进行稳健推断方面的性能已在以前的研究中显示,如Maleki. [18],霍塞因扎德. [14]巴克霍达尔. [5]和Maleki. [19,21,24].

在这项工作中,我们概括了阮的工作. [28]通过使用基于TP-SMN分布的具有时变和自由指数协变量的自回归模型的有限混合。由于具有似然推断的MoAR模型存在问题和计算问题[28],我们考虑所提出的模型的伪似然函数,以获得使用EM算法获得的模型的MPL估计。我们展示了该模型在美国城市中对新型冠状病毒肺炎病例进行聚类的性能。

本文的其余部分组织如下。在节中2,我们回顾了TP-SMN分布的一些性质。在节中介绍了基于TP-SMN分布的具有时变和自由指数协变量的自回归模型的有限混合。基于EM型算法的建议模型的MPL估计值在第节中获得4.在第节中5介绍了所提出的模型和对美国城市新冠肺炎数据集的估计的应用。我们还使用模拟数据给出了数值实验的结果,模拟数据的性质与实际数据相似。第节给出了一些结论性意见6.

2.TP-SMN分布族

在本节中,我们简要回顾了TP-SMN分布族的一些性质。

安德鲁斯和马尔洛介绍的著名SMN家族[4]被认为是具有以下概率密度函数(pdf)的鲁棒不对称TP-SMN族的基础,

(f)n个(x个;μ,σ,ν)=0ϕ(x个;μ,u个1σ2)d日H(H)(u个;ν),x个,
(1)

以及由以下公式给出的随机表示

X(X)=μ+σU型1/2W公司,
(2)

哪里ϕ(;μ,σ2)表示的密度N个(μ,σ2)分配,H(H)(;ν)是比例混合随机变量的累积分布函数(cdf)U型可以通过参数的标量或矢量进行索引ν、和W公司是独立于U型上述随机变量的分布可表示为X(X)S公司M(M)N个(μ,σ,ν).

TP-SMN是一个包含非对称光尾两段正态分布(TP-N,也包括Epsilon-Skew-normal[23])非对称重尾两段t(TP-t)、两段斜杠(TP-SL)和两段污染正态(TP-CN)分布及其相应的对称分布。就密度而言,此家族表示为

(f)t吨第页.n个(x个;μ,σ,γ,ν)={2(1γ)(f)n个(x个;μ,σ(1γ),ν),x个μ,2γ(f)n个(x个;μ,σγ,ν),x个>μ,
(3)

哪里0<γ<1是斜面参数,(f)n个(;μ,σ,ν)由(1)给出,表示为Y(Y)TP-SMN公司 (μ,σ,γ,ν).

注意,在对称情况下(γ=0.5),TP-SMN分布对应于SMN公司分配。

提议2.1:

X(X)T型P(P)- S公司M(M)N个(μ,σ,γ,ν),那么 X(X) 具有以下给定的随机表示

X(X)=μ+γS公司(γ1)1S公司U型1/2|W公司|,

哪里 W公司N个(0,σ2),标度随机变量 U型H(H)(u个;ν) 和指标随机变量 S公司二项式(1,γ),其中 W公司, U型 S公司 是相互独立的随机变量。指标随机变量 S公司 具有以下概率质量函数(pmf):

P(P)(S公司=)=γ(1γ)1;=0,1

有关TP-SMN分销的更多详细信息和家庭成员,请参阅补充材料S.1。

3.具有时间和自由指数协变量的自回归过程的混合

Y(Y)j个t吨表示随机变量在时间上的值t吨(t吨=1,,n个j个)来自组j个(j个=1,,N个)。目的是将N个分组到通过使用-成分混合模型。假设Z轴j个是一个组件诱导随机变量,指示组的组件成员身份j个. Thej个-第个观测属于我-具有概率的th分量P(P)(Z轴j个=)=π(=1,,;j个=1,,N个),因此π>0=1π=1.

有阶自回归时间序列(MoAR)过程的混合第页响应变量的顺序q个时变协变量和阶数自由指数协变量的形式为:

Y(Y)j个t吨==1αX(X)j个+小时=1q个ϕ小时W公司j个t吨小时+k个=1第页βk个Y(Y)j个,t吨k个+εj个t吨;εj个t吨T型P(P) - S公司M(M)N个(μ,σ,γ,ν),

有概率的π;=1,,,用于j个=1,,N个,其中α=(α1,,α)我-第个回归系数,ϕ=(ϕ1,ϕ2,,ϕ小时)我-第个时间指数协变量系数,β=(β1,β2,,β第页)我-自回归系数与创新εj个t吨的是IID(独立且同分布)正态序列的两段式比例混合。

我们这么说Y(Y)j个=(Y(Y)j个1,,Y(Y)j个n个j个),来自具有协变序模型的自回归时间序列的g分量混合第页并用表示TP-SMN-MoAR公司 (第页,)假设第一个第页的元素Y(Y)j个那么是非随机的j个=1,,N个t吨=第页+1,,n个j个,我们有以下条件分布

Y(Y)j个t吨|Z轴j个=T型P(P) - S公司M(M)N个(μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν),

哪里X(X)j个=(X(X)j个1,,X(X)j个),W公司j个t吨=(W公司j个t吨1,,W公司j个t吨q个),Y(Y)j个(t吨)=(Y(Y)j个,t吨1,,Y(Y)j个,t吨第页).

此后,我们将模型参数表示为Θ=(π1,,π1,θ1,,θ)每个组件参数由以下公式给出θ=(α,ϕ,β,μ,σ,γ,ν).

利用自回归过程的马尔科夫性质,我们刻画了Y(Y)j个通过联合密度函数

(f)(j个;Z轴j个=,θ)=t吨=第页+1n个j个(f)t吨第页.n个(j个t吨;μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν),j个=1,,N个.

因此TP-SMN-MoAR公司 (第页,)模型具有以下pdf

(f)M(M)o(o)d日e(电子)(;Θ)==1πt吨=第页+1n个j个(f)t吨第页.n个(j个t吨;μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν),

我们可以写出IID样本的对数似然Y(Y)=(Y(Y)1,,Y(Y)N个)作为

(Θ|Y(Y))=j个=1N个日志(=1πt吨=第页+1n个j个(f)t吨第页.n个(j个t吨;μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν)),
(5)

其中参数Θ=(π1,,π1,θ1,,θ)传统上是通过最大化(Θ|Y(Y))由(5)给出,没有明确的解决方案,还有一个“产品问题”,这在阮中有描述. [28]. 为了克服这个困难,我们使用EM型算法[7,25]作为MPL的替代方案,无需使用数字技巧即可解决产品问题。

TP-SMN-MoAR模型的观测信息矩阵如下所示J型(Θ|)=2(Θ|)ΘΘ,其中(Θ|)=j个=1N个j个(Θ)在哪儿j个(Θ)=日志(=1πt吨=第页+1n个j个(f)t吨第页.n个(j个t吨;μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν)),获得。众所周知,在某些正则性条件下毫升估计Θ^可以近似为J型(Θ|)因此,继巴斯福德之后. [6]和林. [17],我们评估

J型(Θ|)=j个=1N个^j个^j个,

哪里^j个=j个(Θ)Θ|Θ=Θ^现在,考虑向量^j个它被划分为与中的所有参数相对应的组件Θ作为^j个=(^j个,π,^j个,ϱ1,,^j个,ϱ),哪里^j个,π=(^j个,π1,,^j个,π1)ϱ=α,ϕ,β,μ,σ,γ,ν;=1,,,其坐标元素=1,,由提供

^j个,π=t吨=第页+1n个j个(f)t吨第页.n个(d日j个t吨;θ)t吨=第页+1n个j个(f)t吨第页.n个(d日j个t吨;θ)(f)M(M)o(o)d日e(电子)(j个|Θ),^j个,ϱ=πD类ϱ(t吨=第页+1n个j个(f)t吨第页.n个(d日j个t吨;θ))(f)M(M)o(o)d日e(电子)(j个|Θ),

对于其中D类ϱ[t吨=第页+1n个j个(f)t吨第页.n个(d日j个t吨;θ)]=t吨=第页+1n个j个(f)t吨第页.n个(d日j个t吨;θ)/ϱ(补充材料(S.2)中包含了拟议观测信息矩阵的更多详细信息)。

4.TP-SMN-MoAR模型参数的MPL估计

的对数伪似然(PL)函数的构造TP SMN移动电话 (第页,)IID样本的模型Y(Y)=(Y(Y)1,,Y(Y)N个)可以定义为

P(P)(Θ|Y(Y))=j个=1N个t吨=第页+1n个j个日志(=1π(f)t吨第页.n个(j个t吨;ξj个t吨,σ,γ,ν)),
(6)

哪里ξj个t吨=μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨).

因此,使用命题2.1给出的TP-SMN分布的随机表示,并使用不完全数据框架,以下是TP-SMN-MoAR模型的分层表示j个=1,,N个;t吨=第页+1,,n个j个;=1,,,由提供

Y(Y)j个t吨|Z轴j个=,U型j个=u个j个,S公司j个t吨=j个t吨n个d日.N个(ξj个t吨,γ2j个t吨(1γ)22j个t吨σ2/u个j个)A类(j个t吨)1j个t吨A类c(c)(j个t吨)j个t吨,

P(P)(S公司j个t吨=j个t吨|Z轴j个=,U型j个=u个j个)=γj个t吨(1γ)1j个t吨;j个t吨=0,1,

U型j个|Z轴j个=n个d日.H(H)(u个j个;ν),

P(P)(Z轴j个=)=π,
(7)

哪里A类=(,ξj个t吨]N个()A类()表示区间上截断的单变量正态分布A类.

=(1,,,N个),x个=(x个1,,,x个N个),w个=(w个1,,,w个N个),z(z)=(z(z)1,,z(z)N个),u个=(u个1,,u个N个)=(1,,N个),=1,,,为此u个j个=(u个j个1,,u个j个)j个=(j个1,,j个n个j个)对于j个=1,,N个因此,考虑到完整的数据c(c)=(,x个,z(z),u个,1,,),并使用TP-SMN-MoAR公司 (第页,)模型,阿诺德和施特劳斯的log-PL定义[](忽略常数),由下式给出

P(P)c(c)(Θ|c(c))=j个=1N个=1t吨=第页+1n个j个[](z(z)j个){日志π+日志(f)t吨第页.n个(j个t吨;μ+αX(X)j个+ϕW公司j个t吨+βY(Y)j个(t吨),σ,γ,ν)}==1日志πj个=1N个t吨=第页+1n个j个[](z(z)j个)=1日志σj个=1N个t吨=第页+1n个j个[](z(z)j个)12=1j个=1N个t吨=第页+1n个j个[](z(z)j个)u个j个(γ[1](j个t吨)(1γ)[0](j个t吨)σ)2(j个t吨ξj个t吨)2,
(8)

哪里[](z(z)j个)为1,如果j个t吨属于我-th分量(即。z(z)j个=),否则为零,[1](j个t吨)为1,如果j个t吨属于A类否则为零,以及[0](j个t吨)为1,如果j个t吨属于A类c(c)否则为零。

使用log-PL,我们使用EM算法估计参数。从一些初始值开始Θ(0),以及(8)的期望值Θ(k个)对于Θ,可以写为

(Θ|Θ(k个))==1日志πj个=1N个t吨=第页+1n个j个ηj个t吨(Θ(k个))=1日志σj个=1N个t吨=第页+1n个j个ηj个t吨(Θ(k个))12=11σ2j个=1N个t吨=第页+1n个j个ηj个t吨(Θ(k个))κj个t吨(Θ(k个))(γψj个t吨(Θ(k个))(1γ)1ψj个t吨(Θ(k个)))2(j个t吨ξj个t吨)2
(9)

哪里

ηj个t吨(Θ)=π(f)t吨第页.n个(j个t吨;ξj个t吨,σ,γ,ν)=1π(f)t吨第页.n个(j个t吨;ξj个t吨+μ,σ,γ,ν),κj个t吨(Θ)=ν+1ν+e(电子)j个t吨,ψj个t吨(Θ)=(ξj个t吨,+)(j个t吨),

对于其中e(电子)j个t吨=(j个t吨ξj个t吨σρj个t吨)2,因此ρj个t吨=(1γ)(,ξj个t吨](j个t吨)+γ(ξj个t吨,+)(j个t吨).

E级:鉴于Θ=Θ^(k个)并通过上述计算计算ηj个t吨(Θ^(k个)),κj个t吨(Θ^(k个))ψj个t吨(Θ^(k个))对于t吨=第页+1,,n个j个,j个=1,,N个=1,...,.

在限制条件下执行M步骤=1π=1建造拉格朗日Λ(Θ,λ)=(Θ|Θ(k个))+λ(=1π1),我们通过求解对应于一阶条件的方程,在EM方法中最大化(9)Λ(Θ,λ)=0,其中是渐变操作符,它生成以下更新:

CM-步骤:更新Θ(k个)(表示为Θ(k个+1))通过最大化(Θ|Θ(k个))结束Θ,具有以下更新=1,,:

π^(k个+1)=j个=1N个t吨=第页+1n个j个ηj个t吨(Θ^(k个))j个=1N个n个j个,

α^(k个+1)=(j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))X(X)j个X(X)j个)1j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))×(j个t吨W公司j个t吨ϕ(k个)Y(Y)j个(t吨)β(k个)μ^(k个))X(X)j个,

ϕ^(k个+1)=(j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))W公司j个t吨W公司j个t吨)1j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))×(j个t吨X(X)j个α^(k个+1)Y(Y)j个(t吨)β^(k个)μ^(k个))W公司j个t吨,

β^(k个+1)=(j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))Y(Y)j个(t吨)Y(Y)j个(t吨))1j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))×(j个t吨X(X)j个α^(k个+1)W公司j个t吨ϕ^(k个+1)μ^(k个))Y(Y)j个(t吨),

μ^(k个+1)=j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))(j个t吨X(X)j个α^(k个+1)W公司j个t吨ϕ^(k个+1)Y(Y)j个(t吨)β^(k个+1))j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个)),

σ^2(k个+1)=j个=1N个t吨=第页+1n个j个ζj个t吨(Θ^(k个))(j个t吨ξj个t吨(k个+1))2j个=1N个t吨=第页+1n个j个ηj个t吨(Θ^(k个)),

γ^(k个+1)=阿格米n个γ(0,1)j个=1N个t吨=第页+1n个j个ηj个t吨(Θ(k个))κj个t吨(Θ(k个))(γψj个t吨(Θ(k个))(1γ)1ψj个t吨(Θ(k个)))2(j个t吨ξj个t吨(k个+1))2,

哪里ζj个t吨(Θ)=ηj个t吨(Θ)κj个t吨(Θ)γ2ψj个t吨(Θ)(1γ)22ψj个t吨(Θ)ξj个t吨(k个)=μ^(k个)+X(X)j个α(k个)+W公司j个t吨ϕ(k个)+Y(Y)j个(t吨)β^(k个).

CML步骤:在最后一步,更新ν=(ν1,,ν)通过最大化对数似然函数(5)

ν^(k个+1)=阿格玛x个νj个=1N个t吨=第页+1n个j个日志(=1π^(k个+1)(f)t吨第页.n个(j个t吨;ξj个t吨(k个+1),σ^(k个+1),γ^(k个+1),ν)).

重复迭代,直到满足合适的收敛规则,例如。|(Θ^(k个+1)|)(Θ^(k个)|)(Θ^(k个)|)|ε在确定的公差下ε,其中(Θ|)由(5)给出。

执行模型基于聚类,人们通常会利用插件Bayes的规则进行风险最小分配。z(z)~j个(Θ){1,,}是插件Bayes的观察分配j个并注意到ηj个(Θ~)是估计的观测后验概率j个属于-第个集群。在当前背景下,观察Y(Y)j个可以通过插件Bayes规则进行分配z(z)~j个=阿格玛x个=1,,ηj个(Θ~).在应用程序中,我们可以这样说z(z)¯j个{1,,}是的伪分配Y(Y)j个并将其定义为z(z)¯j个=阿格玛x个=1,,η¯j个(Θ~),哪里η¯j个(Θ~)=t吨=第页+1n个j个ηj个t吨(Θ~)/(n个第页)z(z)¯j个是的群集伪分配Y(Y)j个.

5.数值研究

在本节中,我们考虑进行仿真研究,以显示TP-SMN-MoAR模型的MPL估计性能。然后,我们将该模型应用于美国各地新冠肺炎的聚集病例。

数据分析使用软件[30]3.6.1版,核心i7 760处理器2.8 GHz。如有要求,作者可提供R代码的样本副本。该算法在E步和M步之间迭代,直到达到收敛,并且可以使用一系列初始值来确保收敛到全局最大值。在仿真结果中,我们没有发现所提出的算法对这些值特别敏感,具有良好的收敛性,并且在所有运行中都获得了结果。

5.1. 模拟

我们考虑以下几点TP–SMN–MoAR数值实验的(1,2)模型,由

{Y(Y)j个t吨=α1X(X)j个+ϕ1W公司j个t吨+β1Y(Y)j个,t吨1+ε1,具有可能性πY(Y)j个t吨=α2X(X)j个+ϕ2W公司j个t吨+β2Y(Y)j个,t吨1+ε2,具有可能性1π,

对于j个=1,,200,因此X(X)j个U型(0,1)并且独立于W公司j个t吨N个(0,1)、和

ε1T型P(P) - S公司M(M)N个(μ1=0,σ1=1,γ1=0.25,ν1=4),

ε2T型P(P) - S公司M(M)N个(μ2=0,σ2=2,γ2=0.75,ν2=6),

从上述模型中总共生成了500个样本,每个样本都有n个=50,120,300基于TP-N-MoAR、TP-T-MoAR和TP-SL-MoAR模型,参数值如下:

π=0.4;(α1,ϕ1,β1)=(1,0.5,0.7);(α2,ϕ2,β2)=(2,0.9,0.3),

通过所提出的EM算法计算每个样本的MPL估计值。MPL估计值的平均值(Av-MPL),以及每个样本中相应的均方误差(MSE)k个(=1,,500)对于每个参数θΘ,分别由定义

平均值-MPL(θ)=1500k个=1500θ^k个MSE公司(θ)=1500k个=1500(θk个θ^k个)2,

哪里θ^k个是MPL估计值θ在中k个-第个样本。计算结果如表所示1,表明估计值相当准确,并且具有良好的一致性。因此,拟议的新兴市场-type算法对所提出的模型进行了令人满意的估计。

表2。

美国Covid-19数据中含有不同数量部件的TP-T-MoAR模型的AIC值。

组件数量 =2 = =4 =5 =6
AIC公司204.025203.501201.866202.714203.874

表3。

美国Covid-19数据中各种TP-SMN-MoAR模型的AIC值。

MoAR模型正常TP-N公司TP-T公司TP-SL公司TP-CN公司
AIC公司204.736205.174201.866202.037201.998

表1。

TP-SMN-MoAR(1,2)的点MPL估计的平均值和MSE(括号内)n个=50,120,300.

  n个 α1 ϕ1 β1 μ1 σ1 γ1 ν1 π1
第一次比较。TP-N-MoAR公司
 501.11820.55300.74370.16171.20110.27030.4302
  (0.0209)(0.0045)(0.0050)(0.0533)(0.0288)(0.0006) (0.0041)
  (0.0102)(0.0021)(0.0046)(0.0075)(0.0211)(0.0003)(0.0013)
 1200.92030.49020.71100.08471.04530.26010.4187
  (0.0102)(0.0021)(0.0046)(0.0075)(0.0211)(0.0003) (0.0013)
 3000.98030.50860.70980.01231.03830.24020.4098
  (0.0093)(0.0018)(0.0033)(0.0004)(0.0093)(0.0002) (0.0011)
 TP-T-MoAR公司
 501.10650.54930.73900.11361.27330.27324.83910.3732
  (0.0195)(0.0089)(0.0064)(0.0454)(0.0302)(0.0010)(0.5540)(0.0044)
 1201.08730.49210.71030.05081.03020.25934.30210.4108
  (0.0094)(0.0032)(0.0050)(0.0044)(0.0202)(0.0007)(0.0894)(0.0011)
 3001.08100.50640.70650.01130.97020.25904.19820.4088
  (0.0092)(0.0024)(0.0038)(0.0006)(0.0103)(0.0003)(0.0396)(0.0009)
 TP-SL-MoAR公司
 500.84300.55020.74110.12031.30220.27714.90190.4290
  (0.0189)(0.0091)(0.0069)(0.0573)(0.0411)(0.0013)(0.6105)(0.0044)
 1201.09020.50670.70750.05811.03100.26114.46220.3840
  (0.0095)(0.0036)(0.0054)(0.0056)(0.0198)(0.0006)(0.0926)(0.0015)
 3001.08220.50660.70630.00991.01930.25923.80010.4067
  (0.0093)(0.0028)(0.0042)(0.0011)(0.0112)(0.0002)(0.0433)(0.0010)
  n个 α2 ϕ2 β2 μ2 σ2 γ2 ν2 π2
第二次补偿。TP-N-MoAR公司
 502.09960.9487−0.26820.14602.21120.72950.5698
  2.09960.9487−0.26820.14602.21120.7295 0.5698
 1202.02750.9078−0.28900.06031.96300.76170.5813
  (0.0111)(0.0035)(0.0036)(0.0061)(0.0231)(0.0006) (0.0013)
 3001.98340.9071−0.29240.02012.03000.75430.5902
  (0.0099)(0.0029)(0.0029)(0.0015)(0.0111)(0.0004) (0.0011)
 TP-T-MoAR公司
 501.88700.9531−0.25970.09982.31030.77216.50950.6268
  (0.0201)(0.0101)(0.0073)(0.0379)(0.0408)(0.0015)(0.6004)(0.0044)
 1202.08650.8926−0.28930.03192.03080.76195.62310.5892
  (0.0102)(0.0038)(0.0039)(0.0052)(0.0202)(0.0011)(0.0832)(0.0011)
 3002.05040.9060−0.29430.01002.02110.75836.14000.5912
  (0.0097)(0.0032)(0.0028)(0.0014)(0.0115)(0.0010)(0.0402)(0.0009)
 TP-SL-MoAR公司
 502.11020.9533−0.25040.10082.27450.77265.40280.5710
  (0.0210)(0.0065)−0.2504 (0.0079)(0.0411)(0.0311)(0.0013)(0.5938)(0.0044)
 1202.06540.8921−0.28540.04082.03210.74016.21030.6160
  (0.0114)(0.0028)(0.0046)(0.0066)(0.0221)(0.0011)(0.0977)(0.0015)
 3002.05410.9081−0.29010.00971.97360.75826.10740.5933
  (0.0097)(0.0023)(0.0038)(0.0010)(0.0113)(0.0009)(0.0390)(0.0010)

5.2. 新型冠状病毒肺炎在美国的应用

在本部分中,我们分析了由FIPS地理代码表示的时间序列数据集,该数据集用于2020年4月16日至2020年8月13日美国313个县120天内报告的新型冠状病毒肺炎总病例(参考美国各州的新型冠型病毒肺炎病例,https://coronavirus.jhu.edu/us-map).

美国城市数据集中的静态(协变量)包含每个感染率可传播病例(X(X)1),感染率疾病传播(X(X)2),健康环境人口统计(X(X))、健康环境共病(X(X)4)、健康环境差异(X(X)5)、各县流动性得分{W公司t吨}在对时间指标变量进行两次差分并确保数据平稳后,我们使用了Akaike信息准则(AIC[1])确定最佳方案的标准TP-SMN-MoAR公司 (第页,)使用各种订单的模型(第页=1,2,,4,5,6,7,8,9,10)每个人都有=2,,4,5,6以及TP–SMN公司家庭检查;见表2–3。最佳模型是TP-T-MoAR公司 (第页=8,=4)包括表中的以下TP-T参数估计4注意以下较小的估计值ν,以及γ这表明需要考虑非对称和稳健的模型。

表4。

将TP-T混合物模型拟合到美国Covid-19数据的最大伪似然估计结果。

 第1部分第2部分第3部分第4部分
标准。MPLE公司瑞典。MPLE公司瑞典。MPLE公司瑞典。复数瑞典。
μ 17.0459 0.2317 1.7153 0.1837 6.3778 0.0947 3.5333 0.1027
σ 75.1294 0.4028 9.5162 0.1152 26.4718 0.1983 30.2176 0.2301
γ 0.5708 0.0093 0.4512 0.0104 0.4437 0.0111 0.4243 0.0098
ν 1.3918 0.0847 1.1223 0.0566 2.4628 0.0937 1.2218 0.0919
π 0.1964 0.0104 0.3602 0.0125 0.2232 0.0176 0.2202 0.0098

1以地图的形式显示了美国313个县的集群。图中提供了每个集群的时间序列图2图中还绘制了每个簇的平均轨迹.根据图2和3,,集群2和集群3中存在一些异常路径,这表明了稳健建模的必要性。补充材料(表S.3)中包含了各县及其所属集群的完整列表。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0001_c.jpg

基于MoAR模型对美国313个县进行聚类。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0002_OC.jpg

四个集群中313个美国县的每日19型冠状病毒病例数。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0003_OC.jpg

美国313个县每天的Covid-19病例数的每个集群的平均轨迹。

结果显示了每个集群的平均轨迹(图)建议第一组(绿色)代表在此期间病例数量呈指数增长的县。从图中1,这些县似乎也相对接近(空间上)。相比之下,属于第二组(紫色)的县的病例相对稳定。

聚类标准化回归系数[26]图中还显示了它们的路径4。通过这些路径可以发现协变量在每个簇上的重要性,以及与其他簇的比较。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0004_OC.jpg

四个集群中313个美国县的Covid-19病例数据拟合模型中协变量标准化系数的路径图。

结果表明,健康环境差异(X(X)4)在大多数簇群(第二簇群除外)和不同方式(第四簇群为正,第一簇和第三簇群为负)中,对Covid-19病例起着重要作用。在第二组中,与所研究的所有因素相关的贡献或重要性相对均衡。传染性病例感染率(X(X)1)在第三类中发挥了非常重要的作用,在第一类中的作用较小,而在第二类和第四类中则不太重要。有趣的是,移动性(X(X)5)在第四组中是重要的,与病例呈负相关,但在其他组中不重要。需要进一步研究,以检查每个集群中县的特殊特征,从而解释这些结果。

6.结论

我们利用正态(TP-SMN)族的尺度混合(scale mixes of normal),在两段分布的柔性类下,发展了一个具有时变和自由指数协变量的混合自回归时间序列过程。该模型允许在各种情况下对时间序列模型进行灵活和稳健的聚类,包括不对称和重尾数据。利用美国313个县的19型冠状病毒病例的时间序列对模型的性能进行了检验,揭示了类似行为的时间序列过程。进一步的研究将是开发一种贝叶斯方法,用于这些类型的模型,以实现更大的灵活性和计算效益。

补充材料

补充材料:

确认

作者也非常感谢主编、副主编和两位审稿人的建议、更正和鼓励,这有助于我们改进原稿的早期版本。我们还要感谢杰弗里·麦克拉克伦教授对模型定义和结论的有益评论。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Akaike H。,统计模型识别的新视角.IEEE传输。自动。控制 19(1974年),第716-723页。[谷歌学者]
2Arellano-Valle R.B.、Gómez H.和Quintana F.A。,一类非对称分布的统计推断.J.统计。计划。推理。 128(2005),第427–443页。[谷歌学者]
三。阿诺德·不列颠哥伦比亚省和斯特劳斯·D·。,伪似然估计:几个例子.Sankhya B公司 53(1991),第233-243页。[谷歌学者]
4Andrews D.R.和Mallows C.L。,正态分布的比例混合.J.R.公司。统计文件序列。B类 36(1974年),第99-102页。[谷歌学者]
5Barkhordar Z.、Maleki M.、Khodadadi Z.、Wraith D.和Negahdari F。,正态同方差非线性回归模型两段尺度混合的贝叶斯方法.J.应用。斯达。(2020). 10.1080/02664763.2020.1854203.[PMC免费文章][公共医学] [交叉参考][谷歌学者]
6Basford K.E.、Greenway D.R.、Mclachlan G.J.和Peel D。,正态混合物拟合分量平均值的标准误差.计算。斯达。 12(1997),第1-17页。[谷歌学者]
7Dempster A.P.、Laird N.M.和Rubin D.B。,通过EM算法从不完整数据中获得最大似然.J.R.公司。统计社会服务。B Methodol公司。 39(1977年),第1-22页。[谷歌学者]
8Cadez I.V.、Gaffney S.和Smyth P.,聚类个人和对象的通用概率框架。第六届ACM SIGKDD知识发现和数据挖掘国际会议记录(第140-149页)。美国马萨诸塞州波士顿;2000
9Celeux G.、Martin O.和Lavergne C。,基于重复微阵列实验的线性混合模型聚类基因表达谱.统计建模。 5(2005),第243–267页。[谷歌学者]
10Esling P.和Agon C。,时间序列数据挖掘.ACM公司。计算。Surv公司。 45(2012),第1-34页。[谷歌学者]
11Ghasami S.、Maleki M.和Khodadadi Z。,稳健对称和非对称时间序列模型的Leptokurtic和platykurtic类.J.计算。申请。数学。 376(2020a),第112806页。2016年10月10日/j.cam.2020.112806。[交叉参考][谷歌学者]
12Ghasami S.、Khodadadi Z.和Maleki M。,具有广义双曲新息的自回归过程.Commun公司。统计-模拟。计算。 49(2020b),第3080-3092页。[谷歌学者]
13.Hajrajabi A.和Maleki M。,非线性半参数自回归模型,具有斜法向新息的尺度混合的有限混合.J.应用。斯达。 46(2019),第2010-2029页。[谷歌学者]
14Hoseinzadeh A.、Maleki M.和Khodadadi Z。,使用不对称和重尾两段分布的异方差非线性回归模型.AStA高级统计分析。(2020). 10.1007/s10182-020-00384-3。[交叉参考][谷歌学者]
15栾毅、李宏。,基于B样条混合效应模型的时程基因表达数据聚类.生物信息学。 19(2003),第474-482页。[公共医学][谷歌学者]
16廖天伟。,时间序列数据的聚类——一项调查.模式识别器。 38(2005),第1857-1874页。[谷歌学者]
17林天一、李嘉诚、谢伟杰。,基于斜t分布的稳健混合建模.统计计算。 17(2007),第81-92页。[谷歌学者]
18Maleki M.、Barkhordar Z.、Khodadadi Z.和Wraith D。,一类稳健的同方差非线性回归模型.J.统计。计算。模拟。 89(2019年),第2765-2781页。[谷歌学者]
19Maleki M.、Hajrajabi A.和Arellano-Valle R.B。,对称和非对称混合自回归过程.巴西J.Probab。斯达。 34(2020a),第273-290页。[谷歌学者]
20Maleki M.和Mahmoudi M.R。,基于正态族尺度混合的两段位置尺度分布.Commun公司。统计-理论方法 46(2017),第12356–12369页。[谷歌学者]
21Maleki M.、Mahmoudi M.R.、Wraith D.和Pho K.H。,预测新冠肺炎确诊和恢复病例的时间序列建模.旅行医学感染。数字化信息系统。 37(2020c),第101742页。10.1016/j.tmaid.2020.101742。[公共医学] [交叉参考][谷歌学者]
22Maleki M.和Nematolahi A.R。,高斯新息尺度混合自回归模型.伊朗科学杂志。Technol公司。事务处理。科学。 41(2017a),第1099–1107页。[谷歌学者]
23Maleki M.和Nematolahi A.R。,ε-偏斜正态族的贝叶斯方法.Commun公司。统计-理论方法 46(2017b),第7546–7561页。[谷歌学者]
24Maleki M.、Wraith D.、Mahmoudi M.R.和Contreras-Reyes J.E。,非对称重尾向量自回归过程及其在金融数据中的应用.J.统计。计算。模拟。 90(2020b),第324-340页。[谷歌学者]
25McLachlan G.J.和Peel D。,有限混合模型,威利,纽约,2000年。[谷歌学者]
26梅纳德S。,标准化回归系数,英寸圣人社会科学研究方法百科全书刘易斯·贝克M.S.、布莱曼A.、廖T.F.主编,《圣人出版》,加利福尼亚州千橡树,2004年。第1069–1070页。10.4135/9781412950589.n959。[交叉参考][谷歌学者]
27Moravveji B.、Khodadadi Z.和Maleki M。,基于正态族尺度混合的两段分布的贝叶斯分析.伊朗科学杂志。Technol公司。事务处理。科学。 43(2019年),第991–1001页。[谷歌学者]
28Nguyen H.D.、McLachlan G.J.、Orban P.、Bellec P.和Janke A.L。,基于模型的时间序列数据聚类的最大伪似然估计.神经计算。 29(2017),第990-1020页。[公共医学][谷歌学者]
29Nguyen H.D.、McLachlan G.J.、Ullmann J.F.P.和Janke A.L。,基于自回归模型和马尔可夫随机场的图像分析时间序列的空间聚类.内尔统计局。 70(2016),第414-439页。[谷歌学者]
30R核心团队。R: 用于统计计算的语言和环境。R统计计算基金会,奥地利维也纳,2020年。可在https://www.R-project.org/.
31Scharl T.、Grün B.和Leisch F。,时间进程基因表达数据回归模型的混合:初始化和随机效应的评估.生物信息学 26(2010),第370-377页。[公共医学][谷歌学者]
32熊毅(Xiong Y.)和杨大义(Yeung D.-Y.)。,基于ARMA混合的时间序列聚类.模式识别器。 37(2004年),第1675-1689页。[谷歌学者]
33.Zarin P.、Maleki M.、Khodadai Z.和Arellano-Valle R.B。,基于无限制偏斜正态过程的时间序列模型.J.统计。计算。模拟。 89(2019年),第38-51页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯