Robust clustering of COVID-19 cases across U.S. counties using mixtures of asymmetric time series models with time varying and freely indexed covariates

Mohsen Maleki; Hamid Bidram; Darren Wraith

doi:10.1080/02664763.2021.2019688

J应用统计。2023; 50(11-12): 2648–2662.

2022年1月1日在线发布。数字对象标识：10.1080/02664763.2021.2019688

预防性维修识别码：项目编号10388823

PMID：37529575

使用带有时变和自由索引协变量的非对称时间序列模型的混合物对美国各州的新型冠状病毒肺炎病例进行稳健聚类

莫森·马利基,^一哈米德·比德拉姆,^一和达伦幽灵^b条

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充材料
CJAS_A_2019688_SM2791.docx公司（69K）
GUID:9F4A217E-E6A4-4CB4-AE08-5BAB460046F8

摘要

在本文中，我们使用正态尺度混合（TP-SMN）族，在灵活的两件分布类下，开发了一个具有时变和自由索引协变量的混合自回归（MoAR）过程模型。这种新颖的时间序列族（TP-SMN-MoAR）模型被用于检查美国313个县报告的19型冠状病毒病例的灵活和稳健聚类。TP-SMN分布允许对称/非对称分布以及重尾分布，为处理离群值和复杂数据提供了灵活性。通过开发TP-SMN族的适当层次表示，可以构造伪似然函数，从而通过EM型算法得出最大伪似然估计。

关键词：EM算法、协变量、自回归模型的混合、基于模型的聚类、正态分布的比例混合、两段分布

1.简介

在许多科学领域，可以同时实现多个时间序列。在生物和医学图像分析中，例如在心电图（ECG）、脑电图（EEG）和功能磁共振成像（fMRI）实验中。同样，传染病的例子包括不同地区的死亡率或每日接种疫苗。如果这些时间序列中存在相当大的可变性或异质性，则可能需要根据其时间序列属性来确定子组。时间序列数据集的聚类是一种重要的统计方法，受到了广泛关注（参见Liao[16]并进一步讨论Esling和Agon中的不同方法[10]). 时间序列聚类的主要统计方法之一是使用混合模型，该模型以行为类似的数据组的形式检查数据中的潜在模式。

基于混合模型的时间序列聚类的一些文献包括Cadez等. [8]他使用混合马尔可夫链模型。熊和杨[32]使用混合自回归移动平均回归模型对ECG、EEG、人群和温度数据集进行聚类。Luan和Li采用了各种形式的混合效应模型[15]，赛勒等. [9]和Scharl等. [31]用于时间进程基因表达数据集的聚类。阮（Nguyen）等. [29]考虑使用MM[最小化-最大化]算法对空间相关时间序列数据进行聚类的混合自回归模型，然后他们考虑使用基于边际似然的推断来获得Nguyen模型参数的最大伪似然（MPL）估计等. [28].

基于高斯分布的时间序列数据集聚类在应用中存在一些问题，例如，离群值的存在和不对称行为会对结果产生显著影响。因此，在时间序列模型的结构中使用对称/非对称的轻/重尾分布为许多应用提供了灵活而稳健的方法，如Maleki和Nematolahi[22]，扎林等. [33]，加萨米等. [12]哈贾贾比和马勒基[13]，加萨米等. [11]和Maleki等. [19,21]. 基于正态（TP-SMN）族比例混合的两段分布是一类丰富的对称/非对称分布，由Maleki和Mahmoudi引入了轻尾/重尾分布[20]、莫雷夫韦吉等。[27]和Arellano-Valle等。[2]. TP-SMN分布在对各种统计模型进行稳健推断方面的性能已在以前的研究中显示，如Maleki等. [18]，霍塞因扎德等. [14]巴克霍达尔等. [5]和Maleki等. [19,21,24].

在这项工作中，我们概括了阮的工作等. [28]通过使用基于TP-SMN分布的具有时变和自由指数协变量的自回归模型的有限混合。由于具有似然推断的MoAR模型存在问题和计算问题[28]，我们考虑所提出的模型的伪似然函数，以获得使用EM算法获得的模型的MPL估计。我们展示了该模型在美国城市中对新型冠状病毒肺炎病例进行聚类的性能。

本文的其余部分组织如下。在节中2，我们回顾了TP-SMN分布的一些性质。在节中三介绍了基于TP-SMN分布的具有时变和自由指数协变量的自回归模型的有限混合。基于EM型算法的建议模型的MPL估计值在第节中获得4.在第节中5介绍了所提出的模型和对美国城市新冠肺炎数据集的估计的应用。我们还使用模拟数据给出了数值实验的结果，模拟数据的性质与实际数据相似。第节给出了一些结论性意见6.

2.TP-SMN分布族

在本节中，我们简要回顾了TP-SMN分布族的一些性质。

安德鲁斯和马尔洛介绍的著名SMN家族[4]被认为是具有以下概率密度函数（pdf）的鲁棒不对称TP-SMN族的基础，

{（f）}_{秒 米 n个} (x个; μ, σ, ν) = \int_{0}^{\infty} ϕ (x个; μ, {u个}^{- 1} σ^{2}) d日 H（H） (u个; ν), x个 \in 对,

(1)

以及由以下公式给出的随机表示

X（X） = μ + σ {U型}^{- 1 / 2} W公司,

(2)

哪里 $ϕ (\cdot; μ, σ^{2})$ 表示的密度 $N个 (μ, σ^{2})$ 分配， $H（H） (\cdot; ν)$ 是比例混合随机变量的累积分布函数（cdf） $U型$ 可以通过参数的标量或矢量进行索引 $ν$ 、和 $W公司$ 是独立于 $U型$ 上述随机变量的分布可表示为 $X（X） \sim S公司 M（M） N个 (μ, σ, ν)$ .

TP-SMN是一个包含非对称光尾两段正态分布（TP-N，也包括Epsilon-Skew-normal[23])非对称重尾两段t（TP-t）、两段斜杠（TP-SL）和两段污染正态（TP-CN）分布及其相应的对称分布。就密度而言 $年 \in 对$ ，此家族表示为

{（f）}_{t吨 第页 . 秒 米 n个} (x个; μ, σ, γ, ν) = {\begin{cases} 2 (1 - γ) {（f）}_{秒 米 n个} (x个; μ, σ (1 - γ), ν), & x个 \leq μ, \\ 2 γ {（f）}_{秒 米 n个} (x个; μ, σ γ, ν), & x个 > μ, \end{cases}

(3)

哪里 $0 < γ < 1$ 是斜面参数， ${（f）}_{秒米 n个} (\cdot; μ, σ, ν)$ 由（1）给出，表示为 $Y（Y） \sim$ TP-SMN公司 $(μ, σ, γ, ν)$ .

注意，在对称情况下( $γ = 0.5$ )，TP-SMN分布对应于SMN公司分配。

提议2.1：

让 $X（X） \sim T型 P（P）$ - $S公司 M（M） N个 (μ, σ, γ, ν)$ ，那么 $X（X）$ 具有以下给定的随机表示

X（X） = μ + γ^{S公司} (γ - 1)^{1 - S公司} {U型}^{- 1 / 2} | W公司 |,

哪里 $W公司 \sim N个 (0, σ^{2})$ ，标度随机变量 $U型 \sim H（H） (u个; ν)$ 和指标随机变量 $S公司 \sim 二项式 (1, γ)$ ，其中 $W公司$ , $U型$ 和 $S公司$ 是相互独立的随机变量。指标随机变量 $S公司$ 具有以下概率质量函数（pmf）：

P（P） (S公司 = 秒) = γ^{秒} (1 - γ)^{1 - 秒}; 秒 = 0, 1

有关TP-SMN分销的更多详细信息和家庭成员，请参阅补充材料S.1。

3.具有时间和自由指数协变量的自回归过程的混合

让 ${Y（Y）}_{j个 t吨}$ 表示随机变量在时间上的值 $t吨 (t吨 = 1, \dots, {n个}_{j个})$ 来自组 $j个 (j个 = 1, \dots, N个)$ 。目的是将 $N个$ 分组到 $克$ 通过使用 $克$ -成分混合模型。假设 ${Z轴}_{j个}$ 是一个组件诱导随机变量，指示组的组件成员身份 $j个$ . Thej个-第个观测属于我-具有概率的th分量 $P（P） ({Z轴}_{j个} = 我) = π_{我} (我 = 1, \dots, 克; j个 = 1, \dots, N个)$ ，因此 $π_{我} > 0$ 和 $\sum_{我 = 1}^{克} π_{我} = 1$ .

有阶自回归时间序列（MoAR）过程的混合 $第页$ 响应变量的顺序 $q个$ 时变协变量和阶数 $米$ 自由指数协变量的形式为：

{Y（Y）}_{j个 t吨} = \sum_{我 = 1}^{米} α_{我 我} {X（X）}_{j个 我} + \sum_{小时 = 1}^{q个} ϕ_{我 小时} {W公司}_{j个 t吨 小时} + \sum_{k个 = 1}^{第页} β_{我 k个} {Y（Y）}_{j个, t吨 - k个} + ε_{j个 t吨}; ε_{j个 t吨} \sim T型 P（P） - S公司 M（M） N个 (μ_{我}, σ_{我}, γ_{我}, ν_{我}),

有概率的 $π_{我}; 我 = 1, \dots, 克$ ，用于 $j个 = 1, \dots, N个$ ，其中 $α_{我} = (α_{我 1}, \dots, α_{我米})^{⊤}$ 是我-第个回归系数， $ϕ_{我} = (ϕ_{我 1}, ϕ_{我 2}, \dots, ϕ_{我小时})^{⊤}$ 是我-第个时间指数协变量系数， $β_{我} = (β_{我 1}, β_{我 2}, \dots, β_{我第页})^{⊤}$ 是我-自回归系数与创新 $ε_{j个 t吨}$ 的是IID（独立且同分布）正态序列的两段式比例混合。

我们这么说 ${Y（Y）}_{j个} = ({Y（Y）}_{j个 1}, \dots, {Y（Y）}_{j个 {n个}_{j个}})^{⊤}$ ，来自具有协变序模型的自回归时间序列的g分量混合 $第页$ 并用表示TP-SMN-MoAR公司 $(第页, 克)$ 假设第一个 $第页$ 的元素 ${Y（Y）}_{j个}$ 那么是非随机的 $j个 = 1, \dots, N个$ 和 $t吨 = 第页 + 1, \dots, {n个}_{j个}$ ，我们有以下条件分布

{Y（Y）}_{j个 t吨} | {Z轴}_{j个} = 我 \sim T型 P（P） - S公司 M（M） N个 (μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我}),

哪里 ${X（X）}_{j个} = ({X（X）}_{j个 1}, \dots, {X（X）}_{j个米})^{⊤}$ , ${W公司}_{j个 t吨} = ({W公司}_{j个 t吨 1}, \dots, {W公司}_{j个 t吨 q个})^{⊤}$ , ${Y（Y）}_{j个 (t吨)} = ({Y（Y）}_{j个, t吨 - 1}, \dots, {Y（Y）}_{j个, t吨 - 第页})^{⊤}$ .

此后，我们将模型参数表示为 $Θ = (π_{1}, \dots, π_{克 - 1}, θ_{1}^{⊤}, \dots, θ_{克}^{⊤})^{⊤}$ 每个组件参数由以下公式给出 $θ_{我} = (α_{我}^{⊤}, ϕ_{我}^{⊤}, β_{我}^{⊤}, μ_{我}, σ_{我}, γ_{我}, ν_{我})^{⊤}$ .

利用自回归过程的马尔科夫性质，我们刻画了 ${Y（Y）}_{j个}$ 通过联合密度函数

（f） (年_{j个}; {Z轴}_{j个} = 我, θ_{我}) = \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我}), j个 = 1, \dots, N个 .

因此TP-SMN-MoAR公司 $(第页, 克)$ 模型具有以下pdf

{（f）}_{M（M） o（o） d日 e（电子） 我} (年; Θ) = \sum_{我 = 1}^{克} π_{我} \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我}),

我们可以写出IID样本的对数似然 $Y（Y） = ({Y（Y）}_{1}, \dots, {Y（Y）}_{N个})^{⊤}$ 作为

ℓ (Θ | Y（Y）) = \sum_{j个 = 1}^{N个} 日志 (\sum_{我 = 1}^{克} π_{我} \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我})),

(5)

其中参数 $Θ = (π_{1}, \dots, π_{克 - 1}, θ_{1}^{⊤}, \dots, θ_{克}^{⊤})^{⊤}$ 传统上是通过最大化 $ℓ (Θ | Y（Y）)$ 由（5）给出，没有明确的解决方案，还有一个“产品问题”，这在阮中有描述等. [28]. 为了克服这个困难，我们使用EM型算法[7,25]作为MPL的替代方案，无需使用数字技巧即可解决产品问题。

TP-SMN-MoAR模型的观测信息矩阵如下所示 $J型 (Θ | 年) = - \frac{\partial^{2} ℓ (Θ | 年)}{\partial Θ \partial Θ^{⊤}}$ ，其中 $ℓ (Θ | 年) = \sum_{j个 = 1}^{N个} ℓ_{j个} (Θ)$ 在哪儿 $ℓ_{j个} (Θ) = 日志 (\sum_{我 = 1}^{克} π_{我} \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨第页 . 秒米 n个} (年_{j个 t吨}; μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我}))$ ，获得。众所周知，在某些正则性条件下毫升估计 $\hat{Θ}$ 可以近似为 $J型 (Θ | 年)$ 因此，继巴斯福德之后等. [6]和林等. [17]，我们评估

J型 (Θ | 年) = \sum_{j个 = 1}^{N个} {\hat{秒}}_{j个}^{⊤} {\hat{秒}}_{j个},

哪里 ${\hat{秒}}_{j个} = {\frac{\partial ℓ_{j个} (Θ)}{\partial Θ} |}_{Θ = \hat{Θ}}$ 现在，考虑向量 ${\hat{秒}}_{j个}$ 它被划分为与中的所有参数相对应的组件 $Θ$ 作为 ${\hat{秒}}_{j个} = ({\hat{秒}}_{j个, π}, {\hat{秒}}_{j个, ϱ_{1}}, \dots, {\hat{秒}}_{j个, ϱ_{克}})^{⊤},$ 哪里 ${\hat{秒}}_{j个, π} = ({\hat{秒}}_{j个, π_{1}}, \dots, {\hat{秒}}_{j个, π_{克 - 1}})$ 和 $ϱ_{我} = α_{我}, ϕ_{我}, β_{我}, μ_{我}, σ_{我}, γ_{我}, ν_{我}; 我 = 1, \dots, 克$ ，其坐标元素 $我 = 1, \dots, 克$ 由提供

\begin{aligned} {\hat{秒}}_{j个, π_{我}} & = \frac{\prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} ({d日}_{j个 我 t吨}; θ_{我}) - \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} ({d日}_{j个 我 t吨}; θ_{克})}{{（f）}_{M（M） o（o） d日 e（电子） 我} (年_{j个} | Θ)}, {\hat{秒}}_{j个, ϱ_{我}} \\ = \frac{π_{我} {D类}_{ϱ_{我}} (\prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨 第页 . 秒 米 n个} ({d日}_{j个 我 t吨}; θ_{我}))}{{（f）}_{M（M） o（o） d日 e（电子） 我} (年_{j个} | Θ)}, \end{aligned}

对于其中 ${D类}_{ϱ_{我}} [\prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨第页 . 秒米 n个} ({d日}_{j个我 t吨}; θ_{我})] = \partial \prod_{t吨 = 第页 + 1}^{{n个}_{j个}} {（f）}_{t吨第页 . 秒米 n个} ({d日}_{j个我 t吨}; θ_{我}) / \partial ϱ_{我}$ （补充材料（S.2）中包含了拟议观测信息矩阵的更多详细信息）。

4.TP-SMN-MoAR模型参数的MPL估计

的对数伪似然（PL）函数的构造TP SMN移动电话 $(第页, 克)$ IID样本的模型 $Y（Y） = ({Y（Y）}_{1}, \dots, {Y（Y）}_{N个})^{⊤}$ 可以定义为

P（P） (Θ | Y（Y）) = \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} 日志 (\sum_{我 = 1}^{克} π_{我} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; ξ_{j个 我 t吨}, σ_{我}, γ_{我}, ν_{我})),

(6)

哪里 $ξ_{j个我 t吨} = μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}$ .

因此，使用命题2.1给出的TP-SMN分布的随机表示，并使用不完全数据框架，以下是TP-SMN-MoAR模型的分层表示 $j个 = 1, \dots, N个; t吨 = 第页 + 1, \dots, {n个}_{j个}; 我 = 1, \dots, 克,$ 由提供

{Y（Y）}_{j个 t吨} | {Z轴}_{j个} = 我, {U型}_{j个 我} = {u个}_{j个 我}, {S公司}_{j个 我 t吨} = 秒_{j个 我 t吨} \underset{\sim}{我 n个 d日 .} N个 (ξ_{j个 我 t吨}, γ_{我}^{2 秒_{j个 我 t吨}} {(1 - γ_{我})}^{2 - 2 秒_{j个 我 t吨}} σ_{我}^{2} / {u个}_{j个 我}) 我_{{A类}_{我}} (年_{j个 t吨})^{1 - 秒_{j个 我 t吨}} 我_{{A类}_{我}^{c（c）}} (年_{j个 t吨})^{秒_{j个 我 t吨}},

P（P） ({S公司}_{j个 我 t吨} = 秒_{j个 我 t吨} | {Z轴}_{j个} = 我, {U型}_{j个 我} = {u个}_{j个 我}) = γ_{我}^{秒_{j个 我 t吨}} (1 - γ_{我})^{1 - 秒_{j个 我 t吨}}; 秒_{j个 我 t吨} = 0, 1,

{U型}_{j个 我} | {Z轴}_{j个} = 我 \underset{\sim}{我 n个 d日 .} H（H） ({u个}_{j个 我}; ν_{我}),

P（P） ({Z轴}_{j个} = 我) = π_{我},

(7)

哪里 ${A类}_{我} = (- \infty, ξ_{j个我 t吨}]$ 和 $N个 (\cdot) 我_{A类} (\cdot)$ 表示区间上截断的单变量正态分布 $A类$ .

让 $年 = (年_{1}^{⊤},, \dots, 年_{N个}^{⊤})^{⊤}$ , $x个 = ({x个}_{1}^{⊤},, \dots, {x个}_{N个}^{⊤})^{⊤}, w个 = ({w个}_{1}^{⊤},, \dots, {w个}_{N个}^{⊤})^{⊤}$ , $z（z） = ({z（z）}_{1}, \dots, {z（z）}_{N个})^{⊤}$ , $u个 = ({u个}_{1}^{⊤}, \dots, {u个}_{N个}^{⊤})^{⊤}$ 和 $秒_{我} = (秒_{1 我}^{⊤}, \dots, 秒_{N个我}^{⊤})^{⊤}, 我 = 1, \dots, 克$ ，为此 ${u个}_{j个} = ({u个}_{j个 1}, \dots, {u个}_{j个克})^{⊤}$ 和 $秒_{j个我} = (秒_{j个我 1}, \dots, 秒_{j个我 {n个}_{j个}})^{⊤}$ 对于 $j个 = 1, \dots, N个$ 因此，考虑到完整的数据 $年_{c（c）} = (年^{⊤}, {x个}^{⊤}, {z（z）}^{⊤}, {u个}^{⊤}, 秒_{1}^{⊤}, \dots, 秒_{克}^{⊤})^{⊤}$ ，并使用TP-SMN-MoAR公司 $(第页, 克)$ 模型，阿诺德和施特劳斯的log-PL定义[三]（忽略常数），由下式给出

\begin{aligned} {P（P）}_{c（c）} (Θ | 年_{c（c）}) & = \sum_{j个 = 1}^{N个} \sum_{我 = 1}^{克} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} 我_{[我]} ({z（z）}_{j个}) {日志 π_{我} + 日志 {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; μ_{我} + α_{我}^{⊤} {X（X）}_{j个} + ϕ_{我}^{⊤} {W公司}_{j个 t吨} \\ + β_{我}^{⊤} {Y（Y）}_{j个 (t吨)}, σ_{我}, γ_{我}, ν_{我})} \\ = \sum_{我 = 1}^{克} 日志 π_{我} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} 我_{[我]} ({z（z）}_{j个}) - \sum_{我 = 1}^{克} 日志 σ_{我} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} 我_{[我]} ({z（z）}_{j个}) \\ - \frac{1}{2} \sum_{我 = 1}^{克} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} \frac{我_{[我]} ({z（z）}_{j个}) {u个}_{j个 我}}{{(γ_{我}^{我_{[1]} (秒_{j个 我 t吨})} {(1 - γ_{我})}^{我_{[0]} (秒_{j个 我 t吨})} σ_{我})}^{2}} (年_{j个 t吨} - ξ_{j个 我 t吨})^{2}, \end{aligned}

(8)

哪里 $我_{[我]} ({z（z）}_{j个})$ 为1，如果 $年_{j个 t吨}$ 属于我-th分量（即。 ${z（z）}_{j个} = 我$ )，否则为零， $我_{[1]} (秒_{j个我 t吨})$ 为1，如果 $年_{j个 t吨}$ 属于 ${A类}_{我}$ 否则为零，以及 $我_{[0]} (秒_{j个我 t吨})$ 为1，如果 $年_{j个 t吨}$ 属于 ${A类}_{我}^{c（c）}$ 否则为零。

使用log-PL，我们使用EM算法估计参数。从一些初始值开始 $Θ^{(0)}$ ，以及（8）的期望值 $Θ^{(k个)}$ 对于 $Θ$ ，可以写为

\begin{aligned} 问 (Θ | Θ^{(k个)}) & = \sum_{我 = 1}^{克} 日志 π_{我} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} η_{j个 我 t吨} (Θ^{(k个)}) - \sum_{我 = 1}^{克} 日志 σ_{我} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} η_{j个 我 t吨} (Θ^{(k个)}) \\ - \frac{1}{2} \sum_{我 = 1}^{克} \frac{1}{σ_{我}^{2}} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} \frac{η_{j个 我 t吨} (Θ^{(k个)}) κ_{j个 我 t吨} (Θ^{(k个)})}{{(γ_{我}^{ψ_{j个 我 t吨} (Θ^{(k个)})} {(1 - γ_{我})}^{1 - ψ_{j个 我 t吨} (Θ^{(k个)})})}^{2}} (年_{j个 t吨} - ξ_{j个 我 t吨})^{2} \end{aligned}

(9)

哪里

\begin{aligned} η_{j个 我 t吨} (Θ) & = \frac{π_{我} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; ξ_{j个 我 t吨}, σ_{我}, γ_{我}, ν_{我})}{\sum_{秒 = 1}^{克} π_{秒} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; ξ_{j个 秒 t吨} + μ_{秒}, σ_{秒}, γ_{秒}, ν_{秒})}, \\ κ_{j个 我 t吨} (Θ) & = \frac{ν_{我} + 1}{ν_{我} + {e（电子）}_{j个 我 t吨}}, ψ_{j个 我 t吨} (Θ) = 我_{(ξ_{j个 我 t吨}, + \infty)} (年_{j个 t吨}), \end{aligned}

对于其中 ${e（电子）}_{j个我 t吨} = {(\frac{年_{j个 t吨} - ξ_{j个我 t吨}}{σ_{我} ρ_{j个我 t吨}})}^{2}$ ，因此 $ρ_{j个我 t吨} = (1 - γ_{我}) 我_{(- \infty, ξ_{j个我 t吨}]} (年_{j个 t吨}) + γ_{我} 我_{(ξ_{j个我 t吨}, + \infty)} (年_{j个 t吨})$ .

E级：鉴于 $Θ = {\hat{Θ}}^{(k个)}$ 并通过上述计算计算 $η_{j个我 t吨} ({\hat{Θ}}^{(k个)})$ , $κ_{j个我 t吨} ({\hat{Θ}}^{(k个)})$ 和 $ψ_{j个我 t吨} ({\hat{Θ}}^{(k个)})$ 对于 $t吨 = 第页 + 1, \dots, {n个}_{j个}$ , $j个 = 1, \dots, N个$ 和 $我 = 1, . . ., 克$ .

在限制条件下执行M步骤 $\sum_{我 = 1}^{克} π_{我} = 1$ 建造拉格朗日 $Λ (Θ, λ) = 问 (Θ | Θ^{(k个)}) + λ (\sum_{我 = 1}^{克} π_{我} - 1)$ ，我们通过求解对应于一阶条件的方程，在EM方法中最大化（9） $\nabla Λ (Θ, λ) = 0$ ，其中 $\nabla$ 是渐变操作符，它生成以下更新：

CM-步骤：更新 $Θ^{(k个)}$ （表示为 $Θ^{(k个 + 1)}$ )通过最大化 $问 (Θ | Θ^{(k个)})$ 结束 $Θ$ ，具有以下更新 $我 = 1, \dots, 克$ :

{\hat{π}}_{我}^{(k个 + 1)} = \frac{\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} η_{j个 我 t吨} ({\hat{Θ}}^{(k个)})}{\sum_{j个 = 1}^{N个} {n个}_{j个}},

\begin{aligned} {\hat{α}}_{我}^{(k个 + 1)} & = {(\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) {X（X）}_{j个} {X（X）}_{j个}^{⊤})}^{- 1} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) \\ \times (年_{j个 t吨} - {W公司}_{j个 t吨}^{⊤} ϕ_{我}^{(k个)} - {Y（Y）}_{j个 (t吨)}^{⊤} β_{我}^{(k个)} - {\hat{μ}}_{我}^{(k个)}) {X（X）}_{j个}, \end{aligned}

\begin{aligned} {\hat{ϕ}}_{我}^{(k个 + 1)} & = {(\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) {W公司}_{j个 t吨} {W公司}_{j个 t吨}^{⊤})}^{- 1} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) \\ \times (年_{j个 t吨} - {X（X）}_{j个}^{⊤} {\hat{α}}_{我}^{(k个 + 1)} - {Y（Y）}_{j个 (t吨)}^{⊤} {\hat{β}}_{我}^{(k个)} - {\hat{μ}}_{我}^{(k个)}) {W公司}_{j个 t吨}, \end{aligned}

\begin{aligned} {\hat{β}}_{我}^{(k个 + 1)} & = {(\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) {Y（Y）}_{j个 (t吨)} {Y（Y）}_{j个 (t吨)}^{⊤})}^{- 1} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) \\ \times (年_{j个 t吨} - {X（X）}_{j个}^{⊤} {\hat{α}}_{我}^{(k个 + 1)} - {W公司}_{j个 t吨}^{⊤} {\hat{ϕ}}_{我}^{(k个 + 1)} - {\hat{μ}}_{我}^{(k个)}) {Y（Y）}_{j个 (t吨)}, \end{aligned}

{\hat{μ}}_{我}^{(k个 + 1)} = \frac{\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) (年_{j个 t吨} - {X（X）}_{j个}^{⊤} {\hat{α}}_{我}^{(k个 + 1)} - {W公司}_{j个 t吨}^{⊤} {\hat{ϕ}}_{我}^{(k个 + 1)} - {Y（Y）}_{j个 (t吨)}^{⊤} {\hat{β}}_{我}^{(k个 + 1)})}{\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)})},

{\hat{σ}}_{我}^{2 (k个 + 1)} = \frac{\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} ζ_{j个 我 t吨} ({\hat{Θ}}^{(k个)}) {(年_{j个 t吨} - ξ_{j个 我 t吨}^{(k个 + 1)})}^{2}}{\sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} η_{j个 我 t吨} ({\hat{Θ}}^{(k个)})},

{\hat{γ}}_{我}^{(k个 + 1)} = 阿格米 {n个}_{γ_{我} \in (0, 1)} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} \frac{η_{j个 我 t吨} (Θ^{(k个)}) κ_{j个 我 t吨} (Θ^{(k个)})}{{(γ_{我}^{ψ_{j个 我 t吨} (Θ^{(k个)})} {(1 - γ_{我})}^{1 - ψ_{j个 我 t吨} (Θ^{(k个)})})}^{2}} (年_{j个 t吨} - ξ_{j个 我 t吨}^{(k个 + 1)})^{2},

哪里 $ζ_{j个我 t吨} (Θ) = \frac{η_{j个我 t吨} (Θ) κ_{j个我 t吨} (Θ)}{γ_{我}^{2 ψ_{j个我 t吨} (Θ)} {(1 - γ_{我})}^{2 - 2 ψ_{j个我 t吨} (Θ)}}$ 和 $ξ_{j个我 t吨}^{(k个)} = {\hat{μ}}_{我}^{(k个)} + {X（X）}_{j个}^{⊤} α_{我}^{(k个)} + {W公司}_{j个 t吨}^{⊤} ϕ_{我}^{(k个)} + {Y（Y）}_{j个 (t吨)}^{⊤} {\hat{β}}_{我}^{(k个)}$ .

CML步骤：在最后一步，更新 $ν = (ν_{1}^{⊤}, \dots, ν_{克}^{⊤})^{⊤}$ 通过最大化对数似然函数（5）

{\hat{ν}}^{(k个 + 1)} = 阿格玛 {x个}_{ν} \sum_{j个 = 1}^{N个} \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} 日志 (\sum_{我 = 1}^{克} {\hat{π}}_{我}^{(k个 + 1)} {（f）}_{t吨 第页 . 秒 米 n个} (年_{j个 t吨}; ξ_{j个 我 t吨}^{(k个 + 1)}, {\hat{σ}}_{我}^{(k个 + 1)}, {\hat{γ}}_{我}^{(k个 + 1)}, ν_{我})) .

重复迭代，直到满足合适的收敛规则，例如。 $| \frac{ℓ ({\hat{Θ}}^{(k个 + 1)} | 年) - ℓ ({\hat{Θ}}^{(k个)} | 年)}{ℓ ({\hat{Θ}}^{(k个)} | 年)} | \leq ε$ 在确定的公差下 $ε$ ，其中 $ℓ (Θ | 年)$ 由（5）给出。

执行模型–基于聚类，人们通常会利用插件Bayes的规则进行风险最小分配。让 ${\tilde{z（z）}}_{j个} (Θ) \in {1, \dots, 克}$ 是插件Bayes的观察分配 $j个$ 并注意到 $η_{j个我} (\tilde{Θ})$ 是估计的观测后验概率 $j个$ 属于 $我$ -第个集群。在当前背景下，观察 ${Y（Y）}_{j个}$ 可以通过插件Bayes规则进行分配 ${\tilde{z（z）}}_{j个} = 阿格玛 {x个}_{我 = 1, \dots, 克} η_{j个我} (\tilde{Θ}) .$ 在应用程序中，我们可以这样说 ${\bar{z（z）}}_{j个我} \in {1, \dots, 克}$ 是的伪分配 ${Y（Y）}_{j个}$ 并将其定义为 ${\bar{z（z）}}_{j个} = 阿格玛 {x个}_{我 = 1, \dots, 克} {\bar{η}}_{j个我} (\tilde{Θ}),$ 哪里 ${\bar{η}}_{j个我} (\tilde{Θ}) = \sum_{t吨 = 第页 + 1}^{{n个}_{j个}} η_{j个我 t吨} (\tilde{Θ}) / (n个 - 第页)$ 和 ${\bar{z（z）}}_{j个}$ 是的群集伪分配 ${Y（Y）}_{j个}$ .

5.数值研究

在本节中，我们考虑进行仿真研究，以显示TP-SMN-MoAR模型的MPL估计性能。然后，我们将该模型应用于美国各地新冠肺炎的聚集病例。

数据分析使用对软件[30]3.6.1版，核心i7 760处理器2.8 GHz。如有要求，作者可提供R代码的样本副本。该算法在E步和M步之间迭代，直到达到收敛，并且可以使用一系列初始值来确保收敛到全局最大值。在仿真结果中，我们没有发现所提出的算法对这些值特别敏感，具有良好的收敛性，并且在所有运行中都获得了结果。

5.1. 模拟

我们考虑以下几点TP–SMN–MoAR数值实验的（1,2）模型，由

{\begin{cases} {Y（Y）}_{j个 t吨} = α_{1} {X（X）}_{j个} + ϕ_{1} {W公司}_{j个 t吨} + β_{1} {Y（Y）}_{j个, t吨 - 1} + ε_{1}, & 具有 可能性 π \\ {Y（Y）}_{j个 t吨} = α_{2} {X（X）}_{j个} + ϕ_{2} {W公司}_{j个 t吨} + β_{2} {Y（Y）}_{j个, t吨 - 1} + ε_{2}, & 具有 可能性 1 - π, \end{cases}

对于 $j个 = 1, \dots, 200$ ，因此 ${X（X）}_{j个} \sim U型 (0, 1)$ 并且独立于 ${W公司}_{j个 t吨} \sim N个 (0, 1)$ 、和

ε_{1} \sim T型 P（P） - S公司 M（M） N个 (μ_{1} = 0, σ_{1} = 1, γ_{1} = 0.25, ν_{1} = 4),

ε_{2} \sim T型 P（P） - S公司 M（M） N个 (μ_{2} = 0, σ_{2} = 2, γ_{2} = 0.75, ν_{2} = 6),

从上述模型中总共生成了500个样本，每个样本都有 $n个 = 50, 120, 300$ 基于TP-N-MoAR、TP-T-MoAR和TP-SL-MoAR模型，参数值如下：

π = 0.4; (α_{1}, ϕ_{1}, β_{1})^{⊤} = (1, 0.5, 0.7)^{⊤}; (α_{2}, ϕ_{2}, β_{2})^{⊤} = (2, 0.9, - 0.3)^{⊤},

通过所提出的EM算法计算每个样本的MPL估计值。MPL估计值的平均值（Av-MPL），以及每个样本中相应的均方误差（MSE） $k个 (= 1, \dots, 500)$ 对于每个参数 $θ \in Θ$ ，分别由定义

平均值-MPL (θ) = \frac{1}{500} \sum_{k个 = 1}^{500} {\hat{θ}}_{k个} 和 MSE公司 (θ) = \frac{1}{500} \sum_{k个 = 1}^{500} (θ_{k个} - {\hat{θ}}_{k个})^{2},

哪里 ${\hat{θ}}_{k个}$ 是MPL估计值 $θ$ 在中k个-第个样本。计算结果如表所示1，表明估计值相当准确，并且具有良好的一致性。因此，拟议的新兴市场-type算法对所提出的模型进行了令人满意的估计。

表2。

美国Covid-19数据中含有不同数量部件的TP-T-MoAR模型的AIC值。

组件数量	$克 = 2$	$克 = 三$	$克 = 4$	$克 = 5$	$克 = 6$
AIC公司	204.025	203.501	201.866	202.714	203.874

在单独的窗口中打开

表3。

美国Covid-19数据中各种TP-SMN-MoAR模型的AIC值。

MoAR模型	正常	TP-N公司	TP-T公司	TP-SL公司	TP-CN公司
AIC公司	204.736	205.174	201.866	202.037	201.998

在单独的窗口中打开

表1。

TP-SMN-MoAR（1,2）的点MPL估计的平均值和MSE（括号内） $n个 = 50, 120, 300$ .

	$n个$	$α_{1}$	$ϕ_{1}$	$β_{1}$	$μ_{1}$	$σ_{1}$	$γ_{1}$	$ν_{1}$	$π_{1}$
第一次比较。	TP-N-MoAR公司
	50	1.1182	0.5530	0.7437	0.1617	1.2011	0.2703	–	0.4302
		(0.0209)	(0.0045)	(0.0050)	(0.0533)	(0.0288)	(0.0006)		(0.0041)
		(0.0102)	(0.0021)	(0.0046)	(0.0075)	(0.0211)	(0.0003)	–	(0.0013)
	120	0.9203	0.4902	0.7110	0.0847	1.0453	0.2601	–	0.4187
		(0.0102)	(0.0021)	(0.0046)	(0.0075)	(0.0211)	(0.0003)		(0.0013)
	300	0.9803	0.5086	0.7098	0.0123	1.0383	0.2402	–	0.4098
		(0.0093)	(0.0018)	(0.0033)	(0.0004)	(0.0093)	(0.0002)		(0.0011)
	TP-T-MoAR公司
	50	1.1065	0.5493	0.7390	0.1136	1.2733	0.2732	4.8391	0.3732
		(0.0195)	(0.0089)	(0.0064)	(0.0454)	(0.0302)	(0.0010)	(0.5540)	(0.0044)
	120	1.0873	0.4921	0.7103	0.0508	1.0302	0.2593	4.3021	0.4108
		(0.0094)	(0.0032)	(0.0050)	(0.0044)	(0.0202)	(0.0007)	(0.0894)	(0.0011)
	300	1.0810	0.5064	0.7065	0.0113	0.9702	0.2590	4.1982	0.4088
		(0.0092)	(0.0024)	(0.0038)	(0.0006)	(0.0103)	(0.0003)	(0.0396)	(0.0009)
	TP-SL-MoAR公司
	50	0.8430	0.5502	0.7411	0.1203	1.3022	0.2771	4.9019	0.4290
		(0.0189)	(0.0091)	(0.0069)	(0.0573)	(0.0411)	(0.0013)	(0.6105)	(0.0044)
	120	1.0902	0.5067	0.7075	0.0581	1.0310	0.2611	4.4622	0.3840
		(0.0095)	(0.0036)	(0.0054)	(0.0056)	(0.0198)	(0.0006)	(0.0926)	(0.0015)
	300	1.0822	0.5066	0.7063	0.0099	1.0193	0.2592	3.8001	0.4067
		(0.0093)	(0.0028)	(0.0042)	(0.0011)	(0.0112)	(0.0002)	(0.0433)	(0.0010)
	$n个$	$α_{2}$	$ϕ_{2}$	$β_{2}$	$μ_{2}$	$σ_{2}$	$γ_{2}$	$ν_{2}$	$π_{2}$
第二次补偿。	TP-N-MoAR公司
	50	2.0996	0.9487	−0.2682	0.1460	2.2112	0.7295	–	0.5698
		2.0996	0.9487	−0.2682	0.1460	2.2112	0.7295		0.5698
	120	2.0275	0.9078	−0.2890	0.0603	1.9630	0.7617	–	0.5813
		(0.0111)	(0.0035)	(0.0036)	(0.0061)	(0.0231)	(0.0006)		(0.0013)
	300	1.9834	0.9071	−0.2924	0.0201	2.0300	0.7543	–	0.5902
		(0.0099)	(0.0029)	(0.0029)	(0.0015)	(0.0111)	(0.0004)		(0.0011)
	TP-T-MoAR公司
	50	1.8870	0.9531	−0.2597	0.0998	2.3103	0.7721	6.5095	0.6268
		(0.0201)	(0.0101)	(0.0073)	(0.0379)	(0.0408)	(0.0015)	(0.6004)	(0.0044)
	120	2.0865	0.8926	−0.2893	0.0319	2.0308	0.7619	5.6231	0.5892
		(0.0102)	(0.0038)	(0.0039)	(0.0052)	(0.0202)	(0.0011)	(0.0832)	(0.0011)
	300	2.0504	0.9060	−0.2943	0.0100	2.0211	0.7583	6.1400	0.5912
		(0.0097)	(0.0032)	(0.0028)	(0.0014)	(0.0115)	(0.0010)	(0.0402)	(0.0009)
	TP-SL-MoAR公司
	50	2.1102	0.9533	−0.2504	0.1008	2.2745	0.7726	5.4028	0.5710
		(0.0210)	(0.0065)	−0.2504 (0.0079)	(0.0411)	(0.0311)	(0.0013)	(0.5938)	(0.0044)
	120	2.0654	0.8921	−0.2854	0.0408	2.0321	0.7401	6.2103	0.6160
		(0.0114)	(0.0028)	(0.0046)	(0.0066)	(0.0221)	(0.0011)	(0.0977)	(0.0015)
	300	2.0541	0.9081	−0.2901	0.0097	1.9736	0.7582	6.1074	0.5933
		(0.0097)	(0.0023)	(0.0038)	(0.0010)	(0.0113)	(0.0009)	(0.0390)	(0.0010)

在单独的窗口中打开

5.2. 新型冠状病毒肺炎在美国的应用

在本部分中，我们分析了由FIPS地理代码表示的时间序列数据集，该数据集用于2020年4月16日至2020年8月13日美国313个县120天内报告的新型冠状病毒肺炎总病例（参考美国各州的新型冠型病毒肺炎病例，https://coronavirus.jhu.edu/us-map).

美国城市数据集中的静态（协变量）包含每个感染率可传播病例( ${X（X）}_{1}$ )，感染率疾病传播( ${X（X）}_{2}$ )，健康环境人口统计( ${X（X）}_{三}$ )、健康环境共病( ${X（X）}_{4}$ )、健康环境差异( ${X（X）}_{5}$ )、各县流动性得分 ${{W公司}_{t吨}}$ 在对时间指标变量进行两次差分并确保数据平稳后，我们使用了Akaike信息准则（AIC[1])确定最佳方案的标准TP-SMN-MoAR公司 $(第页, 克)$ 使用各种订单的模型( $第页 = 1, 2, 三, 4, 5, 6, 7, 8, 9, 10$ )每个人都有 $克 = 2, 三, 4, 5, 6$ 以及TP–SMN公司家庭检查；见表2–3。最佳模型是TP-T-MoAR公司 $(第页 = 8, 克 = 4)$ 包括表中的以下TP-T参数估计4注意以下较小的估计值 $ν$ ，以及 $γ$ 这表明需要考虑非对称和稳健的模型。

表4。

将TP-T混合物模型拟合到美国Covid-19数据的最大伪似然估计结果。

	第1部分		第2部分		第3部分		第4部分
标准。	MPLE公司	瑞典。	MPLE公司	瑞典。	MPLE公司	瑞典。	复数	瑞典。
$μ$	$- 17.0459$	$0.2317$	$- 1.7153$	$0.1837$	$- 6.3778$	$0.0947$	$- 3.5333$	$0.1027$
$σ$	$75.1294$	$0.4028$	$9.5162$	$0.1152$	$26.4718$	$0.1983$	$30.2176$	$0.2301$
$γ$	$0.5708$	$0.0093$	$0.4512$	$0.0104$	$0.4437$	$0.0111$	$0.4243$	$0.0098$
$ν$	$1.3918$	$0.0847$	$1.1223$	$0.0566$	$2.4628$	$0.0937$	$1.2218$	$0.0919$
$π$	$0.1964$	$0.0104$	$0.3602$	$0.0125$	$0.2232$	$0.0176$	$0.2202$	$0.0098$

在单独的窗口中打开

图1以地图的形式显示了美国313个县的集群。图中提供了每个集群的时间序列图2图中还绘制了每个簇的平均轨迹三.根据图2和和3，三，集群2和集群3中存在一些异常路径，这表明了稳健建模的必要性。补充材料（表S.3）中包含了各县及其所属集群的完整列表。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0001_c.jpg

在单独的窗口中打开

图1。

基于MoAR模型对美国313个县进行聚类。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0002_OC.jpg

在单独的窗口中打开

图2。

四个集群中313个美国县的每日19型冠状病毒病例数。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0003_OC.jpg

在单独的窗口中打开

图3。

美国313个县每天的Covid-19病例数的每个集群的平均轨迹。

结果显示了每个集群的平均轨迹（图三)建议第一组（绿色）代表在此期间病例数量呈指数增长的县。从图中1，这些县似乎也相对接近（空间上）。相比之下，属于第二组（紫色）的县的病例相对稳定。

聚类标准化回归系数[26]图中还显示了它们的路径4。通过这些路径可以发现协变量在每个簇上的重要性，以及与其他簇的比较。

保存图片、插图等的外部文件。对象名称为CJAS_A_2019688_F0004_OC.jpg

在单独的窗口中打开

图4。

四个集群中313个美国县的Covid-19病例数据拟合模型中协变量标准化系数的路径图。

结果表明，健康环境差异( ${X（X）}_{4}$ )在大多数簇群（第二簇群除外）和不同方式（第四簇群为正，第一簇和第三簇群为负）中，对Covid-19病例起着重要作用。在第二组中，与所研究的所有因素相关的贡献或重要性相对均衡。传染性病例感染率( ${X（X）}_{1}$ )在第三类中发挥了非常重要的作用，在第一类中的作用较小，而在第二类和第四类中则不太重要。有趣的是，移动性( ${X（X）}_{5}$ )在第四组中是重要的，与病例呈负相关，但在其他组中不重要。需要进一步研究，以检查每个集群中县的特殊特征，从而解释这些结果。

6.结论

我们利用正态（TP-SMN）族的尺度混合（scale mixes of normal），在两段分布的柔性类下，发展了一个具有时变和自由指数协变量的混合自回归时间序列过程。该模型允许在各种情况下对时间序列模型进行灵活和稳健的聚类，包括不对称和重尾数据。利用美国313个县的19型冠状病毒病例的时间序列对模型的性能进行了检验，揭示了类似行为的时间序列过程。进一步的研究将是开发一种贝叶斯方法，用于这些类型的模型，以实现更大的灵活性和计算效益。

补充材料

补充材料：

单击此处查看其他数据文件。^{（69K，docx）}

确认

作者也非常感谢主编、副主编和两位审稿人的建议、更正和鼓励，这有助于我们改进原稿的早期版本。我们还要感谢杰弗里·麦克拉克伦教授对模型定义和结论的有益评论。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Akaike H。，统计模型识别的新视角.IEEE传输。自动。控制 19（1974年），第716-723页。[谷歌学者]

2Arellano-Valle R.B.、Gómez H.和Quintana F.A。，一类非对称分布的统计推断.J.统计。计划。推理。 128（2005），第427–443页。[谷歌学者]

三。阿诺德·不列颠哥伦比亚省和斯特劳斯·D·。，伪似然估计：几个例子.Sankhya B公司 53（1991），第233-243页。[谷歌学者]

4Andrews D.R.和Mallows C.L。，正态分布的比例混合.J.R.公司。统计文件序列。B类 36（1974年），第99-102页。[谷歌学者]

5Barkhordar Z.、Maleki M.、Khodadadi Z.、Wraith D.和Negahdari F。，正态同方差非线性回归模型两段尺度混合的贝叶斯方法.J.应用。斯达。(2020). 10.1080/02664763.2020.1854203.[PMC免费文章][公共医学] [交叉参考][谷歌学者]

6Basford K.E.、Greenway D.R.、Mclachlan G.J.和Peel D。，正态混合物拟合分量平均值的标准误差.计算。斯达。 12（1997），第1-17页。[谷歌学者]

7Dempster A.P.、Laird N.M.和Rubin D.B。，通过EM算法从不完整数据中获得最大似然.J.R.公司。统计社会服务。B Methodol公司。 39（1977年），第1-22页。[谷歌学者]

8Cadez I.V.、Gaffney S.和Smyth P.，聚类个人和对象的通用概率框架。在第六届ACM SIGKDD知识发现和数据挖掘国际会议记录（第140-149页）。美国马萨诸塞州波士顿；2000

9Celeux G.、Martin O.和Lavergne C。，基于重复微阵列实验的线性混合模型聚类基因表达谱.统计建模。 5（2005），第243–267页。[谷歌学者]

10Esling P.和Agon C。，时间序列数据挖掘.ACM公司。计算。Surv公司。 45（2012），第1-34页。[谷歌学者]

11Ghasami S.、Maleki M.和Khodadadi Z。，稳健对称和非对称时间序列模型的Leptokurtic和platykurtic类.J.计算。申请。数学。 376（2020a），第112806页。2016年10月10日/j.cam.2020.112806。[交叉参考][谷歌学者]

12Ghasami S.、Khodadadi Z.和Maleki M。，具有广义双曲新息的自回归过程.Commun公司。统计-模拟。计算。 49（2020b），第3080-3092页。[谷歌学者]

13.Hajrajabi A.和Maleki M。，非线性半参数自回归模型，具有斜法向新息的尺度混合的有限混合.J.应用。斯达。 46（2019），第2010-2029页。[谷歌学者]

14Hoseinzadeh A.、Maleki M.和Khodadadi Z。，使用不对称和重尾两段分布的异方差非线性回归模型.AStA高级统计分析。(2020). 10.1007/s10182-020-00384-3。[交叉参考][谷歌学者]

15栾毅、李宏。，基于B样条混合效应模型的时程基因表达数据聚类.生物信息学。 19（2003），第474-482页。[公共医学][谷歌学者]

16廖天伟。，时间序列数据的聚类——一项调查.模式识别器。 38（2005），第1857-1874页。[谷歌学者]

17林天一、李嘉诚、谢伟杰。，基于斜t分布的稳健混合建模.统计计算。 17（2007），第81-92页。[谷歌学者]

18Maleki M.、Barkhordar Z.、Khodadadi Z.和Wraith D。，一类稳健的同方差非线性回归模型.J.统计。计算。模拟。 89（2019年），第2765-2781页。[谷歌学者]

19Maleki M.、Hajrajabi A.和Arellano-Valle R.B。，对称和非对称混合自回归过程.巴西J.Probab。斯达。 34（2020a），第273-290页。[谷歌学者]

20Maleki M.和Mahmoudi M.R。，基于正态族尺度混合的两段位置尺度分布.Commun公司。统计-理论方法 46（2017），第12356–12369页。[谷歌学者]

21Maleki M.、Mahmoudi M.R.、Wraith D.和Pho K.H。，预测新冠肺炎确诊和恢复病例的时间序列建模.旅行医学感染。数字化信息系统。 37（2020c），第101742页。10.1016/j.tmaid.2020.101742。[公共医学] [交叉参考][谷歌学者]

22Maleki M.和Nematolahi A.R。，高斯新息尺度混合自回归模型.伊朗科学杂志。Technol公司。事务处理。科学。 41（2017a），第1099–1107页。[谷歌学者]

23Maleki M.和Nematolahi A.R。，ε-偏斜正态族的贝叶斯方法.Commun公司。统计-理论方法 46（2017b），第7546–7561页。[谷歌学者]

24Maleki M.、Wraith D.、Mahmoudi M.R.和Contreras-Reyes J.E。，非对称重尾向量自回归过程及其在金融数据中的应用.J.统计。计算。模拟。 90（2020b），第324-340页。[谷歌学者]

25McLachlan G.J.和Peel D。，有限混合模型，威利，纽约，2000年。[谷歌学者]

26梅纳德S。，标准化回归系数，英寸圣人社会科学研究方法百科全书刘易斯·贝克M.S.、布莱曼A.、廖T.F.主编，《圣人出版》，加利福尼亚州千橡树，2004年。第1069–1070页。10.4135/9781412950589.n959。[交叉参考][谷歌学者]

27Moravveji B.、Khodadadi Z.和Maleki M。，基于正态族尺度混合的两段分布的贝叶斯分析.伊朗科学杂志。Technol公司。事务处理。科学。 43（2019年），第991–1001页。[谷歌学者]

28Nguyen H.D.、McLachlan G.J.、Orban P.、Bellec P.和Janke A.L。，基于模型的时间序列数据聚类的最大伪似然估计.神经计算。 29（2017），第990-1020页。[公共医学][谷歌学者]

29Nguyen H.D.、McLachlan G.J.、Ullmann J.F.P.和Janke A.L。，基于自回归模型和马尔可夫随机场的图像分析时间序列的空间聚类.内尔统计局。 70（2016），第414-439页。[谷歌学者]

30R核心团队。R：用于统计计算的语言和环境。R统计计算基金会，奥地利维也纳，2020年。可在https://www.R-project.org/.

31Scharl T.、Grün B.和Leisch F。，时间进程基因表达数据回归模型的混合：初始化和随机效应的评估.生物信息学 26（2010），第370-377页。[公共医学][谷歌学者]

32熊毅（Xiong Y.）和杨大义（Yeung D.-Y.）。，基于ARMA混合的时间序列聚类.模式识别器。 37（2004年），第1675-1689页。[谷歌学者]

33.Zarin P.、Maleki M.、Khodadai Z.和Arellano-Valle R.B。，基于无限制偏斜正态过程的时间序列模型.J.统计。计算。模拟。 89（2019年），第38-51页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯