摘要

磁共振成像(MRI)数据是脑形态学研究中的宝贵工具。在这里,我们提出了一种新的统计方法,该方法基于三维MRI数据,通过径向基函数解析偏最小二乘法(RBF-sPLS)来研究临床特征与脑形态之间的关系。我们的数据包括3D阵列中数百万体素的MRI图像强度以及73个临床变量。该数据集代表了RBF-sPLS的一个合适应用,因为体素之间以及临床特征之间存在潜在的相关性。此外,该方法可以在稀疏建模的基础上同时选择有效脑区和临床特征。这与现有方法不同,现有方法考虑预先指定的大脑区域,因为处理高维数据涉及计算困难。RBF-sPLS采用降维来克服这一障碍。我们将RBF-sPLS应用于由102名慢性肾脏病患者组成的真实数据集,而一项比较研究使用了模拟数据集。RBF-sPLS从我们的患者数据中确定了两个感兴趣的大脑区域:颞叶和枕叶,这两个区域分别与衰老和贫血相关。我们的模拟研究表明,使用我们的方法可以非常准确地提取此类大脑区域。

1.简介

最近,脑形态计量学研究因其在早期检测痴呆和评估局部脑萎缩方面的实用性而备受关注。此外,几位作者报告了大脑形态与年龄、慢性病和遗传学等临床特征之间的联系[13]使用磁共振成像(MRI)数据。基于体素的形态测量(VBM)是此类分析的常用技术[4]. 该方法基于一般线性模型,将每个MRI体素的值(以像素为单位,经过标准化预处理)作为因变量,将临床特征(包括组指标变量和协变量)作为解释变量。然而,这种方法有一些Davatzikos讨论过的缺点[5]. 例如,多重比较校正需要几个难以验证的假设。另一种方法是使用基于解剖学知识的预先指定的体素集合,这称为感兴趣区域(ROI)方法。因此,ROI方法要求研究人员对真正的解剖边界有准确的了解。此外,需要仔细选择变量,以最小化统计模型中无关变量的影响。我们采用了一种使用整个大脑区域的数据挖掘方法,并将体素强度水平作为因变量和临床特征(包括患者背景和血液测试结果)的解释变量。

回归模型中有两个重要的统计问题涉及到我们对大型复杂数据的使用。第一个是从大量高度相关的因变量和解释变量中选择一组相关变量。Wold介绍的偏最小二乘(PLS)回归[6],是一种适用于具有相关变量的数据的潜在因素方法。在化学、经济学和医学等多个学科中出现的病态线性回归模型中,它被用作普通最小二乘(OLS)回归的替代方法[7,8]. Tibshirani在神经成像中使用了PLS[9]. 第二个问题是变量选择中的问题,当样本大小远小于变量总数(; 所谓的“大”小的问题”)。利用稀疏性原理-刑罚已被推广为一种有效的解决办法[9,10]. 此版本的稀疏PLS(sPLS)将-由LéCao等人提出[11]还有Chun和Keleš[12]. 该方法在神经成像领域以及生物信息学和化学计量学领域的应用数量正在稳步增加。该技术产生解释变量的稀疏线性组合,并同时实现降维和变量选择。该方法在脑成像数据中的开创性应用已被用于研究遗传多态性和功能成像数据[3]. 然而,它是基于对称(也称为规范)模式的PLS回归。在本文中,我们考虑了基于奇异值分解(PLS-SVD)的PLS回归模式。不同之处在于,系数在正则模式下是正交的,而在PLS-SVD中,载荷是正交的。这种方法主要关注的是对预先指定的大脑区域进行分析的限制。使用未指定的大脑区域先验的这将是一种更加数据驱动的方法,可能会产生新的和意料之外的结果,但由于要分析的体素数量众多,这种方法通常会带来计算困难。出于这个原因,我们决定将这种方法与使用基展开对大脑图像进行降维的第一步相结合。

在本文中,我们提出了一种基于基扩展的稀疏PLS方法(RBF-sPLS;径向基函数解析偏最小二乘法),并使用约100万个体素和73个慢性肾脏病(CKD)患者临床特征的三维MRI脑部扫描,为实际数据提供了应用程序。此外,我们还进行了仿真研究,将我们提出的方法与原始方法进行了比较。我们提出的带有降维装置的RBF-sPLS预测模型提供了在灵敏度和特异性方面具有优异预测性能的判别函数。

本文的结构如下。章节2提供了对三维MRI数据及其预处理的讨论。章节3陈述了建议的统计方法。在节中4,我们报道了一项模拟研究,研究了带基扩展(RBF-sPLS)和不带基扩展的sPLS的特性。

2.数据

2.1. 学科

2009年至2012年间,我们招募了102名患者(平均年龄:年,52%男性,48%女性)患有慢性肾脏病(CKD)参与我们的研究。我们使用MRI扫描检查了大脑体积,并在同一天测量了临床参数。如果患者年龄在20岁至80岁之间,且之前没有中风、创伤性脑损伤或脑肿瘤等脑损伤史,则符合条件。参与者特征如表所示1百分之五十五的参与者有吸烟史(47名前烟民和9名现任烟民)。受试者在10分钟后以坐姿测量肱动脉血压分钟休息。所有患者都提供了知情同意书。九州大学机构审查委员会批准了所有程序。

2.2. 图像数据

使用同一型号的3.0特斯拉MRI扫描仪对每个受试者进行脑部MRI检查。在此期间没有发生重大硬件升级。所有受试者均采用相同的脉冲序列进行扫描:124个连续的,3.0个三维T1加权图像的mm厚轴平面(稳态下破坏梯度回忆采集:回波时间,7毫秒;翻转角度,30;体素大小,1.02×1.02×1.5毫米)。

我们使用统计参数映射8软件(SPM8,英国伦敦威康认知神经病学系)对大脑图像进行预处理。将SPM8的分割算法应用于每个T1加权MRI扫描,提取对应于灰质(GM)、白质(WM)和脑脊液(CSF)的组织图。刚性注册组织的临时公共空间是DARTEL算法的起点。接下来,使用分段组织贴图创建自定义模板,并使用DARTEL模板创建工具生成相关的扭曲场[4]. 此工具估计每个受试者组织的最佳平滑非线性变形集,以达到其共同平均值,应用变形创建新的平均值,然后重复直至收敛。

3.方法

3.1. 基于基展开的降维

假设我们有独立学科,其中第页-维度探索变量向量(临床特征)和-大脑图像的维向量在点处定义的第个主题。我们使用了径向B样条函数[13]减小尺寸,如下所示。对于给定的,哪里。我们使用这些结的距离来定义作为,其中是相邻结之间的距离。然后降维矩阵,,用定义-组成部分为,其中都是等距的节。请注意与距离成正比因此,和因变量矩阵,,构造为因此,对于PLS回归,我们的响应和预测矩阵是分别是。

3.2. 稀疏偏最小二乘

表示因变量矩阵与let表示解释变量矩阵。PLS回归的核心假设是如下:哪里是一个得分矩阵,是组件的数量,荷载矩阵,以及随机误差矩阵。

Le Cao等人提出的稀疏PLS(sPLS)回归的版本[11]调用的奇异值分解(SVD)以产生,其中是一个正交矩阵,具有、和是一个正交矩阵。在PLS回归的变量中,这称为PLS-SVD。从中,我们可以得到回归形式哪里是一个回归系数矩阵由是一个残差矩阵。

为了便于解释估算,假设,然后使用处罚,是的列向量分别给出如下:哪里矩阵权向量的惩罚参数分别是。此函数是一个最小化的主题.振幅对应于数量的增加和减少有助于回归的变量。例如,在,如果的值为很大,则有大量变量将被选择。情况也是如此因此,sPLS涉及一步程序中的选择和建模。此优化问题由软阈值函数执行,其中在NIPALS内部循环的每次迭代中。权重向量使用以下算法进行计算。(1)初始化例如,使用矩阵的第一对奇异向量并正常化.(2)直到:(a)用于固定,并正常化如步骤1所示;(b)用于固定,并正常化如步骤1所示;(c),.(3),、和,其中,、和对应于的列向量,、和分别是。对于一般情况,对重复上述算法通货紧缩时期作为第四步。最终的解决方案如下,、和,其中在每个步骤中获得元素步骤。

3.3. 调谐参数的选择

惩罚参数的选择,和组件数量在模型构建中非常重要。我们使用一个称为由Tenenhaus提出[14]在LéCao等人的sPLS模型中,用于选择组件的数量[11]通过执行交叉验证。我们使用了10倍交叉验证。因此,我们的具有以下功能形式,、和定义为哪里是预测误差平方和th因变量和PLS模型组件定义如下。是一个索引函数,指示观测到的分区分配给随机化数据的第n部分:是的预测值带有惩罚参数的sPLS模型中的依赖变量和组件数量和估计的权重向量删除数据的第个部分。那是,对任何人来说主题,我们预测,其中估计回归系数矩阵的第h列从带有惩罚参数的sPLS模型和组件数量删除数据的第个部分。是具有相同定义的预测值除了所有可用的估计权重向量学科。我们选择最佳集基于最大化在给定的候选人中。这是通过网格搜索实现的。

4.模拟研究

在本节中,我们将在模拟研究中说明所提出的方法。我们证明了节点距离对结果表示的影响,并通过与无基展开的方法相比,阐明了RBF降维的优势。

4.1、。数据集

考虑患者和解释变量。我们根据以下sPLS模型用两个组件生成了100个数据集哪里表示-具有零均值和方差协方差矩阵的多维正态分布.  矩阵,带有,、和,其中是Kronecker产品,是一个-所有元素为0的维向量,以及是一个-所有元素为1的维向量。其列为图中所示的矢量化真图像的矩阵1。可以将图像视为2D灰度图像,其像素强度位于比例尺。黑色像素设置为1,白色像素设置为零。

我们执行这一步骤是为了评估sPLS的性能在多大程度上受到基础扩展和滤波器保留的临床参数数量的影响,并选择最佳参数对。我们提供了与原始方法(没有基扩展的sPLS)的比较,并分析了我们的方法中相邻节点之间的距离对.我们测试了我们的数据集模式;、和复制样本大小CKD患者数据集和协变量的数量.图像的展开以获得大小向量.

4.2. 结果

我们估计使用第节中描述的方法从模拟数据3。所有结果都生成了正确的组件数。我们通过平均估计值来计算概率图像来自100个数据集。图的中间和底部面板2在以下情况下,显示从概率图像转换而来的二进制图像,第一和第二分量的阈值分别为0.95.图的顶部2显示了合成的真实图像。由于计算出的最大概率为0.7,因此,在不进行基展开的情况下,sPLS的结果显示什么也没有。另一方面,基于节点间距的基展开的sPLS形状很好,而,无法重建真实图像。

为了评估估计模型预测每个变量的有效性,计算了敏感性、特异性和c指数=敏感性−(1−特异性),并对100组数据进行了平均。如表所示2,使用相对较小,与不进行基础扩展的方法相比在任何情况下这表明,该方法的性能优于原始方法,节点之间的距离取尽可能小的值。

5.真实数据应用

我们将sPLS和基扩展应用于第节所述CKD患者的MRI数据集2我们评估了额外的人口统计学和健康相关变量,以及当天获得的实验室数据。在我们的统计分析中,这些数据被用作协变量。协变量的数量为在一个受试者的2122945(121×145×121)个体素中,提取代表大脑区域的体素,得到839089个体素。基函数的维数为因为4个体素()等间距结。组件数量选择为。的第一个组件中所选变量的数量第二组分中有14个变量。对于以相同的方式选择了785个和947个变量。3通过大脑的轴向视图显示结果。左图显示了作为第一个分量估计的系数图像。同样,右侧显示了第二个组件。

我们的模型揭示了双侧颞叶与慢性肾脏疾病的临床标志物之间的相对紧密联系。颞叶是大脑皮层的四个主要区域之一。边缘系统的结构,包括嗅觉皮层、杏仁核和海马位于颞叶内。颞叶在组织感官输入、听觉感知、语言和言语产生以及记忆联想和形成方面发挥着重要作用。这些区域与17个因素相关,特别是年龄、性别、潜在疾病(糖尿病)、吸烟状况、体重、血清白蛋白水平、血清肌酐、总胆固醇、葡萄糖、高密度脂蛋白胆固醇、低密度脂蛋白、糖蛋白、胆碱酯酶、红细胞数量、甲状旁腺激素、脉搏波速度、,冠状动脉钙化评分。

我们的分析选择枕叶作为第二部分。枕叶位于大脑皮层的后部,是视觉处理的主要中心,参与身体的多种功能,包括视觉感知和颜色识别。该区域与以下因素相关:性别、身高、体重、舒张压、趾臂收缩压之比、总胆红素、葡萄糖、氯化物、血清铁水平、红细胞数量、血红蛋白、红细胞压积、纤溶酶原激活物抑制剂-1和转铁蛋白饱和度。

被选为第一组分的变量被认为是与衰老和动脉僵硬度最密切相关的因素,而与第二区域相关的变量则与贫血标记物更密切相关。动脉粥样硬化、钙化和肾性贫血的程度是CKD患者的重要并发症。最近,这些因素被认为与脑萎缩和脑氧代谢抑制有关[15,16]但其机制尚待阐明。使用多元线性回归方法校正年龄、性别、残余肾功能、潜在肾脏疾病、吸烟史、舒张压和低密度脂蛋白胆固醇水平后,我们还发现区域灰质体积和血红蛋白水平之间存在显著相关性[17]. 在本分析中,我们仅使用整个灰质体积作为目标变量,因为多个变量不能应用于传统的线性回归模型,而sPLS可以一步选择变量并建模,并使用多个目标变量。

6.讨论

本文提出了径向基函数解析偏最小二乘(RBF-sPLS)技术,并将其应用于高维脑成像数据。原始的sPLS是一个有用的回归模型,用于分析因变量和解释变量都是多元且相互关联的数据。分析真实大脑数据最困难的问题是这些数据集的高维性。虽然在之前的神经成像分析中使用了预先指定的区域,但我们的方法在基底扩张后成功地处理了整个大脑区域。基函数具有球形,但它能够近似模拟研究中使用的十字形状。这是意料之中的事,因为跨度很窄。因此,在实际数据应用程序中,我们使用4个体素等间距结来设置尽可能紧密的结,因为不可能使用2个体素间距进行计算。这种方法不仅适用于真实的大脑数据,也适用于一般的成像数据集,因为实际的损伤会导致相邻体素中的聚集。虽然我们提出的方法的相对优势通过比较在公平设置中使用和不使用基函数进行的模拟显示出来,但还需要进一步进行具有更现实约束的模拟研究。然而,这些模拟超出了本文的范围,将在未来处理。本研究的意义在于阐明可视化显示的RBF-sPLS特性,以用于图像数据分析。

在我们的研究中,我们从实际数据应用中获得了有关衰老、贫血和脑形态学之间关系的临床相关发现。我们目前正在收集纵向数据和正常对照数据,以便为今后的工作扩展这一确证证据。总之,RBF-sPLS可以帮助揭示复杂的大数据集之间的关系,包括大脑成像数据。

利益冲突

作者声明,本研究无财务/商业利益冲突。

致谢

作者们非常感谢裁判们提出的富有成效的建议,尤其是提出了更好的术语和句子。这项工作得到了九州大学体检中心的支持。本研究部分得到了NCNP神经和精神疾病校内研究拨款(24-10)和日本教育、文化、体育、科学技术部援助拨款(24700286至A.Kawaguchi)的支持。