跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022年;49(9): 2403–2415.
2021年3月3日在线发布。 数字对象标识:10.1080/02664763.2021.1896683
预防性维修识别码:PMC9225670
PMID:35755091

利用功能数据分析研究土耳其黑海地区的温度数据

摘要

随着研究领域的扩大,或者随着样本中观测值的增加,通常假设在离散点观测的数据是从潜在的实函数中采样的。随着观测点数量的增加,这些观测很可能是从实值函数中采样的。在这种情况下,导出的数据将是功能结构的示例。我们分析了土耳其黑海地区18个城市65个离散点的日平均温度数据。傅里叶基函数被用作基函数方法,因为温度数据具有周期性结构。然后使用基函数和粗糙度惩罚方法将数据转换为连续函数。使用粗糙度惩罚方法获得功能数据。采用广义交叉验证方法确定变量(温度变量)的平滑参数。最后,将平滑函数主成分分析应用于函数数据。通过这种方式,使用主成分函数生成的平均函数,并使用函数和主成分函数获得的平均函数在同一图上评估温度函数的变化,这些函数似乎很难处理。

关键词:基函数、粗糙度惩罚方法、平滑函数主成分分析、广义交叉验证、温度数据
受试者分类代码:62H25、62H99、62P12、62-07

1.简介

统计分析通常涉及基于一个或多个变量的随机样本中每个个体或对象的测量。目的是对抽取随机样本的人群进行一般性和可解释性推断。最近的技术进步导致统计数据收集能力在过去几年中呈指数级增长。然而,其后果之一是,在某些情况下,使用经典统计方法(单一或多变量)来分析和解释统计数据变得越来越困难。因此,寻求替代方法。其中一种方法是功能数据分析(FDA),它首先将离散时间点观察到的数据转换为功能数据,然后使用统计方法分析这些功能数据[9].

随着单个或对象的变量数量增加,将观测数据函数视为单个实体而非连续点更为有利。Ramsay和Silverman认为,将观测视为单个实体的最简单方法是将每个个体或对象作为观测数据函数[12].

插值和平滑是将离散点观测数据转换为功能数据的最实用方法。如果假设观测值无误差,则可以使用插值来生成函数。如果数据生成基于实验过程,平滑可以将离散数据转换为功能数据[12].

今天,我们可以使用统计方法分析大样本。然而,随着研究领域的扩大,或者换言之,随着样本中观察点数量的增加,传统的统计方法可能无法分析大样本,因为在功能数据分析中,每次观察所检查的点数量不必相等。因此,功能数据与多元数据不同,即使在同一点观察时,功能观察类似于多元观察。随着样本中观测点数量的增加,假设在离散点实际观测到的数据是从潜在的实函数中采样的。因此,Keser指出,功能观测有时可以被视为连续函数,这意味着功能观测的大小可以比样本大得多。在这种情况下,标准多元数据分析方法可能会失败,因为相应的协方差矩阵是奇异矩阵[5].

FDA的第一步和目标是改变观察到的j个值转换为x个()可计算任何 = 1,2, … ,N个j个 = 1,2, … ,n个在FDA中数据矩阵中的观测值实际上假设是在离散点上观测的,尽管它是一个形式为x个()=12N个在FDA中,观察到(j个j个)j个=12n个数据是从底层连续函数中采样的。因此,函数数据不同于多元观测向量[5],其中N个是样本量,n个是第i个样本的测量次数(=12N个)j个j个第次测量第个样本(j个=12n个)j个是的值Y(Y)变量位于j个测量点。

观测点可能因功能观测而异,因此在这种情况下可能无法应用多元方法。另一方面,尽管FDA处理时间数据,但其范围和目标与时间序列分析不同,时间序列分析通常用于建模数据和预测未来观察结果。功能数据分析将数据视为功能。因此,从中导出观测值的函数的两个导数都可以在所需的秩下获得,并且可以使用插值来克服与缺失数据相关的问题[21112].

使用平滑样条是获得函数的常用方法,该函数平滑了在离散点获得的噪声数据。Craven和Wahba开发了一种实用有效的方法,用于从数据中估计最佳平滑量[]. 在该方法中,使用广义交叉验证来估计适当的平滑度。

西尔弗曼提出并研究了一种功能主成分分析(FPCA)的替代方法[14]. 它在概念和计算上都比Rice和Silverman提出的方法简单[13]. Silverman的方法允许使用单个校正参数同时预测所有相关的主成分。还研究了提高主成分权重函数准确性的条件。佩祖利和西尔弗曼[8]认为这些条件比赖斯和西尔弗曼提出的方法要轻。

关于FDA的一些研究是Benko[1]凯瑟和埃尔塔什[7]埃尔塔什和凯瑟[4]和Keser[56].

2.方法

我们分析了土耳其黑海地区18个城市65个离散点的日平均温度数据。数据来自Samsun第十区域气象局。傅里叶基函数被用作基函数方法,因为数据形成了周期结构。然后使用基函数和粗糙度惩罚方法将数据转换为连续函数。

2.1. 傅里叶方法

功能数据分析需要灵活的方法来生成x个()功能。为此k个选择了基函数的个数。对于=12N个,的x个()函数作为这些基本函数的加权和,定义为:

x个()=c(c)1θ1()+c(c)2θ2()++c(c)k个θk个()
(1)

哪里θ()基函数,以及c(c)是对应于第个(=12k个)基本函数。

基函数数量过多会使函数变得复杂,从而导致兼容性。因此,理想的做法是选择一定数量的基函数,这些基函数使用相对较小的k值提供完美的近似值。通常,20-30个基函数足以提取显著特征[11]. 对于周期函数,傅里叶基函数和粗糙度惩罚方法确定了适合数据的基函数。

2.1.1。使用傅里叶基展开构建函数数据

一般来说,三角函数是逼近周期函数的理想函数。作为j个T型[b条](<b条R(右)),以傅里叶级数(有限或无限)的形式,周期x个(j个)函数表示为

x个(j个)=c(c)0+c(c)1(w个j个)+c(c)2余弦(w个j个)+c(c)(2w个j个)+c(c)4余弦(2w个j个)+
(2)

其中基是周期的。如果j个值在实际范围内的比例相等T型,如果周期等于范围的长度T型,则基是正交的[1].

2.1.2. 粗糙度惩罚方法

FDA的目标不仅是为数据提供一个良好的曲线拟合,而且还要估计一个不会出现过度局部变异的曲线。这种曲线估计被称为平滑函数。粗糙度惩罚方法用于此目的。在FDA中,用于平滑函数的粗糙度惩罚方法的主要目标是测量曲线的粗糙度,以及曲线与数据的拟合与曲线粗糙度之间的折衷[6]. 换句话说,它的目的是将均方误差写成抽样方差和偏差平方的和。为了减少采样方差,可以通过平滑曲线来稍微降低偏差[12].

在获得粗糙度惩罚方法中的粗糙度惩罚估计值时x个()函数可以被视为定义在以下范围内的可微函数T型=[b条]和aψ > 0平滑参数。因此,它表示为:

PS(聚苯乙烯)S公司ψ=嵌入式安全子系统+ψ||L(左)x个2||=j个(j个x个(j个))2+ψ||L(左)x个||2
(3)

在哪里?PS(聚苯乙烯)S公司ψ是惩罚平方和,嵌入式安全子系统是误差平方和,以及ψ||L(左)x个||2是粗糙度惩罚项的总和。

根据基函数方法;

PS(聚苯乙烯)S公司ψ=[Φc(c)]T型[Φc(c)]+ψc(c)T型R(右)c(c)
(4)

哪里R(右)k个×k个是粗糙度惩罚矩阵,N个×1是观测向量,c(c)k个×1是系数向量,以及Φ:θj个()是一组表示为维矩阵的基函数。

2.2。确定平滑参数

可以使用两种方法确定平滑参数:主观和自动。我们使用了称为自动方法的广义交叉验证方法(GCVM)。

根据Craven和Wahba开发的GCVMψ值是最小化广义交叉有效性的平滑参数[],用方程式(5)表示:

全球现金流量=n个1苏格兰和南方能源公司[n个1(S公司φΨ)]2
(5)

哪里嵌入式安全子系统是误差平方和,以及S公司φΨ是平滑矩阵;

嵌入式安全子系统=j个(j个x个(j个))2
(6)

S公司φΨ=Φ(ΦT型Φ)1ΦT型
(7)

作为d日(f)(Ψ)=(S公司φΨ),广义交叉验证表示如下[12]以下为:

GC公司V(V)Ψ=n个n个d日(f)(Ψ)嵌入式安全子系统n个d日(f)(Ψ)
(8)

哪里是矩阵的轨迹,并且d日(f)是自由度。

2.3. 平滑函数主成分分析(SFPCA)

一般来说,主成分分析(PCA)是一种重要的多元统计技术,它使我们能够发现系统中不可预见和无法识别的关系。主成分分析可以识别单元之间的关键变化点,以避免数据复杂性。它还为方差-方差结构提供了更具启发性的视图。主成分分析的主要目标是通过方差最大的原始变量的线性组合来解释方差-方差结构,从而减小数据集的大小。功能主成分分析(FPCA)用于功能数据。其主要目的与用于多元数据的PCA相似。函数主成分分析的目的是获得几个能有效识别数据变化的正交函数。这两种技术之间的唯一区别是,主成分权重(正交函数)是时间的函数或另一个感兴趣的变量。

主成分权重可能是粗略的,这是由样本方差或基数的弹性造成的。需要平滑特征函数以获得更好的解释结果[6]. FPCA平滑不仅意味着使用经典主成分分析(CPCA)获得的平滑分量。平滑的主要组成部分也包含在原始定义中。

在CPCA中j个主成分定义如下:

Y(Y)j个=γj个'(X(X)μ)j个=12第页
(9)

哪里γj个是对应于λj个特征值Σ矩阵。用于X(X):第页x个1,向量的平均向量E类(X(X))=μ变量和C类o个v(v)(X(X))=Σ方差-方差矩阵。

主要部件相互垂直。主成分的方差用方程式(10)表示:

V(V)(Y(Y)j个)=γj个'Σγj个=λj个
(10)

在考虑粗糙度的平滑函数主成分分析(SFPCA)中,主成分的方差被称为得到的惩罚主成分方差[14]根据方程式(11):

V(V)P(P)P(P)C类=V(V)(Y(Y)j个)=T型γj个()c(c)o个v(v)()γj个()d日d日T型γj个()2+ψP(P)E类N个L(左)(γ)
(11)

3.应用

我们使用提出的方法分析了土耳其黑海地区18个城市(Samsun、Ordu、Giresun、Chorum、Amasya、Tokat、Trabzon、Rize、Artvin、Gümülsh hane、Bayburt、Bartñn、Zonguldak、Sinop、Bolu、Düzce、Kastamonu和Karabük)2012年的日平均气温数据。数据来自Samsun第十区域气象局。

首先,确定了足够数量的基函数来处理数据。表1显示了用于确定基函数数的模拟研究。虽然增加更多的基函数会增加方差解释率,但很难找出导致这种变化的原因。我们的结论是,65个基函数足以获得有关数据集的必要信息,因为我们使用了一年的数据。图1显示了转换为功能数据之前的原始数据。观测点数量为36518=6570。我们使用Matlab R2015a分析数据并绘制图表。

表1。

离散点数(DPN)的确定。

 解释的差异比例 
 第一第二累计
 主要的主要的比例
DPN(分布式电源网络)成分成分差异已解释
65681179
8570211.781.9
9569912.282.1
1157111.282.5
保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0001_c.jpg

黑海地区18个城市2012年日均气温数据。

图1结果表明,观测点数量越多,提取日平均温度的个别过程就越困难。然而,将数据转换为功能数据有助于我们更好地理解和评估它,因为它具有周期性趋势。因此,我们使用基函数和粗糙度惩罚方法来转换图1转换为连续功能(图2).图2显示了为每个城市的年温度变化分别生成的18个独立函数和平均函数。

保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0002_OC.jpg

温度数据的18个独立函数和平均函数。

图2比更清楚地显示了所有功能的个别和一般过程图1.函数通常具有正弦结构(图2). 然而,观察点的数量越多,就越难获得有关函数一般过程的信息。对于非周期性数据,情况可能会更加复杂。因此,使用单个函数生成平均函数有助于我们更多地了解单个函数的一般过程。粗线条图2显示了温度数据的平均函数。2012年的最高温度和最低温度分别出现在夏季和冬季。200天后,温度略有上升,达到峰值后下降。偶数图2表示向上移动平均函数的极端个别温度值。

FDA的目标不仅是为数据提供一个良好的曲线拟合,而且是估计一个没有过度局部变异的曲线。因此,需要平滑函数。在FDA中,粗糙度惩罚方法的主要目标是测量曲线的粗糙度,并在曲线与数据的拟合和曲线粗糙度之间进行折衷。可以使用平滑参数实现拟合和折衷(Ψ). GCVM用于确定变量的平滑参数。

我们专注于365个基函数,并使用GCVM确定温度数据的平滑参数。我们对不同的平滑参数值进行了模拟,并确定Ψ作为平滑参数,因为它产生最小的GCV值。Ramsay和Silverman认为,大多数研究人员在选择平滑度时,会在实现稳定且可解释的估计值与数据的良好拟合之间取得平衡。我们将平滑参数作为Ψ=10并对其进行了检查=4;5;;25;;1(图3). 根据图3,GCV为最小值=1因此,我们采取了 = −计算中为1。一些研究报告称10410102在相关应用中作为平滑参数也会产生良好的结果[10]. 然而,我们的结果表明,将其推广到所有类型的数据是错误的。

保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0003_OC.jpg

GCV值与不同ψ温度数据的值。

我们使用SFPCA来确定数据中的变化。使用主成分分析是不合适的,因为样本小于变量的数量。我们使用粗糙度惩罚方法获得系数,然后将SFPCA应用于这些系数,以更容易地检查所有单独的温度函数。我们通过在为第一个主成分函数生成的平均函数中添加和减去第一个主成份函数乘以一个适当的因子来生成新函数。我们使用这些新函数来检查各个降水函数之间的变化。图4显示了函数和平均函数。

保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0004_OC.jpg

温度数据的第一主成分函数和平均函数的比较。

蓝色曲线图4表示第一个主成分函数的平均函数。离散的红色和绿色曲线表示通过将第一个主成分函数与适当因子相加或相减而生成的函数。这些函数显示了第一个主成分函数与某个常数相乘后与第一个主成份函数生成的平均函数相加和相减的效果。其目的是通过在同一图形上绘制平均函数获得的函数,方便温度数据的解释。红色和绿色曲线离平均值函数越远,它们离平均值的偏差越大。这种偏差在冬季更为明显,尤其是在低温条件下。因此,曲线之间温度的第一个主要变化是由于冬季。换句话说,数据变化的主要原因是冬季。

第一主成分占单个降水函数总变化的68%。图5显示了为第二主成分生成的与第一主成分正交的平均函数,以及通过在第二主成份函数生成的平均函数中添加和减去第二主分量函数乘以适当因子而生成的新函数。与平均值的偏差通常在第100天到150天之间较高(图5).

保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0005_OC.jpg

温度数据的第二主成分函数和平均函数的比较。

然而,无法从票面价值确定冬季或夏季的变化是否更高。第二个主成分仅占总变化的11%。因此,第一主成分和第二主成分一起占总变化的79%。

检查主成分得分是解释主成分的另一种方法。我们计算了第一和第二个主成分得分(表2).

表2。

温度数据的主成分得分。

 第一任校长第二任校长
 成分得分成分得分
阿尔文−15.3513.99
里泽44.170.7327
特拉布宗47.8311.67
贝伯特−89.8230.28
古穆什哈内−59.4721.99
吉瑞森46.897.365
奥杜52.25−0.9954
萨姆桑51.82−1.818
Sinop公司43.040.7975
托卡特−24.745.101
阿玛西亚5.588−43.24
圣奥伦−54.161.805
卡斯塔莫努−48.431.605
巴特(Bart)n3.176−0.8542
宗古尔达克24.152.295
杜兹塞10.13−23.11
卡拉布克−7.862−28.6
博鲁−29.22−2.263

图6根据前两个主成分得分,显示了城市在温度数据方面的位置。根据第一个主成分对主成分得分的评估表明,Samsun、Sinop、Ordu、Rize、Giresun和Trabzon的主成分得分较高。这一结果表明,第一主成分对这些城市的影响很大。相反,Bayburt、Gümüsh hane和Chorum的负分最高。当我们检查第一个主成分的数据时,强调冬季变化最大,我们可以看到里泽、奥尔杜、桑桑、西诺普、吉瑞森和特拉布宗的平均温度最高。相比之下,贝伯特、圭姆什哈内和乔鲁姆的温度最低。因此,第一主成分得分和图形结果都是相互支持的。

保存图片、插图等的外部文件。对象名称为CJAS_A_1896683_F0006_OC.jpg

温度数据的主成分得分。

在第二个主成分中,最大的变化,即与平均值的最大偏差发生在第100天到第150天之间。这一结果表明,第二个主成分显著影响贝伯特和Gümüsh hane,它们的最低温度在100天到150天之间。图2此外,Bayburt和Gümüsh hane在100天到150天之间的平均功能最低。

4.仿真

我们用18个对象的不同观测值模拟随机函数数据样本,以比较FPCA和SFPCA的解释力。我们讨论了每个函数数据集的不同数量的基函数。表3显示了仿真结果,表明SFPCA的性能优于FPCA。

表3。

仿真结果:方法比较。

  解释的方差比例
N个DPN(分布式电源网络)FPCA公司SFPCA公司
36536584.287.1
73173185.587.8
1095109585.988.3
1461146186.188.6
1825182586.789.4
2191219187.990.7

5.结论

FDA变得越来越重要,因为它允许我们使用插值方法处理缺失数据,并在所需的水平上检查单个函数的导数。FDA可以很容易地导出系统中预期和未识别的关系。为了揭示这些关系,它可以利用单个函数、平均函数、协方差曲面、主成分函数以及为主成分函数生成的平均函数。

我们使用FDA分析了土耳其黑海地区18个城市2012年的日平均气温数据。首先,我们使用基函数和粗糙度惩罚方法将数据转换为18个单独的函数。

使用主成分分析是不合适的,因为样本小于变量的数量。因此,我们使用SFPCA来确定数据中的变化,即平滑数据。

SFPCA允许我们通过绘制平均函数和通过在同一图形上对主成分函数生成的平均函数加上或减去主成分函数乘以适当因子而生成的函数来评估温度函数的变化。结果表明,温差是由冬季引起的,其解释力为68%(第一主成分)。换句话说,冬季是温度数据变化的原因。第100天和第150天之间的低温差异是温度数据变化的次要原因,解释力为11%(第二主成分)。

仿真结果表明,SFPCA的性能优于FPCA。

确认

这项研究是SZEN[15]硕士论文的一部分,并来源于本论文。

披露声明

提交人没有报告潜在的利益冲突。

工具书类

1Benko M。,功能主组件分析、实现和应用硕士论文洪堡大学应用统计与经济中心,柏林,2004年。[谷歌学者]
2Costanzo总经理。,金融时间序列的函数主成分分析2005年,法国巴黎卡拉布里亚大学经济与统计研究所。
三。Craven P.和Wahba G。,用样条函数平滑带噪数据数字。数学。 31(1978年),第377-403页。[谷歌学者]
4埃尔塔什·K和凯撒·伊。英国。,杜兹根利什·蒂里尔米什·丰克西约内尔·安娜·比勒什·恩勒(Düzgünle sh tirilmi sh Fonksiyonel Ana Bile sh enler Analizi ile I MKB Verilerinin I ncelenmesi)德国国家统计局 8(2008),第1-32页。[谷歌学者]
5凯撒群岛。英国。,功能主成分分析:GDP数据调查Ege学院。版次。 8(2008),第915-928页。[谷歌学者]
6凯撒群岛。英国。,爱琴海地区降雨数据的函数分析Dokuz Eylülüu niversitesi Is ktisadi ve Is dari Bilimler Fakültesi Dergisi(多库兹·伊勒吕·尼维斯) 1(2010),第41-67页。[谷歌学者]
7凯撒群岛。和埃尔塔什·K。,杜兹根勒·蒂里尔米·丰克西扬内尔·安娜·比勒·恩勒(Düzgünle sh tirilmi sh Fonksiyonel Ana Bile sh enler Analizi ve Bir Viguulama)D.E.大学。B.F.德吉西。 22(2007),第1-26页。[谷歌学者]
8Pezzulli S.D.和Silverman B.W。,函数数据平滑主成分分析的一些性质计算。统计师。数据分析。 8(1993),第1-16页。[谷歌学者]
9Ramsay J.O.和Dalzell C。,功能数据分析的一些工具J.R.Stat.Soc.B公司 55(1991),第539-572页。[谷歌学者]
10Ramsay J.O.和Li X。,曲线配准J.R.Stat.Soc.B公司 60(1998),第351-363页。[谷歌学者]
11Ramsay J.O.和Silverman B.W。,功能数据分析,斯普林格统计系列,斯普林格,纽约,1997年。[谷歌学者]
12Ramsay J.O.和Silverman B.W。,功能数据分析第二版,《斯普林格统计丛书》,斯普林格,纽约,2005年。[谷歌学者]
13Rice J.A.和Silverman B.W。,当数据为曲线时,非参数估计均值和协方差结构J.R.Stat.Soc.B公司 1(1991),第233-243页。[谷歌学者]
14西尔弗曼B.W。,基于范数选择的光滑函数主成分分析Ann.统计。 24(1996),第1-24页。[谷歌学者]
15Sözen街。,在分离分析点观察到的数据和应用2014年,土耳其Samsun Ondokuz May’s大学统计系硕士论文。

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯