J应用统计。2022年;49(9): 2403–2415.
利用功能数据分析研究土耳其黑海地区的温度数据
一和b条
尤克塞尔奥纳
b条土耳其Samsun Ondokuz May’s大学统计系
一土耳其基里桑基里桑大学银行与金融系
b条土耳其Samsun Ondokuz May’s大学统计系
版权©2021 Informa UK Limited,作为Taylor&Francis Group交易 摘要
随着研究领域的扩大,或者随着样本中观测值的增加,通常假设在离散点观测的数据是从潜在的实函数中采样的。随着观测点数量的增加,这些观测很可能是从实值函数中采样的。在这种情况下,导出的数据将是功能结构的示例。我们分析了土耳其黑海地区18个城市65个离散点的日平均温度数据。傅里叶基函数被用作基函数方法,因为温度数据具有周期性结构。然后使用基函数和粗糙度惩罚方法将数据转换为连续函数。使用粗糙度惩罚方法获得功能数据。采用广义交叉验证方法确定变量(温度变量)的平滑参数。最后,将平滑函数主成分分析应用于函数数据。通过这种方式,使用主成分函数生成的平均函数,并使用函数和主成分函数获得的平均函数在同一图上评估温度函数的变化,这些函数似乎很难处理。
关键词:基函数、粗糙度惩罚方法、平滑函数主成分分析、广义交叉验证、温度数据
受试者分类代码:62H25、62H99、62P12、62-07
1.简介
统计分析通常涉及基于一个或多个变量的随机样本中每个个体或对象的测量。目的是对抽取随机样本的人群进行一般性和可解释性推断。最近的技术进步导致统计数据收集能力在过去几年中呈指数级增长。然而,其后果之一是,在某些情况下,使用经典统计方法(单一或多变量)来分析和解释统计数据变得越来越困难。因此,寻求替代方法。其中一种方法是功能数据分析(FDA),它首先将离散时间点观察到的数据转换为功能数据,然后使用统计方法分析这些功能数据[9].
随着单个或对象的变量数量增加,将观测数据函数视为单个实体而非连续点更为有利。Ramsay和Silverman认为,将观测视为单个实体的最简单方法是将每个个体或对象作为观测数据函数[12].
插值和平滑是将离散点观测数据转换为功能数据的最实用方法。如果假设观测值无误差,则可以使用插值来生成函数。如果数据生成基于实验过程,平滑可以将离散数据转换为功能数据[12].
今天,我们可以使用统计方法分析大样本。然而,随着研究领域的扩大,或者换言之,随着样本中观察点数量的增加,传统的统计方法可能无法分析大样本,因为在功能数据分析中,每次观察所检查的点数量不必相等。因此,功能数据与多元数据不同,即使在同一点观察时,功能观察类似于多元观察。随着样本中观测点数量的增加,假设在离散点实际观测到的数据是从潜在的实函数中采样的。因此,Keser指出,功能观测有时可以被视为连续函数,这意味着功能观测的大小可以比样本大得多。在这种情况下,标准多元数据分析方法可能会失败,因为相应的协方差矩阵是奇异矩阵[5].
FDA的第一步和目标是改变观察到的值转换为可计算任何吨和我 = 1,2, … ,N个和j个 = 1,2, … ,n个在FDA中我数据矩阵中的观测值实际上假设是在离散点上观测的,尽管它是一个形式为,在FDA中,观察到数据是从底层连续函数中采样的。因此,函数数据不同于多元观测向量[5],其中是样本量,是第i个样本的测量次数,是j个第次测量我第个样本和是的值Y(Y)变量位于测量点。
观测点可能因功能观测而异,因此在这种情况下可能无法应用多元方法。另一方面,尽管FDA处理时间数据,但其范围和目标与时间序列分析不同,时间序列分析通常用于建模数据和预测未来观察结果。功能数据分析将数据视为功能。因此,从中导出观测值的函数的两个导数都可以在所需的秩下获得,并且可以使用插值来克服与缺失数据相关的问题[2,11,12].
使用平滑样条是获得函数的常用方法,该函数平滑了在离散点获得的噪声数据。Craven和Wahba开发了一种实用有效的方法,用于从数据中估计最佳平滑量[三]. 在该方法中,使用广义交叉验证来估计适当的平滑度。
西尔弗曼提出并研究了一种功能主成分分析(FPCA)的替代方法[14]. 它在概念和计算上都比Rice和Silverman提出的方法简单[13]. Silverman的方法允许使用单个校正参数同时预测所有相关的主成分。还研究了提高主成分权重函数准确性的条件。佩祖利和西尔弗曼[8]认为这些条件比赖斯和西尔弗曼提出的方法要轻。
关于FDA的一些研究是Benko[1]凯瑟和埃尔塔什[7]埃尔塔什和凯瑟[4]和Keser[5,6].
2.方法
我们分析了土耳其黑海地区18个城市65个离散点的日平均温度数据。数据来自Samsun第十区域气象局。傅里叶基函数被用作基函数方法,因为数据形成了周期结构。然后使用基函数和粗糙度惩罚方法将数据转换为连续函数。
2.1. 傅里叶方法
功能数据分析需要灵活的方法来生成功能。为此k个选择了基函数的个数。对于,的函数作为这些基本函数的加权和,定义为:
哪里是基函数,以及是对应于第个基本函数。
基函数数量过多会使函数变得复杂,从而导致兼容性。因此,理想的做法是选择一定数量的基函数,这些基函数使用相对较小的k值提供完美的近似值。通常,20-30个基函数足以提取显著特征[11]. 对于周期函数,傅里叶基函数和粗糙度惩罚方法确定了适合数据的基函数。
2.1.1。使用傅里叶基展开构建函数数据
一般来说,三角函数是逼近周期函数的理想函数。作为,以傅里叶级数(有限或无限)的形式,周期函数表示为
其中基是周期的。如果值在实际范围内的比例相等T型,如果周期等于范围的长度T型,则基是正交的[1].
2.1.2. 粗糙度惩罚方法
FDA的目标不仅是为数据提供一个良好的曲线拟合,而且还要估计一个不会出现过度局部变异的曲线。这种曲线估计被称为平滑函数。粗糙度惩罚方法用于此目的。在FDA中,用于平滑函数的粗糙度惩罚方法的主要目标是测量曲线的粗糙度,以及曲线与数据的拟合与曲线粗糙度之间的折衷[6]. 换句话说,它的目的是将均方误差写成抽样方差和偏差平方的和。为了减少采样方差,可以通过平滑曲线来稍微降低偏差[12].
在获得粗糙度惩罚方法中的粗糙度惩罚估计值时函数可以被视为定义在以下范围内的可微函数和aψ > 0平滑参数。因此,它表示为:
在哪里?是惩罚平方和,是误差平方和,以及是粗糙度惩罚项的总和。
根据基函数方法;
哪里是粗糙度惩罚矩阵,是观测向量,是系数向量,以及:是一组表示为维矩阵的基函数。
2.2。确定平滑参数
可以使用两种方法确定平滑参数:主观和自动。我们使用了称为自动方法的广义交叉验证方法(GCVM)。
根据Craven和Wahba开发的GCVMψ值是最小化广义交叉有效性的平滑参数[三],用方程式(5)表示:
哪里是误差平方和,以及是平滑矩阵;
作为,广义交叉验证表示如下[12]以下为:
哪里是矩阵的轨迹,并且是自由度。
2.3. 平滑函数主成分分析(SFPCA)
一般来说,主成分分析(PCA)是一种重要的多元统计技术,它使我们能够发现系统中不可预见和无法识别的关系。主成分分析可以识别单元之间的关键变化点,以避免数据复杂性。它还为方差-方差结构提供了更具启发性的视图。主成分分析的主要目标是通过方差最大的原始变量的线性组合来解释方差-方差结构,从而减小数据集的大小。功能主成分分析(FPCA)用于功能数据。其主要目的与用于多元数据的PCA相似。函数主成分分析的目的是获得几个能有效识别数据变化的正交函数。这两种技术之间的唯一区别是,主成分权重(正交函数)是时间的函数或另一个感兴趣的变量。
主成分权重可能是粗略的,这是由样本方差或基数的弹性造成的。需要平滑特征函数以获得更好的解释结果[6]. FPCA平滑不仅意味着使用经典主成分分析(CPCA)获得的平滑分量。平滑的主要组成部分也包含在原始定义中。
在CPCA中主成分定义如下:
哪里是对应于特征值矩阵。用于,向量的平均向量变量和方差-方差矩阵。
主要部件相互垂直。主成分的方差用方程式(10)表示:
在考虑粗糙度的平滑函数主成分分析(SFPCA)中,主成分的方差被称为得到的惩罚主成分方差[14]根据方程式(11):
3.应用
我们使用提出的方法分析了土耳其黑海地区18个城市(Samsun、Ordu、Giresun、Chorum、Amasya、Tokat、Trabzon、Rize、Artvin、Gümülsh hane、Bayburt、Bartñn、Zonguldak、Sinop、Bolu、Düzce、Kastamonu和Karabük)2012年的日平均气温数据。数据来自Samsun第十区域气象局。
首先,确定了足够数量的基函数来处理数据。显示了用于确定基函数数的模拟研究。虽然增加更多的基函数会增加方差解释率,但很难找出导致这种变化的原因。我们的结论是,65个基函数足以获得有关数据集的必要信息,因为我们使用了一年的数据。显示了转换为功能数据之前的原始数据。观测点数量为。我们使用Matlab R2015a分析数据并绘制图表。
表1。
| 解释的差异比例 | |
---|
| 第一 | 第二 | 累计 |
---|
| 主要的 | 主要的 | 比例 |
---|
DPN(分布式电源网络) | 成分 | 成分 | 差异已解释 |
---|
65 | 68 | 11 | 79 |
85 | 70。2 | 11.7 | 81.9 |
95 | 69。9 | 12.2 | 82.1 |
115 | 71。三 | 11.2 | 82.5 |
结果表明,观测点数量越多,提取日平均温度的个别过程就越困难。然而,将数据转换为功能数据有助于我们更好地理解和评估它,因为它具有周期性趋势。因此,我们使用基函数和粗糙度惩罚方法来转换转换为连续功能().显示了为每个城市的年温度变化分别生成的18个独立函数和平均函数。
比更清楚地显示了所有功能的个别和一般过程.函数通常具有正弦结构(). 然而,观察点的数量越多,就越难获得有关函数一般过程的信息。对于非周期性数据,情况可能会更加复杂。因此,使用单个函数生成平均函数有助于我们更多地了解单个函数的一般过程。粗线条显示了温度数据的平均函数。2012年的最高温度和最低温度分别出现在夏季和冬季。200天后,温度略有上升,达到峰值后下降。偶数表示向上移动平均函数的极端个别温度值。
FDA的目标不仅是为数据提供一个良好的曲线拟合,而且是估计一个没有过度局部变异的曲线。因此,需要平滑函数。在FDA中,粗糙度惩罚方法的主要目标是测量曲线的粗糙度,并在曲线与数据的拟合和曲线粗糙度之间进行折衷。可以使用平滑参数实现拟合和折衷(). GCVM用于确定变量的平滑参数。
我们专注于365个基函数,并使用GCVM确定温度数据的平滑参数。我们对不同的平滑参数值进行了模拟,并确定作为平滑参数,因为它产生最小的GCV值。Ramsay和Silverman认为,大多数研究人员在选择平滑度时,会在实现稳定且可解释的估计值与数据的良好拟合之间取得平衡。我们将平滑参数作为并对其进行了检查(). 根据,GCV为最小值因此,我们采取了吨 = −计算中为1。一些研究报告称,和在相关应用中作为平滑参数也会产生良好的结果[10]. 然而,我们的结果表明,将其推广到所有类型的数据是错误的。
我们使用SFPCA来确定数据中的变化。使用主成分分析是不合适的,因为样本小于变量的数量。我们使用粗糙度惩罚方法获得系数,然后将SFPCA应用于这些系数,以更容易地检查所有单独的温度函数。我们通过在为第一个主成分函数生成的平均函数中添加和减去第一个主成份函数乘以一个适当的因子来生成新函数。我们使用这些新函数来检查各个降水函数之间的变化。显示了函数和平均函数。
蓝色曲线表示第一个主成分函数的平均函数。离散的红色和绿色曲线表示通过将第一个主成分函数与适当因子相加或相减而生成的函数。这些函数显示了第一个主成分函数与某个常数相乘后与第一个主成份函数生成的平均函数相加和相减的效果。其目的是通过在同一图形上绘制平均函数获得的函数,方便温度数据的解释。红色和绿色曲线离平均值函数越远,它们离平均值的偏差越大。这种偏差在冬季更为明显,尤其是在低温条件下。因此,曲线之间温度的第一个主要变化是由于冬季。换句话说,数据变化的主要原因是冬季。
第一主成分占单个降水函数总变化的68%。显示了为第二主成分生成的与第一主成分正交的平均函数,以及通过在第二主成份函数生成的平均函数中添加和减去第二主分量函数乘以适当因子而生成的新函数。与平均值的偏差通常在第100天到150天之间较高().
然而,无法从票面价值确定冬季或夏季的变化是否更高。第二个主成分仅占总变化的11%。因此,第一主成分和第二主成分一起占总变化的79%。
检查主成分得分是解释主成分的另一种方法。我们计算了第一和第二个主成分得分().
表2。
| 第一任校长 | 第二任校长 |
---|
| 成分得分 | 成分得分 |
---|
阿尔文 | −15.35 | 13.99 |
里泽 | 44.17 | 0.7327 |
特拉布宗 | 47.83 | 11.67 |
贝伯特 | −89.82 | 30.28 |
古穆什哈内 | −59.47 | 21.99 |
吉瑞森 | 46.89 | 7.365 |
奥杜 | 52.25 | −0.9954 |
萨姆桑 | 51.82 | −1.818 |
Sinop公司 | 43.04 | 0.7975 |
托卡特 | −24.74 | 5.101 |
阿玛西亚 | 5.588 | −43.24 |
圣奥伦 | −54.16 | 1.805 |
卡斯塔莫努 | −48.43 | 1.605 |
巴特(Bart)n | 3.176 | −0.8542 |
宗古尔达克 | 24.15 | 2.295 |
杜兹塞 | 10.13 | −23.11 |
卡拉布克 | −7.862 | −28.6 |
博鲁 | −29.22 | −2.263 |
根据前两个主成分得分,显示了城市在温度数据方面的位置。根据第一个主成分对主成分得分的评估表明,Samsun、Sinop、Ordu、Rize、Giresun和Trabzon的主成分得分较高。这一结果表明,第一主成分对这些城市的影响很大。相反,Bayburt、Gümüsh hane和Chorum的负分最高。当我们检查第一个主成分的数据时,强调冬季变化最大,我们可以看到里泽、奥尔杜、桑桑、西诺普、吉瑞森和特拉布宗的平均温度最高。相比之下,贝伯特、圭姆什哈内和乔鲁姆的温度最低。因此,第一主成分得分和图形结果都是相互支持的。
在第二个主成分中,最大的变化,即与平均值的最大偏差发生在第100天到第150天之间。这一结果表明,第二个主成分显著影响贝伯特和Gümüsh hane,它们的最低温度在100天到150天之间。此外,Bayburt和Gümüsh hane在100天到150天之间的平均功能最低。
4.仿真
我们用18个对象的不同观测值模拟随机函数数据样本,以比较FPCA和SFPCA的解释力。我们讨论了每个函数数据集的不同数量的基函数。显示了仿真结果,表明SFPCA的性能优于FPCA。
表3。
| | 解释的方差比例 |
---|
N个 | DPN(分布式电源网络) | FPCA公司 | SFPCA公司 |
---|
365 | 365 | 84.2 | 87.1 |
731 | 731 | 85.5 | 87.8 |
1095 | 1095 | 85.9 | 88.3 |
1461 | 1461 | 86.1 | 88.6 |
1825 | 1825 | 86.7 | 89.4 |
2191 | 2191 | 87.9 | 90.7 |
5.结论
FDA变得越来越重要,因为它允许我们使用插值方法处理缺失数据,并在所需的水平上检查单个函数的导数。FDA可以很容易地导出系统中预期和未识别的关系。为了揭示这些关系,它可以利用单个函数、平均函数、协方差曲面、主成分函数以及为主成分函数生成的平均函数。
我们使用FDA分析了土耳其黑海地区18个城市2012年的日平均气温数据。首先,我们使用基函数和粗糙度惩罚方法将数据转换为18个单独的函数。
使用主成分分析是不合适的,因为样本小于变量的数量。因此,我们使用SFPCA来确定数据中的变化,即平滑数据。
SFPCA允许我们通过绘制平均函数和通过在同一图形上对主成分函数生成的平均函数加上或减去主成分函数乘以适当因子而生成的函数来评估温度函数的变化。结果表明,温差是由冬季引起的,其解释力为68%(第一主成分)。换句话说,冬季是温度数据变化的原因。第100天和第150天之间的低温差异是温度数据变化的次要原因,解释力为11%(第二主成分)。
仿真结果表明,SFPCA的性能优于FPCA。
确认
这项研究是SZEN[15]硕士论文的一部分,并来源于本论文。
工具书类
1Benko M。,功能主组件分析、实现和应用,硕士论文洪堡大学应用统计与经济中心,柏林,2004年。[谷歌学者] 2Costanzo总经理。,金融时间序列的函数主成分分析2005年,法国巴黎卡拉布里亚大学经济与统计研究所。
三。Craven P.和Wahba G。,用样条函数平滑带噪数据。数字。数学。
31(1978年),第377-403页。[谷歌学者] 4埃尔塔什·K和凯撒·伊。英国。,杜兹根利什·蒂里尔米什·丰克西约内尔·安娜·比勒什·恩勒(Düzgünle sh tirilmi sh Fonksiyonel Ana Bile sh enler Analizi ile I MKB Verilerinin I ncelenmesi)。德国国家统计局
8(2008),第1-32页。[谷歌学者] 5凯撒群岛。英国。,功能主成分分析:GDP数据调查。Ege学院。版次。
8(2008),第915-928页。[谷歌学者] 6凯撒群岛。英国。,爱琴海地区降雨数据的函数分析。Dokuz Eylülüu niversitesi Is ktisadi ve Is dari Bilimler Fakültesi Dergisi(多库兹·伊勒吕·尼维斯)
1(2010),第41-67页。[谷歌学者] 7凯撒群岛。和埃尔塔什·K。,杜兹根勒·蒂里尔米·丰克西扬内尔·安娜·比勒·恩勒(Düzgünle sh tirilmi sh Fonksiyonel Ana Bile sh enler Analizi ve Bir Viguulama)。D.E.大学。B.F.德吉西。
22(2007),第1-26页。[谷歌学者] 8Pezzulli S.D.和Silverman B.W。,函数数据平滑主成分分析的一些性质。计算。统计师。数据分析。
8(1993),第1-16页。[谷歌学者] 9Ramsay J.O.和Dalzell C。,功能数据分析的一些工具。J.R.Stat.Soc.B公司
55(1991),第539-572页。[谷歌学者] 10Ramsay J.O.和Li X。,曲线配准。J.R.Stat.Soc.B公司
60(1998),第351-363页。[谷歌学者] 11Ramsay J.O.和Silverman B.W。,功能数据分析,斯普林格统计系列,斯普林格,纽约,1997年。[谷歌学者] 12Ramsay J.O.和Silverman B.W。,功能数据分析第二版,《斯普林格统计丛书》,斯普林格,纽约,2005年。[谷歌学者] 13Rice J.A.和Silverman B.W。,当数据为曲线时,非参数估计均值和协方差结构。J.R.Stat.Soc.B公司
1(1991),第233-243页。[谷歌学者] 14西尔弗曼B.W。,基于范数选择的光滑函数主成分分析。Ann.统计。
24(1996),第1-24页。[谷歌学者] 15Sözen街。,在分离分析点观察到的数据和应用2014年,土耳其Samsun Ondokuz May’s大学统计系硕士论文。