摘要

嵌入维数和最近邻数是混沌时间序列预测中非常重要的参数。为了减少上述两个参数确定中的不确定性,本文提出了一种新的自适应局部线性预测方法。在新方法中,嵌入维数和最近邻数被组合为一个参数集,并在预测过程中自适应地改变。广义自由度用于帮助选择最佳参数。通过实际水文时间序列来检验新方法的性能。预测结果表明,新方法可以在预测过程中自适应地选择最佳嵌入维数和最近邻数参数。这种新方法也许可以更好地模拟非线性水文时间序列。

1.简介

全球和地区气候已经开始改变[1]和气象驱动过程已经被一些研究人员研究,就像信号分析和其他领域的研究一样[28]. 许多水文过程,例如径流,通常是非线性、复杂的动态过程,因为涉及到物理过程以及相当大的空间和时间变化[9]. 传统的确定性数学模型很难模拟非线性水文时间序列。然而,混沌理论的出现为研究这类高度复杂的系统提供了一种新的方法,并使从看似无序的水文现象中提取确定性规律成为可能。混沌理论是非线性科学的重要组成部分,一些科学家对其理论和应用进行了研究[1011]. 近几十年来,人们逐渐建立了一系列识别动力学系统混沌本质的理论和方法[1217]. 混沌理论在水文过程中的首次应用可以追溯到1987年Hense对瑙鲁岛1008个月降雨量的分析[18]混沌理论成为研究水文过程越来越可靠的工具。

随着混沌理论及其应用技术的发展,人们提出了许多预测混沌时间序列的方法,这些方法大致可分为两大类:全局方法[19]和局部方法[2021]. 全局方法试图在所有吸引子上近似整个时间序列,并寻找在每个点都有效的函数。显然,这种方法的缺点是,如果在模型中添加新的信息,参数可能会发生变化,并且在参数估计中会浪费大量时间。然而,局部方法通过仅在局部吸引子上建立模型并仅利用部分过去的信息,克服了这一缺点。Farmer和Sidorowich[20]已经证明局部预测方法优于全局预测方法。另一方面,通过使用一些组合技术,可以提高全局方法和局部方法的预测精度[21].

在局部预测过程中,相空间重构是第一步,有三个参数(嵌入维数、延时,以及最近邻居的数量)应该确定。非线性预测的研究表明,延迟时间的选择不影响重构吸引子,重构吸引器能清晰地反映系统的动力学特性;所以关键问题是确定最优用于预测。(通常是最近邻居的数量取值大于一般情况下。)

尽管关于如何确定最佳嵌入维数有很多讨论,但以下三种基本方法是最常用的。第一类方法是基于计算吸引子的一些几何不变量,如格拉斯伯格-普鲁卡西亚方法(G-P方法)[16]. 通过增加嵌入维数,可以在不变量值饱和时选择最小嵌入维数。这种方法的典型问题是计算耗时,不适合于短时间序列,当然也存在主观和对噪声敏感的问题。第二类方法,如伪最近邻法(FNN)[2223]和Aleksić方法[24]基于伪邻域理论,当嵌入维数太低时,原始相空间中相距较远的点会在重构相空间中靠近。但在判断虚假邻居时,标准是主观的,曹改进了方法[25]. 第三种方法,如主成分分析(PCA)[26],奇异谱分析(SSA)[27]和奇异值分解[28],基于Broomhead和King提出的奇异值分解[26]. 但奇异值分解本质上是一种基于反映线性相关性的协方差矩阵的线性方法[29]. 这种方法在一定程度上也是主观的,大奇异值的数量可能取决于嵌入过程的细节和数据的准确性。数理经验已经引导了一些研究人员[2830]怀疑该方法在非线性时间序列分析中的真实性[31]. 上述所有方法都有一些缺点,如不适用于短时间序列、或多或少具有主观性、对噪声敏感等[31].

在传统的局部预测过程中,嵌入维数和最近邻数的确定存在不确定性,会影响预测精度。为了提高预测精度,出现的问题是如何减少预测方法中的参数不确定性。众所周知,随着预测过程的进行,时间序列数据会不断更新;用原始时间序列相空间重构估计的参数可能无法重构新序列的混沌吸引子。为了减少时间序列数据更新带来的不确定性,在预测过程中需要自适应地改变嵌入维数和最近邻数。为了获得更好的预测结果,Jayawardena等人[32]提出了一种利用广义自由度(GDF)确定预测最优邻域数的方法。但在该方法中,嵌入维数在整个预测过程中的取值与传统的局部预测相同;因此,该方法仍需改进。

在本研究中,参数集基于两个不确定参数,即嵌入维数以及最近邻居的数量然后提出了一种新的自适应局部预测方法,其中不是固定值,而是随着预测步骤的发展而变化。在选择最佳参数集时对于每个预测步骤,使用广义自由度(GDF),并计算不同组合下的不同误差方差.最佳参数集当方差获得最小值时选择。为了检验新方法的有效性,使用了一些实际水文时间序列。

2.新的局部线性预测方法

2.1. 相空间重构

对于标量时间序列多维相空间可以用Takens嵌入理论重建[15],根据哪里是相空间的总点数,以及是延迟时间,是向量的维数称为嵌入维度是时间序列的长度。

2.1.1. 延迟时间的确定

在估计延迟时间方面已经发展了许多方法。以及自相关函数[15163334]在本研究中使用了最广泛用于确定延迟时间的工具。自相关函数可以描述为哪里是自相关系数,是滞后时间,以及分别是时间序列的均值和标准方差。延迟时间总是在自相关系数下降到初始值的(是自然对数的底)。

2.1.2. 嵌入尺寸的确定

在许多嵌入维数计算方法中,伪最近邻(FNN)方法[22]使用最广泛。曹在FNN方法的基础上提出了一种新的方法。曹氏方法[25]可以描述如下。假设哪里是欧几里得距离的测量值,中的第个相位点-维重构相空间,以及是的最近邻居.所有的平均值

当嵌入维度从可以定义为

如果在以下情况下停止更改大于某个值,然后可以作为重构相空间的最小嵌入维数。

2.2。传统的局部线性预测方法

在过去的几十年中,发展了许多局部预测方法,本研究考虑了局部线性预测方法。局部线性预测的第一步是找到当前相位点的最近邻点在重构的相空间中。欧几里得距离在当前矢量之间及其前向延迟向量将进行计算,然后最近邻点(价值高于一般情况下)。

局部线性预测模型-维重构相空间是一个自回归模型,其预测值是延迟向量中的元素,如下所示:哪里是需要确定的系数向量,以及

确定性预测假设,如果相空间点与当前点类似,然后是未来点也将接近未来的点.系数向量可以通过当前相位矢量进行估计及其最近邻点通过以下等式:哪里是点的下一个系列值、和

因为已知,因此系数向量的估计可以通过最小二乘法得到来自(2.8),然后使用(2.6),预测值可以计算。新的预测值随着预测步骤的发展,添加到原始时间序列中,最后一个相位点为通过现在的相空间重建。在预测中遵循相同的方案并重新估计系数向量可以计算。

2.3. 最佳参数的确定

在回归分析中,自由度通常被用作各种模型选择标准中的模型复杂性度量,如MallowsAkaike信息准则(AIC)和贝叶斯信息准则(BIC)。然而,这些模型选择标准本质上是渐进的,没有考虑到建模过程,而建模过程往往非常复杂[32]. 所以Ye[35]开发了适用于评估模型选择的广义自由度(GDF)概念。

GDF定义为模型的每个拟合值对相应观测值中扰动的灵敏度之和[32]. 它本质上是非共鸣的,因此不受样本大小限制[35]. 在混沌局部线性预测过程中,GDF可以视为建模过程的成本。考虑到最优嵌入维数的确定和预测的最近邻数的不确定性,可以在不同的参数集下获得误差方差的不同无偏估计.更好因为模型预测是误差方差较小的预测。所以最佳参数可以通过比较计算的不同误差方差来选择。在预测的每个步骤中,都可以计算GDF和最佳参数可以选择;因此,GDF可以提供一种新的方法来指导自适应改变。

使用前面介绍的局部线性预测方法,可以获得数据序列的未来值。在这里,我们将展示如何选择最佳使用GDF方法进行预测。

根据上述描述,系数向量的估计英寸(2.8)也可以如下所示:哪里都是一样的(2.8)和是错误值的行向量。

使用最小二乘法,(是的平均矢量)可以估计为

固定嵌入维度RSS的平方残差之和表示为

然后对误差方差进行无偏估计表示为哪里是最近邻居的数量。是GDF,可以通过以下公式进行估算

这提供了一个工具来评估模型的优缺点.具有不同的参数集值,矩阵和拟合向量函数将不同,则可以获得不同的误差方差。最佳因为预测是方差最小的预测。

2.4. 一种新的局部线性预测方法

通过比较误差方差的估计对于不同的,可以选择最佳参数集。然后将其用于预测。本研究中提出的新局部线性方法描述如下。

步骤1。相空间重构。确定嵌入尺寸和时间延迟用于原始时间序列。

第2步。计算误差方差。让嵌入维度更改自,最近邻居的数量从(在本研究中,选择为2并且,分别。这不是唯一的选择。被视为,与Jayawardena的方法相同[32].)可以得到局部线性模型。对于每个模型,可以使用(2.13)和(2.14).

步骤3。选择最佳其方差最小。

步骤4。使用重建原始时间序列并构建局部模型以预测下一个值

步骤5。然后可通过最后一点后的相同方案进行计算;现在是了

选取一些实际水文时间序列来检验新的局部线性方法(NLLP-2)的性能,并与传统的局部线性预测方法(TLLP)和贾亚瓦德纳方法(NLLP-1)进行了比较[32].

3.在水文时间序列中的应用

3.1. 研究区域和数据描述

本研究中的实际水文时间序列被选为Tochil'noye Peschanaya的日流量(N和E、 流域面积,4720公里2)1936年1月至1980年12月期间的俄语,以及Tim在Napas的每日排放量(N和E、 流域面积,24500 km2)1953年1月至1994年12月期间使用俄语。表中显示了一些重要的统计值1

对于Peschanaya的日流量,时间序列分为两个数据集,第一个训练数据集是1936年1月至1979年12月期间的数据,第二个预测数据集是1980年1月1日至1980年2月9日期间的数据。同样,Tim的第一个训练数据集是1953年1月至1993年12月期间的数据,第二个预测数据集是1994年1月1日至1994年2月9日期间的数据。这两个时间序列的预测提前期均为40天。

3.2. 相空间重构

在本研究中,分别用自相关函数法和Cao法确定了上述两个日流量时间序列的延迟时间和嵌入维数。两个时间序列的自相关函数的变化如图所示1以及如图所示2

当自相关系数降至时,选择延迟时间它的初始值。来自图1,Peschanaya和Tim的延迟时间可分别确定为9和20。(图中的红线1表示自相关函数值为初始值。)

来自图2,的值从以下情况变为饱和; 所以嵌入维数可以确定为为佩沙纳亚。同样,Tim的嵌入维数也可以确定为6。

日流量时间序列局部线性预测中的第三个参数是最近邻数。在本研究中,只有传统的预测方法(TLLP)需要预先给定该参数;其余两种方法(NLLP-1和NLLP-2)可以在预测过程中自适应地获得最近邻居的数量。

3.3. 预测结果与分析

这两个时间序列分别由TLLP、NLLP-1和NLLP-2预测。为了使用TLLP获得最佳预测结果TLLP从.通过比较不同条件下的预测结果、TLLP在不同情况下的最优预测结果可以选择。TLLP预测结果如表所示2

在本研究中,预测的准确性通过三个测量指标进行评估,即平均绝对误差(MAE)均方根误差(RMSE),相关系数(CC)三个指标的定义如下:哪里是正在调查的时间序列的数量。这个分别是时间序列中的预测值和观测值,以及分别是观测值和预测值的平均值。

一般来说,在上述测量指标中,MAE和RMSE的值越低,表示一致性越好,CC的正值越高,表示观测值和预测值之间的一致性越好。

从表2可以看出,当最近邻数为即13,(MAE=0.4781,RMSE=0.6878,CC=0.9092)。当最近邻数为,即22,(MAE=7.6517,RMSE=9.4725,CC=0.9089)。

图中显示了NLLP-1、NLLP-2的结果以及TLLP的最佳结果表中显示了20个提前期步骤和40个提前期步之间三种方法的比较4分别是。

来自图3(a)和表可以看出,NLLP-1在Peschanaya的预测过程开始时获得了最佳的预测结果(当前置时间步长为20时,MAE=0.2367,RMSE=0.2767和CC=0.9636),并且在此条件下,NLLP-2和NLLP-1的结果都优于TLLP。但随着预测步长的增加,NLLP-1和NLLP-2的预测精度变得比TLLP差。当提前期步长为40时,TLLP(MAE=0.4781,RMSE=0.6878,CC=0.9092)获得最佳结果。

来自图3(b)和表4可以看出,不仅在预测过程的开始,而且在提前期步长为40的整个过程中,NLLP-2得到了最佳的预测结果(当提前期步长为20时,MAE=2.6050,RMSE=2.9928,CC=0.9113,当提前期步长为40时,MAE=1.7600,RMSE=2.2413,以及CC=0.9054)。

从以上分析来看,本研究提出的新方法(NLLP-2)在Peschanaya预测过程开始时的预测性能优于TLLP。对于Tim的每日出院,NLLP-2的工作效果优于TLLP和NLLP-1。

上述三种方法中嵌入维数和最近邻数的变化如图所示45(交付周期为20天)。可以发现,在预测过程中,嵌入维数和最近邻数都会发生自适应变化。

4.结论与展望

为了获得最佳预测结果,提出了一种新的自适应局部线性预测方法,该方法将嵌入维数和最近邻数组合为一个参数集并随着预测步长的增加而自适应变化。主要结果如下。(i)最佳参数可以使用GDF方法得到。在选择最佳参数的过程中对于每个预测步骤,使用广义自由度(GDF),并计算不同组合下的不同误差方差.最佳参数当方差最小时选择。然后利用最优参数重构相空间并预测时间序列的下一个值。(ii)为了比较不同预测方法的性能,选择真实的非线性水文时间序列进行检验。实例结果表明,本文提出的新的自适应局部线性预测方法可以在预测过程中自适应地选择嵌入维数和最近邻数。与TLLP和NLLP-1方法相比,新方法在两个时间序列的预测步骤开始时都优于TLLP,而在整个预测期间,NLLP-2方法在Tim时间序列中优于TLLP和TLLP-1。(iii)这种新的自适应局部线性预测方法可以用于预测其他非线性时间序列,其理论有待进一步研究。

致谢

这项工作得到了国家科学基金重点项目(50939001)、国家基础研究计划(2010CB429003)和国家重点技术研发计划(2006BAB04A09)的支持