Analyzing and forecasting financial series with singular spectral analysis

Andrey Makshanov; Alexander Musaev; Dmitry Grigoriev

doi:10.1515/demo-2022-0112

开放式访问发布人：De Gruyter开放存取 2022年6月28日

用奇异谱分析法分析和预测金融序列

安德烈·马克沙诺夫 , 亚历山大·穆萨耶夫和德米特里·格里戈里耶夫

来自日记账依赖关系建模

https://doi.org/10.1515/demo-2022-0112

摘要

现代管理反映不稳定环境动态的多维随机过程的技术是前瞻性的，这是指基于预测系统状态向量演变的决策。同时，开放非线性系统的动力学在很大程度上取决于其混沌性质，这导致违反了观测序列的平稳性和遍历性，因此，以传统多元统计数据分析方法为基础的预测算法的效率急剧下降。在本文中，我们尝试使用奇异谱分析（SSA）算法来减少不稳定性的影响。这项技术已被广泛应用于一类应用数据分析问题，这些问题是根据数据矩阵的奇异分解而形成的：免疫计算和SSA技术。

关键词：多维混沌过程;预测;奇异谱分析;免疫计算;外汇

MSC 2010年：37米20;37M10个;90 C90

1引言

基于监测做出管理决策的一个重要问题是，结果序列的可预测性很低。其原因是某些被归类为动态混沌的开放非线性系统的高度不稳定性[8,10,11,21]. 这种不稳定系统的例子有气动和水动力湍流、高温等离子体等[9,13,22]. 在金融领域，混沌行为在电子资本市场等无惯性环境中尤为突出[1,15,17,26].

只有当观测向量的参数相互关联时，研究多维过程才有意义。否则，解决方案仅限于顺序检查一维过程。相互依赖使得混沌观测的正则化成为可能（换句话说，一般的预测）。然而，由于序列的混沌特性，传统的相互依赖性评估遇到了严重的问题[14,15]. 在较大的时间间隔内进行相关性估计是不可行的，并且在有限的观测窗口上进行即时估计也是不稳定的。此外，大于0.9的相关性会导致观测矩阵退化。因此，基于奇异值分解（SVD）两个分支之一的替代方法看起来很有前景[4,23,24]和奇异谱分析[2,6,7]. IC已被用于免疫系统分子蛋白复合物的信息处理任务。首先，它涉及用于刺激身体防御机制的外来细胞的识别和分类问题[4,24]. 因此，SVD分析的应用方面得到了IC的名称。

本文研究了将IC和SSA应用于预测多维混沌环境的可能性。我们考虑不适合多元统计分析的高度动态混沌过程[2,19]. 我们使用基于数据矩阵在空间第一奇异基中表示的降维技术。

2相关工作

集成电路发展的主要方向与它的实际应用有关，特别是在分类和聚类问题上。例如，多维图像的识别使用由几个奇异分量生成的空间向量投影。这种方法产生了一种称为L的特定伪度量（接近度量）_第页距离[2,12].

情境分析的问题也得到了类似的解决：通过映射由状态向量确定的观察到的情境 X（X） 0 ，通过L中伪度量的最接近值将其转换为常规情况_第页 X（X） 1 , … , X（X） k个 [三,20].

在随机场逼近问题中，所求超曲面的值（f） ( x个 0 ) 用线性插值估计 k个最近的点 x个 1 , … , x个 k个 : （f） = c（c） 1 （f） ( x个 1 ) + … + c（c） k个（f） ( x个 k个 ) ，其中 c（c） j个 = 1 + 天 j个 ∑ 我 ≠ j个 k个天我 − 1 − 1 L的变体_第页伪度量用作天 j个 , j个 = 1 , … , k个从 x个 0 到 x个 j个 , j个 = 1 , … , k个 .

如果米 -维序列表示为大小的传输矩阵 < n个 × 米 > 则可以用单位秩的初等矩阵之和来近似，从而可以单独分析简化结构的级数项。这种方法大大降低了原始问题的规模。

分析一维随机序列的一个有趣方向是一组基于将时间序列嵌入多维空间，然后对所得Hankel矩阵进行奇异分解的方法。这种方法也是基于奇异值分解的，在文献中称为“Caterpillar”[16,18]. 卡特彼勒方法识别时间序列成分，并解决预测、参数估计和检测各种类型分解的问题。这种方法的应用是基于欧几里德度量在投影空间中的应用，使用主奇异分量空间中的投影，这使得分析和解释结果更加容易。

3方法

3.1集成电路和SSA方法的基础

我们有一个传统的数据分析问题，即米 -维度数据 k个广义特征，其中 k个 < 第页 < 米通常采用主成分法求解。然而，其有效性在很大程度上取决于观测矩阵的相关性。多维混沌过程中变量之间的相关性变化很快，并且在很宽的范围内。很强的相关性会导致评估任务的退化或条件差。因此，我们认为奇异分解技术（或IC）是解决数据维压缩问题的一种替代方法。

问题在于近似多维观测值矩阵 X（X）大小为 < n个 × 米 > , n个 > 米和等级第页 ≤ 米通过另一个矩阵年级别较低的 k个 < 第页相应的近似是通过最小化矩阵之间的二次距离来实现的

(1) ( X（X） − 年 ) T型 ( X（X） − 年 ) = 最小值 ,

限制等级 ( 年 ) = k个 < 最小值 ( n个 , 第页 ) .

这个问题的解决方案在中找到[5]. 实际观测矩阵 X（X）尺寸的 ⟨ n个 × 米 ⟩ 可以用SVD（LR-decomposition）表示：

(2) X（X） = L（左） ∗ S公司 ∗ R（右） T型 ,

哪里 S公司 = 诊断 ( 秒 1 , 秒 2 , … , 秒 n个 ) 是一个对角矩阵，其元素秒 1 ≥ 秒 2 ≥ … ≥ 秒 n个 ≥ 0 称为矩阵的奇异值 X（X） .

L（左）是一个大小矩阵 ⟨ n个 × 米 ⟩ ，列 L（左） 1 , … , L（左） n个其中是单位长度的正交向量，即。， L（左） T型 L（左） = L（左） L（左） T型 = E类，其中 E类是单位矩阵。这些列是 X（X） .

R（右）是一个大小矩阵 ⟨ 米 × 米 ⟩ ，列 R（右） 1 , … , R（右） n个其中也是单位长度的正交向量 R（右） T型 R（右） = R（右） R（右） T型 = E类它们被称为的右奇异向量 X（X）这些向量在欧几里德意义上是正交的；从概率的角度来看，它们是相关的。

如果观测矩阵的秩为等级 ( X（X） ) = 第页 < 米，则仅在单数中第页将为非零。在这种情况下，分解(2)可以重写为单位秩的初等矩阵之和：

(3) X（X） = ∑ 我 = 1 第页秒我 L（左）我 R（右）我 T型 = 秒 1 L（左） 1 R（右） 1 T型 + ⋯ + 秒第页 L（左）第页 R（右）第页 T型 .

根据Eckart-Young定理[2,5]，优化问题的解决(1)是第一个值的总和 k个中的术语(三)即。， X（X） ≅ 年 = ∑ 我 = 1 第页秒我 L（左）我 R（右）我 T型 = 秒 1 L（左） 1 R（右） 1 T型 + ⋯ + 秒 k个 L（左） k个 R（右） k个 T型 .

使用 k个 = 1 （一维情况），最佳近似由第一（最大）奇异值和相应的奇异向量给出 A类今年秒 1 L（左） 1 R（右） 1 ′ .观测矩阵 X（X）在这种情况下，它变成了少量相同维数但结构非常简单的矩阵段的总和：每个矩阵段都是单位秩矩阵。

奇异值分解的一个重要特征是它对观测矩阵的小扰动具有稳定性。换句话说，每个矩阵的这种表示是一个条件良好的过程。这些特性不是多维统计分析问题中使用的传统谱分解的特征。如前所述，这对于处理多维混沌过程非常重要，因为观测向量的各个参数之间存在明显的依赖性。

奇异矩阵分解对小矩阵扰动是稳定的，即它是一个条件良好的过程。这些性质不是多维统计分析问题中使用的谱分解的特征。这种方法产生了几个主要的发展。

在识别、分类和聚类问题中，向量投影在由多个奇异分量生成的空间上(三)，生成特定伪度量[12,24].
情境分析的任务以类似的方式解决：观察到的情境 x个 0 通过常规情况的伪度量与最近的关联 x个 1 , … , x个 k个 [24].
在随机场插值中，（f） ( x个 0 ) 通过线性插值估计k个最近的点 x个 1 , … , x个 k个 :
（f） = c（c） 1 （f） ( x个 1 ) + … + c（c） k个（f） ( x个 k个 ) ,
哪里
c（c） j个 = 1 1 + 天 j个 ∑ 我 ≠ j个 k个 1 天我 .
这种方法通过使用投影空间中使用的度量作为接近度的度量而突出天 j个从 x个 0 到 x个 j个 .
如果米 -维序列表示为矩阵 ⟨ n个 × 米 ⟩ 则可以用单位秩的初等矩阵之和来近似，从而可以单独分析简化结构的级数项。这大大降低了原始问题的维数。

基于这些方法和卡特彼勒方法，可以建立识别多维混沌时间序列局部结构的新算法。

3.2单个选定组件的奇异分析算法

将所选组件设为一维时间序列年 = ( 年 1 , … , 年 N个 ) .我们将其与汉克尔矩阵进行匹配 K（K） × L（左） :

年 = 年 1 年 2 … 年 L（左）年 2 年三 … 年 L（左） + 1 ⋮ ⋮ ⋱ ⋮ 年 K（K）年 K（K） + 1 … 年 L（左） + K（K） + 1 , L（左） + K（K） + 1 = N个 ,

哪里 L（左）是滑动窗口的宽度。让我们构造一个分解(三)然后，对级数的每一个实调和年 1 , … , 年 N个对应米 ∗ , 米 ∗ < 第页不同的奇异数，它由米 ∗ 等式中的术语(三)与这些数字相对应。为了完全恢复这样一个分量，有必要对矩阵的对角线求平均值 X（X）同名。

在此阶段，滑动窗宽度的选择 L（左）是最有问题的问题。在优化算法的过程中，还可以改变窗口偏移参数天 .

其中一个问题是，不可能基于奇异数的值建立相应组件的层次结构秒我 , 我 = 1 , … , 第页：对分析很重要的周期分量不一定与最大奇异值之一相关。对于金融工具报价动态特征的快速变化的混沌过程来说，这个问题尤其严重。在跟踪分量局部波动的过程中，有必要考虑每个窗口上确定的奇异值的顺序差异。在这样的序列中出现零表示存在准周期分量，可以通过突出显示相应的奇异分量或考虑其相平面上奇数相等（或足够接近）的一对分量的变化来可视化[2,6].

3.3分析金融序列的相关性

以初始数据为例，考虑在500天的观察间隔内，五种相关性最高的货币工具的集中报价值的一段观察结果(图1).

图1

观察区间内相关性最高的五种货币工具的报价动态示例 T型 = 500 天。

根据16种最常见货币工具的相关性程度选择工具（欧元兑美元、新西兰元兑美元、澳元兑日元和新西兰元兑日元）。货币对相互依存的原因在很大程度上与国际贸易和全球金融流动的性质有关。贸易赤字较大的国家的货币往往与盈余国家的货币呈负相关。同样，富裕商品出口国的货币往往与严重依赖进口的国家存在负相关。其相关矩阵的颜色表示如所示图2。其相关矩阵的颜色方案如所示图3基于在整个观测间隔范围内获得的数据的相关性估计在0.91–0.98之间波动，这表明观测矩阵的条件较差。

图2

16种常用货币工具的相关矩阵估计。

图3

相关性最高的五种货币工具的相关性矩阵估计。

所得结论表明，在市场细分动态的整体表示问题中，从基于成分数据分析的传统方法过渡到基于IC（即SSA算法）的表示是可行的。

3.4计算货币兑换市场状态多维序列的奇异成分

让观察矩阵 X（X） ⟨ n个 × 米 ⟩ , n个 > 米对应于五种相关金融工具的示例。我们将构建一个SVD(2)对于这个矩阵。我们仅限于三个投影 k个 = 三，我们将相应的术语表示为

X（X） ( 我 ) = L（左）我秒我 R（右）我 T型 , 我 = 1 , … , k个 .

每个投影都是一个矩阵 ⟨ n个 × 米 ⟩ 单位等级，因此只有第一列 x个 1 ( 我 ) , 我 = 1 , … , k个需要从每个投影中提取以下一组系数 X（X） ( 我 ) :

(4) C类 j个 ( 我 ) = ∑ j个 = 1 米 x个 j个 ( 我 ) ∑ j个 = 1 米 x个 j个 ( 1 ) , j个 = 1 , … , 米 ,

这将需要返回到原始变量。

图4绘制观测间隔前三个奇异分量值的变化 T型 = 200 分钟数。此观察间隔是从中所示的通用数据集中提取的示例图1.

图4

观测间隔上前三个奇异分量值的变化图 T型 = 200 分钟数。

重要的是要指出 k个 = 三，方差准则 D类 ( k个 ) = ∑ j个 = 1 k个秒 j个 ∑ j个 = 1 米秒 j个等于0.98，因此转换到分解(三)几乎不会丢失信息。

图5显示了单个奇异分量的对数图。我们可以推断，各种奇异成分的重要性不相等，并且可以将分析结果限制为2到3个成分，这解决了多维数据可视化的问题。

图5

按降序排列的单个奇异值的对数。

3.5使用SSA进行预测

固定滑动窗 X（X） , L（左）计数范围很广。
在每个步骤中，为矩阵构造SVD X（X）几个第一奇异值之和与所有奇异值之和和的比值被解释为这些第一奇异分量所解释的信息的分数。
每个选定的组件 X（X）我是单位秩的矩阵，其维数与 X（X）因此，只有它们的第一列（或行）和系数(4)为了恢复他们的估计，有必要进行进一步的分析。
应用SSA程序之一[2,6]对选定的一维序列进行滤波、插值和预测。
使用估计值恢复矩阵 X（X）我计算它们的加权和，这是初始矩阵的估计 X（X） .
更正的估计 X（X）关于偏差和比例参数。

4计算实验

作为IC和SSA融合的一个例子，我们分析了五种高度相关的货币工具的上述数据。使用Caterpillar方法，我们选择 L（左）计算分钟数并使用SSA为每个组件构建预测。图6显示了使用奇异分量外推得到的预测图，然后重新计算到观测到的混沌过程的初始维。

$图6利用IC和SSA（滑动窗口宽度）的融合预测混沌过程L（左）=2最小值L=2\hs空格{0.33em}{\rm{\min}}，预测范围30 s，步骤4 s）。$

图6

利用IC和SSA（滑动窗口宽度）的融合预测混沌过程 L（左） = 2 最小值，预测范围30 s，步骤4 s）。

该图暗示了恢复混沌过程的正确近似值的基本可行性，以及使用基于SSA的预聚集数据进行预测的可能性。

这种方法很有前景：汇总形式包含关于特定细分市场情绪的信息，预测考虑了其总体趋势。该技术的另一个预期优势是，它对选定细分市场的单个金融工具之间的强相关性的阻力增加。

扫描整个系列第页向前计数（计数步长为4s，滑动窗口宽度 L（左） = 2 最小值，车窗移位天 = 1 最小值 ;图7)，我们发现预测的SD随着第页，并且偏置起初减小，但随着第页 = 8 我们可以得出结论，这种方法限制了预测范围第页大约7步或30秒。同时，局部多项式预测的标准程序[16,18]只有在预测前方1或2步（不超过10秒）时才具有相同的品质。然而，关于在主动管理任务中使用SSA的可行性的最终结论需要进一步研究。尤其值得一提的是，将拟议技术与组件数据分析进行比较，至少在允许进行这种比较的低维条件下。

$图7预测的标准偏差和偏差取决于预测范围第页第页（图1中按级数和5个分量求平均值，L（左）=2最小值L=2\hs空格{0.33em}{\rm{\min}}，计数步骤4 s）。$

图7

预测的标准偏差和偏差取决于预测范围第页（按级数平均图1和5个组件， L（左） = 2 最小值，计数步骤4 s）。

5结论

多元数据矩阵在第一奇异基中的表示和降维方法使得在低维空间中从多维时间序列过渡到积分曲线成为可能。该曲线可以解释为广义状态空间中的相位轨迹。所提出的转换符合大多数其他类似方法的约束特征集[19,25]. 特别是，对于高度相关和高度可变的序列，可以实现奇异表示，对于这些序列，观测矩阵可能会受到不正确制定的识别和预测问题的所有后果的不良影响。我们提出了一种技术，其可行性高度依赖于数据的初始属性。当数据集的维数与适当滑动窗口的长度相比较，并且数据包含一些潜在的周期时，可以假设最佳预测。

同时，应考虑到数据集成会在反向转换中产生不确定性，这可能导致恢复一维分量的模糊和矛盾结果，尤其是在预测问题中。

所提议的技术在资本市场的金融工具主动管理任务中发挥了重要作用。最接近现实的数据模型是基于随机混沌的概念，这意味着序列基本上是非平稳和非遍历的。这迫使我们在有限的滑动窗口内操作这些数据。在这些条件下，奇异成分对源数据统计结构变化的稳定性增加，可能会提高整个资产管理策略的有效性。

特别是，SSA可用于快速检测报价中的重大差异。此外，它似乎适合于处理多维观测段相似性度量的先例分析。这些问题，以及为具有不同动态特性的观测段选择数据压缩技术，是我们进一步研究的主题。

致谢

作者非常感谢计量经济和商业分析中心（ceba-lab.org，ceba）系列研讨会的与会者提出了有益的意见和建议。

资金筹措信息：本文所述亚历山大·穆萨耶夫的研究部分得到了俄罗斯基础研究基金会（拨款20-08-01046）、国家研究FFZF-2022-0004的支持。本文的Dmitry Grigoriev研究得到了圣彼得堡州立大学的支持，项目编号：93024916。
利益冲突：作者声明没有利益冲突。

工具书类

[1]Bauwens，L.&Giot，P.（2001）。股票市场日内活动的经济计量模型。理论与应用计量经济学高级研究。（第38卷）。波士顿：Kluwer Academic、Springer Science&Business Media。10.1007/978-1-4757-3381-5在谷歌学者中搜索

[2]Bolshakov，A.A.和Karimov，R.N.（2015）。多维数据和时间序列处理方法。莫斯科电信：Goryachaya liniya（俄语）。在谷歌学者中搜索

[3]Corona，I.、Giacinto，G.、Mazzariello，C.、Roli，F.和Sansone，C.（2009年）。计算机安全的信息融合：最新技术和公开问题。信息融合，10（4），274–284。10.1016/j.inffus.2009.03.001在谷歌学者中搜索

[4]Dasgupta，D.（编辑）。(2012). 人工免疫系统及其应用。纽约：Springer Science&Business Media。在谷歌学者中搜索

[5]Eckart，C.和Young，G.（1936年）。一个矩阵与另一个低阶矩阵的近似。《心理测量学》，1（3），211-218。2007年10月10日/BF02288367在谷歌学者中搜索

[6]Elsner，J.B.和Tsonis，A.A.（1996年）。奇异谱分析：时间序列分析的新工具。纽约：Springer Science&Business Media。10.1007/978-1-4757-2514-8在谷歌学者中搜索

[7]Golyandina，N.、Kortomeinikov，A.和Zhigljavsky，A.（2018年）。R.Berlin Heidelberg:Springer的奇异谱分析。10.1007/978-3-662-57380-8在谷歌学者中搜索

[8]Kautz，R.（2011）。混沌：可预测随机运动的科学。牛津：牛津大学出版社。在谷歌学者中搜索

[9]Klimontovich，Y.L.（1995年）。开放系统的统计理论。（第67卷）。多德雷赫特，波士顿，伦敦：Kluwer学术出版社。10.1007/978-94-011-0175-2在谷歌学者中搜索

[10]Lorenz，E.N.（1996）。143混沌的本质。华盛顿：华盛顿大学。在谷歌学者中搜索

[11]Lorenz，E.N.和Haman，K.（1996年）。混乱的本质。《纯粹与应用地球物理学》，147（3），598–599。10.4324/9780203214589在谷歌学者中搜索

[12]Makshanov，A.、Zhuravlev，A.和Tyndykar，L.（2019年）。阐述海洋监测系统中的多通道数据融合算法。国际科学西伯利亚运输论坛（第909-923页）。查姆：斯普林格。10.1007/978-3-030-37919-3_90在谷歌学者中搜索

[13]Manneville，P.（2004）。不稳定性、混沌和湍流：非线性动力学和复杂系统简介。新加坡：世界科学。10.1142页/第349页在谷歌学者中搜索

[14]Musaev，A.和Grigoriev，D.（2021）。分析、建模并利用资本市场中的观测序列相关性。计算，9（8），88。10.3390/计算9080088在谷歌学者中搜索

[15]Musaev，A.和Grigoriev，D.（2022）。随机混沌条件下统计管理决策的数值研究。数学，10（2），226。10.3390/小时10020226在谷歌学者中搜索

[16]Nekrutkin，V.（1996年）。时间序列分析的“卡特彼勒”方法的理论性质。程序中。第八届IEEE信号处理研讨会，关于统计信号和阵列处理IEEE计算机学会，第395-397页。10.1109/SSAP.1996.534899在谷歌学者中搜索

[17]Peters，E.E.（1996年）。资本市场的混乱和秩序：对周期、价格和市场波动的新观点。纽约：John Wiley&Sons。在谷歌学者中搜索

[18]Polukoshko，S.、Hilkevica，G.和Gonca，V.（2015）。基于“Caterpillar”–SSA方法的非平稳过程研究。振动工程和机械技术（第999-1008页）。查姆：斯普林格。10.1007/978-3-319-09918-7_88在谷歌学者中搜索

[19]Rao，C.R.（1973）。线性统计推断及其应用（第2卷，第263-270页）。纽约：Wiley。10.1002/9780470316436在谷歌学者中搜索

[20]Schölkopf，B.、Smola，A.和Müller，K.R.（1998）。非线性分量分析是一个核心特征值问题。神经计算，10（5），1299-1319。10.1162/089976698300017467在谷歌学者中搜索

[21]Smith，L.（2007）。混乱：非常简短的介绍。牛津：牛津大学出版社。10.1093/actrade/9780192853783.0001在谷歌学者中搜索

[22]Takens，F.（1981）。检测湍流中的奇怪吸引子。《动力系统与湍流》，沃里克出版社，1980年（第366–381页）。柏林，海德堡：施普林格。2007年10月10日/BFb0091924在谷歌学者中搜索

[23]Tarakanov，A.O.（2001）。具有正式免疫网络的信息安全。在网络安全数学方法、模型和架构国际研讨会上（第115-126页）。柏林，海德堡：施普林格。10.1007/3-540-45116-1_14在谷歌学者中搜索

[24]Tarakanov，A.O.、Skormin，V.A.、Sokolova，S.P.和Sokoloba，S.S.（2003）。免疫计算：原理和应用。纽约：Springer Science&Business Media。10.1007/978-1-4757-3807-0在谷歌学者中搜索

[25]Wilks，S.S.（1964年）。数学统计。纽约：John Wiley&Sons。在谷歌学者中搜索

[26]格雷戈里·威廉姆斯（J.Gregory-Williams）和威廉姆斯（B.M.）（2004）。交易混乱：利用成熟的技术实现利润最大化（第161卷）。纽约：约翰·威利父子公司。在谷歌学者中搜索

收到：2021-08-26年

修订过的：2022-04-15

认可的：2022-04-22

在线发布：2022-06-28年

本作品根据知识共享署名4.0国际许可证授权。