1引言
基于监测做出管理决策的一个重要问题是,结果序列的可预测性很低。其原因是某些被归类为动态混沌的开放非线性系统的高度不稳定性[8,10,11,21]. 这种不稳定系统的例子有气动和水动力湍流、高温等离子体等[9,13,22]. 在金融领域,混沌行为在电子资本市场等无惯性环境中尤为突出[1,15,17,26].
只有当观测向量的参数相互关联时,研究多维过程才有意义。否则,解决方案仅限于顺序检查一维过程。相互依赖使得混沌观测的正则化成为可能(换句话说,一般的预测)。然而,由于序列的混沌特性,传统的相互依赖性评估遇到了严重的问题[14,15]. 在较大的时间间隔内进行相关性估计是不可行的,并且在有限的观测窗口上进行即时估计也是不稳定的。此外,大于0.9的相关性会导致观测矩阵退化。因此,基于奇异值分解(SVD)两个分支之一的替代方法看起来很有前景[4,23,24]和奇异谱分析[2,6,7]. IC已被用于免疫系统分子蛋白复合物的信息处理任务。首先,它涉及用于刺激身体防御机制的外来细胞的识别和分类问题[4,24]. 因此,SVD分析的应用方面得到了IC的名称。
本文研究了将IC和SSA应用于预测多维混沌环境的可能性。我们考虑不适合多元统计分析的高度动态混沌过程[2,19]. 我们使用基于数据矩阵在空间第一奇异基中表示的降维技术。
2相关工作
集成电路发展的主要方向与它的实际应用有关,特别是在分类和聚类问题上。例如,多维图像的识别使用由几个奇异分量生成的空间向量投影。这种方法产生了一种称为L的特定伪度量(接近度量)第页距离[2,12].
情境分析的问题也得到了类似的解决:通过映射由状态向量确定的观察到的情境
X(X)
0
,通过L中伪度量的最接近值将其转换为常规情况第页
X(X)
1
,
…
,
X(X)
k个
[三,20].
在随机场逼近问题中,所求超曲面的值
(f)
(
x个
0
)
用线性插值估计
k个
最近的点
x个
1
,
…
,
x个
k个
:
(f)
=
c(c)
1
(f)
(
x个
1
)
+
…
+
c(c)
k个
(f)
(
x个
k个
)
,其中
c(c)
j个
=
1
+
天
j个
∑
我
≠
j个
k个
天
我
−
1
−
1
L的变体第页伪度量用作
天
j个
,
j个
=
1
,
…
,
k个
从
x个
0
到
x个
j个
,
j个
=
1
,
…
,
k个
.
如果
米
-维序列表示为大小的传输矩阵
<
n个
×
米
>
则可以用单位秩的初等矩阵之和来近似,从而可以单独分析简化结构的级数项。这种方法大大降低了原始问题的规模。
分析一维随机序列的一个有趣方向是一组基于将时间序列嵌入多维空间,然后对所得Hankel矩阵进行奇异分解的方法。这种方法也是基于奇异值分解的,在文献中称为“Caterpillar”[16,18]. 卡特彼勒方法识别时间序列成分,并解决预测、参数估计和检测各种类型分解的问题。这种方法的应用是基于欧几里德度量在投影空间中的应用,使用主奇异分量空间中的投影,这使得分析和解释结果更加容易。
3方法
3.1集成电路和SSA方法的基础
我们有一个传统的数据分析问题,即
米
-维度数据
k个
广义特征,其中
k个
<
第页
<
米
通常采用主成分法求解。然而,其有效性在很大程度上取决于观测矩阵的相关性。多维混沌过程中变量之间的相关性变化很快,并且在很宽的范围内。很强的相关性会导致评估任务的退化或条件差。因此,我们认为奇异分解技术(或IC)是解决数据维压缩问题的一种替代方法。
问题在于近似多维观测值矩阵
X(X)
大小为
<
n个
×
米
>
,
n个
>
米
和等级
第页
≤
米
通过另一个矩阵年级别较低的
k个
<
第页
相应的近似是通过最小化矩阵之间的二次距离来实现的
(1)
(
X(X)
−
年
)
T型
(
X(X)
−
年
)
=
最小值
,
限制
等级
(
年
)
=
k个
<
最小值
(
n个
,
第页
)
.
这个问题的解决方案在中找到[5]. 实际观测矩阵
X(X)
尺寸的
⟨
n个
×
米
⟩
可以用SVD(LR-decomposition)表示:
(2)
X(X)
=
L(左)
∗
S公司
∗
R(右)
T型
,
哪里
S公司
=
诊断
(
秒
1
,
秒
2
,
…
,
秒
n个
)
是一个对角矩阵,其元素
秒
1
≥
秒
2
≥
…
≥
秒
n个
≥
0
称为矩阵的奇异值
X(X)
.
L(左)
是一个大小矩阵
⟨
n个
×
米
⟩
,列
L(左)
1
,
…
,
L(左)
n个
其中是单位长度的正交向量,即。,
L(左)
T型
L(左)
=
L(左)
L(左)
T型
=
E类
,其中
E类
是单位矩阵。这些列是
X(X)
.
R(右)
是一个大小矩阵
⟨
米
×
米
⟩
,列
R(右)
1
,
…
,
R(右)
n个
其中也是单位长度的正交向量
R(右)
T型
R(右)
=
R(右)
R(右)
T型
=
E类
它们被称为的右奇异向量
X(X)
这些向量在欧几里德意义上是正交的;从概率的角度来看,它们是相关的。
如果观测矩阵的秩为
等级
(
X(X)
)
=
第页
<
米
,则仅在单数中
第页
将为非零。在这种情况下,分解(2)可以重写为单位秩的初等矩阵之和:
(3)
X(X)
=
∑
我
=
1
第页
秒
我
L(左)
我
R(右)
我
T型
=
秒
1
L(左)
1
R(右)
1
T型
+
⋯
+
秒
第页
L(左)
第页
R(右)
第页
T型
.
根据Eckart-Young定理[2,5],优化问题的解决(1)是第一个值的总和
k个
中的术语(三)即。,
X(X)
≅
年
=
∑
我
=
1
第页
秒
我
L(左)
我
R(右)
我
T型
=
秒
1
L(左)
1
R(右)
1
T型
+
⋯
+
秒
k个
L(左)
k个
R(右)
k个
T型
.
使用
k个
=
1
(一维情况),最佳近似由第一(最大)奇异值和相应的奇异向量给出
A类
今年
秒
1
L(左)
1
R(右)
1
′
.观测矩阵
X(X)
在这种情况下,它变成了少量相同维数但结构非常简单的矩阵段的总和:每个矩阵段都是单位秩矩阵。
奇异值分解的一个重要特征是它对观测矩阵的小扰动具有稳定性。换句话说,每个矩阵的这种表示是一个条件良好的过程。这些特性不是多维统计分析问题中使用的传统谱分解的特征。如前所述,这对于处理多维混沌过程非常重要,因为观测向量的各个参数之间存在明显的依赖性。
奇异矩阵分解对小矩阵扰动是稳定的,即它是一个条件良好的过程。这些性质不是多维统计分析问题中使用的谱分解的特征。这种方法产生了几个主要的发展。
在识别、分类和聚类问题中,向量投影在由多个奇异分量生成的空间上(三),生成特定伪度量[12,24].
情境分析的任务以类似的方式解决:观察到的情境
x个
0
通过常规情况的伪度量与最近的关联
x个
1
,
…
,
x个
k个
[24].
在随机场插值中,
(f)
(
x个
0
)
通过线性插值估计k个最近的点
x个
1
,
…
,
x个
k个
:
(f)
=
c(c)
1
(f)
(
x个
1
)
+
…
+
c(c)
k个
(f)
(
x个
k个
)
,
哪里
c(c)
j个
=
1
1
+
天
j个
∑
我
≠
j个
k个
1
天
我
.
这种方法通过使用投影空间中使用的度量作为接近度的度量而突出
天
j个
从
x个
0
到
x个
j个
.
如果
米
-维序列表示为矩阵
⟨
n个
×
米
⟩
则可以用单位秩的初等矩阵之和来近似,从而可以单独分析简化结构的级数项。这大大降低了原始问题的维数。
基于这些方法和卡特彼勒方法,可以建立识别多维混沌时间序列局部结构的新算法。
3.2单个选定组件的奇异分析算法
将所选组件设为一维时间序列
年
=
(
年
1
,
…
,
年
N个
)
.我们将其与汉克尔矩阵进行匹配
K(K)
×
L(左)
:
年
=
年
1
年
2
…
年
L(左)
年
2
年
三
…
年
L(左)
+
1
⋮
⋮
⋱
⋮
年
K(K)
年
K(K)
+
1
…
年
L(左)
+
K(K)
+
1
,
L(左)
+
K(K)
+
1
=
N个
,
哪里
L(左)
是滑动窗口的宽度。让我们构造一个分解(三)然后,对级数的每一个实调和
年
1
,
…
,
年
N个
对应
米
∗
,
米
∗
<
第页
不同的奇异数,它由
米
∗
等式中的术语(三)与这些数字相对应。为了完全恢复这样一个分量,有必要对矩阵的对角线求平均值
X(X)
同名。
在此阶段,滑动窗宽度的选择
L(左)
是最有问题的问题。在优化算法的过程中,还可以改变窗口偏移参数
天
.
其中一个问题是,不可能基于奇异数的值建立相应组件的层次结构
秒
我
,
我
=
1
,
…
,
第页
:对分析很重要的周期分量不一定与最大奇异值之一相关。对于金融工具报价动态特征的快速变化的混沌过程来说,这个问题尤其严重。在跟踪分量局部波动的过程中,有必要考虑每个窗口上确定的奇异值的顺序差异。在这样的序列中出现零表示存在准周期分量,可以通过突出显示相应的奇异分量或考虑其相平面上奇数相等(或足够接近)的一对分量的变化来可视化[2,6].
3.3分析金融序列的相关性
以初始数据为例,考虑在500天的观察间隔内,五种相关性最高的货币工具的集中报价值的一段观察结果(图1).
根据16种最常见货币工具的相关性程度选择工具(欧元兑美元、新西兰元兑美元、澳元兑日元和新西兰元兑日元)。货币对相互依存的原因在很大程度上与国际贸易和全球金融流动的性质有关。贸易赤字较大的国家的货币往往与盈余国家的货币呈负相关。同样,富裕商品出口国的货币往往与严重依赖进口的国家存在负相关。其相关矩阵的颜色表示如所示图2。其相关矩阵的颜色方案如所示图3基于在整个观测间隔范围内获得的数据的相关性估计在0.91–0.98之间波动,这表明观测矩阵的条件较差。
所得结论表明,在市场细分动态的整体表示问题中,从基于成分数据分析的传统方法过渡到基于IC(即SSA算法)的表示是可行的。
3.4计算货币兑换市场状态多维序列的奇异成分
让观察矩阵
X(X)
⟨
n个
×
米
⟩
,
n个
>
米
对应于五种相关金融工具的示例。我们将构建一个SVD(2)对于这个矩阵。我们仅限于三个投影
k个
=
三
,我们将相应的术语表示为
X(X)
(
我
)
=
L(左)
我
秒
我
R(右)
我
T型
,
我
=
1
,
…
,
k个
.
每个投影都是一个矩阵
⟨
n个
×
米
⟩
单位等级,因此只有第一列
x个
1
(
我
)
,
我
=
1
,
…
,
k个
需要从每个投影中提取以下一组系数
X(X)
(
我
)
:
(4)
C类
j个
(
我
)
=
∑
j个
=
1
米
x个
j个
(
我
)
∑
j个
=
1
米
x个
j个
(
1
)
,
j个
=
1
,
…
,
米
,
这将需要返回到原始变量。
图4绘制观测间隔前三个奇异分量值的变化
T型
=
200
分钟数。此观察间隔是从中所示的通用数据集中提取的示例图1.
重要的是要指出
k个
=
三
,方差准则
D类
(
k个
)
=
∑
j个
=
1
k个
秒
j个
∑
j个
=
1
米
秒
j个
等于0.98,因此转换到分解(三)几乎不会丢失信息。
图5显示了单个奇异分量的对数图。我们可以推断,各种奇异成分的重要性不相等,并且可以将分析结果限制为2到3个成分,这解决了多维数据可视化的问题。
3.5使用SSA进行预测
固定滑动窗
X(X)
,
L(左)
计数范围很广。
在每个步骤中,为矩阵构造SVD
X(X)
几个第一奇异值之和与所有奇异值之和和的比值被解释为这些第一奇异分量所解释的信息的分数。
每个选定的组件
X(X)
我
是单位秩的矩阵,其维数与
X(X)
因此,只有它们的第一列(或行)和系数(4)为了恢复他们的估计,有必要进行进一步的分析。
应用SSA程序之一[2,6]对选定的一维序列进行滤波、插值和预测。
使用估计值恢复矩阵
X(X)
我
计算它们的加权和,这是初始矩阵的估计
X(X)
.
4计算实验
作为IC和SSA融合的一个例子,我们分析了五种高度相关的货币工具的上述数据。使用Caterpillar方法,我们选择
L(左)
计算分钟数并使用SSA为每个组件构建预测。图6显示了使用奇异分量外推得到的预测图,然后重新计算到观测到的混沌过程的初始维。
该图暗示了恢复混沌过程的正确近似值的基本可行性,以及使用基于SSA的预聚集数据进行预测的可能性。
这种方法很有前景:汇总形式包含关于特定细分市场情绪的信息,预测考虑了其总体趋势。该技术的另一个预期优势是,它对选定细分市场的单个金融工具之间的强相关性的阻力增加。
扫描整个系列
第页
向前计数(计数步长为4s,滑动窗口宽度
L(左)
=
2
最小值
,车窗移位
天
=
1
最小值
;图7),我们发现预测的SD随着
第页
,并且偏置起初减小,但随着
第页
=
8
我们可以得出结论,这种方法限制了预测范围
第页
大约7步或30秒。同时,局部多项式预测的标准程序[16,18]只有在预测前方1或2步(不超过10秒)时才具有相同的品质。然而,关于在主动管理任务中使用SSA的可行性的最终结论需要进一步研究。尤其值得一提的是,将拟议技术与组件数据分析进行比较,至少在允许进行这种比较的低维条件下。
5结论
多元数据矩阵在第一奇异基中的表示和降维方法使得在低维空间中从多维时间序列过渡到积分曲线成为可能。该曲线可以解释为广义状态空间中的相位轨迹。所提出的转换符合大多数其他类似方法的约束特征集[19,25]. 特别是,对于高度相关和高度可变的序列,可以实现奇异表示,对于这些序列,观测矩阵可能会受到不正确制定的识别和预测问题的所有后果的不良影响。我们提出了一种技术,其可行性高度依赖于数据的初始属性。当数据集的维数与适当滑动窗口的长度相比较,并且数据包含一些潜在的周期时,可以假设最佳预测。
同时,应考虑到数据集成会在反向转换中产生不确定性,这可能导致恢复一维分量的模糊和矛盾结果,尤其是在预测问题中。
所提议的技术在资本市场的金融工具主动管理任务中发挥了重要作用。最接近现实的数据模型是基于随机混沌的概念,这意味着序列基本上是非平稳和非遍历的。这迫使我们在有限的滑动窗口内操作这些数据。在这些条件下,奇异成分对源数据统计结构变化的稳定性增加,可能会提高整个资产管理策略的有效性。
特别是,SSA可用于快速检测报价中的重大差异。此外,它似乎适合于处理多维观测段相似性度量的先例分析。这些问题,以及为具有不同动态特性的观测段选择数据压缩技术,是我们进一步研究的主题。