摘要

原型分析将一组数据向量的每个单独成员表示为纯类型原型数据集的。原型本身需要是数据向量的混合物。原型分析在分析包含星系光谱的数据集时可能特别有用,因为每个光谱都可能是组成该星系的各种恒星群、星云发射和核活动发射的叠加,这些排放源中的每一个对应于整个数据集的潜在原型。我们使用多组合成星系光谱进行了原型分析,表明该方法有望成为一种有效的光谱分类方法。我们表明,原型分析在存在各种类型的噪声时是稳健的。

1引言

原型分析是由卡特勒和布莱曼(1994)表征形式的多元数据集{x个,= 1, 2, …,n个},其中每个{x个}是一个-向量,带有变量,即。x个= (x个1,x个2, …,x个感应电动机). 该算法表示集合的每个成员{x个}作为基本向量的混合(约束线性组合)纯类型原型数据集的。原型本身就是数据向量的混合物。我们对星系光谱原型分析的探索性研究表明,许多星系的光谱似乎是来自不同星系的辐射的叠加人口机制利用这些不同种群或机制的光谱特征识别不同的原型有望提供星系光谱的自然表示。

以前应用于星系光谱的数据表示技术包括主成分分析(PCA)(Ronen,Aragón-Salamanca&Lahav 1999年、多优化参数估计和数据压缩(MOPED)(Heavens、Jimenez和Lahav 2000年;Reichardt,Jimenez&Heavens 2001年)和信息瓶颈方法(IB)(Slonim等人,2001年). 这些表示技术的目的是确定不同发射特征之间的物理关系,并试图揭示描述这些物理关系的参数化。此外,数据表示技术经常生成数据集的更紧凑表示,从而压缩计算和数据存储负载。对PCA、MOPED和IB的两个方面进行了批判性审查,如下所示拉哈夫(2001).

由主成分分析确定的特征向量及其相关项通常与数据的任何成员都不相似,可能难以解释。为了克服这一点,Cutler&Breiman要求原型分析中的基本向量(原型)为混合物实际数据点。特别是,原型是极端构件在以下意义上选择的数据集。考虑一下-维多面体(一个区域-由一组超平面包围的维空间)对应于n个数据点(以下称为数据凸壳). 根据定义,这个多边形的顶点是数据点,并由Cutler&Breiman(1994)多面体上的任何点都可以表示为数据点的混合。原型是从位于数据凸包上的数据混合物中选择的。由于使用的原型的典型数量比数据凸包的顶点数量小(通常小得多)-与原型的凸包相对应的维度多边形(以下简称为原型凸壳)包含比数据凸包更小的超体积。位于原型凸包内部的数据点是原型的精确混合,而位于原型凸壳外部的数据点仅是近似值。这种差异反映了由于使用简化表示而导致的信息损失,与PCA中使用的特征向量数截断所导致的损失类似。

第2节在本文中,我们对原型分析进行了更广泛的描述。第3节我们演示了应用原型分析从模型星系光谱中提取恒星形成历史,以及在存在各种类型噪声的情况下对原型分析的影响。最后,在中介绍了对未来工作的讨论第4节.

2原型分析

在这里,我们根据在Cutler&Breiman(1994)从主成分分析的角度出发,我们首先介绍了原型分析的数学方法,然后用一个示意性的例子来说明主成分分析和原型分析之间的区别。

假设给我们一组n个星系光谱{x个,=1, …,n个},每个包括一个测量值(例如通量密度)波长箱,即。x个= (x个1, …,x个感应电动机). 对于任何给定的第页-向量{z(z)k个,k个= 1, …,第页}(以下简称基向量),线性组合∑第页k个=1α伊克z(z)k个最接近数据集中任何给定的星系光谱x个可以通过系数α来定义k个将错误降至最低
αk个最小化数据点之间的平方距离x个和表示点∑第页k个=1α伊克z(z)k个在里面-多维超空间。最佳基向量集{z(z)k个}表示整个数据集的,可以确定为整个数据集上所有平方距离之和的最小值,
1
假设基向量集{z(z)k个}选择为正交轴集。然后表达式1将数据点到轴的距离之和最小化。这相当于最大化轴上投影的总和(参见。图2.3,Murtagh&Heck 1987年)由提供
2
哪里S公司是数据集的方差-方差矩阵,
表达式2的极小值是S公司对应于第页最大特征值。当数据以平均值为中心时
这对应于主成分分析(PCA)的主成分分解。
数据凸包和一组900无噪声复合光谱的数据本身投影到双色(B-V,U-B)平面上。虚线表示数据凸壳,实线表示四个原型的原型凸壳,点划线表示三个原型的模型凸壳。
图2

数据凸包和一组900个无噪声复合光谱的数据本身在双色上的投影(B类V(V),U型B类)飞机。虚线表示数据凸壳,实线表示四个原型的原型凸壳,点划线表示三个原型的模型凸壳。

由这种主成分分解导出的基向量不一定对应或甚至类似于原始数据集的任何成员或成员组合。此外,无需将每个数据点近似为基向量的混合,只需表示全局最小化剩余平方和即可。这些特征可能使主要成分的物理解释变得困难。例如,在将主成分分析应用于一组星系光谱时,主成分(本征光谱)可能与任何观察到的星系的光谱不相似,并且可能包含负值点,或随波长快速、非物理变化的点。此外,单个数据点的表示可能包含基向量的负权重或剧烈变化的权重。

如所述Madgwick&Lahav(2001)这些问题可以在一定程度上得到克服。这些作者将主成分分析应用于2dF星系红移测量中获得的一组星系光谱(Colless等人,2001年)然后根据前两个特征谱的线性组合公式化具有物理意义的参数。正如他们所说:“实际上,当我们使用这些线性组合时,我们正在做的是旋转PCA定义的轴,以使组件的解释更加直观’. PCA定义的轴可能需要旋转,因为PCA本身决定正交(线性无关)本征光谱,而支配星系光谱外观变化的物理效应不一定是独立的。

与主成分分析相比,原型分析被设计为具有两个不同的特征,这两个特征更直接地解决了物理解释问题:(1)基向量本身需要是输入数据集的成员或成员的混合物,这使得对基向量起源的解释更为直接;(2)基向量是位于数据凸包上的极值数据点,允许将数据集的每个成员精确或近似地表示为基向量的混合物。这些特性是通过在PCA的一般形式中引入两组额外的约束来实现的。首先选择一组基向量{z(z)k个,k个=1, …,第页}是数据值的“线性组合”,
带有β千焦≥0,因此基向量“类似”数据,以及∑j个β千焦=1,因此它们是数据的“混合物”。然后确定系数{α伊克}它允许通过最小化基向量来“很好地表示”数据点集
最后,使用约束条件α伊克≥0,以便每个数据点是基向量和∑的“物理意义”组合k个α伊克=1,以便数据点是基向量的“混合物”。基向量集{z(z)k个}最佳描述数据集的是剩余平方和,

由这些约束集确定的基向量称为原型原型表示涉及两组系数α的确定伊克和β千焦Cutler和Breiman证明了原型位于数据凸包上,并展示了如何使用交替约束最小二乘算法迭代确定系数。正如他们所指出的那样,与主成分分析不同,原型分析不嵌套,原型也不是正交的,因此现有原型会发生变化,以逐渐更好的方式捕获数据集的形状(受噪声的影响),从而确定更大的原型集。

2.1范例

使用人工二维(即。=2)数据集。这样的数据集显示为图1。使用PCA,数据由它们的投影(坐标)表示,这些投影指向最大数据方差的两个正交方向的主成分,如点状轴所示。因为只有两个自变量,所以两个主成分将精确重建每个数据点。

原型分析和主成分分析的图解比较。两个点状轴说明了PCA的主要组成部分。虚线六边形是数据凸包,实心三角形表示三个原型的原型凸包。精确表示位于原型凸包内的点,而位于外部的点则由原型凸包上的最近点近似,如图所示。
图1

原型分析和主成分分析的图解比较。两个点状轴说明了PCA的主要组成部分。虚线六边形是数据凸包,实心三角形表示三个原型的原型凸包。位于原型凸包内的点被精确地表示,而位于外部的点被原型凸包上最近的点近似,如图所示。

原型分析是使用位于数据凸包上的基向量表示的。图1虚线六边形跟踪数据凸包,就像一条橡皮筋围绕数据集拉伸。原型算法将原型定位在此数据凸包上,该凸包形成(对于给定数量的原型)凸包的最佳模型。例如,如果我们用三个原型来表示人工数据集,原型算法会在数据凸包上确定三个点,这些点勾勒出三角形,即原型凸包。三角形中的每个数据点都由原型的混合精确描述(零残差)。三角形外部的数据点表示为三角形上最近的点,如所示图1。原始(外部)数据点和表示的数据点之间的距离为残留物在搜索最佳原型集时,这些残差的总和最小化(表达式3)。对于这个特定的数据集,数据凸包是一个六边形,六个原型将提供每个数据点的精确重建。

以下各节将讨论与原型分析相关的三个通用问题。

  1. 多维数据的原型表示的质量取决于采用的原型数量。我们展示了使用不同数量原型的结果。

  2. 原型位于数据凸包上,原型分析可能对异常值敏感。我们研究了噪声产生的异常值对原型分析的影响。

  3. 在原型分析之前,有时需要对输入数据集进行标准化。我们讨论了这方面的经验。

3合成光谱的应用

我们应用原型分析来研究模型星系中演化的恒星形成。我们通过假设每个星系在过去的时代都经历过具有准随机振幅的恒星形成事件,构建了一组模型星系的光谱。受以下分析的启发Reichardt,Jimenez&Heavens(2001),我们将星系建模为瞬间形成的恒星群叠加,现在观测到的年龄分别为0.007、0.045、0.3、2和14Gyr。这个基准光谱在这些年龄段,使用P埃加斯-II代码Fioc和Rocca-Volmerange(1999),采用萨尔彼得(1955)[0.1120]M范围内的初始质量函数和恒星库Lejeune、Cuisinier和Buser(1997年,1998). 在365–711 nm的光学波长范围内合成光谱,并使用2 nm光谱箱(174箱)。由于P无法预测星云发射线的形状埃加斯-II我们使用半高宽~5 nm的高斯模拟它们。原型分析不需要这种处理,但可以方便地进行视觉呈现。

为了生成模型复合光谱,首先将五个基准光谱归一化为相同的积分通量。然后,使用一组五个准随机加权因子,通过基准谱的叠加生成复合谱。为了满足五个加权因子之和为一且具有拟均匀分布的约束,我们根据关系生成加权因子w个=U[0,1](1-∑图解的w个n个),其中U[0,1]表示[0,2]中均匀分布的随机数。这样最多生成5个随机数,或者当∑图解的w个n个≥ 1. 然后将这些伪随机值随机分配为五个加权因子。由于五个随机值中的一个从未缩放,因此它在[0,1]内保持均匀分布,而总和被限制为一。

模型星系的样本是通过对每个星系重复不同的随机数来生成的。除了确定每个模型星系的光谱外,我们还计算了标准光度颜色。模型星系在双色星系中的分布(B类V(V),U型B类)平面如所示图2基准光谱本身显示在横跨顶行的前5个面板中图3第六个面板展示了一个复合谱示例,由基准谱的0.14、0.66、0.00、0.13和0.08的比值组成。

顶行:基准光谱(第1-5列),带样品复合光谱(第6列)。第2-4行:分别说明使用五种原型时模型高斯(S/N=10)、泊松(S/N=10)和宇宙射线噪声(5%随机尖峰)以及夜空残差(5%振幅)的影响。在每一行中,第1-5列是恢复的原型,第6列是带误差的复合谱,第7列是表示的复合谱。第2-4行下面的小面板说明了上面的频谱与第1行中的无噪声频谱之间的差异。
图3

顶行:基准光谱(第1-5列),带样品复合光谱(第6列)。第2-4行:分别说明使用五种原型时模型高斯(S/N=10)、泊松(S/N=10)和宇宙射线噪声(5%随机尖峰)以及夜空残差(5%振幅)的影响。在每一行中,第1-5列是恢复的原型,第6列是带误差的复合谱,第7列是表示的复合谱。第2-4行下面的小面板说明了上面的频谱与第1行中的无噪声频谱之间的差异。

生成了一组合成光谱后,我们应用原型分析。已经探索了50、100和900个复合光谱的样本大小。它们显示了可比较的结果,并且我们只提供了900个复合光谱的分析。

3.1原型数量

我们首先探讨不同数量原型的使用。为了说明关键结果,图2显示了对应于投影到(B类V(V),U型B类)双色平面。

还显示了五个基准光谱的相应投影。就机器精度而言,当使用原型。原型凸包在双色平面上的投影可以通过注意到该多面体的每个边缘是位于两端的原型的混合物来确定,而其他三个原型没有贡献。虚线描绘了5原型凸面船体的投影。其曲率来源于光谱能量分布和颜色之间的非线性关系。

什么时候?原型用于表示数据,其中两个原型基本保持不变(7 Myr和45 Myr),而其他两个原型是剩余三个基准光谱的混合物,形式为81%300 Myr+19%2 Gyr和14%2 Gyr+85%14 Gyr。什么时候?使用原型,恢复7-Myr基准光谱,而其他两个是中间表示80%45Myr+20%300Myr和44%2Gyr+56%14Gyr。四个原型和三个原型表示产生了原型凸包,如中的投影所示图2.

总之,使用五个原型可以准确地恢复五个基准谱。当使用较少的原型时,其中一个或多个代表具有高纯度的“年轻”基准谱,而其他原型则作为较旧基准谱的中间表示出现。这主要是由于年轻光谱中存在显著的光谱特征(尤其是发射线),以及较老基准光谱之间没有显著差异。

3.2噪声条件下的数据表示

原型分析旨在关注数据集的异常值(Cutler&Breiman 1994年). 这种对离群值的强调提出了对噪声的敏感性问题,这可能会对数据集的离群值做出更大的贡献。我们在本节中研究这个问题,表明原型分析在存在表征天文光谱学的噪声类型时是稳健的。

我们通过向上述900个合成光谱的样品中添加四种不同的污染物来探索噪声的影响。它们是(i)高斯统计的随机噪声,(ii)泊松统计的随机噪音,(iii)被称为“宇宙射线”的窄而强的污染,以及(iv)被称之为“天空减法残差”的普遍固定模式。

随机噪声模型的振幅被选择为提供特征信噪比为10的数据。特别是,对于泊松随机噪声,添加到任何波长仓的平均噪声幅度都是由该波长仓的通量确定的。这里我们忽略了天空光谱的贡献。

我们模拟了5%的宇宙线污染率,假设每个合成光谱的污染事件数量为泊松统计。这样,44/900个光谱发生了单像素事件,表现为对应光谱中峰值通量密度振幅的三倍峰值。在一个光谱(1/900)中添加了两个峰值。随机选择每个峰值的波长。

使用由肯尼科特(1992)在实际光谱分析中,天际线相对于星系线将发生准随机红移,我们通过在0≤范围内随机蓝移天际线光谱来模拟这种效应z(z)≤ 0.1. 移动的天空光谱在波长上重新固定,并按比例缩放,以表示相对振幅为±5%(均匀分布)的随机天空减法误差,然后添加到合成光谱中。随机红移和波长重新调谐的组合将波长跨度从174个光谱仓减少到139个光谱仓。

图34分别说明噪声对(i)原型本身和(ii)代表原型数据的系数的影响。图3,顶行的前五个面板显示了基准光谱,这与在没有噪音的情况下发现的五个原型基本相同。在这一行下面,每一列显示了从污染数据集导出的相应原型,以及相对于基准谱的差异谱。

900个模型谱中基准谱的权重与由5个原型表示的数据的相应权重之间的相关性(a)和分布(b)。在这两幅图中,五列对应于五个基准光谱(恒星形成事件)。第1行:无噪音外壳;第2行:添加高斯噪声(S/N=10);第3行:添加的泊松噪声(S/N=10);第4行:添加宇宙射线(5%);第5行:添加天际线轮廓(±5%)。
图4

900个模型谱中基准谱的权重与由5个原型表示的数据的相应权重之间的相关性(a)和分布(b)。在这两幅图中,五列对应于五个基准光谱(恒星形成事件)。第1行:无噪音外壳;第2行:添加高斯噪声(S/N=10);第3行:添加的泊松噪声(S/N=10);第4行:添加宇宙射线(5%);第5行:添加天际线轮廓(±5%)。

除了下文讨论的“2 Gyr,宇宙射线”情况外,“输入”和“导出”权重之间存在明显的相关性,但也存在大量分散。虽然恢复的原型通常与在没有污染的情况下导出的原型非常相似,但这种分散反映了错误向原型本身的传播。大多数散射源于将每个光谱拟合为混合原型时误差的传播。“较老”光谱成分的大分散现象反映了这三种“较旧”原型彼此相似的事实。

最右边的面板位于图3说明了900个合成光谱中的一个。在下面的列中,显示了相应的污染合成光谱,以及与未污染光谱的差异。所选择的光谱是遭受单一宇宙射线事件的光谱,即那种形式的污染。这些面板的右侧是作为原型加权和获得的相应光谱。在所有情况下,原型表示都保留了光谱细节,同时降低了原始光谱中污染的幅度。这一结果证实了原型分析在压缩数据集大小方面的潜在功效。

900个光谱的整个样品的推断统计特性的原型分析结果如所示图4在第4(a)部分中,每个小面板是一个散点图,其横坐标是在形成合成光谱时应用于基准光谱的权重,其纵坐标是相应原型表示的导出权重。完全相关的偏差反映了光谱污染导致的误差传播到每个模型星系的恒星形成历史推断中。图4(b),给出了“输入”和“导出”权重之差的相应分布函数。

结果如所示图4揭示原型分析的优点和缺点。当使用五种原型分析未受污染的数据时,顶行显示的紧密关联反映了基准光谱和原型之间本质上完美的对应。前两列中相对紧密的相关性表明,即使存在显著污染,“年轻”种群的光谱轨迹也可以高精度测量。300Myr至14Gyr列中的点分布反映了在S/N比相对较差的数据中准确提取单个古老恒星形成事件的光谱轨迹的困难。这个问题已经得到了很好的理解,并且结果不太可能比其他方法得出的结果差。

根据数据拓扑和原型凸包来解释这些结果很有启发性。数据可以被视为174(或139)维(波长数)空间中的900个点(光谱数)。当存在弱或中等水平的高斯或泊松噪声,或存在遭受随机波长偏移的弱天空光谱时,数据点(包括数据凸包的顶点)将被相对于其与原点的中间距离相对较小的距离所取代。因此,在没有污染的情况下,原型凸包与相应的原型凸包仅略有不同。原型类似于未被污染的数据,并且因为原型的数量远小于波长的数量,所以数据表示被显著平滑。

“2陀螺,宇宙射线”面板图34与所有其他面板不同。在这种情况下,原型分析导出了一个包含两个宇宙射线事件的光谱作为原型之一。因为样本中没有其他光谱包含此模式,所以原型对任何数据表示都没有显著贡献。因此,分析得出的结果与发现的结果非常接近使用的原型。该案例说明了原型分析对具有强异常噪声特征的异常值的敏感性。然而,它也表明,即使在存在此类噪声的情况下,该方法也是鲁棒的,当然,它揭示了一种系统地识别和去除噪声数据的方法。

4潜在客户

鉴于其强调将数据集表示为纯类型的混合物,原型分析在分析星系光谱方面提供了相当大的前景,这些光谱可能是不同发射过程(AGN、星云、恒星)和不同年龄恒星群光谱的叠加。它在从无噪声的合成数据中提取恒星形成历史方面提供了近乎完美的精度。噪声的存在,特别是强非高斯统计的存在,影响了这种高精度,但我们的研究表明,该技术可以成功地应用于具有典型噪声特性的星系光谱数据。

我们以有限的方式探索了原型分析的扩展。例如,原型分析的结果在一定程度上取决于输入数据的预处理或标准化。我们发现,对于宇宙射线污染,当数据标准化时,可以获得最佳结果,而对于高斯或泊松随机噪声以及天空差分残差集,这似乎是不必要的。我们已经证明,宇宙射线事件可以通过其在某些原型中的明显存在而有效地识别。这就要求探索一种迭代的数据调节方法,其中原型的非物理成分从数据集中逐步编辑,为去除数据中的污染成分提供了一种潜在的强大的新方法。原型分析旨在使用数据集的成员寻求表示。然而,在某些情况下模型用于数据。我们已经确认,原型分析在这种情况下仍然适用,模型取代了原型。以这种方式使用,原型分析共享MOPED的许多特性。

我们目前正在使用原型分析来分析来自肯尼科特(1992)样本和2dFGRS调查(Colless等人,2001年).

致谢

我们感谢Matthew Colless、Nicole Bordes和Bernard Pailthorpe的建议和评论。

工具书类

科利斯
M。
等。(2dFGRS团队),
2001
,
MNRAS公司
,
328
,
1039

卡特勒
答:。
布雷曼
L。
,
1994
,
技术计量学
,
36
,
338

菲欧克
M。
Rocca-Volmerange公司
B。
,
1999
,预打印()

天啊
答:。
希梅内兹
R。
拉哈夫
O。
,
2000
,
MNRAS公司
,
317
,
965

肯尼柯特
C.J.公司。
,
1992
,
ApJS公司
,
79
,
255

拉哈夫
O。
,
2001
,英寸
班代
A.J.公司。
扎鲁比
美国。
巴特尔曼
M。
,编辑,程序。MPA/ESO/MPE会议。,
挖掘天空
.
Springer-Verlag公司
,
海德堡
,第页。
33

勒琼
T。
屈西尼耶
F、。
Buser公司
R。
,
1997
,
A&AS公司
,
125
,
229

勒琼
T。
屈西尼耶
F、。
Buser公司
R。
,
1998
,
A&AS公司
,
130
,
65

马德威克
D.S.公司。
拉哈夫
O。
,
2001
,英寸
特雷塞
特赖尔
,编辑,
问题出在哪里?用新一代大规模测量追踪暗物质和亮物质
.
前沿集团
,出版中()

穆尔塔赫
F、。
真见鬼
答:。
,
1987
,英寸
博伊德
R·L·F。
等。,编辑,
天体物理学和空间科学图书馆,多元数据分析
.
雷德尔
,
多德雷赫特
,第页。
19

莱查特
C、。
希梅内兹
R。
天啊
答:。
,
2001
,
MNRAS公司
,
327
,
849

罗农
美国。
阿拉贡萨拉曼卡
答:。
拉哈夫
O。
,
1999
,
MNRAS公司
,
303
,
284

萨尔彼得
E.公司。
,
1955
,
亚太及日本
,
121
,
161

斯隆尼姆
N。
萨默维尔
R。
蒂什比
N。
拉哈夫
O。
,
2001
,
MNRAS公司
,
323
,
270

作者笔记

电子邮件:bchan@physics.usyd.edu.au(BHPC);mitch@physics.usyd.edu.au(大坝);lc@physics.usyd.edu.au(莱克)