高斯拟合

最小二乘系统和稳健估计

威廉·杰弗里斯、芭芭拉·麦克阿瑟、詹姆斯·麦卡特尼
天文学系
德克萨斯大学奥斯汀分校

 

GaussFit是作为一个平台开发的,用于促进天体测量数据简化的最小二乘和稳健估计问题来自NASA哈勃太空望远镜的数据。天体测量环境模型可以方便快捷地编写、测试和修改。 以前的方法有许多不同的局限性。过去,个别模型必须完全按照特定的简化进行编程要求。这种逐个案例的编程需要大量的时间和更容易在个别计算中出错。

 

1.技术说明

GaussFit是一个计算机程序,用“C”编程编写语言,其中包括一种功能齐全的编程语言,模型可以使用该语言用于解决最小二乘和稳健估计问题。GaussFit跑步在许多具有不同操作系统的计算机上,包括:UNIX®、,VMS®、XENIX®和Apple Macintosh®。它还集成到太空望远镜科学研究所的数据简化系统(STSDAS)。喜欢其他程序,GaussFit将在机器的计算资源更大。已在进行测试该领域至少有40名研究人员,用于解决天文学和其他科学。

 

2.功能操作

GaussFit程序由多个部分组成。它有一个编译器它采用用户的模型,用GaussFit编程语言编写,并将其转换为抽象机器的汇编语言程序。这个然后解释程序。数据是从用户的数据和参数文件,用于形成条件和约束方程。收件人这样,解释器依赖于一个内置的代数操纵器,称为“余切束机”不仅能计算出每种算法的值操作,以及所有必需的衍生工具信息(即因此是通过分析计算的,而非数值计算的)。在条件和约束方程已经形成,生成的矩阵被发送到用户选择的求解算法。对于最小二乘法估计,它是一种Householder正交变换方法;用于中央分隔带-类型估计器,它基于Barrodale和Roberts实现的单纯形算法;对于其他稳健的方法(Huber度量,Tukey度量biweight和metric fair[5]),使用Householder变换以及牛顿法或迭代法加权最小二乘法(IRLS)。然后更新数据文件以反映计算结果,并迭代该过程,直到进行某次迭代已满足标准。有其他技术可用于特殊情况。对于非线性建模已实现参数估计-黑森法和最陡下降法)。对于生成矩阵的系统是单数或数值非常接近单数或病态、单数正在实施价值分解(SVD)。偏差消除算法是在测量误差方差为相对于曲率来说不小[6]。

要设置GaussFit问题,用户必须提供以下几点。第一个是模型的数学描述,用于减少数据。这将是GaussFit编程语言中的一个简短程序描述了条件方程和约束(如果有)是如何实现的计算。此计算可以是方程式的形式,也可以是本质上的算法。接下来,用户必须提供一个“环境”文件。这个file指定数据和参数文件的名称、迭代和收敛标准,将打印哪些矩阵和其他数据,以及使用的简化方法(尤其是当用户选择稳健方法)。用户必须以可接受的格式提供输入数据程序。最后,用户必须提供一个初始近似值为待拟合的参数。准备好模型、环境和数据后文件,则应启动程序的执行。程序提示模型和环境文件名,然后运行完成。进度报告定期打印到屏幕上,结果将显示在结果文件和修改后的数据文件中。

 

3.支持理论

高斯近两个世纪发明的最小二乘法ago是从噪声数据估计参数的可靠工具。一个数字对基本方法进行了一些改进程序,但最小二乘法的基本思想非常简单:给出了一个数学描述,它规定了观测值的依赖性某些参数的(噪声)数据,找出将总体误差降至最低。在经典的最小二乘法中总误差由残差的(加权)平方和估计(即模型预测值与数值之间的差异观察到)。该方法直接扩展到包括以下情况观察结果是相互关联的,并且与更多在连接观测值和参数。非线性方程也可以通过逐次逼近法。GaussFit程序实现了处理所有这些情况的广义最小二乘算法。减少可以轻松快速地编写、测试和修改模型。高斯拟合提供了稳健估计的实验能力。它基于概括了Huber开创的方法,并根据他讨论的条件。稳健估计大大提高了“离群值”的估计量,即未知的坏观测值先验的太糟糕了[4]。

 

4.独特功能

至少平方问题,特别是如果问题是非线性的,是参数和观测值的偏导数为了形成条件方程和约束方程。GaussFit使用内置代数自动解决此问题操纵器计算所有所需的偏导数。用户模型计算的表达式将包含所有必需的派生信息。例如,如果计算只能通过算法表达,GaussFit将自动携带所有计算的每个步骤的导数信息。请注意计算导数分析地在每个步骤中。没有数字使用近似值。因为所需的导数都是经过计算的自动地,用户就不用担心他们了,可以专注于指定正确的条件方程和约束。如果要拟合的模型发生变化,衍生工具信息将也会自动更改。GaussFit的这一功能真的很节省时间,特别是在拟合复杂的非线性模型时。

 

5.能力分析

GaussFit能够处理经常出现的情况具有实际意义,但通常被忽视,因为它们许多用户不太理解。它提供了一种简单自然的方式提出一般非线性问题;观测方程中的问题(条件方程)包含多个观测值(误差-变量案例);相关观测的问题;准确的问题必须强制执行参数之间的约束。某些稳健估计方法将最小二乘法推广到非欧几里得度量,并提供更大的与经典最小二乘法相比,对“异常值”的免疫力可用。

工具书类

1.W.H.Jefferys、M.J.Fitzpatrick和B.E.McArthur,“高斯拟合-a最小二乘和稳健估计系统”,天体力学, 41, 1988, 39-49.

2.W.H.Jefferys、M.J.Fitzpatrick、B.E.McArthur和J.E.McCartney,“高斯拟合:最小二乘和稳健估计系统”,用户手册,天文学和麦克唐纳天文台部,德克萨斯州奥斯汀,1990年,75第页。

3.F.Murtagh,“两个变量都有误差的线性回归:简略审查”,天文学中的错误、不确定性和偏见,C.Jaschek和F。Murtagh(编辑),剑桥大学出版社。

4.W.H.Jefferys,“当每个变量中有多个变量时的稳健估计条件方程有错误,”生物特征,77, 1990, 597-607.

5.W.J.J.雷伊,稳健与准稳健统计简介方法1983年,纽约斯普林格·弗拉格出版社。

6.W.A.Fuller,测量误差模型约翰·威利父子公司,1987

鸣谢

该软件是根据NASA合同NAS8-32906开发的对此我们深表感谢。