×

使用(B)-样条曲线和惩罚进行灵活平滑。作者进行了评论和反驳。 (英语) Zbl 0955.62562号

小结:样条曲线对非参数建模很有吸引力,但选择最佳节点数和位置是一项复杂的任务。可以使用等距结,但其较小且离散的数量仅允许对平滑度和拟合进行有限的控制。我们建议使用相对大量的节点和相邻B样条系数的差分惩罚。我们展示了平方二阶导数积分上常见的样条惩罚的联系。简要概述了B样条及其构造和惩罚似然。我们讨论了惩罚B样条的性质,并提出了选择最佳惩罚参数的各种准则。以非参数logistic回归、密度估计和散点图平滑为例。给出了计算的一些细节。

MSC公司:

62G05型 非参数估计
62G07年 密度估算
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ashford,R.和Walker,P.J.(1972年)。混合人群的数量反应分析。生物统计学28 981-988。
[2] Bishop,Y.M.M.、Fienberg,S.E.和Holland,P.W.(1975年)。离散多元分析:理论与实践。麻省理工学院出版社·Zbl 0332.62039号
[3] 克利夫兰·W·S(1979)。稳健的局部加权回归和平滑散点图。J.Amer。统计师。协会74 829-836·兹比尔0423.62029 ·doi:10.2307/2286407
[4] Cox,M.G.(1981)。实用样条曲线近似。《数值分析专题》(P.R.Turner主编)。柏林施普林格·Zbl 0492.65004号 ·doi:10.1007/BFb0063201
[5] de Boor,C.(1977年)。用于使用B样条计算的软件包。SIAM J.数字。分析。14 441-472. JSTOR公司:·Zbl 0364.65008号 ·doi:10.1137/0714026
[6] de Boor,C.(1978)。花键实用指南。柏林施普林格·Zbl 0406.41003号
[7] Dierckx,P.(1993年)。使用样条曲线和曲面拟合。牛津克拉伦登·Zbl 0782.41016号
[8] Diggle P.和Marron J.S.(1988年)。密度和强度估计中平滑参数选择器的等效性。J.Amer。统计师。协会83 793-800。JSTOR公司:·Zbl 0662.62036号 ·doi:10.2307/2289308
[9] 艾尔斯,P.H.C.(1990)。使用广义线性模型进行平滑和插值。Quaderni di Statistica e Matematica Applicata alle Scientize Economico-Social 12 21-32。艾尔斯,P.H.C.(1991a)。实际惩罚回归:从每日平均值估算污染玫瑰。环境计量2 25-48。艾尔斯,P.H.C.(1991b)。分组观测的非参数密度估计。统计师。尼尔兰迪卡45 255-270·兹bl 04504322 ·doi:10.1111/j.1467-9574.1991.tb01308.x
[10] 艾勒斯,P.H.C.(1995年)。间接观察、复合链接模型和惩罚可能性。《统计建模》(G.U.H.Seeber et al.,eds.)。纽约州施普林格。
[11] 艾尔斯,P.H.C.和马克思,B.D.(1992)。具有P样条的广义线性模型。《GLIM和统计建模进展》(L.Fahrmeir等人,编辑)。纽约州施普林格。
[12] Eubank,R.L.(1988)。样条平滑和非参数回归。纽约州德克尔·Zbl 0702.62036号
[13] Friedman,J.和Silverman,B.W.(1989)。灵活的简约平滑和累加建模(带讨论)。技术计量31 3-39。JSTOR公司:·Zbl 0672.65119号 ·doi:10.2307/1270359
[14] Green,P.J.和Silverman,B.W.(1994)。非参数回归和广义线性模型。查普曼和霍尔,伦敦·Zbl 0832.62032号
[15] Green,P.J.和Yandell,B.S.(1985年)。半参数广义线性模型。在广义线性模型中(B.Gilchrist等人,eds.)。纽约州施普林格。Hand,D.J.、Daly,F.、Lunn,A.D.、McConway,K.J.和Os trowski,E.(1994)。小数据集手册。查普曼和霍尔,伦敦。
[16] Härdle,W.(1990年)。应用非参数回归。剑桥大学出版社·Zbl 0714.62030号
[17] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型。查普曼和霍尔,伦敦·Zbl 0747.62061号
[18] Kooperberg,C.和Stone,C.J.(1991)。对数样条密度估计的研究。计算。统计师。数据分析。12 327-347. ·兹比尔0825.62442 ·doi:10.1016/0167-9473(91)90115-I
[19] Kooperberg,C.和Stone,C.J.(1992年)。截尾数据的对数样条密度估计。J.计算。图表。统计师。1 301- 328.
[20] Marron,J.S.和Ruppert,D.(1994年)。减少核密度估计中边界偏差的变换。J.罗伊。统计师。Soc.序列号。乙56 653-671。JSTOR公司:·兹比尔0805.62046
[21] Marx,B.D.和Eilers,P.H.C.(1994)。具有惩罚似然的直接广义加性建模。论文发表于1994年埃克塞特第九届统计建模研讨会。
[22] Marx,B.D.和Eilers,P.H.C.(1996)。具有惩罚似然的直接广义加性建模。未发表的手稿·Zbl 1042.62580号
[23] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型,第二版,查普曼和霍尔,伦敦·Zbl 0744.62098号
[24] O'Sullivan,F.(1986年)。关于不适定逆问题的统计观点(附讨论)。统计师。科学。1 505-527. ·Zbl 0625.62110号 ·doi:10.1214/ss/1177013525
[25] O'Sullivan,F.(1988年)。快速计算全自动对数密度和对数哈扎德估值器。SIAM J.科学。统计师。计算。9 363-379. ·Zbl 0688.65083号 ·doi:10.1137/0909024
[26] Reinsch,C.(1967年)。通过样条函数进行平滑。数字。数学。10 177-183. ·Zbl 0161.36203号 ·doi:10.1007/BF02162161
[27] Sakamoto,Y.、Ishiguro,M.和Kitagawa,G.(1986年)。Akaike信息标准统计。多德雷赫特·雷德尔·Zbl 0608.62006
[28] Scott,D.W.(1992)。多元密度估计:理论、实践和可视化。纽约威利·兹比尔0850.62006
[29] 西尔弗曼,B.W.(1985)。非参数回归曲线拟合的样条平滑方法的一些方面(与讨论)。J.罗伊。统计师。Soc.序列号。B 47 1-52。JSTOR公司:·Zbl 0606.62038号
[30] Silverman,B.W.(1986)。统计和数据分析的密度估计。查普曼和霍尔,伦敦·Zbl 0617.62042号
[31] Wahba,G.(1990年)。观测数据的样条模型。费城SIAM·Zbl 0813.62001号
[32] Wand,M.P.和Jones,M.C.(1993年)。内核平滑。查普曼和霍尔,伦敦·Zbl 0775.62105号 ·doi:10.2307/2290332
[33] Whittaker,E.T.(1923年)。关于一种新的毕业方法。程序。爱丁堡数学。Soc.41 63-75。
[34] 罗恩和帕克(1992)。在下文中,我简要介绍了核回归估计经典选择器的缺陷和一些补救方法。让我们假设具有等距设计点的圆形设计的最简单模型。yt=\mu xt+t,其中t是i.i.d.噪声。对于带带宽的核估计,我们通常使用Rice(1984)中的平方误差和平均值。所有这些程序都依赖于RSS的剩余平方和。Mallows(1973)根据Chiu,S.-T.(1996)的观察结果提出了该程序。核密度估计中带宽选择的比较综述。统计师。Sinica 6 129-145号·Zbl 0850.62359号
[35] Hall,P.和Johnstone,I.(1992年)。经验泛函和有效的平滑参数选择。J.罗伊。统计师。Soc.序列号。乙54 519-521。JSTOR公司:·Zbl 0786.62050号
[36] Hall,P.、Marron,J.S.和Park,B.U.(1992年)。平滑的交叉验证。普罗巴伯。理论相关领域92 1-20·Zbl 0742.62042号 ·doi:10.1007/BF01205233
[37] Mallows,C.(1973)。对Cp.Techometrics 15 661-675的一些评论·兹比尔0269.62061 ·doi:10.307/1267380
[38] Rice,J.(1984)。非参数回归的带宽选择。安。统计师。12 1215-1230. ·Zbl 0554.62035号 ·doi:10.1214/aos/1176346788
[39] Scott,D.W.和Terrell,G.R.(1987年)。密度估计中的有偏和无偏交叉验证。J.Amer。统计师。协会82 1131-1146。JSTOR公司:·Zbl 0648.62037号 ·doi:10.2307/2289391
[40] U、 Q2=BTB U,=diag,U是一个正交矩阵,使得Q-1/2 2 DTDQ-1/2 2=U UT。G的列可以用一组新的函数来识别,称为Demmler-Reinsch(DR)基。具体来说,这些是分段多项式函数,因此G的元素满足xi=Gi。除了具有有用的正交性外,DR基还可以按频率排序,值越大,振荡越大(实际上为1过零)。图1(a)绘制了m=133等间距x和20等间距内部节点的几个基本函数。图1(b)说明了作为函数的大小的预期多项式增加。Demmler-Reinsch基础提供了样条估计的信息解释。Let f d和Xiang and Wahba(1996)。对于第8节中的密度估计问题,我找不到H矩阵的定义来理解所提出的AIC,但无论是什么,在被推荐为“最优”之前,都应该接受同样的审查在普通高斯回归中,GCV的最优性已经在文献中得到了很好的证明。然而,对于(27)中给出的AIC分数,我希望有一些经验证据证明其最佳性。这种怀疑部分是由于一些经验证据表明H的踪迹可能不是模型有效维度的一致特征。此类证据可在顾(1996)中找到,网址为http://www.stat.lsa.umich.edu/chong/ps/modl.ps。网址:
[41] Barry,D.(1993年)。回归函数的可加性测试。安。统计师。21 235-254. ·Zbl 0771.62033号 ·doi:10.1214/aos/1176349024
[42] Cox,D.D.和Chang,Y.-F.(1990年)。广义平滑样条的迭代状态空间算法和交叉验证。技术报告49,伊利诺伊大学统计系。
[43] Cox,D.D.、Koh,E.、Wahba,G.和Yandell,B.S.(1988年)。在(半参数)部分和广义样条模型中测试(参数)零模型。安。统计师。16 113-119. ·Zbl 0673.62017号 ·doi:10.1214/aos/1176350693
[44] Gu,C.(1992年)。交叉验证非高斯数据。计算与图形统计学杂志1 169-179。
[45] Gu,C.(1996)。非参数函数估计中的模型索引和平滑参数选择。普渡大学统计系技术报告93-55(修订版)。
[46] Wahba,G.(1983年)。交叉验证平滑样条的贝叶斯“置信区间”。J.罗伊。统计师。Soc.序列号。乙45 133-150。JSTOR公司:·Zbl 0538.65006号
[47] Xiang,D.和Wahba,G.(1996年)。非高斯数据平滑样条的广义近似交叉验证。统计师。西尼卡·Zbl 0854.62044号
[48] Gijbels,1996年)。力矩守恒似乎并不重要。在回归中,我看不出它的可取性。在密度估计中,存在方差膨胀的核密度估计的简单修正,但与正常密度相差不大(Jones,
[49] ). 事实上,正确获得均值和方差是一个基于常态的概念,因此校正的核估计量以常态驱动的半参数方式工作。Efron和Tibshirani(1996)提出了更复杂的矩守恒,但最初的迹象表明,这并不比其他半参数密度估值器好或坏(Hjort,
[50] ). ”这些计算,包括交叉验证的计算,都相对便宜,并且很容易纳入标准软件。”同样,我提到的两种相互竞争的方法的支持者会对前半部分提出同样的要求,回归样条线的支持者会提出要求。作者对自动带宽选择没有做出特别新颖的贡献。交叉验证和AIC属于一类方法(例如,Härdle,1990,第166-167页),虽然不是完全糟糕,但仍有改进的余地。
[51] ). Binning是所有核函数估值器的主要计算工具(Fan和Marron,1994)。局部似然方法在理论上已经有了深刻的理解。通过理论或仿真,目前还无法将P样条的合理边界性能与局部多项式的合理边界特性进行比较。本文中提到的一个有趣的问题是,一端的少参数参数拟合与另一端的完全“非参数”技术之间存在明显的连续性,其中有许多参数par Ansley,C.F.、Kohn,R.和Wong,C.M.(1993)。具有先验信息的非参数样条回归。生物特征80 75-88。JSTOR公司:·Zbl 0771.62027号 ·doi:10.1093/biomet/80.1.75
[52] Efron,B.和Tibshirani,R.(1996年)。使用专门设计的指数族进行密度估计。安。统计师。24 000-000. ·兹比尔0878.62028 ·doi:10.1214操作系统/1032181161
[53] Fan,J.和Gijbels,I.(1996年)。局部多项式建模及其应用。查普曼和霍尔,伦敦·Zbl 0873.62037号
[54] Fan,J.和Marron,J.S.(1994年)。非参数曲线估计的快速实现。J.计算。图表。统计师。3 35-56.
[55] Hjort,N.L.(1996)。Efron和Tibshirani半参数否认估计的性能。未发表的手稿。
[56] Hjort,N.L.和Jones,M.C.(1996年)。局部参数非参数密度估计。安。统计师。24 1619-1647. ·Zbl 0867.62030号 ·doi:10.1214/aos/1032298288
[57] Jones,M.C.(1991)。核密度估计中方差膨胀的校正。计算。统计师。数据分析。11 3-15. ·Zbl 0850.62344号 ·doi:10.1016/0167-9473(91)90049-8
[58] Jones,M.C.(1996)。局部似然密度估计的密切关系。未发表的手稿·Zbl 0882.62034号 ·doi:10.1007/BF02562622
[59] Loader,C.R.(1996)。局部似然密度估计。安。统计师。24 1602-1618 ·Zbl 0867.62034号 ·doi:10.1214/aos/1032298287
[60] Marron,J.S.(1996)。平滑和统计的个人观点(讨论)。计算。统计师。
[61] Ruppert,D.、Sheather,S.J.和Wand,M.P.(1995年)。局部最小二乘回归的有效带宽选择器。J.Amer。统计师。协会90 1257-1270。JSTOR公司:·Zbl 0868.62034号 ·doi:10.2307/2291516
[62] Simonoff,J.S.(1996年)。统计学中的平滑方法。纽约州施普林格·Zbl 0859.62035号
[63] timality和minimax属性(Fan,1993)。对于密度估计,Engel和Gasser(1995)在包含惩罚似然估计量的一大类估计量中证明了带核固定带方法的极小极大性质。本文没有提供任何论据,无论是理论上还是仿真上,都支持P样条函数相对于其众多竞争对手的任何优势。在回归情况下,可以通过结合de-Boor(1978)关于B样条的无偏性和方差(依赖于m、样条阶数k和基础函数的光滑性)的论点和关于平滑样条的众所周知的结果来评估P样条的理论性质。作者建议使用AIC或交叉验证来选择平滑参数。然而,仔细看一下他们的方法,就会发现实际上有两个自由参数:节点数n。如果n m,那么我们基本上获得了平滑样条拟合,而如果n m的结果可能会非常不同。事实上,估计值可能主要取决于n。因此,为什么不通过交叉验证或相关方法确定和n?以下理论论据可能表明,这种方法可行。请注意,AIC和交叉验证非常接近无偏风险估计,其中包括通过最小化m等人(1996)来估计和n的最佳值。1992年版本的软件是用C编写的,与S-PLUS接口,可从Statlib公开获得。(1992年版的LOGSPLINE只使用了节点删除;然而,这里我们关注的是1996年版,它同时使用了节点添加和节点删除。)LOGSPLIN可以提供有限和无限区间的估计,并且可以处理删失数据。LOGSPLINE对Old Faithful数据和自杀数据的结果与P样条的相应结果非常相似[自杀数据是Kooperberg和Stone(1992)中的一个例子]。这里我们考虑一个更具挑战性的数据集。图1中的实线显示了基于英国7125年净收入随机样本的对数样条密度估计值[家庭支出调查(1968-1983)]。(数据已重新缩放为平均值1。)显示了LOGSPLINE选择的九个节点。请注意,其中四个节点非常接近0 24附近的峰值。这一峰值是由于英国的养老金,导致许多人的收入几乎相同。在Kooperberg和Stone(1992)中,我们得出结论,该峰的高度和位置由LOGSPLINE准确估计。此数据比Old Faithful和自杀数据更具挑战性的原因有几个:数据集更大,因此对计算资源来说更具挑战(LOGSPLINE估计在Sparc 10工作站上花费了9秒);与数据的范围11.5相比,峰值的宽度约为0.02;存在严重的异常值(最大观测值为11.5,第二大观测值为7.8);峰值左侧密度的上升非常陡峭。为了了解P样条函数程序将为该数据产生什么结果,我首先删除了最大的观测值,以便数据中不会有任何长的间隙,从而将最大观测值减少到7.8。图1中的虚线是i/20乘以7 8的固定节点数据的LOGSPLINE估计值,对于i=0 1 20(使用20个间隔,如大多数P样条示例中一样)。所得拟合应类似于=0的P样条拟合。在这一估计中,似乎完全忽略了窄峰,并且由于峰值左侧的密度急剧上升,且峰值附近缺乏足够多的节,因此在只有一个模式的情况下估计了两个模式。
[64] 或如Wahba(1978)所述。特别是,通常的先验值是独立于样本大小指定的,而人们可能希望使用更多的B样条曲线和更大的样本。此外,二阶导数平方的积分比B样条系数二阶差的平方和更容易从非贝叶斯角度进行解释。我不同意作者的说法,即他们的方法不存在边界问题。P样条曲线近似于具有边界效应的平滑样条曲线(Speckman,1983)。为了解释,考虑从方程式(5)中最小化,
[65] Sheather(1996)。我们使用AIC并获得基本上相同的平滑度,“以第一代价格获得第二代结果。”再次,我们不想暗示AIC是最终答案,但要表明它比有时建议的更有用。
[66] LR,局部回归;LRB,带binning的局部回归;SS,平滑样条曲线;SSB,使用带解算器平滑样条曲线;RSF,具有固定节点的回归样条曲线;RSA,带自适应节点的回归样条;PS,P花键。“可用的适应性灵活性”一行表示软件实现随时可用,Cook,R.D.和Weisberg,S.(1994)。回归图形。纽约威利·Zbl 0925.62287号
[67] 艾尔斯,P.H.C.(1988)。具有潜在变量的自回归模型。《1988年COMPSTAT会议记录》(D.Edwards和N.E.Raun,eds.)。物理-Verlag。
[68] Engel,J.和Gasser,T.(1995年)。一类非参数密度估计的极大极小结果。非参数统计4 327-334·Zbl 1380.62145号 ·doi:10.1080/10485259508832624
[69] 家庭支出调查(1968-1983)。年度基本磁带和报告(1968-1983)。伦敦女王办公厅统计处就业部。
[70] Fan,J.(1993)。局部线性回归平滑器及其极大极小效率。安。统计师。21 196-216. ·Zbl 0773.62029号 ·doi:10.1214/aos/1176349022
[71] Fan,J.和Gijbels,I.(1995年)。局部多项式拟合中的数据驱动带宽选择:可变带宽和空间自适应。J.罗伊。统计师。Soc.序列号。乙57 371-394。JSTOR公司:·Zbl 0813.62033号
[72] Fan,J.、Hall,P.、Martin,M.A.和Patil,P.(1996)。非参数曲线估计的局部平滑。J.Amer。统计师。协会91 258-266。Foley,J.D.、van Dam,A.、Feiner,S.K.和Hughes,J.F.JSTOR:·Zbl 0871.62036号 ·doi:10.2307/2291403
[73] 计算机制图:原理与实践。马萨诸塞州雷丁市Addison-Wesley·Zbl 0875.68891号
[74] 弗里德曼,J.H.(1991)。多元自适应回归样条曲线(带讨论)。安。统计师。2011年11月19日·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[75] Jones,M.C.、Marron,J.S.和Shepherer,S.J.(1996年)。密度估计中带宽选择的简要概述。J.Amer。统计师。关联显示。JSTOR公司:·Zbl 0873.62040号 ·数字对象标识代码:10.2307/2291420
[76] Kneip,A.(1994年)。有序线性平滑器。安。统计师。22 835-866. ·Zbl 0815.62022号 ·doi:10.1214/aos/1176325498
[77] Kooperberg,C.、Bose,S.和Stone,C.J.(1997年)。多软骨退行性变。J.Amer。统计师。关联显示。Kooperberg,C.、Stone,C.J.和Truong,Y.K.(1995年a)。危险回归。J.Amer。统计师。协会90 78-94。Kooperberg,C.、Stone,C.J.和Truong,Y.K.(1995年b)。可能混合谱分布的对数样条估计。J.时间序列。分析。16 359-388. ·Zbl 0832.62083号 ·文件编号:10.1111/j.1467-9892.1995.tb00240.x
[78] Speckman,P.L.(1983)。非参数回归模型中的样条平滑和最佳收敛速度。安。统计师。13 970-983. Stone,C.J.、Hansen,M.、Kooperberg,C.和Truong,Y.K·Zbl 0585.62074号 ·doi:10.1214/aos/1176349650
[79] .扩展线性建模中的多项式样条及其张量积。安。统计师·Zbl 0924.62036号 ·doi:10.1214/aos/1031594728
[80] Wahba,G.(1978年)。不正确的先验、样条曲线平滑和防止回归中模型错误的问题。J.罗伊。统计师。Soc.序列号。乙40 364-372。JSTOR公司:·兹比尔0407.62048
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。