贝叶斯, T。,1763:一篇关于解决机会理论中一个问题的文章。 菲洛斯。事务处理。罗伊。Soc.伦敦,53 ,370–418.
崔, B.C.K.公司。,1998:诊断测试的接收器特性曲线斜率和似然比。 阿默尔。《流行病学杂志》。,148 ,1127–1132.
甘丹, 洛杉矶。、和墨菲 A.H.公司。,1992:分类预测的公平技能分数。 周一。我们。版次。,120 ,361–370.
绿色, D.M.博士。、和商惠知 J.A.公司。,1966:信号检测理论与心理物理学. J.Wiley and Sons,455页(由R.E.Krieger出版社重印,1974年).
乔利夫, 信息技术。、和斯蒂芬森 D.B.博士。,2003:预测验证:大气科学实践者指南. J.Wiley and Sons,240页.
卡茨, 相对湿度。、和埃伦多弗 M。,2006:使用集合天气预报进行决策的贝叶斯方法。 我们。预测,21 ,220–231.
库平斯基, M。,爱德华兹 直流电。,吉格 M.L.公司。、和梅茨 C、。,2001:使用贝叶斯分类神经网络的理想观测器近似。 IEEE传输。医学影像学,20 ,886–899.
曼扎托, 答:。,2005年a:使用探测衍生指数进行神经网络短期雷暴预报。 我们。预测,20 ,896–917.
曼扎托, 答:。,2005年b:ROC图和技能得分指数的比值比参数化。 我们。预测,20 ,918–930.
曼扎托, 答:。,2007:基于神经网络的短期雷暴和降雨预报的探空衍生指数。 大气。物件。,83 ,349–365.
石匠, I.B.投资银行。,1979:关于将概率预测降低为是/否预测。 周一。我们。版次。,107 ,207–211.
石匠, I.B.投资银行。,2003:二进制事件。 预测验证:大气科学实践者指南,I.T.Jolliffe和D.B.Stephenson,Eds.,J.Wiley and Sons,37–76岁.
内曼, J。、和皮尔逊 E.S.公司。,1928:关于统计假设的最有效检验问题。 菲洛斯。事务处理。罗伊。Soc.伦敦,231 ,289–337.
皮尔士, C.S.公司。,1884:预测成功的数字度量。 科学类,4 ,453–454.
理查森, D.S.公司。,2000:ECMWF集合预测系统的技术和相对经济价值。 夸脱。J.罗伊。流星。Soc公司。,126 ,649–667.
理查森, D.S.公司。,2003:经济价值和技能。 预测验证:大气科学从业者指南,I.T.Jolliffe和D.B.Stephenson,Eds.,J.Wiley and Sons,165-188岁.
罗博, P.J.公司。、和博萨特 L.F.有限责任公司。,1996:预测技能和预测值之间的复杂关系:真实世界分析。 我们。预测,11 ,544–558.
塞马齐, F.H.M.公司。、和梅拉 右J。,2006:实现相对操作特性图解法的扩展程序。 J.应用。流星。气候。,45 ,1215–1223.
斯威茨, J.A.公司。,1973:心理学中的相对操作特征。 科学类,182 ,990–1000.
威尔克斯, D.S.公司。,2006:大气科学中的统计方法. 第二版,学术出版社,648页.
伍德科克, F、。,1976:出于科学和管理目的,评估是/否预测。 周一。我们。版次。,104 ,1209–1214.
张, J。、和米勒 S.T.公司。,2005:关于ROC分析和敏感性非参数估计的注释。 心理测量学,70 ,145–154.
(a) 平均相对湿度的两个条件分量直方图,(f)N个(MRH)和(f)Y(Y)(MRH),以及使PSS最大化的阈值(约71%)。阈值线产生的四个区域对应于列联表系数,由N个.(b)根据先前直方图得出的样本估计事件后验概率及其理论值P(P)对≅0.045表示使PSS最大化的阈值。垂直条指示每个箱子间隔的填充方式(参见曼扎托2005a更多详细信息)。连续和虚线勾号分别表示未出现样本和出现样本的平均值,而中间的数字是它们的差值除以(95%–5%)分位数间隔。
该二元分类器获得的ROC曲线以及显示最大PSS和最大距离的段H(H)从no-skill平分线开始。
(a) 平均相对湿度的两个条件分量直方图,(f)N个(MRH)和(f)Y(Y)(MRH),以及使PSS最大化的阈值(约71%)。阈值线产生的四个区域对应于列联表系数,由N个.(b)根据先前直方图得出的样本估计事件后验概率及其理论值P(P)对最大化PSS的阈值为0.045。垂直条指示每个箱子间隔的填充方式(参见曼扎托2005a更多详细信息)。连续和虚线勾号分别表示未出现样本和出现样本的平均值,而中间的数字是它们的差值除以(95%–5%)分位数间隔。
2023年之前发表的文章显示的验收日期大约在一周内。如果需要,可以通过电子邮件获得准确的验收日期amsjol@ametsoc.org.
二进制分类器是从连续预测器中获得的,使用阈值将预测器值分为事件发生类和非事件发生类。列联表与每个阈值相关联,从该表可以计算出许多统计指标(如技能得分)。这项工作表明,最大化这些指标之一的阈值[皮尔斯技能得分(PSS)]具有一些重要的属性。特别是,在该阈值下,两个似然分布的比率始终为1,事件后验概率等于事件前验概率。这些特性,再加上最大PSS是相对工作特性曲线上“技能最高”的点和预测值最大的点,建议使用最大PSS作为分类器技能的良好标量测量。为了表明,对于所有用户来说,这一最熟练的点并不总是最佳的,本文提出了一个简单的经济成本模型。
通讯作者地址:Agostino Manzato,Osservatorio Meteorologico Regionale dell’ARPA,Via Oberdan 18,I-33040 Visco(UD),Friuli Venezia Giulia,意大利。电子邮件:agostino.manzato@osmer.fvg.it
出版商备注:本文于2016年10月7日进行了修订,以纠正公式12中最初发布时出现的错误。
出版商备注:本文于2016年10月7日进行了修订,以纠正最初发表时出现的公式12中的错误。
信号检测理论(Green and Swets 1966年)是一种用于验证分类器优度的技术,广泛应用于信号处理、模式识别、医学诊断、心理测试以及天气预报等许多学科。在预测验证中,列联表(例如。,威尔克斯2006)是为评估二进制分类器的质量而构建的,二进制分类器是预测事件发生的工具。让我们更详细地介绍这些概念。
相反,通常要做的是考虑两个条件密度概率,这两个概率是通过归一化得到的(f)Y(Y)和(f)N个根据先验概率。特别是,第一个条件密度概率,也称为事件可能性,是具有值的概率x个假设事件发生:第页(x个|是)=(f)Y(Y)(x个)/P(P)对后一种条件密度概率,即非事件概率,是具有值的概率x个假设没有发生:第页(x个|否)=(f)N个(x个)/P(P)不.
如果一个阈值,让我们说x个,用于将X(X),得到的是基于X(X)预测器。在没有任何通用性损失的情况下,让我们假设此分类器预测事件发生,如果x个>x个而在相反的情况下则不会发生。例如,所有N个不·P(P)(x个>x个|否)=b条案例。另一方面,分类器将丢失N个对·P(P)(x个≤x个|是)=c(c)事件。
通过这种方式,最终可以构建列联表并导出分类器技能的许多统计度量,如中的示例所做的那样表1在这种情况下,所研究的事件是弗留利-威尼斯-朱利亚地区(意大利北部,以下简称FVG)在6小时内出现至少20毫米的降雨,将乌迪内探空最低500百帕的中低空相对湿度(MRH)作为简单的预报器,在6小时开始时释放。这些数据将用于第3节.
在ORP公司我们还发现,使PSS最大化的阈值x个P(P),对应于具有45°切线的ROC点,因为(d日吊舱/d日POFD)|x个=x个P(P)= 1. 这里还添加了最大化PSS(x个)最大化距离H(H)ROC点和对角线平分线之间,这被认为是二进制分类器的零技能水平。所以,ROC点(x个P(P))、POFD(x个P(P))]是距离no-skill线最远的点,从这个意义上说,可以说它是具有最高技能分类器。2
理查森(2000)已经展示了分类器如何预测相对值-相对于气候预测,i等于其PSS,然后最大化为x个P(P)此外,伍德考克(1976)也表明PSS在以下情况下不变不平等审判(如下一节所述),是日常观察和预测事件之间的最小二乘线性回归线的斜率。
最后,在ORP公司结果表明,PSS也是公平的,从甘丁和墨菲(1992),对于非对称得分矩阵。因此,有人建议所有这些属性都会使皮尔斯技能得分最大,PSS(x个P(P)),很好标量衡量整个分类器的质量。在本节中,将显示其他属性如何将PSS最大化的阈值与先验概率相关联。
如果两个条件概率在其部分域中重叠并且是单峰的,那么只有一个阈值可以最大化PSS:它们的交点。在此阈值下,组件的比率(f)N个(x个P(P))和(f)Y(Y)(x个P(P))等于先验概率比,α=P(P)不/P(P)对,所以x个P(P)仅当事件的先验概率为P(P)对=0.5,即α= 1.三
最后,请注意,即使PSS最大化的阈值随着事件气候学的变化而变化,如前所述,最大PSS值本身理论上并不如此。伍德考克(1976)已经表明,如果使用具有N个对≠N个不或者它的一个随机子部分,相对于事件和非事件频率“均衡”,从而N个附属的对=N个附属的不在这种情况下,潜在的似然分布,即第页(x个|是)和第页(x个|否),与原始数据集和均衡数据集相同。
也在中ORP公司结果表明,对于高斯似然,最大PSS如何不随变化而变化α如果似然均值和标准差相同。在任何情况下,相对于近等概率事件问题,对于罕见事件似乎更有可能获得更高的最大PSS,4因为可能性形状更有可能改变。因此,在报告分类器技能时必须显示事件气候学,因为最大PSS可能因不同频率的事件而异。
方程式(11)在以下情况下特别有用X(X)是正确估计事件后验概率的复杂模型的输出。例如,如果使用人工神经网络从许多不同预测因子(输入)的值预测事件后验概率,那么可以简单地选择事件前验作为输出阈值,P(P)对,将预测分为是-否两类,最大化模型的PSS。
在曼扎托(2005a)一种变换预测器的方法X(X)在事件中显示了后验概率。值得注意的是(10)显示了事件后验概率是如何单调的似然比∧的变换(Kupinski等人,2001年). 很容易表明ROC曲线是不变量对于阈值变量的任何单调变换,因为它只是阈值的重新标记(例如。,Green and Swets 1966年). 这意味着转换原始X(X)变为其后验概率或其似然比将产生相同的新变量的ROC曲线。
从后验概率或似然比变换中获得相同ROC的事实很重要,因为使用似然比∧获得的ROC曲线(x个)作为映射函数最优的ROC,即始终位于或高于原始ROC曲线的曲线X(X)值,或进行任何其他转换X(X)(Green and Swets 1966年;张和米勒2005). 这是奈曼-皮尔逊标准的结果(内曼和皮尔逊1928). 那么,可以说,转换预测器X(X)到它的第页(是|x个),正如在中所做的那样曼扎托(2005a)是分类问题的最佳预处理选择。
让我们展示一下如何在具体示例中应用前面的属性。图1a显示了两个估计的条件分量(通过N个)最低500 hPa时测得的平均相对湿度。这两个直方图是通过分裂FVG平原(探空释放后6小时内)降雨量大于20 mm的情况下所有MRH值的标准化直方图而建立的(f)Y(Y)(MRH)],对于没有发生的情况,[(f)N个(MRH)]。条件密度概率或可能性可以通过将这些分量除以从数据样本中估计的先验概率得到(1).
改变所有MRH域中的阈值,可以计算许多列联表及其派生的PSS。中的垂直虚线图1a表示阈值(MRHP(P)≅71%),以这种经验方式给出最大PSS,并设置列联表的四个系数,如表1两个条件分量的对应比率为23,而样本估计值为α是21,非常接近。两个条件概率的比率(图中未显示)为1.1,非常接近理论值(∧=1)。这些小误差是因为连续密度函数是用离散直方图近似的。
图1b显示了为同一数据集导出的样本估计后验概率拟合。通过将MRH域拆分为21个相等的单元,然后将每个单元的事件发生次数除以填充该单元的总案例数,即可获得小圆。连续黑线是这些点的双参数指数拟合,并与每个单元的总体加权。有关如何解释此类图形和拟合线的其他详细信息,请参见曼扎托(2005a).
灰色虚线水平线表示事件先验概率,P(P)对= 1/(1 +α)≅0.045,而灰色虚线垂直线显示阈值MRHP(P)根据经验最大化PSS。这两条线在拟合后验概率线附近相交。因此,可以将原始值转换为其后验概率(即发布校准的事件概率预测),然后使用事件先验概率作为使PSS最大化的阈值,而不是通过经验计算使PSS达到最大化的阀值。由于后验概率导出的ROC具有最优性,该方法的优点是,当后验概率拟合不单调时,PSS将大于原始PSS。
图2显示ROC曲线和PSS(MRH)对应的点P(P)). 皮尔士技能得分的值由垂直和水平灰色部分给出,而第三个陡峭部分显示最大距离H(H)来自无技能平分线。在这种特殊情况下,如果使用MRH的样本估计事件后验概率作为阈值变量,则可以获得相同的ROC曲线,因为第页(YES|MRH)是单调的。
对于非单调变换的一个例子,如果我们考虑最低3km(VFlux)的水汽通量的垂直分量,那么我们得到一个(f)Y(Y)(VFlux)函数,在平均VFlux值附近具有最小值,在极值范围附近具有两个最大值。这导致了u形后验概率拟合。最大化VFlux上PSS的阈值导致PSS为0.56,而使用后验概率转换数据导致ROC更高,最大PSS为0.5。
最大化皮尔士技能分数的阈值确定了ROC曲线上距离最大的点H(H)从no-skill线开始。从这个意义上说,正是ROC点最大限度地提高了分类器的技能。如图所示理查森(2000),此阈值使预测相对值最大化。已经证明,对于该特定阈值,似然比和事件后验概率是如何先验已知的。特别是,在使PSS最大化的阈值处,两个可能性具有相同的值(∧=1),事件后验概率等于事件前验概率。
这些结果支持了ORP公司使用最大PSS作为绝对分类器技能的标量,以及对事件气候学的估计(如P(P)对或α). 这在比较不同的分类器时尤其有用,尤其是在应用于不同的数据集时。当然,这并不意味着最大化PSS的阈值对于所有最终用户来说都是最佳的,这可能对错误警报或丢失事件有不同的敏感度。这是因为预测技能和预测值之间的复杂关系(例如。,Roebber和Bosart,1996年;Semazzi和Mera 2006).
作者通过电子邮件感谢他的朋友Luciano Sbaiz(瑞士洛桑EPFL)和Matthew Kupinski教授(亚利桑那州图森市亚利桑纳大学光学科学系)的支持。三位匿名评审员为改进本说明的早期版本提供了非常有用的建议。这项工作只使用了开源软件,尤其是Linux Ubuntu发行版下的R统计软件包、Python脚本语言、Emacs编辑器和Latex编辑软件。
乔利夫, 信息技术。、和斯蒂芬森 D.B.博士。,2003:预测验证:大气科学实践者指南. J.Wiley父子公司,240页.
石匠, I.B.投资银行。,2003:二进制事件。 预测验证:大气科学实践者指南,I.T.Jolliffe和D.B.Stephenson,编辑,J.Wiley and Sons,37-76.
理查森, D.S.公司。,2003:经济价值和技能。 预测验证:大气科学实践者指南,I.T.Jolliffe和D.B.Stephenson,Eds.,J.Wiley and Sons,165-188岁.
张, J。、和米勒 S.T.公司。,2005:关于ROC分析和敏感性非参数估计的说明。 心理测量学,70 ,145–154.
引文:天气与预报22,5;10.1175/WAF1041.1
引文:天气预报22,5;10.1175/WAF1041.1
使用乌迪内探空最低500 hPa的平均相对湿度和优化PSS的阈值,构建的降雨量>20 mm分类器的列联表和导出分数。总共使用了18555次测深(1992年至2005年,每天4次),没有遗漏MRH。降雨发生是在探空释放后6小时内测量的。
值得注意的是Semazzi和Mera(2006年)将PSS定义扩展到一个新的技能分数,该分数是ROC点和通用“基线”之间的垂直距离,它可能不同于平分线,因为它考虑了用户定义的损失-成本比。
通常,此最佳点不一定是距离ROC图左上角最近的点。这当然适用于对称ROC,就像那些用相同的标准偏差获得的高斯似然。
如所示ORP公司,如果α=1,则PSS=HSS。在其他情况下,不可能找到HSS的类似属性。
这种行为的一个例子可以在图11中找到Manzato(2007)其中,回归神经网络的最大PSS几乎随事件先验概率的降低而线性增加。
Katz和Ehrendorfer(2006)已经展示了如何(12)是事件概率的贝叶斯估计制服先验分布,而“面值”P(P)对,对于beta分布的极限情况的先验。
卡茨, 相对湿度。、和埃伦多尔弗 M。,2006:使用集合天气预报进行决策的贝叶斯方法。 我们。预测,21 ,220–231.
石匠, I.B。,2003:二进制事件。 预测验证:大气科学实践者指南,I.T.Jolliffe和D.B.Stephenson,Eds.,J.Wiley and Sons,37–76岁.
(a) 平均相对湿度的两个条件分量直方图,(f)N个(MRH)和(f)Y(Y)(MRH),以及使PSS最大化的阈值(约71%)。阈值线产生的四个区域对应于列联表系数,由N个.(b)根据先前直方图得出的样本估计事件后验概率及其理论值P(P)对≅0.045表示使PSS最大化的阈值。竖线表示每个料箱间隔的填充情况(请参阅曼扎托2005a更多详细信息)。连续和虚线勾号分别表示未出现样本和出现样本的平均值,而中间的数字是它们的差值除以(95%–5%)分位数间隔。
(a) 平均相对湿度的两个条件分量直方图,(f)N个(MRH)和(f)Y(Y)(MRH),以及使PSS最大化的阈值(约71%)。阈值线产生的四个区域对应于列联表系数,通过N个.(b)根据先前直方图得出的样本估计事件后验概率及其理论值P(P)对≅0.045表示使PSS最大化的阈值。垂直条指示每个箱子间隔的填充方式(参见曼扎托2005a更多详细信息)。连续和虚线勾号分别表示未出现样本和出现样本的平均值,而中间的数字是它们的差值除以(95%–5%)分位数间隔。
字符限制500/500