总结

本文提出并检验了一种不精确模型的校准方法。该方法产生参数的置信度集,该置信度集包括在任何样本大小下具有期望概率的最佳参数。此外,该置信集显示出一致性,因为它排除了大样本环境中的次优参数。该方法有效,结果在很少假设的情况下成立;即使在离散的输入空间或参数空间中,这些思想也得以保持。讨论了置信集和近似置信集的计算。仿真实例和两个实际数据示例说明了该算法的性能。

1引言

计算机模型是用计算机代码实现的系统的复杂表示:这个术语至少可以追溯到萨克斯. (1989). 校准利用实际系统的输入-输出对的观察结果进行统计调整,通过参数将模型与实际相一致。目标是找到在所有可能的输入中最能代表大自然输出的参数。统计调整主要用于解决两个问题。首先,这些观测是自然界响应的噪声扰动。其次,数据集中的输入只是所有潜在输入的子集,输入的生成或选择可能不受统计学家的控制。

校准问题中的缺点是,大多数计算机模型都是对自然的不精确表示,即参数的任何值都无法将计算机模型与自然系统精确对齐。这是统计模型和计算机模型之间的主要区别;非线性函数的经典统计推断假设假设模型精确(Box和Coutie,1956; 比尔,1960). 统计模型通过在发现不准确的模型时添加额外的术语来防范不正确的模型。使用计算机模型是因为它们表现出合理的行为和趋势,即使模型有点不精确。当数据很少时,如第节中的示例9.2四维空间中有九个数据点,与精心设计的计算机模型相比,很难信任数据驱动的统计模型。用户希望利用模型的一致性行为和最能代表系统的参数。由于我们在有限的输入下收集了随机数据,我们无法准确识别该参数;因此,本文旨在找到一些好的区域或参数集,以了解最佳参数的位置和不确定性。

现代校准方法估计了参数以及自然响应与计算机模型之间的差异。研究的两个主要方向围绕着主要的统计理由(Efron,2005):贝叶斯和大样本频率学家。肯尼迪和奥哈根(2001)建议通过在参数和差异上放置一个先验分布,通过后验分布推断参数。该框架已被广泛使用(Goldstein和Rougier,2006; 巴亚里.,2007年b; 希格顿.,2008; 弗农.,2014; 普拉姆利.,2016). 统计保证是从贝叶斯的角度来看的。这种贝叶斯校准之所以受到批评,是因为差异的先验和参数的后验之间的关系,因为差异和参数之间的混淆。陀和吴(2016)正式地描述了这一点,证明了参数的后验模式会变成某个值,该值取决于频率设置中的差异先验值。普卢姆利(2017)包括一个潜在的修复,但只提供了贝叶斯支持,并且没有确认Tuo和Wu发现的问题(2016)缓解了。此修复还需要使用计算机模型的导数,这在某些情况下可能很繁琐,而在其他情况下则不可能,例如Section的离散参数情况9.2.

关于这一主题的第二个研究重点以更传统的机制的形式出现在稍晚的时候。约瑟夫和梅尔科特(2009)概述了频率专家框架的一些原则,但创建具有大样本统计保证的替代机制是最近的发展。陀和吴(2015)和Wong. (2017)两人都提倡在频率专家环境下,在大样本中表现良好的方法。这两种方法都可以通过大样本频率调整为参数生成置信集。具体来说,尽管估计了差异和参数,但这些方法利用半参数效率的参数得出结论,即在计算参数的置信集时,可以忽略差异中的不确定性。更多细节将在本文后面提供,但直观地忽略差异估计似乎会为参数创建过小的置信集。

本文提出了一个基于置信水平创建置信集的框架α具有两个关键属性:

  • (a)

    信心; 排除最佳参数的概率最多为α适用于所有样本大小和任何一代输入;

  • (b)

    一致性; 如果所收集的输入最终覆盖输入空间,则当样本数达到∞时,排除次优参数的概率为1。

出于显而易见的原因,产生这些属性的置信集被称为保守一致集。在现有的贝叶斯或大样本频率统计方法中,这两个特性并不一致。这个警告也就是说,为了建立保守一致集,最佳参数处的差异范数必须由用户指定或根据数据估计的值限定。除了这个假设之外,置信度和一致性结果遵循温和的规则性条件。这些结论适用于离散或连续输入空间以及离散和连续参数空间。本文还讨论了如何从数据中有效地学习这个界,如果我们不习惯于给它定界先验的.

本文将在第节概述校准设置2.第节介绍了三套; 最后两个被证明具有期望的置信特性。章节4详细说明了构建这些集合的数值过程,并给出了一些理论解释。一致性参数见第节5.第节6将此方法与一般设置中的其他现有方法进行比较。章节7探索使用数据估计范数界限。章节8包含一个数值模拟,该模拟说明了竞争方法的一些问题,并与建议的集合进行了比较。小节910以两个实际数据示例和简短的讨论结束本文。

本文中分析的数据和用于分析的程序可以从

https://rss.onlinelibrary.wiley.com/hub/journal/14679868/series-b-datasets

2设置和注释

本节描述了校准问题的标准假设和最佳参数的定义。本文中的校准是使用从实际系统收集的数据来推测不精确模型的最佳参数的行为。与标准假设的唯一显著偏离是对一组最优参数的泛化单个最优参数。

2.1数据和随机假设

数据包括n个输入和标量输出集由
(x个1,Y(Y)1),(x个2,Y(Y)2),,(x个n个,Y(Y)n个).
标记的输入空间X(X),包含所有可能感兴趣的输入;一些输入包括在数据中,而另一些则没有。空间X(X)在论文的这一点上故意含糊其辞;它可以是连续的或离散的,有界的或无界的,封闭的或开放的。要点x个1, …,x个n个通过确定性或随机机制从输入空间的某处选择。大自然的回应(x个)映射输入x个X(X)到标量。用户定义的计算机模型(f)θ(x个)映射输入x个X(X)和一个参数θΘ到标量。目标是找到最佳对齐的参数值(f)θ具有通过利用数据。
每次观察Y(Y)不同于(x个)通过一些随机变量e(电子)=Y(Y)(x个)这些差异是独立的并且独立于x个1, …,x个n个考虑标记为1−的固定置信水平α,它大于0且小于1。假设e(电子)我们很清楚q个n个(α)即(1−α)-观测响应与真函数之间差值平方和的分位数,即。
P(P)=1n个e(电子)2q个n个(α)=1α.
最常见的例子是e(电子)s是均值为0且方差为0的正态随机变量σ2,其中q个n个(α)然后可以选择为σ2乘以(1−α)-分位数χ2-分配n个自由度。

2.2参数定义

为了开始研究校准问题,我们首先需要解决一个稍微有点哲学意义的问题。如果模型对所有潜在参数都不正确,那么拥有一个好的参数意味着什么?借用评分规则的符号(Gneiting和Raftery,2007),让(·,·)是对映射函数进行操作的评分指标X(X)到标量。评分标准被认为是适当的,如果
(,)(,)为所有人.
只有在以下条件下,这种不平等才能保持不变(x个)=(x个)无处不在。考虑一下汉语言中使用的严格正确的评分标准. (2009)、陀和吴(2015)、普拉姆利(2017)和Wong. (2017)第页,共页
(,小时)=X(X){(x个)小时(x个)}2d日μ(x个),
哪里μ有些措施结束了吗X(X)这是一个严格正确的评分指标,通过某种度量对相对输入进行加权μ此度量应该来自建模者对模型的预期使用。通常的假设是输入空间上的统一度量,但这不是必需的。措施μ假设是固定的,并且独立于数据。
给定评分标准,最佳参数的定义θ是这样的
(,(f)θ)(,(f)t吨)为所有人t吨Θ.
(1)
如果不了解真函数,则无法直接计算此值即使给出了评分标准。但这种结构确保了校准问题可以用预言机很好地定义。如果校准方案良好,将产生符合条件(1)的值。

定义1

最佳参数集Θ*就是全部θ在里面Θ符合标准(1)。

这组可以是一个单点θ*,但本文考虑的是一般情况。

假设1

在本文的其余部分中,假设(x个)以及(f)θ(x个)被限定在X(X)Θμ(X(X))是有限的且非零的。

3个保守集和一致集

本文讨论了最优参数的置信集。应设计校准问题的置信集,以提供足够的覆盖范围。

定义2
置信集S公司这是基于数据(x个,Y(Y))=1n个有足够的保险范围,如果θΘ*,
P(P)(θS公司)1α,
无论采用何种方法x个1, …,x个n个只要这一代不依赖于e(电子)1, …,e(电子)n个.

一个关键点是覆盖范围适用于x个1, …,x个n个重要的是,具有足够覆盖范围的集合可以与有限的样本量结合使用n个。当使用实验设计来确定x个1, …,x个n个决定性地。足够的保险范围还包括以下情况x个1, …,x个n个在用户控制之外生成,即当x个1, …,x个n个不匹配μ,定义最佳参数的权重度量。

本节描述了三组数据以及它们是否拥有足够的保密属性:

  • (a)

    天真的集合,一个没有足够覆盖但激励新置信度集的经典集;

  • (b)

    保守集一个新的集合,具有足够的覆盖范围,但通常比需要的要大;

  • (c)

    保守一致集,一个比保守集小的具有足够覆盖的新集。

3.1指甲套纳秒

我们无法访问(,(f)θ)没有甲骨文来提供自然的功能经验近似值为
^(数据,(f)θ)=1n个=1n个{Y(Y)(f)θ(x个)}2.
因此,在没有预言机的情况下,一组合理的参数可以定义为
纳秒=θΘ这样的话^(数据,(f)θ)q个n个(α)n个.
为了提供一些历史背景,Beale(1960)关于非线性置信集的工作中提到了这种朴素集。比尔简短地批评了片场,指出它可能是空的。通过选择足够小的α,前提是模型准确。
如果(x个)=(f)θ(x个)随时随地θΘ*显然,naive集具有足够的覆盖范围。然而,如果模型不精确,朴素集通常覆盖不足。这是因为
^(数据,(f)θ)=1n个=1n个e(电子)2+1n个=1n个{(x个)(f)θ(x个)}2+2n个=1n个e(电子){(x个)(f)θ(x个)},
第二项往往比上一项大。

提议1

假设,无论如何θΘ*,有一些输入x个在数据中(x个) ≠(f)θ(x个). 同时假设e(电子)1, …,e(电子)n个具有零均值和方差的独立正态分布σ2。那么NS没有足够的覆盖范围。

因此,我们得出结论,需要新的方法来实现足够的覆盖特性。

3.2建立一套合理的差异

构建接下来的两组需要创建一个功能空间D类包含(·) −(f)θ(·)适用于所有人θΘ*.如果Θ*只包含一个标记为θ*,然后(f)θ*被称为文献中的差异。因为在Θ*如本工作中所定义的,这些可以被视为差异。创建D类在精神上类似于按照肯尼迪和奥哈根的建议对差异进行事先分配(2001).

本文构建了D类通过限制差异的标准值小于某个值η由用户指定。这个规范应该传达的不仅仅是函数的大小。具有此属性的一组范数是与再生核希尔伯特空间相关联的范数。有时称为粗糙度惩罚(Wahba,1978),我们指的是Wendland(2004)Scholkopf和Smola(2001)有关再生内核希尔伯特空间的详细背景。

给定一个连续的正定核函数κ:X(X)×X(X)R(右),考虑再生核Hilbert空间中的以下稠密空间:
G公司=(·)==1N个βκ(·,x个)这样的话x个X(X),N个=1,2,.
再生核希尔伯特空间配备了一个标记为“〈·,·〉”的内积,这样,对于G公司,
(·)==1N个βκ(·,x个)
小时(·)==1N个γκ(·,x个);
然后
,小时==1N个j个=1N个βγj个κ(x个,x个j个).
(2)
这种内积具有再生性,其中
,κ(·,x个)=(x个).
(3)
该空间产生的规范为‖‖ = √〈,〉. 该标准反映了差异相对于其所选表示的大小。鉴于此描述,D类可以由定义
D类={d日G公司这样的话d日η},
(4)
哪里η>0是控制集合大小的常量。

当输入空间为欧几里得时,一个公共核是幂指数。Santner提供其他选项. (2003)尽管核在计算机实验文献中通常被称为协方差函数。内核的选择反映了正在考虑的差异的整体结构和平滑度。

假设2

在本文的其余部分中,假设啜饮x个,x个κ(x个,x个)和晚餐θ(f)θ‖是有限的。同时假设κ是连续的,使我们能够在一些证明中使用默瑟定理。还假设规范是这样的‖‖=0表示(x个)=0几乎在所有地方μ.

3.3保守集

要构造一个具有足够覆盖率的集合,需要承认和估计模型差异。这是肯尼迪和奥哈根这篇有影响力的论文背后的关键思想(2001)以及第节中提到的后续参考1.

考虑一下这个集合
反恐精英=θΘ这样的话最小值d日D类^(数据,(f)θ+d日)q个n个(α)n个,
其中分数函数的经验近似值与naive集和D类由定义(4)给出。因为这个集合相对于差异是保守的,所以它被称为保守集。

定理1

假设(f)θD类为所有人θΘ*那么CS有足够的覆盖范围。

证明
条件产生
最小值d日D类=1n个{Y(Y)(f)θ(x个)d日(x个)}2=1n个{Y(Y)(x个)}2==1n个e(电子)2.
结果来自于q个n个(α). 这适用于所有人x个1, …,x个n个.□

选择D类表示构造保守集最困难的部分。保守集有足够的覆盖范围,如果D类足够大以容纳差异函数(f)θ以获得最佳参数。但是一个D类太大会导致经验分数一致为0;因此,所有可能的参数都将位于保守集。用一个小集合和一个大集合来平衡问题应该被视为等同于在贝叶斯方法中构建差异先验的困难(Kennedy和O'Hagan,2001)或者定义一个再生核希尔伯特空间,其中包含大样本频率方法中的差异(Tuo和Wu,2015). 选择η基于数据的详细讨论见第节7在那之前,想象一下它是由用户对潜在差异的理解来修复的。

3.4保守一致集

虽然保守集有足够的覆盖范围,但人们自然会怀疑保守集的大小是否尽可能小。当然,如果我们D类足够小,只能容纳(f)θ为所有人θΘ*,则解决了尺寸问题。但用户无权访问Θ*通常情况下D类应该做得相当大,以确保足够的覆盖范围。问题是D类通常,在保守集中包含次优参数。这是因为次优参数的差异可以通过D类所以保守集不是最小的集。本小节演示了一个始终包含在保守集中的集,有时它比保守集小得多。

本文的主要创新之处在于对差异使用了一个新的约束,消除了保守集的潜在问题,同时又不影响集的覆盖范围。具体来说,考虑差异的空间
(θ)={d日D类这样的话((f)θ+d日,(f)θ)((f)θ+d日,(f)t吨)为所有人t吨Θ}.
其动机是,我们应该只考虑不会破坏最优性的差异θ这可以被认为是将响应空间划分为对应于单个区域的区域θ此外,如果Θ是欧几里得子空间,并且模型相对于θ,在第节中讨论了该空间的正交性描述符4.
通过使用合理差异的交集和这个新的约束,所提出的保守一致集被描述为
CCS系统=θΘ这样的话最小值d日(θ)^(数据,(f)θ+d日)q个n个(α)n个.
这为保守集的潜在问题提供了直观的解决方案。从形式上讲,我们仍然需要证明这个集合有足够的覆盖范围。

定理2

假设(f)θD类为所有人θΘ*那么CCS有足够的覆盖范围。

证明
使用与定理1相同的概念,我们只需要证明θΘ*意味着(f)θ(θ).优化Θ意味着(,(f)θ)⩽(,(f)t吨)为所有人t吨Θ因此
{(f)θ+((f)θ),(f)θ}{(f)θ+((f)θ),(f)t吨}为所有人t吨Θ.

3.5比较集合

通过包含对这些集合的排序遵循它们各自的结构。

提议2

NS CCS CS公司。

这些集合背后的思想适用于不使用参数空间或输入空间的结构的情况。图。1用一个简单的二维示例说明集合的构造。真实响应位于(0.3,0.9),四个参数生成响应(0.1,0.1),(0.5,0.5)和(0.9,0.9。观测值位于每个输入处,值分别为0.2和0.8,置信区的半径为0.25。这套D类是一个以零为中心,半径为0.25的球。在进行了各自的优化后,可以发现在朴素集中没有选择任何参数,保守集包括所有参数,而保守一致集只包括最佳参数。

图1

第3节所述三套装置的结构示意图(图解的自然的反应;图解的观察;图解的,基于观测结果的自然响应置信区;三个方块中的每一个都是模型的响应;图解的,图解的,具有最佳参数的模型;图解的,在置信集中;图解的(不在置信集中):(a)朴素集,其中模型只有在观测值周围的置信区域内才能被选择;(b) 保守集,如果在位于置信区的每个模型周围的大而破碎的圆圈中有一个点,则选择一个参数;(c) 保守一致集,其中参数的选择与保守集类似,但破碎的圆被分割的区域替换

4解决优化问题

决定参数的值是否θ在CS或CCS中取决于计算能力
最小值d日D类^(数据,(f)θ+d日)
最小值d日(θ)^(数据,(f)θ+d日).
本节通过将这些优化转化为有限凸程序来讨论计算。这意味着存在有限数量的决策变量和有限数量的约束。一旦作为一个有限的凸程序放置,许多数值方法都可以用来找到各自的最小值(Wright和Nocedal,1999).

与CS相关的优化可以通过内核技巧(Schölkopf.,2001). 这有时被称为表示定理。本节结果的所有证明见附录A类.

提案3
最小值d日D类^(数据,(f)θ+d日)等于
最小值δ1,,δn个1n个=1n个{(f)θ(x个)+δY(Y)}2这样的话=1n个j个=1n个δδj个k个j个η2
k个ij公司ij公司的第个元素K(K)n个1哪里
K(K)n个=κ(x个1,x个1)κ(x个n个,x个1)κ(x个1,x个n个)κ(x个n个,x个n个).

类似地,如果参数空间是有限的,可以使用相同的技巧将与CCS相关的优化转化为有限凸问题。

提案4
如果Θ= {1, …,},最小值d日(θ)^(数据,(f)θ+d日)等于
最小值δ1,,δn个,δn个+1,,δn个+1n个=1n个{(f)θ(x个)+δY(Y)}2这样的话=1n个j个=1n个δδj个k个ij公司+2=1n个j个=n个+1n个+δδj个k个ij公司+=n个+1n个+j个=n个+1n个+δδj个k个ij公司η2
(5)
 
δn个+j个12{(f)j个(x个)(f)θ(x个)}2d日μ(x个)对于j个=1,,
哪里k个ij公司ij公司的第个元素(n个+×n个+)-大小矩阵
K(K)n个K(K)θK(K)θT型K(K)θθ1
具有K(K)θ一个n个×矩阵,带有ij公司第个元素κ(x个,x个){(f)j个(x个)(f)θ(x个)}d日μ(x个)K(K)θθ一个×矩阵,带有ij公司第个元素κ(x个,x个){(f)(x个)(f)θ(x个)}{(f)j个(x个)(f)θ(x个)}d日μ(x个)d日μ(x个).

当中有无穷多个元素时Θ,评估是否θ在CCS中,需要解决具有无限数量约束和无限数量决策变量的优化问题。我们将把目标降低到寻找能为优化问题提供合理近似值的好程序。这些近似值将产生仍具有覆盖范围的集合,并且在更多假设下,将在第节中赋予一致性5.

一种近似方法涉及使用有限数量的约束,这在半有限规划中通常被称为离散化方法(Hettich和Kortanek,1993).

定理3
选择元素来自Θ与问题(5)一起使用。定义
中央结算系统=θΘ这样问题的解决方案(5)q个n个(α)n个.
如果(f)θD类为所有人θΘ*那么,对所有人来说θΘ* 
P(P)(θ中央结算系统)1α.

另一种近似是利用可微性的局部方法。假设参数空间ΘR(右)第页假设计算机模型对于参数几乎处处都是可微的μ。将此渐变称为θ评估时间:x个(f)θ(x个). 如果Θ那么,对所有人来说都是开放的θΘ*,
d日d日θ(,(f)θ)=0,
其中,左边的项是梯度0表示向量0s。这可以重写
{(x个)(f)θ(x个)}(f)θ(x个)d日μ(x个)=0.
利用这个约束,优化问题可以写成
最小值δ1,,δn个1n个=1n个{(f)θ(x个)δY(Y)}2这样的话=1n个j个=1n个δδj个k个~ij公司η2
(6)
哪里k个~ij公司ij公司的第个元素(n个×n个)-大小矩阵(K(K)n个q个θT型θ1q个θ)1具有q个θ第页×n个矩阵,带有第行κ(x个,x个)(f)θ(x个)d日μ(x个)
θ=κ(x个,x个)(f)θ(x个)(f)θ(x个)T型d日μ(x个)d日μ(x个).
虽然这是一个凸问题,但必须再次解决充分覆盖的问题。

定理4
假设Θ是的一个开放子集R(右)第页.还假设(f)θ(x个)存在且边界跨越θX(X).定义
CCSL公司=θΘ这样问题的解决方案(6)q个n个(α)n个.
如果(f)θD类为所有人θΘ*那么,对所有人来说θΘ* 
P(P)(θCCSL公司)1α.

这两个近似值的交集CCSDCCSL仍然具有置信度,因此优于每个单独的集合。这借用了前者的全球担保和后者的本地担保。当CCS用于数值设置时,此方法用于所有示例。与CCSL相关的程序仅关注由此产生的优化问题的复杂性与CCSD相关的计划相比,决策变量和约束更少。减少约束和决策变量对于减少凸规划的计算成本非常重要。另一个重要的计算问题是矩阵的反演n个+对于有限方法和n个对于本地方法。然而,局部方法具有区分计算机模型的潜在计算繁琐步骤。不同的问题可能会有不同的优化和梯度评估相对计算成本;因此,这两种方法之间可能没有通用的最佳计算选项。

5一致性

本节证明了所提出的保守一致集确实具有所需的一致性属性。本文中,如果随着观测次数的增加,次优参数的概率,θΘ*,在集合中趋向于0。我们将证明这一性质适用于CCS以及离散和局部近似CCSD和CCSL。该结果不适用于CS。因此,在NS、CS和CCS中,只有CCS具有覆盖性和一致性属性。

该结果将在两个假设下显示。

假设3

随机变量e(电子)1,e(电子)2,…是相同分布的独立随机变量,平均值为0,方差为σ2.

假设4

数据x个1,x个2、…是从分配中独立提取的ν还有一些M(M)这样的话μ(A类)/ν(A类) <M(M)为所有人A类X(X).

抽样计划假设确保最终对所有地方进行抽样。抽样计划假设可以替换为确定性抽样计划的一些更复杂的约束。这些条件比拓和吴考虑的条件宽松得多(2015)和Wong. (2017)但与这些作品中的效率主张相比,一致性是一个较弱的主张。

一致性参数基于附录中所示的以下下限B类.

引理1
在假设3和4下,让θ*是中的某个元素Θ*.然后
最小值d日(θ)^(数据,(f)θ+d日)σ2+{(,(f)θ)(,(f)θ*)}2M(M){(f)θ(x个)(f)θ*(x个)}2d日μ(x个)
发生概率趋于1n个→ ∞ 为所有人θΘ.

因此,就评分指标而言,次优参数的惩罚反映在评估标准中。引理1,与
q个n个(α)n个σ2,
产生一致性结果。

定理5
在假设3和4下,让CCSn个是一个保守且一致的集合n个数据点。进一步假设Θ*不为空。如果θΘ*,然后
P(P)(θCCS系统n个)0.

这个一致性论证直接延续到第节中介绍的有限样本近似4在附加条件下。

推论1
在与定理5相同的假设下,让CCSDn个是用建立的保守一致集的离散参数近似值n个数据点。进一步假设Θ*包含在用于有限近似的参数。如果θΘ*,然后
P(P)(θ中央结算系统n个)0.

为了将这些论点扩展到CCS的局部近似,需要对问题的结构进行更多假设。考虑到生成CCSL的约束仅取决于θ,我们需要一个将一阶最优性转换为全局最优性的假设。这个条件就是凸性。

定理6
在与定理5相同的假设下,假设Θ是的开放子集R(右)第页和+(f)θ(x个)存在且边界跨越ΘX(X)假设偏导数+(f)θ是这样的{(f)θ(x个)}2d日μ(x个)>0对于= 1, …,第页.让CCSLn个是保守一致集的局部逼近n个数据点。进一步说,对于所有这些0⩽w个⩽1,如果θ=w个θ1+(1w个)θ2在中Θ,然后
(,(f)θ)w个(,(f)θ1)+(1w个)(,(f)θ2).
如果θΘ*,然后
P(P)(θCCSL公司n个)0.

定理6的证明也在附录中B类.

比较这些结果,如果我们可以直接计算保守一致集,那么这个集具有三个条件中最宽松的条件来产生一致性。如果在Θ,那么我们要么需要使用具有足够元素的CCS有限近似来捕获最佳参数,要么需要使用CCS的局部近似并假设评分度量的凸性。

6与其他方法的联系和对比

现在,我们将建议的保守一致集与一般情况下的现有备选方案进行比较。对于本节,我们假设我们的e(电子)s是独立的且具有方差的同正态分布σ2为了与其他方法进行比较,我们根据参数评估函数重新定义了所提出的集合R(右).对于保守一致集,
R(右)(θ)=最小值d日(θ)^(数据,(f)θ+d日),
然后将生成的置信集定义为
CCS系统=θΘ这样的话R(右)(θ)q个n个(α)n个.
本节的其余部分将通过改变R(右)(·)四个备选方案之一。对于所有可比方法,如果参数评估函数位于θ小于q个n个(α)/n个.

6.1非线性最小二乘法

实际上,任何人都很少在实践中使用天真的集合,因为即使是稍微不准确的模型,它也常常是空的(参见命题1)。一种更流行的替代方法是使用最小化平均平方误差,而不是σ2,即。
σ^2=最小值θΘ^(数据,(f)θ).
显然,在计算σ^2这与Box和Coutie中的经典建议类似(1956)和比尔(1960),至少是渐近的。然后,可以通过使用这个新的σ^2,即。
R(右)1(θ)=σ2σ^2^(数据,(f)θ).
(7)
然而,在温和的数据生成假设下,该集合仍然无法保持足够的覆盖范围。

提议5
假设e(电子)1, …,e(电子)n个具有零均值和方差的独立正态分布σ2.让x个1, …,x个n个独立于分布生成ν.如果θ*Θ*但是有一些t吨Θ这样的话
X(X){(x个)(f)t吨(x个)}2d日ν(x个)<X(X){(x个)(f)θ*(x个)}2d日ν(x个),
然后P(P){R(右)1(θ*)q个n个(α)/n个}0作为n个→∞。

因此,尽管这是一个具有传奇历史的明显替代方案,但这并不能解决本文中讨论的问题,因为在我们的假设下,它无法提供足够的覆盖范围。

6.2差异的随机模型

克雷格等研究. (1997)还有肯尼迪和奥哈根(2001)介绍将差异视为随机对象的想法。如果差异是随机对象,则差异Y(Y)(f)θ(x个)来自两个不同的来源:随机e(电子)以及随机模型差异项。克雷格. (1997)还有肯尼迪和奥哈根(2001)注意到,不应将差异建模为独立且相同分布的误差。考虑使用保守集η设置为√{q个n个(α)/σ2},即。
R(右)2(θ)=最小值d日2q个n个(α)/σ2,d日G公司^(数据,(f)θ+d日).
该参数评估函数具有一些概率保证。

提案6

这么说吧(·) −(f)θ(·)是平均值为0且协方差函数介于(x个) −(f)θ(x个)以及(x个)负极(f)θ(x个)是κ(x个,x个); 然后R(右)2(θ) ⩽q个n个(α)/n个概率至少为1−2α.

看起来,对差异建模的统计方法最接近保守集。然而,Craig的历史匹配和后验分析. (1997)还有肯尼迪和奥哈根(2001)这意味着这个类比可能并不总是直接适用。但是,如果我们接受保守集太大的论点,我们可以把这个论点推广到其他方法。

非线性广义最小二乘也有一些联系;以塔兰托拉和瓦莱特为例(1982). 然而,这种文献流通常不会在模型错误的前提下运行;因此,本文将不会直接与这些想法和随后的参考文献进行比较。但反对保守集的论据也可以扩展到这些类型的方法。

6.3半参数效率参数

陀和吴(2015)介绍了一种称为L(左)2-校准并证明估计值是半参数有效的(参见Bickel. (1998)). 半参数效率意味着我们在大样本中构建的置信集可以忽略差异中的所有不确定性。我们现在给出了一个使用这个概念的置信集,即使它与拓和吴中的置信集并不完全相同(2015),以绘制连接。这么说吧^(·)是真实函数的函数估计θ^我们估计的是Θ*我们可以想象d日^(·)=^(·)(f)θ^(·)是一个很好的估计(·)(f)θ*(·),其中θ*是中的单个元素Θ*。那么,半参数效率参数意味着我们可以使用
R(右)(θ)=^(数据,(f)θ+d日^).
很明显,与提议的CCS相比,该集合是一个更具攻击性的置信集。L(左)2忽略学习差异所导致的不确定性。由于用少量样本学习函数可能很困难,因此与CCS相比,该集合通常更具攻击性,因此在大多数校准问题中没有提供足够的覆盖范围。

6.4加权最小二乘法

这么说吧x个1, …,x个n个根据一些已知的测量方法进行独立采样ν(·). 在精神上类似于用重要性抽样寻找无偏估计量(例如,见Owen和Zhou(2000)和中的参考),我们可以使用
R(右)4(θ)=σ2最小值θ(1/n个)=1n个μ(x个)/ν{Y(Y)(f)θ(x个)}21n个=1n个μν(x个){Y(Y)(f)θ(x个)}2,
式中,ρμ/∂ν是的Radon–Nikodym导数μ关于ν前导项仅是调整后方差的调整,如等式中所示(7).王. (2017)使用了一个与半参数引导在精神上类似的标准。他们的理论论点在半参数效率的范围内运作;因此类似的问题L(左)2-校准可以出现在小样本中。然而,这种方法和我们的方法之间有更大的区别。王的方法. (2017)需要所有x个s是独立的,并通过一些已知分布随机生成。相比之下,即使我们正在运行一个设计的实验x个s不是随机的,或者可能是x个s不在用户的控制范围内。

7指定η

仔细选择κ(·,·)和η对成功实施所建议的置信集至关重要。

与贝叶斯范式相比,本文中隐含的结果不需要使用一些最佳的κ; 任何κ只要‖就应该工作(f)θ‖对所有人来说都是有限的θΘ*。在不损害方法的概念基础的情况下,可以对函数进行温和的调整。大幅调整κ-功能基于观测数据,因为它决定了观测位置和未观测位置的差异之间的关系。

选择η,是一个单一维度,在校准开始时通常未知,这代表了调整或估计的合理选择。在查看特定估计之前,我们首先检查估计应该具有的属性。假设我们使用了一个值η^n个这取决于第一个n个观察。的任何值η^n个不偏离∞将保持一致性。如果η^n个(f)θ为所有人θΘ*,则保持置信属性,不必太担心。如果低估,下一个结果将解释低估的程度,并保持信心。这一结果表明,找到一些估计值就足够了η^n个这就像一个很好的统计估计。证据见附录C类.

定理7
假设随机变量e(电子)1,e(电子)2,…是相同分布的独立随机变量,平均值为0E类(e(电子)4)是有限的。让CCSn个是保守和一致的集合n个数据点使用η^n个.面向所有人θΘ*,如果,对于所有常量M(M)> 0,
P(P)((f)θη^n个M(M)n个1/2)0,
那么,为了所有人ε>0,有一些足够大的n个这样的话P(P)(θCCS系统n个)1αϵ.

我们现在对η基于一般设置中的数据。考虑有一个函数δ(·) =(·) −(f)θ(·)在我们的再生核Hilbert空间中G公司有标准‖δ‖. 我们希望使用观测值Δ1=δ(x个1) +e(电子)1, …, Δn个=δ(x个n个) +e(电子)n个估计基础函数的范数e(电子)1, …,e(电子)n个是均值为0且方差为0的独立随机变量σ2.估算η与平滑数据的思想密切相关,平滑数据有着悠久而著名的历史(Wahba,1990). 令人惊讶的是,我们还没有发现现有的统计工具来估计这种一般情况下的标准值。预言家的估计
ηn个=最小值d日G公司d日这样的话d日(x个)=δ(x个)对于=1,,n个
给出了已知的最小范数δ(x个1), …,δ(x个n个). 显而易见的估计
最小值d日G公司d日这样的话d日(x个)=Δ对于=1,,n个
有非常大的差异。一般来说,我们建议通过使用δ(x个),Δ^,屈服
η^n个=最小值d日G公司d日这样的话d日(x个)=Δ^对于=1,,n个.
(8)
具体来说,我们考虑使用n个×n个近似矩阵A类n个(λ)这取决于平滑参数λ,
Δ^1Δ^n个=A类n个(λ)Δ1Δn个.
A类n个(λ)通常是为了减少偏差而设计的。通过使用反向三角形不等式并执行期望,我们的估计量的均方误差是有界的。

提案7
n个成为n个×n个单位矩阵和定义
S公司n个(λ)=δ(x个1)δ(x个n个)T型{n个A类n个(λ)}K(K)n个1{n个A类n个(λ)}δ(x个1)δ(x个n个)+σ2信托收据{A类n个(λ)K(K)n个1A类n个(λ)}.
然后E类{(η^n个ηn个)2}S公司n个(λ).

虽然我们想设置λS公司n个(λ),此值未知,因为它取决于δ(x个1)…,δ(x个n个). 我们建议使用以下估算S公司(λ):
S公司^n个(λ)=Δ1Δ^1Δn个Δ^n个T型K(K)n个1Δ1Δ^1Δn个Δ^n个+2σ2信托收据{A类n个(λ)K(K)n个1}σ2信托收据(K(K)n个1).
这是一个无偏见的估计,E类{S公司^n个(λ)}=S公司n个(λ).找到这种类型的均方误差上界的无偏估计的过程与一般的收缩研究有关,但这种离题不在本文的范围内(例如,见Xie. (2012)).

总之,我们建议选择一个值λn个通过最小化S公司^n个(λ),然后使用它来找到结果(8)中列出的估计量。对于每个θ经过调查,这个过程可以重复。剩下的就是指定A类n个(λ). 我们发现了(n个+λK(K)n个2)1与传统的平滑器相比性能更好(n个+λK(K)n个1)1。如果我们想为用户提供一些保险,将此估计值加倍是确保符合定理7的合理方法。所有的例子都采取了这一行动。

我们现在讨论保证大样本覆盖率所需的理论论点。

提案8

如果,作为n个变大,ηn个η概率和序列λ~1,,λ~n个这样的话S公司n个(λ~n个)0,然后η^n个根据结果(8)使用λ~n个收敛到η概率。

根据本文所考虑的一般性,我们无法对这个结果的条件提供正式的证明。在实践中,我们发现改变估算方法对η相对较小,但上述方法效果良好。

8模拟比较

我们现在将使用模拟研究来说明所提方法相对于某些现有和现代方法的一些优点。这并不是一项详尽的研究,而是在已知真实模型差异的情况下,强调其他方法的潜在缺点。试验台将是文献中的两个模型-系统对,输入域为[0,1]。由Tuo和Wu提供(2015),第一个模型-系统对是
(f)θ(x个)=(x个)(θ2θ+1){(2πx个θ)+余弦(2πx个θ)}(x个)=经验2πx个10(2πx个).
(9)
第二个,来自Plumlee(2017),是
(f)θ(x个)=θx个,(x个)=4x个+x个(5x个).
(10)
选择了七种90%置信集的方法进行比较:纳秒^,第节中描述的集合6.1; KO,肯尼迪和奥哈根的90%可信数据集(2001)具有相关结构κ(·, ·); 90%的置信度L(左)2-Tuo和Wu的校准(2015); WSL,Wong 90%的自信心. (2017); OGP,Kennedy和O'Hagan的正交高斯过程修正(2001)那是在普卢姆里描述的(2017); oracle CCS,最佳η天赋给我们的;CCS、,η按照第节所述选择7.
考虑了两种观测方案。第一个可以描述为数据贫乏:六个观测值出现在{0、0.1、0.2、0.4、0.6、0.7}处。第二个可以被描述为数据丰富:12个观测值发生在0到1之间等间距的点上。我们将使用内核函数
κ(x个,x个)=(1+|x个x个|)经验(|x个x个|).
每个Y(Y)是具有平均值的独立正态分布随机变量(x个)方差为0.22。我们在θ第一个是覆盖概率,目标是至少达到90%。第二个是间隔的宽度,其目标是在满足覆盖概率目标的同时尽可能小。

表中描述了1000次重复后的结果1很明显,许多其他方法在小样本量下没有足够的覆盖率,导致覆盖率不足。几乎覆盖所有案例的唯一方法是CCS,最坏情况下低于理想值5%。鉴于充分的覆盖率并不是上述任何一种方法的目标,这并不奇怪。虽然我们预计KO集会模仿保守集的属性,即太大但有覆盖范围,但它的覆盖范围却出人意料地差。这可能是由于具有未知(和积分)方差项的后验函数的复杂性。另一个有趣的比较是OGP集合和提议的CCS之间的比较。虽然表达式(9)中的模型-系统对的覆盖率看起来不错,但OGP集的宽度要大得多。这是因为在非凸的情况下,正交性是参数优化的必要条件,但不是充分条件(,(f)θ). 因为表达式(9)意味着(,(f)θ)是非凸的,OGP方法产生的间隔与CCS相比太大。纳秒^在本例中,相对于CCS而言,也很大,尤其是在数据较差的情况下。一般来说,CCS和预言版CCS之间似乎没有太大损失。

表1

第8节研究的覆盖频率和平均间隔宽度

方法覆盖频率间隔的宽度
,(f)θ式(9)中,(f)θ式(10)中,(f)θ式(9)中,(f)θ式(10)中
可怜的富有可怜的富有可怜的富有可怜的富有
纳秒^110.56111.0900.1691.0380.997
击倒对手0.10900.4520.3870.4010.1400.7690.594
L(左)20.0630.7790.7280.8780.0920.0210.6320.282
WSL公司0.1530.6730.0430.5890.0310.0230.3030.198
OGP公司0.9980.9670.3870.9511.0670.7410.7230.310
Oracle CCS0.9980.9920.8930.9890.1360.0582.0730.672
CCS系统0.9970.9920.8490.9970.2830.0802.2850.740
方法覆盖频率间隔的宽度
,(f)θ式(9)中,(f)θ式(10)中,(f)θ式(9)中,(f)θ式(10)中
可怜的富有可怜的富有可怜的富有可怜的富有
纳秒^110.56111.0900.1691.0380.997
击倒对手0.10900.4520.3870.4010.1400.7690.594
L(左)20.0630.7790.7280.8780.0920.0210.6320.282
WSL公司0.1530.6730.0430.5890.0310.0230.3030.198
OGP公司0.9980.9670.3870.9511.0670.7410.7230.310
Oracle CCS0.9980.9920.8930.9890.1360.0582.0730.672
CCS系统0.9970.9920.8490.9970.2830.0802.2850.740
表1

第8节研究的覆盖频率和平均间隔宽度

方法覆盖频率间隔的宽度
,(f)θ式(9)中,(f)θ式(10)中,(f)θ在方程(9)中,(f)θ式(10)中
可怜的富有可怜的富有可怜的富有可怜的富有
纳秒^110.56111.0900.1691.0380.997
击倒对手0.10900.4520.3870.4010.1400.7690.594
L(左)20.0630.7790.7280.8780.0920.0210.6320.282
WSL公司0.1530.6730.0430.5890.0310.0230.3030.198
OGP公司0.9980.9670.3870.9511.0670.7410.7230.310
Oracle CCS0.9980.9920.8930.9890.1360.0582.0730.672
CCS系统0.9970.9920.8490.9970.2830.0802.2850.740
方法覆盖频率间隔的宽度
,(f)θ在方程(9)中,(f)θ式(10)中,(f)θ式(9)中,(f)θ在方程(10)中
可怜的富有可怜的富有可怜的富有可怜的富有
纳秒^110.56111.0900.1691.0380.997
击倒对手0.10900.4520.3870.4010.1400.7690.594
L(左)20.0630.7790.7280.8780.0920.0210.6320.282
WSL公司0.1530.6730.0430.5890.0310.0230.3030.198
OGP公司0.9980.9670.3870.9511.0670.7410.7230.310
Oracle CCS0.9980.9920.8930.9890.1360.0582.0730.672
CCS系统0.9970.9920.8490.9970.2830.0802.2850.740

9个示例

本节将讨论两个真实数据示例,其中真实参数未知,但本文介绍的集合仍然可以构造和比较。这些例子旨在证明实际差异的存在。

9.1 Box和Coutie的示例

由于校准问题由来已久,请考虑Box和Coutie的工作(1956). 他们介绍了使用计算机执行的数值算法进行统计校准的首批方法之一和实现。他们的校准问题包括学习遵循一阶微分方程的连续反应的行为
d日M(M)1d日x个=0.001θ1M(M)1
d日M(M)2d日x个=0.001θ2M(M)10.001θ2M(M)2
具有初始条件M(M)1(0)=100和M(M)2(0) = 0.
目标是校准结果M(M)2基于在时间点10、20、40、80、160和320的观察,进行两次复制。我们考虑一个可能的时间点区域[0400]。假设观测值为正态分布。实验中的复制证明σ2接近13,这与Box和Coutie的结论一致。我们让
κ(x个,x个)=(1+|x个x个|/400)经验(|x个x个|/400)
并考虑θ-框中的值[0.8,1.3]×[0.6,1.1]。的价值η通过第节中描述的自动机制进行选择7.

图。2显示了本文讨论的三个集合,以及Box和Coutie提出的集合(1956),可以认为是对纳秒^该算法是在现代计算机上重新实现的,与Box和Coutie中报告的结果略有不同(1956). 肯尼迪和奥哈根(2001)set似乎意味着最好的模型在120附近有很大的差异,这与所有其他集合不同。这个L(左)2-set似乎对最佳参数的位置过于乐观,因为在200之后只调查了一个时间点。关键的比较是Box和Coutie提出的传统集合与本文提出的集合之间的比较。CCS在某种程度上更为椭圆。通过计算机模型传播参数可以解释形状差异。在我们的观测数据中,输入空间的右半部缺少点,这意味着我们对该区域的最佳行为不太确定。这在CCS中可以看到,其中输入空间右半部的不确定性较大。由于Box和Coutie的集合没有考虑潜在的差异,因此它们的集合在输入空间的右侧非常小。

图2

第9.1节示例:(a)–(d)α选择为0.001、0.01或0.1,最暗的区域表示最大α(第8节讨论了建立置信区间方法的一些细节);(e) –(h)从实际系统收集的数据(图解的)在逐点间隔旁边(f)θ(x个)何时θ在各自的置信集中;(a) (e)Box and Coutie;(b) (f)肯尼迪和奥哈根;(c) ,(g)L(左)2; (d) ,(h)CCS

虽然计算速度在很大程度上取决于实现,但CCS和Kennedy和O'Hagan集合的构建时间大致相同,而L(左)2-集合和Box and Coutie集合花费的时间大约少了一个数量级。

9.2碰撞试验示例

一位研究人员正在研究车辆设计与基于头部运动的损伤标准之间的关系。正在考虑四个设计变量:前三个二进制,第四个有五个级别,总共有40个变量组合。通过撞击九辆测试车进行了昂贵的实验,并重复了一组条件,因此尝试了八种独特的组合。然后,研究人员希望通过使用这八种尝试组合的数据来研究所有40种可能的组合。用未知参数建立了碰撞事件的有限元近似。

最初的用户担心,在通过最小化最小二乘法为他们的计算机模型找到最佳参数后(^(数据,(f)θ))关于平方误差最小值的残差图出现了问题;图。关于第一个设计变量,问题尤其明显。

图3

第9.2节案例研究的残差图

总共有49个参数组合被确定为合理。因此,参数空间被视为这个有限离散空间。用户很有信心,差异是缓慢变化的,所以他们很容易使用内核
κ(x个,x个)=经验(x个x个22),
其中所有变量都被缩放为单位立方体。然后,我们的任务是从这49个参数中选择最能代表所有输入响应的参数。因为没有衍生信息,我们不能使用L(左)2-或OGP方法。但我们将使用WSL方法与CCS进行比较。

表中给出了每种方法选择的参数数量2。鉴于目前的数据,KO置信集很难信任。WSL方法似乎鼓励人们对单个参数抱有极端的信心,对此应该持怀疑态度。我们发现CCS是一个更保守的选择α-级别。

表2

选择的参数数量(共49个)不同α通过使用第9.2节中讨论的示例的不同方法

方法以下α值的结果:
0.00010.0010.010.1
纳秒^5442
击倒对手201352
WSL公司1111
CCS系统20181710
方法以下α值的结果:
0.00010.0010.010.1
纳秒^5442
击倒对手201352
WSL公司1111
CCS系统20181710
表2

选择的参数数量(共49个)不同α通过使用第9.2节中讨论的示例的不同方法

方法以下α值的结果:
0.00010.0010.010.1
纳秒^5442
击倒对手201352
WSL公司1111
CCS系统20181710
方法以下α值的结果:
0.00010.0010.010.1
纳秒^5442
击倒对手201352
WSL公司1111
CCS系统20181710
创建置信集的另一个尝试是选择线性核
κ(x个,x个)=1+x个·x个,
它是一个半正定核函数。该核说明了线性差异,因此它可以处理图中的残差图。.然后我们可以简单地选择η相当大,比如104。在α=0.01级,该组选择了9个参数:比我们基线CCS中的18个参数少9个。但这只说明了线性差异,所以和CCS相比,这可能是一个不太稳健的集合。

总的来说,CCSα=0.01用于形成包含参数不确定性的模型集合。在车辆设计决策过程中使用了该集成。就计算速度而言,CCS计算如下α=在作者的标准台式计算机上大约四分之一秒后0.01。

10结束语

这项工作提供了一个框架,用于生成包含至少有一定概率的最佳校准参数的集合。结果适用于小样本和大样本。此外,这些集合被证明是一致的。

贝叶斯校准的其他一些主要思想可以借鉴并放在这个框架中.,2007年a; 希格顿.,2008),可以将函数变量作为输入,并直接使用本工作中讨论的方法。或者,建立一组基函数来表示函数响应可能会证明是富有成效的。

完全替代现有贝叶斯和大样本频率计校准方法的方法包括从计算机实验中模拟计算机模型,并考虑潜在的模拟误差(桑特纳.,2003). 理论上,这可以通过将计算机模型放置在适当的函数空间中,并修改优化以包括差异和计算机模型作为决策变量来实现。在这种调整下计算集合的计算机制是一个公开的问题。章节中的技巧4没有明显的类似物。也许一种更容易计算的方法需要重新采样(Wong.,2017). 此外,在存在仿真错误的情况下建立一致性似乎超出了用于在没有仿真错误的条件下建立一致的工具。因此,除了计算问题外,还存在仿真误差的理论问题。

本文的想法是,用户希望仅通过参数调整来改进计算机模型。本文没有明确探讨差异修正。然而,可以利用本文中的结构来构建一个包含1−α对响应有足够的信心x个0,(x个0). 一个例子是,如果我们定义区域
U型(α)=(θ,d日)Θ×G公司这样的话d日(θ)^(数据,(f)θ+d日)q个n个(α)n个;
则置信区间为
最小值(θ,d日)U型(α)(f)θ(x个)+d日(x个),最大值(θ,d日)U型(α)(f)θ(x个)+d日(x个).
这些调整后的置信区间将缺乏计算机模型的显著特征,但对于想要具有足够置信特性的区间的用户来说,它们可能是感兴趣的。我们将此作为未来研究的潜在主题。

致谢

作者衷心感谢美国国家科学基金会(National Science Foundation)奖(1833195)和伊萨克牛顿研究所(Issac Newton Institute)在本书制作过程中给予的支持。作者还感谢丹·阿普利(Dan Apley)、巴里·尼尔森(Barry Nelson)、安东尼·奥哈根(Anthony O’Hagan)、J.P.戈斯林(J.P.Gosling)、朱迪·,副编辑和联合编辑对本研究的有益意见和想法。

工具书类

巴亚里
,
M。
,
伯杰
,
J。
,
咖啡馆
,
J。
,
加西亚-多纳托
,
G.公司。
,
线路接口单元
,
F、。
,
帕洛莫
,
J。
,
帕塔萨拉蒂
,
R。
,
保罗
,
R。
,
麻袋
,
J。
沃尔什
,
D。
(
2007年a
)
具有功能输出的计算机模型验证
.
Ann.Statist公司。
,
35
,
1874
1906
.

巴亚里
,
医学博士。
,
伯杰
,
J.O.公司。
,
保罗
,
R。
,
麻袋
,
J。
,
咖啡馆
,
J.A.公司。
,
卡文迪什
,
J。
,
,
中心-中心。
,
J。
(
2007年b
)
计算机模型验证框架
.
技术指标
,
49
,
138
154
.

比尔
,
大肠杆菌。
(
1960
)
非线性估计的置信区间(讨论)
.
J.R.统计。Soc公司。
B、,
22
,
41
88
.

比克尔
,
P.J.公司。
,
克拉森
,
C.答。
,
比克尔
,
P.J.公司。
,
里托夫
,
年。
,
克拉森
,
J。
,
韦尔纳
,
J.A.公司。
里托夫
,
年。
(
1998
)
半参数模型的有效自适应估计
,第2卷。
纽约
:
施普林格
.

盒子
,
G.公司。
库蒂
,
G.公司。
(
1956
)
数字计算机在函数关系探索中的应用
.
程序。IEE公司
B、,
103
,
100
107
.

克雷格
,
附言。
,
戈尔茨坦
,
M。
,
塞乌尔特
,
A.H.公司。
史密斯
,
J.A.公司。
(
1997
)油气藏压力匹配:大型计算机实验中使用贝叶斯线性策略的案例研究。
贝叶斯统计案例研究
(编辑
C。
 
盖特森尼斯
,
J.S.公司。
 
霍奇斯
,
R.E.公司。
 
卡萨丁
,
R。
 
麦卡洛赫
,
第页。
 
罗西
编号:。
 
辛普瓦拉
),第页。
37
93
.
纽约
:
施普林格
.

埃夫隆
,
B。
(
2005
)
贝叶斯主义者、频率学家和科学家
.
《美国统计杂志》。助理。
,
100
,
1
5
.

格奈廷
,
T。
拉夫特里
,
答:E。
(
2007
)
严格正确的评分规则、预测和评估
.
《美国统计杂志》。助理。
,
102
,
359
378
.

戈尔茨坦
,
M。
鲁吉耶
,
J。
(
2006
)
复杂系统的Bayes线性校正预测
.
《美国统计杂志》。助理。
,
101
,
1132
1143
.

Grimmet垫圈
,
G.公司。
斯特扎克
,
D。
(
2001
)
概率与随机过程
.
牛津
:
牛津大学出版社

汉族
,
G.公司。
,
桑特纳
,
T·J。
罗林森
,
J。J。
(
2009
)
计算机实验中调谐和校准参数的同时测定
.
技术指标
,
51
,
464
474
.

赫蒂奇
,
R。
科尔塔内克
,
K.O.公司。
(
1993
)
半无限规划:理论、方法和应用
.
SIAM版本。
,
35
,
380
429
.

希格顿
,
D。
,
Gattiker公司
,
J。
,
威廉姆斯
,
B。
赖特利
,
M。
(
2008
)
使用高维输出进行计算机模型校准
.
《美国统计杂志》。助理。
,
103
,
570
583
.

约瑟夫
,
V.R.公司。
梅尔科特
,
序号。
(
2009
)
工程模型的统计调整
.
J.资格。Technol公司。
,
41
,
362
375
.

肯尼迪
,
M.C.公司。
奥哈根
,
答:。
(
2001
)
计算机模型的贝叶斯校准(讨论)
.
J.R.统计。Soc公司。
B、,
63
,
425
464
.

科尔钦斯基
,
五、。
吉纳(Giné)
,
E.公司。
(
2000
)
积分算子谱的随机矩阵逼近
.
伯努利
,
6
,
113
167
.

欧文
,
答:。
,
年。
(
2000
)
安全有效的重要性抽样
.
《美国统计杂志》。助理。
,
95
,
135
143
.

普拉姆利
,
M。
(
2017
)
不精确计算机模型的贝叶斯校准
.
《美国统计杂志》。助理。
,
112
,
1274
1285
.

普拉姆利
,
M。
,
约瑟夫
,
V.R.公司。
,
小时。
(
2016
)
校准心肌细胞离子通道模型中的功能参数
.
《美国统计杂志》。助理。
,
111
,
500
509
.

麻袋
,
J。
,
韦尔奇
,
W·J。
,
米切尔
,
T·J。
韦恩
,
高压。
(
1989
)
计算机实验的设计与分析
.
统计师。科学。
,
4
,
409
423
.

桑特纳
,
T·J。
,
威廉姆斯
,
B.J.公司。
,
诺茨
,
西。
诺茨
,
西印度。
(
2003
)
计算机实验的设计与分析
,第1版。
纽约
:
施普林格
.

舍尔科夫
,
B。
,
赫布里奇
,
R。
斯莫拉
,
A.J.公司。
(
2001
)广义表示定理。
程序。国际比较计算学习理论
(编辑D.Helmbold和B.Williamson),pp。
416
426
.
纽约
:
施普林格
.

肖尔科夫
,
B。
斯莫拉
,
A.J.公司。
(
2001
)
使用内核学习:支持向量机、正则化、优化及其他
.
剑桥
:
麻省理工学院出版社
.

塔兰托拉
,
答:。
瓦莱特
,
B。
(
1982
)
用最小二乘准则求解广义非线性反问题
.
地球物理学评论。
,
20
,
219
232
.

,
R。
,
C·F·J。
(
2015
)
非理想计算机模型的有效校准
.
Ann.Statist公司。
,
43
,
2331
2352
.

,
R。
,
J.C.公司。
(
2016
)
计算机模型校准的理论框架:参数化、估计和收敛特性
.
J.不确定性数量。
,
4
,
767
795
.

弗农
,
一、。
,
戈尔茨坦
,
M。
鲍尔
,
R。
(
2014
)
星系形成:可观测宇宙的贝叶斯历史匹配
.
统计师。科学。
,
29
,
81
90
.

瓦赫巴
,
G.公司。
(
1978
)
不正确的先验、样条曲线平滑和回归中模型误差的防范问题
.
J.R.统计。Soc公司。
B、,
40
,
364
372
.

瓦赫巴
,
G.公司。
(
1990
)
观测数据的样条模型
.
费城
:
工业和应用数学学会
.

温德兰
,
小时。
(
2004
)
分散数据近似
.
纽约
:
剑桥大学出版社
.

Wong(王)
,
R·K·W。
,
斯托利
,
C.B.公司。
,
总成本管理。
(
2017
)
计算机模型标定的一种频域方法
.
J.R.统计。Soc公司。
B、,
79
,
635
648
.

赖特
,
S.J.公司。
诺塞达尔
,
J。
(
1999
)
数值优化
,第1版。
纽约
:
施普林格
.

,
十、。
,
,
美国。
棕色
,
拉丁美洲。
(
2012
)
异方差层次模型的SURE估计
.
《美国统计杂志》。助理。
,
107
,
1465
1479
.

附录A第4节中的结果证明

A.1命题证明3

每个元素d日在再生核中,希尔伯特空间可以分解为
d日(·)==1n个βκ(·,x个)+v(v)(·),
对一些人来说v(v)(·)也在再生核Hilbert空间中,但与第一项正交。结合内核的技术假设,这意味着v(v)(x个)全部=0= 1, …,n个.我们有
=1n个βκ(·,x个)+v(v)==1n个βκ(·,x个)+v(v).
因此设置v(v)=0使可行区域最大化,并且不影响目标函数。此外=1n个βκ(·,x个)由公式中“‖·‖”的定义给出的定理中的约束条件(2).

A.2命题证明4

每个元素d日在再生核中,希尔伯特空间可以分解为
d日(·)==1n个βκ(·,x个)+=n个+1n个+β{(f)n个(x个)(f)θ(x个)}κ(·,x个)d日μ(x个)+v(v)(·),
哪里v(v)与前两部分正交。这意味着v(v)(x个)全部=0= 1, …,n个。这也意味着
{(f)n个(x个)(f)θ(x个)}κ(·,x个)d日μ(x个),v(v)(·)=0
因此,通过方程式(3)利用Fubini定理的有界性κ(f)θ,
{(f)n个(x个)(f)θ(x个)}v(v)(x个)d日μ(x个)=0.
因此设置v(v)=0使可行域最大化,不影响目标函数或由参数生成的约束。与命题3的证明一样,二次约束只是对规范的重述。

A.3定理证明3

如果
((f)θ+d日,(f)θ)((f)θ+d日,(f)t吨)为所有人t吨Θ,
然后
((f)θ+d日,(f)θ)((f)θ+d日,(f)j个)对于j个=1,,.
因此CCS⊂CCSD和定理2完成了结果。

A.4定理证明4

假设
((f)θ+d日,(f)θ)((f)θ+d日,(f)t吨)为所有人t吨Θ.
t吨=θ+白车身,其中w个是标量,并且b条是长度第页中带1的向量第个位置,其他位置为0。Θ是开放的,对于一些足够小的ε> 0, |w个| ⩽ε意味着t吨Θ.出租w个从上面转到0意味着
X(X)d日(x个)b条T型(f)θ(x个)d日μ(x个)0,
还让w个从下面转到0表示
X(X)d日(x个)b条T型(f)θ(x个)d日μ(x个)0.
注意到这一点b条1, …,b条第页给出ifd日是这样的
((f)θ+d日,(f)θ)((f)θ+d日,(f)t吨)为所有人t吨Θ
然后
X(X)d日(x个)(f)θ(x个)d日μ(x个)=0.
按照重写命题4的优化问题的步骤,以下优化问题的结果小于最小值d日(θ)^(数据,(f)θ),
最小值δ1,,δn个,δn个+1,,δn个+第页1n个=1n个{(f)θ(x个)+δY(Y)}2这样的话=1n个j个=1n个δδj个k个ij公司+2=1n个j个=n个+1n个+第页δδj个k个ij公司+=n个+1n个+第页j个=n个+1n个+第页δδj个k个ij公司η
 
δn个+j个=0对于j个=1,,第页
哪里k个ij公司ij公司的第个元素(n个+第页×n个+第页)-大小矩阵
K(K)q个θq个θT型θ1.
使用块矩阵分解,上述程序与定理4中的程序等价。得出CCS⊂CCSL和定理2证明了结果。

附录B第5节的证明

为了将新的符号与本文其余部分中的符号分开,将引入几个随机变量A类n个,B类n个,,M(M)n个.符号→第页表示概率收敛。在不失一般性的情况下,我们认为η= 1.

B.1引理1和定理5的证明

A类n个:=2n个=1n个{(x个)(f)θ(x个)}e(电子)最大值d日D类2n个=1n个d日(x个)e(电子)+最小值d日(θ)1n个=1n个{d日(x个)+(f)θ(x个)(x个)}2.
条件A类n个(1/n个){q个n个(α)=1n个e(电子)2}意味着θCCS系统n个.让
B类n个:=1n个=1n个{(x个)(f)θ(x个)}e(电子),C类n个:=最大值d日D类1n个=1n个d日(x个)e(电子)
D类n个:=最小值d日(θ)1n个=1n个{d日(x个)+(f)θ(x个)(x个)}2.

引理2

B类n个第页0.

引理3

C类n个第页0.

引理4
对于每个θ*Θ*,
D类={(,(f)θ)(,(f)θ*)}2{(f)θ(x个)(f)θ*(x个)}2d日μ(x个)/d日νd日μ(x个).
那么,对于所有人来说ε> 0,P(P)(D类n个D类ϵ)0.

这三个结果给出了引理1。因为
1n个q个n个(α)1n个=1n个e(电子)2第页0,
这意味着定理5。

B.2引理2的证明

引理2的证明来自于假设3,我们知道,条件是x个1, …,x个n个,B类n个是具有平均值0和方差的变量的平均值σ2{(x个)(f)θ(x个)}2d日ν(x个)因此,大数定律给出了结果。

B.3引理3的证明

二次约束上线性函数的最大化(Wright和Nocedal(1999),第16章)给出了
C类n个=1n个=1n个j个=1n个κ(x个,x个j个)e(电子)e(电子)j个.
然后我们可以根据其特征值展开重写核,使用特征值λ1,λ2、…和本征函数ψ1(·),ψ2(·), …:
C类n个=1n个=1n个j个=1n个e(电子)e(电子)j个k个=1ψk个(x个)ψk个(x个j个)λk个.
C类n个=k个=1λk个1n个=1n个ψk个(x个)e(电子)2.
如果=1λk个2<(Grimmet和Stirzaker(2001),第7章)。技术假设1暗示了这一点。例如,见Koltchinskii和Ginée(2000)中定理3.1证明的开头。

B.4引理4的证明

结果是通过找到一对随机变量得到的E类n个F类n个这样的话
D类n个E类n个/F类n个,
哪里F类n个第页F类概率为F类>0E类n个第页E类在某些情况下E类>0.
在定义的无限多个约束中(θ),只考虑由θ*:
0{(f)θ(x个)(f)θ*(x个)}2d日μ(x个)+2d日(x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个).
我们也知道
(,(f)θ)(,(f)θ*)={(f)θ*(x个)(x个)}2d日μ(x个){(f)θ(x个)(x个)}2d日μ(x个)={(f)θ(x个)(f)θ*(x个)}2d日μ(x个)+2{(f)θ(x个)(x个)}{(f)θ(x个)(f)θ*(x个)}d日μ(x个).
第页=d日+(f)θ.放松d日(θ)那就这样了第页符合标准的
(,(f)θ)(,(f)θ*)2第页(x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个).
我们需要使用数据将积分语句与近似值联系起来。为此,请考虑
G公司n个=1n个=1n个第页(x个){(f)θ(x个)(f)θ*(x个)}d日μd日ν(x个)
G公司=第页(x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个),
其中dμ/d日ν是的Radon–Nikodym导数μ关于ν其存在并根据假设4有界。
H(H)n个:=1n个2=1n个j个=1n个d日μd日ν(x个){(f)θ(x个)(f)θ*(x个)}κ(x个,x个j个){(f)θ(x个j个)(f)θ*(x个j个)}d日μd日ν(x个j个)
n个:=1n个=1n个{(f)θ(x个)(f)θ*(x个)}κ(x个,x个){(f)θ(x个)(f)θ*(x个)}d日μd日ν(x个)d日μ(x个).
另外定义
J型:={(f)θ(x个)(f)θ*(x个)}κ(x个,x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个)d日μ(x个).
显然,n个第页J型通过使用条件4。此外,利用引理3的证明中的特征值分解,
H(H)n个=k个=1λk个1n个=1n个d日μd日ν(x个){(f)θ(x个)(f)θ*(x个)}ψk个(x个)2,
因此H(H)n个第页J型.
d日(θ)在第页可以放松到
最小值第页(f)θ+1n个H(H)n个2n个=1n个第页(x个){(f)θ(x个)(f)θ*(x个)}d日μd日ν(x个)2第页(x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个)(,(f)θ*)(,(f)θ)+n个H(H)n个2n个=1n个第页(x个){(f)θ(x个)(f)θ*(x个)}d日μd日ν(x个).
利用三角形不等式得出‖d日‖⩽1给出‖第页‖ ⩽ 1+‖(f)θ‖,只有当
(G公司n个G公司)H(H)n个n个n个J型1G公司n个G公司1+(f)θ.
使用2×2矩阵反演公式K(K)n个=J型H(H)n个2/n个:
H(H)n个n个n个J型1=H(H)n个1+1K(K)n个n个2H(H)n个21K(K)n个n个H(H)n个1K(K)n个n个H(H)n个1K(K)n个;
因此
G公司n个2H(H)n个1+1K(K)n个G公司n个H(H)n个G公司n个21+(f)θ
这意味着
第页(x个){(f)θ(x个)(f)θ*(x个)}d日μ(x个)n个H(H)n个1n个=1n个第页(x个){(f)θ(x个)(f)θ*(x个)}d日μd日ν(x个)(1+(f)θ)K(K)n个.
L(左)n个:=2(1+(f)θ)K(K)n个,
我们已经证明了这一点L(左)n个第页0.
用我们的单一线性约束(Wright和Nocedal)最大化二次目标(1999),第16章)给出了
D类n个((,(f)θ)(,(f)θ*)L(左)n个)+2/n个2H(H)n个21n个=1n个{(f)θ(x个)(f)θ*(x个)}2d日μd日ν(x个)2.
其中'(·)+'是积极的部分。因此
F类n个:=n个2H(H)n个21n个=1n个{(f)θ(x个)(f)θ*(x个)}2d日μd日ν(x个)2第页{(f)θ(x个)(f)θ*(x个)}2d日μd日ν(x个)d日μ(x个)=:F类,
E类n个:=((,(f)θ)(,(f)θ*)L(左)n个)+2第页{(,(f)θ)(,(f)θ*)}2=:E类.
注意到假设4给出了dμ(·)/天ν<M(M)完成结果。

B.5定理证明6

伊尔(θ)=d日D类这样的话d日(x个)(f)θ(x个)d日μ(x个)=0.
这个结果遵循引理1证明的起始参数。唯一的例外是D类n个需要替换为
M(M)n个:=最小值d日伊尔(θ)1n个=1n个{d日(x个)+(f)t吨(x个)(x个)}2.

引理5
有一些M(M)>σ2这样,对所有人来说ε> 0,
P(P)(M(M)n个M(M)ϵ)0.

证明
θw个=w个θ*+(1w个)θ。对于w个足够接近0,这总是在集合中Θ由开放条件决定。评分指标的凸性给出了
(,(f)θw个)w个(,(f)θ*)+(1w个)(,(f)θ)
可以改写为
(,(f)θw个)(,(f)θ)w个(,(f)θ*)(,(f)θ).
呼叫
(x个)=(f)θ(x个)θθ*θθ*2,
其中2'表示L(左)2-规范。出租w个0收益率
2{(x个)(f)θ(x个)}(x个)d日μ(x个)(,(f)θ)(,(f)θ*).
更换(f)θ(f)θ*具有在引理4的证明中,给出了结果
M(M)=σ2+{(,(f)θ)(,(f)θ*)}2(x个)2d日μ(x个)/d日νd日μ(x个).
唯一的麻烦就是确保(x个)2d日μ(x个)/d日νd日μ(x个)0,这是通过假设来解决的。

附录C定理7的证明

δ=(f)θ(θ,η)表示函数空间(θ)何时η使用。cn个=1η^n个/δ; 然后(1cn个)δ(·)(θ,η^n个)我们有
最小值d日(θ,η^n个)^(数据,(f)θ+d日)=1n个cn个2δ(x个)2+2=1n个cn个δ(x个)e(电子)+=1n个e(电子)2.
通过我们对有界四阶矩的假设e(电子)第页,n个1/2=1n个(e(电子)2σ2)在分布上收敛到平均值为0的正态分布,其中n个−1/2{q个n个(α) −σ2}是(1−α)-分位数。我们也有,根据大数定律,
1n个=1n个cn个2δ(x个)2+2n个=1n个cn个δ(x个)e(电子)
概率为0。然后,Slutzky定理给出了结果。
本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)