总结
本文提出并检验了一种不精确模型的校准方法。该方法产生参数的置信度集,该置信度集包括在任何样本大小下具有期望概率的最佳参数。此外,该置信集显示出一致性,因为它排除了大样本环境中的次优参数。该方法有效,结果在很少假设的情况下成立;即使在离散的输入空间或参数空间中,这些思想也得以保持。讨论了置信集和近似置信集的计算。仿真实例和两个实际数据示例说明了该算法的性能。
1引言
计算机模型是用计算机代码实现的系统的复杂表示:这个术语至少可以追溯到萨克斯等. (1989). 校准利用实际系统的输入-输出对的观察结果进行统计调整,通过参数将模型与实际相一致。目标是找到在所有可能的输入中最能代表大自然输出的参数。统计调整主要用于解决两个问题。首先,这些观测是自然界响应的噪声扰动。其次,数据集中的输入只是所有潜在输入的子集,输入的生成或选择可能不受统计学家的控制。
校准问题中的缺点是,大多数计算机模型都是对自然的不精确表示,即参数的任何值都无法将计算机模型与自然系统精确对齐。这是统计模型和计算机模型之间的主要区别;非线性函数的经典统计推断假设假设模型精确(Box和Coutie,1956; 比尔,1960). 统计模型通过在发现不准确的模型时添加额外的术语来防范不正确的模型。使用计算机模型是因为它们表现出合理的行为和趋势,即使模型有点不精确。当数据很少时,如第节中的示例9.2四维空间中有九个数据点,与精心设计的计算机模型相比,很难信任数据驱动的统计模型。用户希望利用模型的一致性行为和最能代表系统的参数。由于我们在有限的输入下收集了随机数据,我们无法准确识别该参数;因此,本文旨在找到一些好的区域或参数集,以了解最佳参数的位置和不确定性。
现代校准方法估计了参数以及自然响应与计算机模型之间的差异。研究的两个主要方向围绕着主要的统计理由(Efron,2005):贝叶斯和大样本频率学家。肯尼迪和奥哈根(2001)建议通过在参数和差异上放置一个先验分布,通过后验分布推断参数。该框架已被广泛使用(Goldstein和Rougier,2006; 巴亚里等.,2007年b; 希格顿等.,2008; 弗农等.,2014; 普拉姆利等.,2016). 统计保证是从贝叶斯的角度来看的。这种贝叶斯校准之所以受到批评,是因为差异的先验和参数的后验之间的关系,因为差异和参数之间的混淆。陀和吴(2016)正式地描述了这一点,证明了参数的后验模式会变成某个值,该值取决于频率设置中的差异先验值。普卢姆利(2017)包括一个潜在的修复,但只提供了贝叶斯支持,并且没有确认Tuo和Wu发现的问题(2016)缓解了。此修复还需要使用计算机模型的导数,这在某些情况下可能很繁琐,而在其他情况下则不可能,例如Section的离散参数情况9.2.
关于这一主题的第二个研究重点以更传统的机制的形式出现在稍晚的时候。约瑟夫和梅尔科特(2009)概述了频率专家框架的一些原则,但创建具有大样本统计保证的替代机制是最近的发展。陀和吴(2015)和Wong等. (2017)两人都提倡在频率专家环境下,在大样本中表现良好的方法。这两种方法都可以通过大样本频率调整为参数生成置信集。具体来说,尽管估计了差异和参数,但这些方法利用半参数效率的参数得出结论,即在计算参数的置信集时,可以忽略差异中的不确定性。更多细节将在本文后面提供,但直观地忽略差异估计似乎会为参数创建过小的置信集。
本文提出了一个基于置信水平创建置信集的框架α具有两个关键属性:
出于显而易见的原因,产生这些属性的置信集被称为保守一致集。在现有的贝叶斯或大样本频率统计方法中,这两个特性并不一致。这个警告也就是说,为了建立保守一致集,最佳参数处的差异范数必须由用户指定或根据数据估计的值限定。除了这个假设之外,置信度和一致性结果遵循温和的规则性条件。这些结论适用于离散或连续输入空间以及离散和连续参数空间。本文还讨论了如何从数据中有效地学习这个界,如果我们不习惯于给它定界先验的.
本文将在第节概述校准设置2.第节介绍了三套三; 最后两个被证明具有期望的置信特性。章节4详细说明了构建这些集合的数值过程,并给出了一些理论解释。一致性参数见第节5.第节6将此方法与一般设置中的其他现有方法进行比较。章节7探索使用数据估计范数界限。章节8包含一个数值模拟,该模拟说明了竞争方法的一些问题,并与建议的集合进行了比较。小节9和10以两个实际数据示例和简短的讨论结束本文。
本文中分析的数据和用于分析的程序可以从
https://rss.onlinelibrary.wiley.com/hub/journal/14679868/series-b-datasets
2设置和注释
本节描述了校准问题的标准假设和最佳参数的定义。本文中的校准是使用从实际系统收集的数据来推测不精确模型的最佳参数的行为。与标准假设的唯一显著偏离是对一组最优参数的泛化与单个最优参数。
2.1数据和随机假设
数据包括n个输入和标量输出集由标记的输入空间,包含所有可能感兴趣的输入;一些输入包括在数据中,而另一些则没有。空间在论文的这一点上故意含糊其辞;它可以是连续的或离散的,有界的或无界的,封闭的或开放的。要点x个1, …,x个n个通过确定性或随机机制从输入空间的某处选择。大自然的回应年(x个)映射输入到标量。用户定义的计算机模型(f)θ(x个)映射输入和一个参数θ∈Θ到标量。目标是找到最佳对齐的参数值(f)θ具有年通过利用数据。 每次观察Y(Y)我不同于年(x个我)通过一些随机变量e(电子)我=Y(Y)我−年(x个我)这些差异是独立的我并且独立于x个1, …,x个n个考虑标记为1−的固定置信水平α,它大于0且小于1。假设e(电子)我我们很清楚q个n个(α)即(1−α)-观测响应与真函数之间差值平方和的分位数,即。最常见的例子是e(电子)我s是均值为0且方差为0的正态随机变量σ2,其中q个n个(α)然后可以选择为σ2乘以(1−α)-分位数χ2-分配n个自由度。 2.2参数定义
为了开始研究校准问题,我们首先需要解决一个稍微有点哲学意义的问题。如果模型对所有潜在参数都不正确,那么拥有一个好的参数意味着什么?借用评分规则的符号(Gneiting和Raftery,2007),让我(·,·)是对映射函数进行操作的评分指标到标量。评分标准被认为是适当的,如果只有在以下条件下,这种不平等才能保持不变年(x个)=克(x个)无处不在。考虑一下汉语言中使用的严格正确的评分标准等. (2009)、陀和吴(2015)、普拉姆利(2017)和Wong等. (2017)第页,共页哪里μ有些措施结束了吗这是一个严格正确的评分指标,通过某种度量对相对输入进行加权μ此度量应该来自建模者对模型的预期使用。通常的假设是输入空间上的统一度量,但这不是必需的。措施μ假设是固定的,并且独立于数据。 给定评分标准,最佳参数的定义θ是这样的(1)
如果不了解真函数,则无法直接计算此值年即使给出了评分标准。但这种结构确保了校准问题可以用预言机很好地定义。如果校准方案良好,将产生符合条件(1)的值。 定义1
最佳参数集Θ*就是全部θ在里面Θ符合标准(1)。
这组可以是一个单点,但本文考虑的是一般情况。
假设1
在本文的其余部分中,假设年(x个)以及(f)θ(x个)被限定在和Θ和是有限的且非零的。
3个保守集和一致集
本文讨论了最优参数的置信集。应设计校准问题的置信集,以提供足够的覆盖范围。
定义2
置信集S公司这是基于数据有足够的保险范围,如果,无论采用何种方法x个1, …,x个n个只要这一代不依赖于e(电子)1, …,e(电子)n个.
一个关键点是覆盖范围适用于x个1, …,x个n个重要的是,具有足够覆盖范围的集合可以与有限的样本量结合使用n个。当使用实验设计来确定x个1, …,x个n个决定性地。足够的保险范围还包括以下情况x个1, …,x个n个在用户控制之外生成,即当x个1, …,x个n个不匹配μ,定义最佳参数的权重度量。
本节描述了三组数据以及它们是否拥有足够的保密属性:
3.1指甲套纳秒
我们无法访问我(年,(f)θ)没有甲骨文来提供自然的功能年经验近似值为因此,在没有预言机的情况下,一组合理的参数可以定义为为了提供一些历史背景,Beale(1960)关于非线性置信集的工作中提到了这种朴素集。比尔简短地批评了片场,指出它可能是空的。通过选择足够小的α,前提是模型准确。 如果年(x个)=(f)θ(x个)随时随地显然,naive集具有足够的覆盖范围。然而,如果模型不精确,朴素集通常覆盖不足。这是因为第二项往往比上一项大。 提议1
假设,无论如何,有一些输入x个我在数据中年(x个我) ≠(f)θ(x个我). 同时假设e(电子)1, …,e(电子)n个具有零均值和方差的独立正态分布σ2。那么NS没有足够的覆盖范围。
因此,我们得出结论,需要新的方法来实现足够的覆盖特性。
3.2建立一套合理的差异
构建接下来的两组需要创建一个功能空间D类包含年(·) −(f)θ(·)适用于所有人.如果Θ*只包含一个标记为,然后被称为文献中的差异。因为在Θ*如本工作中所定义的,这些可以被视为差异。创建D类在精神上类似于按照肯尼迪和奥哈根的建议对差异进行事先分配(2001).
本文构建了D类通过限制差异的标准值小于某个值η由用户指定。这个规范应该传达的不仅仅是函数的大小。具有此属性的一组范数是与再生核希尔伯特空间相关联的范数。有时称为粗糙度惩罚(Wahba,1978),我们指的是Wendland(2004)Scholkopf和Smola(2001)有关再生内核希尔伯特空间的详细背景。
给定一个连续的正定核函数,考虑再生核Hilbert空间中的以下稠密空间:再生核希尔伯特空间配备了一个标记为“〈·,·〉”的内积,这样,对于G公司,和然后(2)
这种内积具有再生性,其中(3)
该空间产生的规范为‖克‖ = √〈克,克〉. 该标准反映了差异相对于其所选表示的大小。鉴于此描述,D类可以由定义(4)
哪里η>0是控制集合大小的常量。 当输入空间为欧几里得时,一个公共核是幂指数。Santner提供其他选项等. (2003)尽管核在计算机实验文献中通常被称为协方差函数。内核的选择反映了正在考虑的差异的整体结构和平滑度。
假设2
在本文的其余部分中,假设和晚餐θ‖年−(f)θ‖是有限的。同时假设κ是连续的,使我们能够在一些证明中使用默瑟定理。还假设规范是这样的‖克‖=0表示克(x个)=0几乎在所有地方μ.
3.3保守集
要构造一个具有足够覆盖率的集合,需要承认和估计模型差异。这是肯尼迪和奥哈根这篇有影响力的论文背后的关键思想(2001)以及第节中提到的后续参考1.
考虑一下这个集合其中分数函数的经验近似值与naive集和D类由定义(4)给出。因为这个集合相对于差异是保守的,所以它被称为保守集。 定理1
假设为所有人那么CS有足够的覆盖范围。
证明
条件产生结果来自于q个n个(α). 这适用于所有人x个1, …,x个n个.□
选择D类表示构造保守集最困难的部分。保守集有足够的覆盖范围,如果D类足够大以容纳差异函数年−(f)θ以获得最佳参数。但是一个D类太大会导致经验分数一致为0;因此,所有可能的参数都将位于保守集。用一个小集合和一个大集合来平衡问题应该被视为等同于在贝叶斯方法中构建差异先验的困难(Kennedy和O'Hagan,2001)或者定义一个再生核希尔伯特空间,其中包含大样本频率方法中的差异(Tuo和Wu,2015). 选择η基于数据的详细讨论见第节7在那之前,想象一下它是由用户对潜在差异的理解来修复的。
3.4保守一致集
虽然保守集有足够的覆盖范围,但人们自然会怀疑保守集的大小是否尽可能小。当然,如果我们D类足够小,只能容纳年−(f)θ为所有人,则解决了尺寸问题。但用户无权访问年或Θ*通常情况下D类应该做得相当大,以确保足够的覆盖范围。问题是D类通常,在保守集中包含次优参数。这是因为次优参数的差异可以通过D类所以保守集不是最小的集。本小节演示了一个始终包含在保守集中的集,有时它比保守集小得多。
本文的主要创新之处在于对差异使用了一个新的约束,消除了保守集的潜在问题,同时又不影响集的覆盖范围。具体来说,考虑差异的空间其动机是,我们应该只考虑不会破坏最优性的差异θ这可以被认为是将响应空间划分为对应于单个区域的区域θ此外,如果Θ是欧几里得子空间,并且模型相对于θ,在第节中讨论了该空间的正交性描述符4. 通过使用合理差异的交集和这个新的约束,所提出的保守一致集被描述为这为保守集的潜在问题提供了直观的解决方案。从形式上讲,我们仍然需要证明这个集合有足够的覆盖范围。 定理2
假设为所有人那么CCS有足够的覆盖范围。
证明
使用与定理1相同的概念,我们只需要证明意味着.优化Θ意味着我(年,(f)θ)⩽我(年,(f)t吨)为所有人t吨∈Θ因此
3.5比较集合
通过包含对这些集合的排序遵循它们各自的结构。
提议2
NS CCS CS公司。
这些集合背后的思想适用于不使用参数空间或输入空间的结构的情况。图。1用一个简单的二维示例说明集合的构造。真实响应位于(0.3,0.9),四个参数生成响应(0.1,0.1),(0.5,0.5)和(0.9,0.9。观测值位于每个输入处,值分别为0.2和0.8,置信区的半径为0.25。这套D类是一个以零为中心,半径为0.25的球。在进行了各自的优化后,可以发现在朴素集中没有选择任何参数,保守集包括所有参数,而保守一致集只包括最佳参数。
4解决优化问题
决定参数的值是否θ在CS或CCS中取决于计算能力和本节通过将这些优化转化为有限凸程序来讨论计算。这意味着存在有限数量的决策变量和有限数量的约束。一旦作为一个有限的凸程序放置,许多数值方法都可以用来找到各自的最小值(Wright和Nocedal,1999). 与CS相关的优化可以通过内核技巧(Schölkopf等.,2001). 这有时被称为表示定理。本节结果的所有证明见附录A类.
提案3
等于和k个ij公司是ij公司的第个元素哪里
类似地,如果参数空间是有限的,可以使用相同的技巧将与CCS相关的优化转化为有限凸问题。
提案4
如果Θ= {1, …,米},等于(5)
哪里k个ij公司是ij公司的第个元素(n个+米×n个+米)-大小矩阵具有K(K)θ一个n个×米矩阵,带有ij公司第个元素和K(K)θθ一个米×米矩阵,带有ij公司第个元素.
当中有无穷多个元素时Θ,评估是否θ在CCS中,需要解决具有无限数量约束和无限数量决策变量的优化问题。我们将把目标降低到寻找能为优化问题提供合理近似值的好程序。这些近似值将产生仍具有覆盖范围的集合,并且在更多假设下,将在第节中赋予一致性5.
一种近似方法涉及使用有限数量的约束,这在半有限规划中通常被称为离散化方法(Hettich和Kortanek,1993).
定理3
选择米元素来自Θ与问题(5)一起使用。定义如果为所有人那么,对所有人来说
另一种近似是利用可微性的局部方法。假设参数空间假设计算机模型对于参数几乎处处都是可微的μ。将此渐变称为θ评估时间:x个∇(f)θ(x个). 如果Θ那么,对所有人来说都是开放的,其中,左边的项是梯度0表示向量0s。这可以重写利用这个约束,优化问题可以写成(6)
哪里是ij公司的第个元素(n个×n个)-大小矩阵具有q个θ一第页×n个矩阵,带有我第行和虽然这是一个凸问题,但必须再次解决充分覆盖的问题。 定理4
假设Θ是的一个开放子集.还假设(f)θ(x个)存在且边界跨越θ和.定义如果为所有人那么,对所有人来说
这两个近似值的交集CCSDCCSL仍然具有置信度,因此优于每个单独的集合。这借用了前者的全球担保和后者的本地担保。当CCS用于数值设置时,此方法用于所有示例。与CCSL相关的程序仅关注由此产生的优化问题的复杂性米与CCSD相关的计划相比,决策变量和约束更少。减少约束和决策变量对于减少凸规划的计算成本非常重要。另一个重要的计算问题是矩阵的反演n个+米对于有限方法和n个对于本地方法。然而,局部方法具有区分计算机模型的潜在计算繁琐步骤。不同的问题可能会有不同的优化和梯度评估相对计算成本;因此,这两种方法之间可能没有通用的最佳计算选项。
5一致性
本节证明了所提出的保守一致集确实具有所需的一致性属性。本文中,如果随着观测次数的增加,次优参数的概率,θ∉Θ*,在集合中趋向于0。我们将证明这一性质适用于CCS以及离散和局部近似CCSD和CCSL。该结果不适用于CS。因此,在NS、CS和CCS中,只有CCS具有覆盖性和一致性属性。
该结果将在两个假设下显示。
假设3
随机变量e(电子)1,e(电子)2,…是相同分布的独立随机变量,平均值为0,方差为σ2.
假设4
数据x个1,x个2、…是从分配中独立提取的ν还有一些M(M)这样的话μ(A类)/ν(A类) <M(M)为所有人.
抽样计划假设确保最终对所有地方进行抽样。抽样计划假设可以替换为确定性抽样计划的一些更复杂的约束。这些条件比拓和吴考虑的条件宽松得多(2015)和Wong等. (2017)但与这些作品中的效率主张相比,一致性是一个较弱的主张。
一致性参数基于附录中所示的以下下限B类.
引理1
在假设3和4下,让是中的某个元素Θ*.然后发生概率趋于1n个→ ∞ 为所有人θ∈Θ.
因此,就评分指标而言,次优参数的惩罚反映在评估标准中。引理1,与产生一致性结果。 定理5
在假设3和4下,让CCSn个是一个保守且一致的集合n个数据点。进一步假设Θ*不为空。如果,然后
这个一致性论证直接延续到第节中介绍的有限样本近似4在附加条件下。
推论1
在与定理5相同的假设下,让CCSDn个是用建立的保守一致集的离散参数近似值n个数据点。进一步假设Θ*包含在米用于有限近似的参数。如果,然后
为了将这些论点扩展到CCS的局部近似,需要对问题的结构进行更多假设。考虑到生成CCSL的约束仅取决于θ,我们需要一个将一阶最优性转换为全局最优性的假设。这个条件就是凸性。
定理6
在与定理5相同的假设下,假设Θ是的开放子集和+(f)θ(x个)存在且边界跨越Θ和假设偏导数+我(f)θ是这样的对于我= 1, …,第页.让CCSLn个是保守一致集的局部逼近n个数据点。进一步说,对于所有这些0⩽w个⩽1,如果在中Θ,然后如果,然后
定理6的证明也在附录中B类.
比较这些结果,如果我们可以直接计算保守一致集,那么这个集具有三个条件中最宽松的条件来产生一致性。如果在Θ,那么我们要么需要使用具有足够元素的CCS有限近似来捕获最佳参数,要么需要使用CCS的局部近似并假设评分度量的凸性。
6与其他方法的联系和对比
现在,我们将建议的保守一致集与一般情况下的现有备选方案进行比较。对于本节,我们假设我们的e(电子)我s是独立的且具有方差的同正态分布σ2为了与其他方法进行比较,我们根据参数评估函数重新定义了所提出的集合R(右).对于保守一致集,然后将生成的置信集定义为本节的其余部分将通过改变R(右)(·)四个备选方案之一。对于所有可比方法,如果参数评估函数位于θ小于q个n个(α)/n个. 6.1非线性最小二乘法
实际上,任何人都很少在实践中使用天真的集合,因为即使是稍微不准确的模型,它也常常是空的(参见命题1)。一种更流行的替代方法是使用最小化平均平方误差,而不是σ2,即。显然,在计算这与Box和Coutie中的经典建议类似(1956)和比尔(1960),至少是渐近的。然后,可以通过使用这个新的,即。(7)
然而,在温和的数据生成假设下,该集合仍然无法保持足够的覆盖范围。 提议5
假设e(电子)1, …,e(电子)n个具有零均值和方差的独立正态分布σ2.让x个1, …,x个n个独立于分布生成ν.如果但是有一些t吨∈Θ这样的话然后作为n个→∞。
因此,尽管这是一个具有传奇历史的明显替代方案,但这并不能解决本文中讨论的问题,因为在我们的假设下,它无法提供足够的覆盖范围。
6.2差异的随机模型
克雷格等研究等. (1997)还有肯尼迪和奥哈根(2001)介绍将差异视为随机对象的想法。如果差异是随机对象,则差异Y(Y)我−(f)θ(x个我)来自两个不同的来源:随机e(电子)我以及随机模型差异项。克雷格等. (1997)还有肯尼迪和奥哈根(2001)注意到,不应将差异建模为独立且相同分布的误差。考虑使用保守集η设置为√{q个n个(α)/σ2},即。该参数评估函数具有一些概率保证。 提案6
这么说吧年(·) −(f)θ(·)是平均值为0且协方差函数介于年(x个) −(f)θ(x个)以及年(x个′)负极(f)θ(x个′)是κ(x个,x个′); 然后R(右)2(θ) ⩽q个n个(α)/n个概率至少为1−2α.
看起来,对差异建模的统计方法最接近保守集。然而,Craig的历史匹配和后验分析等. (1997)还有肯尼迪和奥哈根(2001)这意味着这个类比可能并不总是直接适用。但是,如果我们接受保守集太大的论点,我们可以把这个论点推广到其他方法。
非线性广义最小二乘也有一些联系;以塔兰托拉和瓦莱特为例(1982). 然而,这种文献流通常不会在模型错误的前提下运行;因此,本文将不会直接与这些想法和随后的参考文献进行比较。但反对保守集的论据也可以扩展到这些类型的方法。
6.3半参数效率参数
陀和吴(2015)介绍了一种称为L(左)2-校准并证明估计值是半参数有效的(参见Bickel等. (1998)). 半参数效率意味着我们在大样本中构建的置信集可以忽略差异中的所有不确定性。我们现在给出了一个使用这个概念的置信集,即使它与拓和吴中的置信集并不完全相同(2015),以绘制连接。这么说吧是真实函数的函数估计我们估计的是Θ*我们可以想象是一个很好的估计,其中是中的单个元素Θ*。那么,半参数效率参数意味着我们可以使用很明显,与提议的CCS相比,该集合是一个更具攻击性的置信集。由L(左)2忽略学习差异所导致的不确定性。由于用少量样本学习函数可能很困难,因此与CCS相比,该集合通常更具攻击性,因此在大多数校准问题中没有提供足够的覆盖范围。 6.4加权最小二乘法
这么说吧x个1, …,x个n个根据一些已知的测量方法进行独立采样ν(·). 在精神上类似于用重要性抽样寻找无偏估计量(例如,见Owen和Zhou(2000)和中的参考),我们可以使用式中,ρμ/∂ν是的Radon–Nikodym导数μ关于ν前导项仅是调整后方差的调整,如等式中所示(7).王等. (2017)使用了一个与半参数引导在精神上类似的标准。他们的理论论点在半参数效率的范围内运作;因此类似的问题L(左)2-校准可以出现在小样本中。然而,这种方法和我们的方法之间有更大的区别。王的方法等. (2017)需要所有x个我s是独立的,并通过一些已知分布随机生成。相比之下,即使我们正在运行一个设计的实验x个我s不是随机的,或者可能是x个我s不在用户的控制范围内。 7指定η
仔细选择κ(·,·)和η对成功实施所建议的置信集至关重要。
与贝叶斯范式相比,本文中隐含的结果不需要使用一些最佳的κ; 任何κ只要‖就应该工作年−(f)θ‖对所有人来说都是有限的。在不损害方法的概念基础的情况下,可以对函数进行温和的调整。大幅调整κ-功能基于观测数据,因为它决定了观测位置和未观测位置的差异之间的关系。
选择η,是一个单一维度,在校准开始时通常未知,这代表了调整或估计的合理选择。在查看特定估计之前,我们首先检查估计应该具有的属性。假设我们使用了一个值这取决于第一个n个观察。的任何值不偏离∞将保持一致性。如果为所有人,则保持置信属性,不必太担心。如果低估,下一个结果将解释低估的程度,并保持信心。这一结果表明,找到一些估计值就足够了这就像一个很好的统计估计。证据见附录C类.
定理7
假设随机变量e(电子)1,e(电子)2,…是相同分布的独立随机变量,平均值为0是有限的。让CCSn个是保守和一致的集合n个数据点使用.面向所有人,如果,对于所有常量M(M)> 0,那么,为了所有人ε>0,有一些足够大的n个这样的话
我们现在对η基于一般设置中的数据。考虑有一个函数δ(·) =年(·) −(f)θ(·)在我们的再生核Hilbert空间中G公司有标准‖δ‖. 我们希望使用观测值Δ1=δ(x个1) +e(电子)1, …, Δn个=δ(x个n个) +e(电子)n个估计基础函数的范数e(电子)1, …,e(电子)n个是均值为0且方差为0的独立随机变量σ2.估算η与平滑数据的思想密切相关,平滑数据有着悠久而著名的历史(Wahba,1990). 令人惊讶的是,我们还没有发现现有的统计工具来估计这种一般情况下的标准值。预言家的估计给出了已知的最小范数δ(x个1), …,δ(x个n个). 显而易见的估计有非常大的差异。一般来说,我们建议通过使用δ(x个我),,屈服(8)
具体来说,我们考虑使用n个×n个近似矩阵A类n个(λ)这取决于平滑参数λ,A类n个(λ)通常是为了减少偏差而设计的。通过使用反向三角形不等式并执行期望,我们的估计量的均方误差是有界的。 提案7
让我n个成为n个×n个单位矩阵和定义然后
虽然我们想设置λ将S公司n个(λ),此值未知,因为它取决于δ(x个1)…,δ(x个n个). 我们建议使用以下估算S公司(λ):这是一个无偏见的估计,.找到这种类型的均方误差上界的无偏估计的过程与一般的收缩研究有关,但这种离题不在本文的范围内(例如,见Xie等. (2012)). 总之,我们建议选择一个值λn个通过最小化,然后使用它来找到结果(8)中列出的估计量。对于每个θ经过调查,这个过程可以重复。剩下的就是指定A类n个(λ). 我们发现了与传统的平滑器相比性能更好。如果我们想为用户提供一些保险,将此估计值加倍是确保符合定理7的合理方法。所有的例子都采取了这一行动。
我们现在讨论保证大样本覆盖率所需的理论论点。
提案8
如果,作为n个变大,ηn个→η概率和序列这样的话,然后根据结果(8)使用收敛到η概率。
根据本文所考虑的一般性,我们无法对这个结果的条件提供正式的证明。在实践中,我们发现改变估算方法对η相对较小,但上述方法效果良好。
8模拟比较
我们现在将使用模拟研究来说明所提方法相对于某些现有和现代方法的一些优点。这并不是一项详尽的研究,而是在已知真实模型差异的情况下,强调其他方法的潜在缺点。试验台将是文献中的两个模型-系统对,输入域为[0,1]。由Tuo和Wu提供(2015),第一个模型-系统对是(9)
第二个,来自Plumlee(2017),是(10)
选择了七种90%置信集的方法进行比较:,第节中描述的集合6.1; KO,肯尼迪和奥哈根的90%可信数据集(2001)具有相关结构κ(·, ·); 90%的置信度L(左)2-Tuo和Wu的校准(2015); WSL,Wong 90%的自信心等. (2017); OGP,Kennedy和O'Hagan的正交高斯过程修正(2001)那是在普卢姆里描述的(2017); oracle CCS,最佳η天赋给我们的;CCS、,η按照第节所述选择7. 考虑了两种观测方案。第一个可以描述为数据贫乏:六个观测值出现在{0、0.1、0.2、0.4、0.6、0.7}处。第二个可以被描述为数据丰富:12个观测值发生在0到1之间等间距的点上。我们将使用内核函数每个Y(Y)我是具有平均值的独立正态分布随机变量年(x个我)方差为0.22。我们在θ第一个是覆盖概率,目标是至少达到90%。第二个是间隔的宽度,其目标是在满足覆盖概率目标的同时尽可能小。 表中描述了1000次重复后的结果1很明显,许多其他方法在小样本量下没有足够的覆盖率,导致覆盖率不足。几乎覆盖所有案例的唯一方法是CCS,最坏情况下低于理想值5%。鉴于充分的覆盖率并不是上述任何一种方法的目标,这并不奇怪。虽然我们预计KO集会模仿保守集的属性,即太大但有覆盖范围,但它的覆盖范围却出人意料地差。这可能是由于具有未知(和积分)方差项的后验函数的复杂性。另一个有趣的比较是OGP集合和提议的CCS之间的比较。虽然表达式(9)中的模型-系统对的覆盖率看起来不错,但OGP集的宽度要大得多。这是因为在非凸的情况下,正交性是参数优化的必要条件,但不是充分条件我(年,(f)θ). 因为表达式(9)意味着我(年,(f)θ)是非凸的,OGP方法产生的间隔与CCS相比太大。在本例中,相对于CCS而言,也很大,尤其是在数据较差的情况下。一般来说,CCS和预言版CCS之间似乎没有太大损失。
方法. | 覆盖频率. | 间隔的宽度. |
---|
. | 年,(f)θ式(9)中. | 年,(f)θ式(10)中. | 年,(f)θ式(9)中. | 年,(f)θ式(10)中. |
---|
. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. |
---|
| 1 | 1 | 0.561 | 1 | 1.090 | 0.169 | 1.038 | 0.997 |
击倒对手 | 0.109 | 0 | 0.452 | 0.387 | 0.401 | 0.140 | 0.769 | 0.594 |
L(左)2 | 0.063 | 0.779 | 0.728 | 0.878 | 0.092 | 0.021 | 0.632 | 0.282 |
WSL公司 | 0.153 | 0.673 | 0.043 | 0.589 | 0.031 | 0.023 | 0.303 | 0.198 |
OGP公司 | 0.998 | 0.967 | 0.387 | 0.951 | 1.067 | 0.741 | 0.723 | 0.310 |
Oracle CCS | 0.998 | 0.992 | 0.893 | 0.989 | 0.136 | 0.058 | 2.073 | 0.672 |
CCS系统 | 0.997 | 0.992 | 0.849 | 0.997 | 0.283 | 0.080 | 2.285 | 0.740 |
方法. | 覆盖频率. | 间隔的宽度. |
---|
. | 年,(f)θ式(9)中. | 年,(f)θ式(10)中. | 年,(f)θ式(9)中. | 年,(f)θ式(10)中. |
---|
. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. |
---|
| 1 | 1 | 0.561 | 1 | 1.090 | 0.169 | 1.038 | 0.997 |
击倒对手 | 0.109 | 0 | 0.452 | 0.387 | 0.401 | 0.140 | 0.769 | 0.594 |
L(左)2 | 0.063 | 0.779 | 0.728 | 0.878 | 0.092 | 0.021 | 0.632 | 0.282 |
WSL公司 | 0.153 | 0.673 | 0.043 | 0.589 | 0.031 | 0.023 | 0.303 | 0.198 |
OGP公司 | 0.998 | 0.967 | 0.387 | 0.951 | 1.067 | 0.741 | 0.723 | 0.310 |
Oracle CCS | 0.998 | 0.992 | 0.893 | 0.989 | 0.136 | 0.058 | 2.073 | 0.672 |
CCS系统 | 0.997 | 0.992 | 0.849 | 0.997 | 0.283 | 0.080 | 2.285 | 0.740 |
方法. | 覆盖频率. | 间隔的宽度. |
---|
. | 年,(f)θ式(9)中. | 年,(f)θ式(10)中. | 年,(f)θ在方程(9)中. | 年,(f)θ式(10)中. |
---|
. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. |
---|
| 1 | 1 | 0.561 | 1 | 1.090 | 0.169 | 1.038 | 0.997 |
击倒对手 | 0.109 | 0 | 0.452 | 0.387 | 0.401 | 0.140 | 0.769 | 0.594 |
L(左)2 | 0.063 | 0.779 | 0.728 | 0.878 | 0.092 | 0.021 | 0.632 | 0.282 |
WSL公司 | 0.153 | 0.673 | 0.043 | 0.589 | 0.031 | 0.023 | 0.303 | 0.198 |
OGP公司 | 0.998 | 0.967 | 0.387 | 0.951 | 1.067 | 0.741 | 0.723 | 0.310 |
Oracle CCS | 0.998 | 0.992 | 0.893 | 0.989 | 0.136 | 0.058 | 2.073 | 0.672 |
CCS系统 | 0.997 | 0.992 | 0.849 | 0.997 | 0.283 | 0.080 | 2.285 | 0.740 |
方法. | 覆盖频率. | 间隔的宽度. |
---|
. | 年,(f)θ在方程(9)中. | 年,(f)θ式(10)中. | 年,(f)θ式(9)中. | 年,(f)θ在方程(10)中. |
---|
. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. | 可怜的. | 富有. |
---|
| 1 | 1 | 0.561 | 1 | 1.090 | 0.169 | 1.038 | 0.997 |
击倒对手 | 0.109 | 0 | 0.452 | 0.387 | 0.401 | 0.140 | 0.769 | 0.594 |
L(左)2 | 0.063 | 0.779 | 0.728 | 0.878 | 0.092 | 0.021 | 0.632 | 0.282 |
WSL公司 | 0.153 | 0.673 | 0.043 | 0.589 | 0.031 | 0.023 | 0.303 | 0.198 |
OGP公司 | 0.998 | 0.967 | 0.387 | 0.951 | 1.067 | 0.741 | 0.723 | 0.310 |
Oracle CCS | 0.998 | 0.992 | 0.893 | 0.989 | 0.136 | 0.058 | 2.073 | 0.672 |
CCS系统 | 0.997 | 0.992 | 0.849 | 0.997 | 0.283 | 0.080 | 2.285 | 0.740 |
9个示例
本节将讨论两个真实数据示例,其中真实参数未知,但本文介绍的集合仍然可以构造和比较。这些例子旨在证明实际差异的存在。
9.1 Box和Coutie的示例
由于校准问题由来已久,请考虑Box和Coutie的工作(1956). 他们介绍了使用计算机执行的数值算法进行统计校准的首批方法之一和实现。他们的校准问题包括学习遵循一阶微分方程的连续反应的行为和具有初始条件M(M)1(0)=100和M(M)2(0) = 0. 目标是校准结果M(M)2基于在时间点10、20、40、80、160和320的观察,进行两次复制。我们考虑一个可能的时间点区域[0400]。假设观测值为正态分布。实验中的复制证明σ2接近13,这与Box和Coutie的结论一致。我们让并考虑θ-框中的值[0.8,1.3]×[0.6,1.1]。的价值η通过第节中描述的自动机制进行选择7. 图。2显示了本文讨论的三个集合,以及Box和Coutie提出的集合(1956),可以认为是对该算法是在现代计算机上重新实现的,与Box和Coutie中报告的结果略有不同(1956). 肯尼迪和奥哈根(2001)set似乎意味着最好的模型在120附近有很大的差异,这与所有其他集合不同。这个L(左)2-set似乎对最佳参数的位置过于乐观,因为在200之后只调查了一个时间点。关键的比较是Box和Coutie提出的传统集合与本文提出的集合之间的比较。CCS在某种程度上更为椭圆。通过计算机模型传播参数可以解释形状差异。在我们的观测数据中,输入空间的右半部缺少点,这意味着我们对该区域的最佳行为不太确定。这在CCS中可以看到,其中输入空间右半部的不确定性较大。由于Box和Coutie的集合没有考虑潜在的差异,因此它们的集合在输入空间的右侧非常小。
图2
第9.1节示例:(a)–(d)α选择为0.001、0.01或0.1,最暗的区域表示最大α(第8节讨论了建立置信区间方法的一些细节);(e) –(h)从实际系统收集的数据()在逐点间隔旁边(f)θ(x个)何时θ在各自的置信集中;(a) (e)Box and Coutie;(b) (f)肯尼迪和奥哈根;(c) ,(g)L(左)2; (d) ,(h)CCS
虽然计算速度在很大程度上取决于实现,但CCS和Kennedy和O'Hagan集合的构建时间大致相同,而L(左)2-集合和Box and Coutie集合花费的时间大约少了一个数量级。
9.2碰撞试验示例
一位研究人员正在研究车辆设计与基于头部运动的损伤标准之间的关系。正在考虑四个设计变量:前三个二进制,第四个有五个级别,总共有40个变量组合。通过撞击九辆测试车进行了昂贵的实验,并重复了一组条件,因此尝试了八种独特的组合。然后,研究人员希望通过使用这八种尝试组合的数据来研究所有40种可能的组合。用未知参数建立了碰撞事件的有限元近似。
最初的用户担心,在通过最小化最小二乘法为他们的计算机模型找到最佳参数后()关于平方误差最小值的残差图出现了问题;图。三关于第一个设计变量,问题尤其明显。
总共有49个参数组合被确定为合理。因此,参数空间被视为这个有限离散空间。用户很有信心,差异是缓慢变化的,所以他们很容易使用内核其中所有变量都被缩放为单位立方体。然后,我们的任务是从这49个参数中选择最能代表所有输入响应的参数。因为没有衍生信息,我们不能使用L(左)2-或OGP方法。但我们将使用WSL方法与CCS进行比较。 表中给出了每种方法选择的参数数量2。鉴于目前的数据,KO置信集很难信任。WSL方法似乎鼓励人们对单个参数抱有极端的信心,对此应该持怀疑态度。我们发现CCS是一个更保守的选择α-级别。
方法. | 以下α值的结果:. |
---|
. | 0.0001. | 0.001. | 0.01. | 0.1. |
---|
| 5 | 4 | 4 | 2 |
击倒对手 | 20 | 13 | 5 | 2 |
WSL公司 | 1 | 1 | 1 | 1 |
CCS系统 | 20 | 18 | 17 | 10 |
方法. | 以下α值的结果:. |
---|
. | 0.0001. | 0.001. | 0.01. | 0.1. |
---|
| 5 | 4 | 4 | 2 |
击倒对手 | 20 | 13 | 5 | 2 |
WSL公司 | 1 | 1 | 1 | 1 |
CCS系统 | 20 | 18 | 17 | 10 |
方法. | 以下α值的结果:. |
---|
. | 0.0001. | 0.001. | 0.01. | 0.1. |
---|
| 5 | 4 | 4 | 2 |
击倒对手 | 20 | 13 | 5 | 2 |
WSL公司 | 1 | 1 | 1 | 1 |
CCS系统 | 20 | 18 | 17 | 10 |
方法. | 以下α值的结果:. |
---|
. | 0.0001. | 0.001. | 0.01. | 0.1. |
---|
| 5 | 4 | 4 | 2 |
击倒对手 | 20 | 13 | 5 | 2 |
WSL公司 | 1 | 1 | 1 | 1 |
CCS系统 | 20 | 18 | 17 | 10 |
创建置信集的另一个尝试是选择线性核它是一个半正定核函数。该核说明了线性差异,因此它可以处理图中的残差图。三.然后我们可以简单地选择η相当大,比如104。在α=0.01级,该组选择了9个参数:比我们基线CCS中的18个参数少9个。但这只说明了线性差异,所以和CCS相比,这可能是一个不太稳健的集合。 总的来说,CCSα=0.01用于形成包含参数不确定性的模型集合。在车辆设计决策过程中使用了该集成。就计算速度而言,CCS计算如下α=在作者的标准台式计算机上大约四分之一秒后0.01。
10结束语
这项工作提供了一个框架,用于生成包含至少有一定概率的最佳校准参数的集合。结果适用于小样本和大样本。此外,这些集合被证明是一致的。
贝叶斯校准的其他一些主要思想可以借鉴并放在这个框架中等.,2007年a; 希格顿等.,2008),可以将函数变量作为输入,并直接使用本工作中讨论的方法。或者,建立一组基函数来表示函数响应可能会证明是富有成效的。
完全替代现有贝叶斯和大样本频率计校准方法的方法包括从计算机实验中模拟计算机模型,并考虑潜在的模拟误差(桑特纳等.,2003). 理论上,这可以通过将计算机模型放置在适当的函数空间中,并修改优化以包括差异和计算机模型作为决策变量来实现。在这种调整下计算集合的计算机制是一个公开的问题。章节中的技巧4没有明显的类似物。也许一种更容易计算的方法需要重新采样(Wong等.,2017). 此外,在存在仿真错误的情况下建立一致性似乎超出了用于在没有仿真错误的条件下建立一致的工具。因此,除了计算问题外,还存在仿真误差的理论问题。
本文的想法是,用户希望仅通过参数调整来改进计算机模型。本文没有明确探讨差异修正。然而,可以利用本文中的结构来构建一个包含1−α对响应有足够的信心x个0,年(x个0). 一个例子是,如果我们定义区域则置信区间为这些调整后的置信区间将缺乏计算机模型的显著特征,但对于想要具有足够置信特性的区间的用户来说,它们可能是感兴趣的。我们将此作为未来研究的潜在主题。 致谢
作者衷心感谢美国国家科学基金会(National Science Foundation)奖(1833195)和伊萨克牛顿研究所(Issac Newton Institute)在本书制作过程中给予的支持。作者还感谢丹·阿普利(Dan Apley)、巴里·尼尔森(Barry Nelson)、安东尼·奥哈根(Anthony O’Hagan)、J.P.戈斯林(J.P.Gosling)、朱迪·,副编辑和联合编辑对本研究的有益意见和想法。
工具书类
附录A第4节中的结果证明
A.1命题证明3
每个元素d日在再生核中,希尔伯特空间可以分解为对一些人来说v(v)(·)也在再生核Hilbert空间中,但与第一项正交。结合内核的技术假设,这意味着v(v)(x个我)全部=0我= 1, …,n个.我们有因此设置v(v)=0使可行区域最大化,并且不影响目标函数。此外由公式中“‖·‖”的定义给出的定理中的约束条件(2). A.2命题证明4
每个元素d日在再生核中,希尔伯特空间可以分解为哪里v(v)与前两部分正交。这意味着v(v)(x个我)全部=0我= 1, …,n个。这也意味着因此,通过方程式(3)利用Fubini定理的有界性κ和(f)θ,因此设置v(v)=0使可行域最大化,不影响目标函数或由参数生成的约束。与命题3的证明一样,二次约束只是对规范的重述。 A.3定理证明3
A.4定理证明4
假设让t吨=θ+白车身我,其中w个是标量,并且b条我是长度第页中带1的向量我第个位置,其他位置为0。自Θ是开放的,对于一些足够小的ε> 0, |w个| ⩽ε意味着t吨∈Θ.出租w个从上面转到0意味着还让w个从下面转到0表示注意到这一点b条1, …,b条第页给出ifd日是这样的然后按照重写命题4的优化问题的步骤,以下优化问题的结果小于, 哪里k个ij公司是ij公司的第个元素(n个+第页×n个+第页)-大小矩阵使用块矩阵分解,上述程序与定理4中的程序等价。得出CCS⊂CCSL和定理2证明了结果。 附录B第5节的证明
为了将新的符号与本文其余部分中的符号分开,将引入几个随机变量.符号→第页表示概率收敛。在不失一般性的情况下,我们认为η= 1.
B.1引理1和定理5的证明
让条件意味着.让和 引理2
引理3
引理4
对于每个,那么,对于所有人来说ε> 0,
B.2引理2的证明
引理2的证明来自于假设3,我们知道,条件是x个1, …,x个n个,是具有平均值0和方差的变量的平均值因此,大数定律给出了结果。
B.3引理3的证明
二次约束上线性函数的最大化(Wright和Nocedal(1999),第16章)给出了 然后我们可以根据其特征值展开重写核,使用特征值λ1,λ2、…和本征函数ψ1(·),ψ2(·), …:或如果(Grimmet和Stirzaker(2001),第7章)。技术假设1暗示了这一点。例如,见Koltchinskii和Ginée(2000)中定理3.1证明的开头。 B.4引理4的证明
结果是通过找到一对随机变量得到的和这样的话哪里概率为和在某些情况下. 在定义的无限多个约束中我(θ),只考虑由:我们也知道让第页=d日+(f)θ−年.放松d日∈我(θ)那就这样了第页符合标准的我们需要使用数据将积分语句与近似值联系起来。为此,请考虑和其中dμ/d日ν是的Radon–Nikodym导数μ关于ν其存在并根据假设4有界。 让和另外定义显然,通过使用条件4。此外,利用引理3的证明中的特征值分解,因此. 利用三角形不等式得出‖d日‖⩽1给出‖第页‖ ⩽ 1+‖年−(f)θ‖,只有当使用2×2矩阵反演公式:因此这意味着让我们已经证明了这一点. 用我们的单一线性约束(Wright和Nocedal)最大化二次目标(1999),第16章)给出了其中'(·)+'是积极的部分。因此和注意到假设4给出了dμ(·)/天ν<M(M)完成结果。 B.5定理证明6
让这个结果遵循引理1证明的起始参数。唯一的例外是需要替换为 引理5
证明
让。对于w个足够接近0,这总是在集合中Θ由开放条件决定。评分指标的凸性给出了可以改写为呼叫其中2'表示L(左)2-规范。出租w个→ 0收益率更换具有克在引理4的证明中,给出了结果唯一的麻烦就是确保,这是通过假设来解决的。
附录C定理7的证明
让δ=年−(f)θ和我(θ,η)表示函数空间我(θ)何时η使用。让; 然后我们有通过我们对有界四阶矩的假设e(电子)我第页,在分布上收敛到平均值为0的正态分布,其中n个−1/2{q个n个(α) −σ2}是(1−α)-分位数。我们也有,根据大数定律,概率为0。然后,Slutzky定理给出了结果。
©2019皇家统计学会