×

具有几何结构的数据的统计。2018年1月21日至27日举行的研讨会摘要。 (英语) Zbl 1409.00087号

摘要:几何结构数据的统计是一个活跃而多样的研究课题。应用包括方向数据中的流形空间或对称正定矩阵和一些形状表示。但在某些情况下,更复杂的度量空间(如分层空间)以不同的方式发挥着关键作用。一方面,系统发育树表示为分层数据空间中的点,而分支树(例如静脉)是数据对象,其分层结构至关重要。对于后一种情况,一个重要的工具是持久同源性,这是当前非常活跃的研究领域。随着数据集不仅变得越来越大而且越来越复杂,在处理非欧几里德空间或具有非平凡几何结构的数据对象上的数据时,对理论和方法进步的需求也越来越大。最近已经取得了一些基本成果,并且正在开发用于精细化、更具信息性的数据表示的新方法。我们采用了两种互补的方法:一方面开发复杂的新参数来描述数据,如持久同源性,另一方面实现给定参数的简单表示,如降维。流形随机过程理论中的一些基础性工作为这一领域和流形随机分析打开了大门,从而能够对非欧几里德动态数据进行有根据的处理。该领域主要专家在研讨会上展示的结果是数学家之间从统计学、几何学和拓扑学的合作取得的巨大成就,所讨论的开放问题表明需要扩大这一跨学科的努力,这也可能与计算机科学更紧密地联系在一起。

MSC公司:

00亿05 讲座摘要集
00B25型 杂项特定利益的会议记录
62-06 与统计有关的会议记录、会议记录、收集等
62-07 数据分析(统计)(MSC2010)
62华夏 多元分析
53-06 与微分几何有关的论文集、会议集、合集等
55号35 代数拓扑中的其他同调理论
65立方厘米 概率方法,随机微分方程
60D05型 几何概率与随机几何
14T05号 热带几何学(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] H.Edelsbrunner和J.Harer,《持久同调——一项调查》,载于《离散和计算几何调查:二十年后》(2008)·Zbl 1145.55007号
[2] T.Hotz、S.Huckemann、H.Le、J.S.Marron、J.Mattingly、E.Miller、J.Nolen、M.Owen、V.Patrangnaru和S.Skwerer,开放书籍上的Sticky中心极限定理,Ann.Appl。普罗巴伯。23 (2013), 2238-2258. ·Zbl 1293.60006号
[3] T.M.W.Nye、X.Tang、G.Weyenberg和R.Yoshida,主成分分析和树空间Fr’echet平均值的位置,Biometrika 104(2017),901-922·Zbl 07072335号
[4] M.Owen和J.S.Provan,计算树空间测地距离的快速算法,IEEE/ACM Trans。计算。生物信息学。8 (2011), 2-13.
[5] T.Hotz和S.Huckemann,《圆上的内在平均值:唯一性、轨迹和渐近性》,《统计数学研究所年鉴》67(1)(2015),177-193·Zbl 1331.62269号
[6] B.Eltzner和S.Huckemann,流形的Smeary中心极限定理及其在高维球面上的应用,arXiv:1801.06581·Zbl 1428.62210号
[7] 斯蒂芬·哈克曼(Stephan Huckemann)、托马斯·霍茨(Thomas Hotz)和阿克塞尔·蒙克(Axel Munk)。内禀形状分析:黎曼流形模等距李群作用的测地PCA。中国统计局,20(1):1-1002010年1月·Zbl 1180.62087号
[8] Sungkyu Jung、Ian L.Dryden和J.S.Marron。分析主要嵌套球体。Biometrika,99(3):551-5682012年9月·Zbl 1437.62507号
[9] X.Pennec,流形重心子空间分析,发表于数理统计研究所统计年鉴。https://arxiv.org/abs/1607.02833v22017年10月·Zbl 1418.62246号
[10] 斯特凡·索默。流形值数据主成分分析的无穷小概率模型。arXiv:1801.10341[cs,math,stat],2018年1月。arXiv:1801.10341·Zbl 1426.62404号
[11] S.Sommer、A.Arnaudon、L.Kuhnel、S.Joshi。Landmark流形上的桥梁仿真和度量估计。arXiv:1705.10943[cs.CV]
[12] L.Devilliers、S.Allasonnire、A.Trouv和X.Pennec。,计算解剖学中的模板估计:Frchet在顶部和商空间中的平均值不一致。SIAM成像科学杂志,10(3):1139-1169。(2017年)·Zbl 1423.94006号
[13] N.Miolane、S.Holmes、X.Pennec.、。,模板形状计算:纠正渐近偏差。SIAM成像科学杂志,10(2):808-844,(2017)。128Oberwolfach报告3/2018·Zbl 1403.62128号
[14] K.Turner S.Mukherjee D.M.Boyer。造型形状和曲面的持久同源变换。信息与推理:IMA杂志,3,4:310-344,(2014)·Zbl 06840289号
[15] L.Crawford、A.Monod、A.X.Chen、S.Mukherjee、R.Rabad´an。使用拓扑汇总统计进行功能数据分析:平滑欧拉特征变换。arXiv:1611.06818[stat.AP](2017)。
[16] A.Monod,S.Kali´snik,J.´A。帕蒂·诺·加林多,L.克劳福德。持久同调的热带充分统计。arXiv:1709.02647[math.ST](2017)。几何结构数据统计129研讨会:几何结构数据的统计目录J.Steve Marron面向对象数据分析:主要嵌套子流形。131 Sarang Joshi(与P.Thomas Fletcher联合)流形统计简介。131分层空间数据的Tom M.W.Nye统计。133 Herbert Edelsbrunner(与许多人合作,被称为列出论文的合著者)持久拓扑和随机几何。135 Franz J.Kir´aly几何结构数据科学工作流。136 Roland Kwitt(与C.Hofer、S.Huber、U.Bauer、J.Reininghaus和M.Niethammer联合)带拓扑特征的机器学习。140 Nina Miolane(与Xavier Pennec、Susan Holmes联合)商空间统计。142凯瑟琳·特纳(Katharine Turner)小比例尺与大比例尺特征:比较适当的数据分析方法。145本杰明·埃尔茨纳(与斯蒂芬·赫克曼联合)在更高维度中的虚伪——野兽是真实的。146 Stefan Sommer(与Sarang Joshi联合)流形上的概率推断。149经验平均值中的Xavier-Pennec曲率效应、PCA和子空间标志。151 Anthea Monod(与Sara Kalißsnik、Juan´Angel Pati ~no Galindo和Lorin Crawford联合)持续同源性的热带充分统计。152 Washington Mio(与Haibin Hang和Facundo M´emoli联合)黎曼流形上的协方差张量。153 Marc Arnaudon(与Alice Le Brigant、Marc Arnoudon和Fr´ed´eric Barbaresco联合)流形中曲线之间的最佳匹配。156 130Oberwolfach报告3/2018 Victor M.Panaretos(与Valentina Masarotto和Yoav Zemel联合)协方差算子的Procrustes度量和高斯过程的最佳耦合。161 Theo Sturm曲率的概率概念。162惠灵乐树木数据降维。166埃兹拉·米勒分层空间、飞翼和多参数持久同源性。167 Facundo M´emoli(与Woojin Kim联合)通过持久同调实现动态度量空间的稳定签名。169 Sungkyu Jung(与Armin Schwartzman、David Groisser和Brian Rooks联合)对称正定矩阵的缩放旋转统计。172 Stephen Pizer S-代表及其统计数据。174 Søren Hauberg关于潜在变量模型的几何。177 Do Tran、John Kent、Ruriko Yoshida、Sarang Yoshi、Stefan Anell焦点小组讨论。179几何结构数据的统计学131摘要面向对象的数据分析:主要嵌套子流形J.Steve Marron面向对象的数据分析是对复杂对象群体的统计分析。这在大数据时代尤为重要,因为人们认为复杂数据是一个更大的挑战。具有几何结构的数据对象是当前特别活跃的研究领域。这可以通过许多示例来说明,其中数据对象自然位于流形和具有流形分层的空间中。给出了该区域的概述,并仔细注意角度向量,即自然位于环面空间上的数据对象。Prinicpal嵌套子流形是标记的推广,它为数据可视化提供了新的主成分分析类比。讨论了如何在同时装配过程中对部件进行称重的未决问题。多种统计简介Sarang Joshi(与P.Thomas Fletcher合作)1。在过去的十年中,人们对开发用于分析流形值数据的统计方法产生了浓厚的兴趣。在本次演讲中,我将简要概述我们开发的一些方法[4,3,5]。流形统计的第一个应用之一是对方向数据的分析[10]。在二维方向数据分析中,数据的自然模型空间是单位圆。对于三维定向数据分析,自然数据空间是三个空间中的单位球体。这两个数据空间都是光滑黎曼流形的例子。流形统计的另一个重要应用是分析形状[1],特别是N标记的地标配置模方向和比例的配置。这是Kendall[9]首先研究的,被称为Kendall形状空间。在这次演讲中,我将不深入任何特定应用的细节,而是概述流形值数据统计分析方法的一般概念。2.歧管基本统计2.1。点估计。描述数据点集扩散的两个基本统计概念是样本方差和平均绝对偏差。这两个概念都对抽象度量空间中的点集合有一个自然的定义。平均值周围的样本方差是归一化P平方距离的总和:σ2=N1id2(µ,xi)。平均绝对偏差同样为132Oberwolfach报告3/2018,定义为距离中位数m的平均值:Dmed=N1Pid(m,xi)。平均值的点估计。给定一组作为抽象黎曼流形元素的数据对象,一个自然的统计问题是平均值的点估计。Fr′echet平均值的概念是将“平均值”定义为黎曼流形上的点,作为平均值到所有数据点的测地距离平方和或最小方差估计值的最小值。Fr´echet均值的存在性和唯一性在一般情况下是不可保证的,并且取决于度量的完备性和截面曲率性质[8]。通过使用加权平方测地距离,可以使用此概念定义抽象流形值数据集的插值和过滤概念。我们在正定矩阵空间中有效地使用了这一点来定义DTI数据集的滤波[3]。计算Fr′echet均值的稳定梯度下降算法包括:1)将估计值初始化为数据点之一;2) 计算当前估计值与所有数据点之间的测地线距离,即解测地线边值问题;3)通过向先前计算的测地线初速度的平均值方向射击来更新平均值的估计,即求解测地线初值问题。中位数的点估计。与Fr′echet平均值类似,Fr′echet中值被定义为绝对测地距离或平均绝对偏差之和的最小值,也是Fermat-Weber问题的推广。在[5]中,我们用它定义了解剖图谱的稳健统计估计,并扩展了中值滤波的概念。与上述梯度下降算法类似,可以使用Weiszfeld算法,该算法还需要黎曼度量的完备性。2.2. 回归分析。回归分析是对测量数据和描述性变量之间关系的研究。与大多数统计技术一样,回归分析可以大致分为两类:参数和非参数。对于具有线性向量空间结构的数据,最广泛使用的参数回归方法是线性和多项式回归,其中线性或多项式函数以最小二乘方式拟合观测数据。这些方法是现代数据分析的主要方法。最常见的非参数回归方法是基于核的方法和样条函数平滑方法,它们在回归函数类中提供了很大的灵活性。测地回归和多项式回归。最近,[2,7]各自独立开发了一种测地回归形式,将线性回归的概念推广到黎曼流形。在Hinkle-Fletcher-Joshi[6]中,测地回归被进一步推广到流形值数据的多项式回归。基本构造是将流形值随机变量Y建模为Y=exp(γ(t),ǫ),其中γ(t”)是整数阶黎曼多项式,exp是黎曼指数映射。与向量空间中的多项式类似,几何结构数据的黎曼统计133多项式被定义为具有零k阶协变导数的曲线,即k˙γ(t)˙γ。与正则多项式一样,黎曼多项式完全由t=0的初始条件决定。给定时间ti的观测数据xi∈M,最小方差k阶多项式回归定义为目标函数1XN Nd2(γ(ti),xi),i=1的最小化,其中γ(0)是初始点,vj(0),j=1,··,k是模型的初始条件和参数。使用伴随优化将上述定义的能量函数最小化。参考文献
[17] I.L.Dryden和K.Mardia。统计形状分析。John Wiley&Son,1998年·Zbl 0901.62072号
[18] P.T.弗莱彻。测地回归和黎曼流形上的最小二乘理论。国际计算机视觉杂志,105(2):171-1852013·Zbl 1304.62092号
[19] P.T.Fletcher和S.Joshi。扩散张量数据统计分析的黎曼几何。信号处理,87(2):250-2622007·Zbl 1186.94126号
[20] P.T.Fletcher、C.Lu、S.M.Pizer和S.Joshi。用于形状非线性统计研究的主测地线分析。IEEE医学影像交易,23(8):995-10052004。
[21] P.T.Fletcher、S.Venkatasubramanian和S.Joshi。黎曼流形上的几何中值及其在稳健地图集估计中的应用。神经影像学,45(1):S143-S1522009。
[22] J.Hinkle、P.T.Fletcher和S.Joshi。黎曼流形上回归的内禀多项式。数学成像与视觉杂志,50(1-2):32-522014·Zbl 1310.53038号
[23] Y.Hong、N.Singh、R.Kwitt和M.Niethammer。时间分割测地回归。在医学图像计算和计算机辅助干预国际会议上,第105-112页。施普林格国际出版公司,2014年。
[24] H.卡彻。黎曼质心和柔化子平滑。纯数学和应用数学通讯,30(5):509-5411977·Zbl 0354.57005号
[25] D.G.肯德尔。形状流形、procustean度量和复杂射影空间。《伦敦数学学会公报》,16:81-1211984·Zbl 0579.62100号
[26] K.V.Mardia和P.E.Jupp。方向统计,第494卷。约翰·威利(John Wiley);儿子,2009年。分层空间中数据的统计Tom M.W.Nye传统统计方法通常依赖于矢量空间中的数据。这种假设在线性回归和主成分分析等标准方法中是基本的,但也作为中心极限定理等结果的基础。如果数据位于光滑黎曼流形中,则可以将许多统计方法转移到新的设置中。然而,一些重要的应用程序会产生位于所谓流形层空间中的数据。非正式地,流形-分层空间由一组边界为Mi的流形组成,134Oberwolfach Report 3/2018 i=1,2。,每个都配备了一个公制,以及一套规则,用于在其边界处等距地将歧管粘合在一起。示例包括单形复数、立方复数(其中每个单元都是一个单位欧几里德立方体)、正态空间(其中每个细胞都是Rd≥0的副本)和某些商空间。示例:k-spider由R≥0的k个副本组成,每个副本都配有标准公制,并在共享原点粘合在一起。打开的书是Rd与k-spider的产物。3-spider将具有三片叶子的根叶标记树集参数化,其中每棵树的单个内边缘具有正权重:给定叶标记{a,B,C},有三个分叉标记形状((a,B),(C,a),B)、(B,C),以及没有内边缘的树(a,B,C)对应于蜘蛛的起源。3蜘蛛的每条腿对应不同的分叉形状,每条腿的位置决定了分配给每棵树的内部边的权重。与欧几里德向量空间上的常见性质相比,蜘蛛和开卷书上的估计具有意想不到的性质。来自三蜘蛛分布的样本的Fr’echet平均值(或重心)倾向于“粘住”原点,尽管数据有小扰动,但估计值仍留在原点。这种粘性现象是由于空间的潜在非正曲率造成的,在开卷[2]中已经证明了一个包含粘性的中心极限定理。三蜘蛛是更一般的空间树的特例,称为BilleraHolmes-Vogtmann(BHV)树空间[1]。Billera-Holmes-Vogtmann树空间TN是一个正值空间,它参数化了叶子被双向标记为{1,…,N}的边加权根树。每个正弦波上的欧氏度量都是全局扩展的,BHV树空间是非正弯曲的。Owen和Provan[4]建立了一种计算TN中测地线的O(N4)算法。这些成分可以进行实际统计,例如计算Fr′echet平均值和构造主测地线。最近的工作涉及将主曲面构造为TN[3]的重心子空间。在这一领域仍存在许多挑战。BHV树空间中的分析严重依赖于非正曲率特性,并且对于不具有该特性的空间,缺乏结果:例如,对于未标记树的空间或具有不同叶数的树的空间,所知的要少得多。关于曲率对估计量渐近性影响的一般结果已经开始建立。迄今为止,所研究的大多数估计量都是非参数的,并且基于最小二乘构造。最近的工作已经开始考虑作为树空间上随机过程的转移核构造的参数分布。这为在这些非标准空间上开发统计方法开辟了另一种途径。几何结构数据统计135参考文献
[27] L.J.Billera、S.P.Holmes和K.Vogtmann,系统发育树空间的几何。高级申请。数学。27 (2001), 733-767. ·Zbl 0995.92035号
[28] T.Hotz、S.Huckemann、H.Le、J.S.Marron、J.Mattingly、E.Miller、J.Nolen、M.Owen、V.Patrangnaru和S.Skwerer,开放书籍上的Sticky中心极限定理,Ann.Appl。普罗巴伯。23 (2013), 2238-2258. ·Zbl 1293.60006号
[29] T.M.W.Nye、X.Tang、G.Weyenberg和R.Yoshida,主成分分析和树空间Fr’echet平均值的位置,Biometrika 104(2017),901-922·Zbl 07072335号
[30] M.Owen和J.S.Provan,计算树空间测地距离的快速算法,IEEE/ACM Trans。计算。生物信息学。8 (2011), 2-13. 《持久拓扑与随机几何》(Persistent Topology and Stochastic Geometry)赫伯特·埃德尔斯布伦纳(Herbert Edelsbrunner)(与许多人合作,被称为上市论文的合著者)历史评论。持久同源性的想法是由观察蛋白质结构引起的,每个结构都由α形状家族表示,我们通过让原子球的半径从零到无穷大来获得。使用Ernst M¨ucke[4]实现的工具,并使用Jose Delfinado[2]的Betti数进行增强,我们计算了细胞膜蛋白中的隧道数,发现对于任何半径值,隧道数都不等于1,这是应该的。这引发了一个问题,即同源群序列中是否有足够的信息来从众多混乱的通道中识别出视觉上重要的一个通道。几年后,随着持续同源性的引入,[3]给出了答案。持久同源性的定义。简言之,持久同源性将由内含物(过滤)连接的空间序列映射到由同态连接的同源群序列。例如,我们可以在拓扑空间f:X上有一个函数R、,我们考虑它的子级集的过滤:f−1(-∞,r]。使用系数的字段,对应的同调群序列是由线性映射连接的向量空间。同调类在此序列中诞生并在该序列中消亡,因此我们可以按区间或等效地按二维点记录类,其中我们在水平坐标上记录出生te轴和垂直坐标轴上的死亡。得到的多个点集通常称为过滤的持久性图。稳定性。持久性的一个重要特性是它的稳定性。更准确地说,考虑拓扑空间f,g:X上的两个函数R、 以及它们各自的持久性图。我们将这些图之间的瓶颈距离定义为完美匹配中最长边的长度,在这种匹配中,我们选择将此长度最小化的匹配,如果愿意,我们可以自由地从对角线(出生等于死亡)向任一图添加点。最初在[1]中证明的定理表明,两个图之间的瓶颈距离由f−g的L∞-范数从上方限定。重要的是,除了f和g比较温和外,几乎没有136个Oberwolfach Report 3/2018必需的假设,这意味着它们都只有有限多个同调临界值,并且子级集的同调群具有有限的秩。随机几何。在数据统计分析中使用持久性图回避了噪声期望图的问题,我们将其形式化为平稳泊松点过程X⊆Rd。我们无法从数学上详细回答这个问题,但我们已经能够阐明X的Delaunay镶嵌图中关键和非关键单形的预期数量。为了定义这些概念,让f:D(X)R将Delaunay马赛克的每个单纯形映射到最小球的半径,该最小球的边界球穿过单纯形的顶点,其内部不包含X的任何点。假设X位于一般位置,概率为1,f的两个相邻子级集之间的差是D(X)面格中的一个区间。如果这个区间由一个单纯形组成,那么我们称之为临界单纯形;在大小为2或更大的区间中的所有单形都称为非临界单形。例如,在R2中,每个锐角三角形都是关键的,每个钝角三角形都不是关键的(它与最长的边一起出现)。顺便说一句,预计一半的三角形是锐角的,一半是钝角的。[5]中的随机分析给出了关于任何类型的临界和非临界单纯形的预期数量的精确陈述,并且在给定的阈值下半径最大。对于无限半径,这给出了Delaunay镶嵌中的预期单纯形数,这在[6]中进行了研究。参考文献
[31] D.Cohen-Steiner、H.Edelsbrunner和J.L.Harer,持久图的稳定性,离散计算。地理。37 (2007), 103-120. ·Zbl 1117.54027号
[32] C.J.A.Delfinado和H.Edelsbrunner,三球面上单形复形Betti数的增量算法,计算。辅助Geom。设计12(1995),771-784·Zbl 0873.55007号
[33] H.Edelsbrunner、D.Letscher和A.Zomordian,拓扑持久性和简化,离散计算。地理。28 (2002), 511-533. ·Zbl 1011.68152号
[34] H.Edelsbrunner和E.P.M–ucke,《三维α形状》,ACM Trans。Graphics 13(1994),43-72·Zbl 0806.68107号
[35] H.Edelsbrunner、A.Nikitenko和M.Reitzner,Poisson-Delaunay镶嵌的预期尺寸及其离散Morse函数,高级应用。普罗巴伯。49(2017),即将发布·Zbl 1425.60013号
[36] R.E.Miles,关于齐次平面泊松点过程,数学。Biosci公司。6 (1970), 85-127. 具有几何结构的数据科学工作流Franz J.Kir´aly数据和具有固有几何结构的模型(例如方向、旋转、树、作为观测或模型参数出现的图形)是实际数据分析问题中最常见的一些非标准特征。尽管数据科学市场具有高度的实用性和不断增长的需求,但该领域仍面临可用性危机,这是由于缺乏几何结构数据统计137可用的工具集和编码环境足够灵活,可以简单地指定分析和建模基元,用户可访问的语言。与最终用户的脱节和高市场压力甚至似乎已导致几何数据科学解决方案的商业提供商“倒退”到社区中,利用社区的理论导向心态,为未经验证的数据科学解决方法获取学术信誉。虽然这次演讲的目的是为第一个问题提供解决方案,但由此引发了对第二个问题以及一般科学方法的哲学基础的热烈讨论,因此本扩展摘要将讨论这两个问题。1.第一部分:数据科学问题使用几何数据与实际应用密不可分。从科学的角度来看,方法开发的一个中心问题是哪些方法或建模策略有效。由于没有一种方法对所有问题和所有数据集都有效或有用,因此这始终与建模任务和手头的数据有关。研讨会上经常听到的一个说法是“方法X是一个好主意”,但为了能够做出这种说法,良好的科学实践需要以下几点:•一个定义明确、可测试的科学问题,包括明确的任务陈述、终点和评估的假设。一个常见的错误是陈述一种方法,但不是它应该解决什么问题——但如果不这样做,就没有可测试的声明最先进的研究设计,包括与基线和任务黄金标准的必要比较。一个常见的错误是对不相关数据的研究或不合理或不公平的比较,例如,不是对基线,而是对更差的方法清晰的定量评估,最佳包括主要结论的重要性和影响大小。一个常见的错误是提供效果大小但不重要,反之亦然。读者还可能会发现,牢记循证医学的平行领域也很有帮助,其中会出现诸如“顺势疗法能有效治疗(某种类型的)肠癌吗”或“CT扫描对胸部感染有用吗?”等问题,与“拓扑持久性图在(某种类型的)表格数据的预测建模中有用吗?”或“基于流形的PCA是基因组数据的有用探索工具吗?”等问题并行。详细讨论的一种方法是总结几何数据的方法——在许多情况下,尚不清楚它们应该解决哪个问题:探索性可视化?提取特征?有监督的预测?还是别的什么?-缺乏可检验的假设。例如,在医学上,这类似于不说明治疗应该治愈哪些疾病。138Oberwolfach报告3/2018同样根据循证医学的平行性,观察在伪药物背景下已知的一些现象是如何在(伪)数据科学:•否认科学方法的认识论基础:“任何事情都不能证明,因为一切都可以被证伪”——忽视了证据的可测试性和强度,而不是科学方法的核心(数学?)“证明”试图将举证责任留给批评者而不是支持者:“但你能证明它不起作用吗?”•模糊的说法是关于可能不存在的应用研究:“这被广泛使用,例如医院、物理学家和国家安全局等政府机构!”?让我们离线讨论!)•利益冲突,即科学家直接或间接从公司营销和销售潜在问题的方法中获益,但在声称神奇的财产时没有宣布这是利益冲突。与数据科学革命时代的许多数据科学领域一样,几何数据统计领域目前正经历科学透明度和再现性的危机——需要迅速找到答案,从医学向循证医学的转变中可以学到很多东西,不仅是在技术内容方面,而且在社会和政治动态方面,以及社区标准的有效实施方面。2.第二部分:再现性问题良好数据科学实践的一部分是确保再现性和透明度。在技术方面,这方面的一个一般要求是公开传播和质量代码设计——作为次要的有益效果,这使几何数据问题的最终用户能够轻松使用相关方法,并促进验证研究的建立。虽然“开放科学”在几何数据科学界基本上是共识,但不存在允许轻松使用最流行方法的坚实代码库。该演讲建议联合设计一个工作流接口,该接口实现了一个工作流API,用于:(i)表示和存储可能包括形状、方向、树等结构化和几何数据类型的数据。例如,患者的表格数据集,其中记录了每个患者的人口统计信息、图像和形状集合。(ii)涉及几何学的最重要建模任务。这些模型分为两大类:(A)几何数据模型,包括:(A.1)几何数据的特征变换和特征提取;(A.2)探索性数据分析、无监督学习和几何数据可视化;(A.3)监督预测,其中目标或特征是几何结构数据的统计139几何;(A.4)假设检验,包括关联检验,涉及几何数据类型。(B) 模型结构推理,其中模型具有几何性质,即模型推理在不一定是几何类型的数据上生成一个几何对象,例如树。(iii)元建模任务,如复合建模、流水线、超参数调整和集成。有人认为,构建综合建模界面最自然的方式是通过高阶和复合类型的形式主义,例如在面向对象编程范式中。广泛使用的最新建模工具箱,如mlr[1]和sklearn[2]已经将其非几何方面形式化。一种可能的方法可能包括不同级别的抽象和封装,如一阶和高阶对象:(i)几何数据类型,可能使用内在/外在几何方法。这种抽象与J.S.Marron的“面向对象数据分析”思想相一致。(ii)抽象数据类型的数据容器,包括几何数据类型。这是由xpandas等软件包提供的[4]。(iii)建模策略,包括变压器和预测器。与mlr[1]和sklearn[2]一样,这可以遵循拟合/预测/参数接口设计,为模型结构推理具有几何输出的模型添加“推理”接口。在几何设置中,对象和界面类型可能是自然的。(iv)作为一级建模对象的元建模。这里可能会发生简化和模型类型突变,例如,通过将几何数据类型转换为原始数据类型。(v) 对于概率建模,一阶类型“分布-[几何类型]”概率分布接口的抽象,例如在skpro[3]中。(vi)涉及几何对象或几何相关预测的度量、损失和效用函数——此类度量将为一阶或参数类型,可能必须参考数据或推断对象的内在/外在几何。所有抽象级别上的面向对象将允许快速指定建模工作流,这既有利于科学的清晰性,也便于最终用户访问。围绕工作流界面设计和特定于几何对象的潜在高阶建模类型语言的许多有趣的科学问题仍然悬而未决,尽管人们希望通过合作努力找到答案,这反映了这项工作的综合性。140Oberwolfach报告3/2018参考
[37] Bischl、Bernd和Lang、Michel和Kotthoff、Lars和Schiffner、Julia和Richter、Jakob和Studerus、Erich和Casalicchio、Giuseppe和Jones、Zachary M、mlr:R中的机器学习(2011)。120-140之间·Zbl 1392.68007号
[38] 拉尔斯·别丁克(Lars Buitink)、吉勒斯·卢佩(Gilles Louppe)、马修·布隆德尔(Mathieu Blondel)、费比安·佩德雷戈萨(Fabian Pedregosa)、安德烈亚斯·米勒(Andreas Mueller)、奥利维尔·格里塞尔(Olivier Grisel)、弗拉德·尼库莱(Vlad Niculae)、彼得·普雷滕霍弗(Peter Prettenhfer)、亚历山大·格兰福特(Alexandre Gramfort)、杰克·格罗布勒(Jaques Grobler)、罗伯特·莱顿(Robert。机器学习软件的API设计:来自scikit-learn项目的经验,ECML PKDD研讨会:数据挖掘和机器学习语言(2003)。
[39] 弗里斯约夫·格雷斯曼、弗兰兹·基尔亚利、比拉尔·马泰恩、哈拉尔德·奥伯豪塞。概率监督学习。arXiv预印(2018)。
[40] 维塔利·达维多夫(Vitaly Davydov)、弗兰兹·基里·阿利(Franz Kir´aly)。python/xpandas包(2017年)。具有拓扑特征的机器学习Roland Kwitt(与C.Hofer、S.Huber、U.Bauer、J.Reininghaus和M.Niethammer联合工作)在过去十年中,代数拓扑领域的发展已经演变为从拓扑角度分析数据的计算实用方法。可以说,实践中使用的最普遍的方法是持久同源[6,10],它以条形码/持久性图的形式提供了数据中拓扑特征的简明摘要表示。持久同源性不仅为分析各种数据对象提供了一种通用的方法,而且还为解决基于拓扑信息的学习问题开辟了新途径。该领域的方法在不同的科学领域有着广泛的应用,包括生物学、计算机视觉或医学,现在更简洁地概括为拓扑数据分析(TDA)[4]。尽管TDA在捕获数据的拓扑不变量方面具有优势,并且在学习方面具有潜在优势,但TDA仍与机器学习的发展有一定的脱节。关于持久同源性,这在很大程度上可归因于生成的拓扑摘要(作为多集)的异常结构以及该空间中相关的计算昂贵的度量(例如,p-Wasserstein)。事实上,条形码或持久性图不能直接用作传统学习技术(如SVM)的输入,而不可能牺牲理想的理论属性(如稳定性)。然而,最近的一些工作(例如,[9、8、5、2])显示了在弥合机器学习和TDA之间的差距方面取得的进展,主要是在基于内核的学习技术[11]的背景下。这是可行的,因为内核方法允许使用非标准(即非欧几里德)输入数据,只要定义一个合适的内核函数,即1)捕获输入对象之间的某些相似性概念,2)满足某些必要条件。然而,这通常以计算复杂性为代价,因为内核方法不能很好地扩展样本大小[1]。此外,核可以通过将数据映射到内积空间来显式构造,也可以通过预定义的核函数隐式导出几何结构141映射的数据统计信息。然而,在这两种情况下,映射都是预先确定的,这就立即提出了一个问题,即这是否是一种适合于特定学习任务的策略。事实上,深层神经网络在视觉或自然语言处理(例如[3])中的内在成功表明,学习数据的特定任务表示法,而不是手工绘制合适的表示法,是非常有益的。虽然这对于许多类型的输入都非常有效,但处理具有强大几何结构的数据,例如图形或流形值对象,在算法和理论上都面临着相当大的挑战。上述拓扑摘要正好属于这一类,因为它们具有作为多集合的不寻常结构以及相关度量。到目前为止,这在很大程度上阻止了原则性方法将TDA管道的输出用作神经网络的输入。然而,我们在设计一个可以直接处理拓扑摘要的神经网络模块方面的初步工作[7]已经在各种(有监督的)学习任务(例如,图的分类或2D对象形状)上显示出了有希望的结果。其基本思想是构建持久性图的映射,以使图中的点投影到一组(参数化的)结构元素上,并最终汇总投影。一方面,这有助于通过深度神经网络学习这些图的特定任务表示,即1)保留某些理论属性(例如,在某种程度上的稳定性),2)允许我们联合处理不同维同源群的图。另一方面,它也从理论角度提出了新的、有趣的问题。这些方面的进一步发展对提高各种学习问题的预测性能具有巨大潜力,因为TDA可以提供补充现有方法的信息。因此,从理论基础和实际适用性两个方面,开发原则性方法来弥合神经网络学习和TDA之间的差距,是该领域一个很有前景的研究方向。参考文献
[41] Chapelle,O.(2007)。在原始数据中训练支持向量机。神经计算。,19(5):1155-78. ·Zbl 1123.68101号
[42] Adams,H.、Emerson,T.、Kirby,M.、Neville,R.、Peterson,C.、Shipman,P.、Chepushtanova,S.、Hanson,E.、Motta,F.和Ziegelmeier,L.(2017)。持久性图像:持久性同源性的稳定矢量表示。JMLR,18(8):1-35·兹比尔1431.68105
[43] A.Krizhevsky、I.Sutskever和G.E.Hinton。基于深度卷积神经网络的Imagenet分类。NIPS,2012年。
[44] Carlsson,G.(2009)。拓扑和数据。牛市。阿默尔。数学。Soc.,46:255-308·Zbl 1172.62002号
[45] Carri´ere,M.、Cuturi,M.和Outot,S.(2017年)。用于持久性图的切片Wasserstein内核。在ICML中。
[46] Edelsbrunner,H.、Letcher,D.和Zomordian,A.(2002年)。拓扑持久性和简化。离散计算。几何。,28(4):511-533. ·Zbl 1011.68152号
[47] Hofer,C.、Kwitt,R.、Niethammer,M.和Uhl,A.(2017b)。使用拓扑签名进行深入学习。以NIPS为单位。
[48] Kusano,G.、Fukumizu,K.和Hiraoka,Y.(2016)。拓扑数据分析的持久性加权高斯核。在ICML中。142 Oberwolfach报告3/2018·Zbl 1472.62179号
[49] Reininghaus,R.、Bauer,U.、Huber,S.和Kwitt,R.(2015)。拓扑机器学习的稳定多尺度核。在CVPR中。
[50] Zomordian,A.和Carlsson,G.(2004年)。计算持久同源性。在SCG中·Zbl 1375.68174号
[51] B.Sch¨olkopf和A.J.Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,马萨诸塞州剑桥,美国。商空间统计Nina Miolane(与Xavier Pennec、Susan Holmes联合工作)当人们想要分析具有某些不变性的数据时,就会出现商空间统计。例如,分析形状数据涉及分析对象的属性,这些属性在旋转和平移方面是不变的,或者更一般地说是关于Lie变换组的。为了分析对象的形状,可以查看对象的等价类。在本文中,我们证明了商空间上的统计是渐近有偏的。我们以形状空间为例,特别是模板形状估计。形状空间的已知偏差形状可以首先指在对象上检测到的地标形状。普鲁斯特分析通过“对齐”或“注册”在形状空间中投影物体来研究地标的形状。在这篇文献中,“形状”指的是通过旋转、平移和缩放得到的商,而“形式”仅指通过旋转和平移得到的商。Le表明,对于2D中的地标形状,平均“形状”没有渐近偏差,但当物体上的噪声是非各向同性的时,就会出现渐近偏差,正如Kent和Mardia在2D中所证明的那样。相反,Lele表明,即使在二维各向同性噪声中,平均“形式”也具有渐近偏差。杜、德莱顿和黄也观察到了一种偏见:如果不考虑地标上的噪音,普通的普鲁斯特分析可能会影响推断。Kume等人还观察、研究并纠正了平均形状的最大似然估计值与普鲁斯特分析估计值之间的差异。形状也可以指曲线的形状。曲线数据是按照普鲁斯特分析的精神,通过对齐在其形状空间中投影的。Kurtek在假设物体上没有噪声的情况下,对信号的形状显示了无偏性。Allassonni“ere等人提供的实验显示了存在噪声时的偏差。Bigot和Charlier证明了存在误差时从有限个点估计的曲线存在偏差。商空间的统计数据存在偏差。我们缺少对偏差的抽象几何理解。它是什么时候出现的?哪些变量控制其大小?它是否仅限于平均形状,或是否出现在其他统计分析中?它在实践中有多重要:我们甚至需要纠正它吗?如果是这样,我们如何纠正?本演讲通过商空间Q的几何来解决这些问题。几何结构数据的统计143数据Xi通过生成模型在有限维黎曼流形M中生成:(1)Xi=Exp(gi·Y,ǫi),i=1…n其中:(i)参数Y是形状空间Q中的模板形状,(ii)gi∈G是Lie群G在Y上等距作用的一个元素,(iii)ǫi是噪声并遵循方差的高斯σ2,(iv)Exp是M上的黎曼指数。模板形状Y由商空间Q:Xn(2)Y=argminˆmind2 Y∈Mg∈GM(Y,g·Xi)中投影数据的Fr′echet平均值\710,Y估计。i=1这是在Procrustean分析中获得的估计值,或在信号/曲线/(医学)图像分析中使用的“max-max”算法。定理1.[模板形状估计的渐近偏差[3]]在无限多数据n的情况下→ +∞, 模板形状估计量ˆY相对于参数Y的渐近偏差在噪声水平σ=0附近有以下泰勒展开式:(3)偏差(\710»Y,Y)≡LogYY=\710&σ2H(Y)+O(σ4)+ǫ(σ)2,其中(i)LogY是Q在Y处的黎曼对数,因此是Y(ii)处的切向量H是模板形状轨道的平均曲率向量,表示M中轨道的外曲率,(iii)ǫ是σ的函数,σ指数递减0.图1.模板形状轨道的外曲率在σ的尺度上产生偏差。商空间奇异性的存在会产生偏差,并对模板形状估计产生排斥效应。144 Oberwolfach报告3/2018用普鲁斯特术语表示,定理1的结果是:平均“形式”的广义普鲁斯特分析估计量是渐近有偏的。我们不考虑缩放,因为我们假设一个等距李群作用。该结果还为信号和曲线上的偏差提供了几何解释。控制偏差的变量是:(i)形状空间中从模板Y到奇异形状的距离(当Y接近奇异时,轨道的外曲率通常增加)和(ii)噪声的尺度σ。这有助于确定偏差的重要性和需要纠正的时间。这种偏差超出了模板形状估计。下一个定理表明,M中物体上的任何高斯噪声都会在Q中的形状上引起非中心的偏斜噪声。依赖于Q中中心噪声模型的统计学习是有偏差的。例如,这会降低K-mean算法在形状上的性能:由于每个质心的偏移,簇之间的分离度较小。定理2.[物体上的噪声引起的形状上的噪声[3]]生成模型1在无穷多数据n的渐近范围内对Xi的形状,i=1…n诱导的概率分布函数f→ +∞, 在噪声级σ=0附近有以下泰勒展开式:f(Z)=√exp−d2M(Y,Z)f(2πσ)q2σ20(Z)+σ2F2(Z)+O(σ4)+ǫ(σ),其中(i)Z表示形状空间Q中的一个点,(ii)F0和F2是Z的函数,涉及Z处黎曼张量的导数以及描述轨道OZat Z的图G的导数,和(iii)ǫ是σ的函数,σ呈指数递减表达式f中的指数属于以Z为中心的高斯分布,各向同性方差σ2I。然而,由于右括号中的Z相关项,整个分布f与高斯分布不同。这导致分布偏离奇点。然后我们提出了bootstrap的一个扩展,即流形上的迭代bootstrap[3],它量化了偏差并在需要时进行纠正。我们的结果在模拟和真实数据[3]以及例如大脑模板形状估计[4]上得到了举例说明。这种分析适用于由等距李群作用所商的有限维流形。对于无限维希尔伯特空间以及可能的非等距作用的见解,我们参考了文献[1,2]的工作。参考文献
[52] L.Devilliers、S.Allasonnire、A.Trouv和X.Pennec。,计算解剖学中的模板估计:Frchet在顶部和商空间中的平均值不一致。SIAM成像科学杂志,10(3):1139-1169。(2017). ·Zbl 1423.94006号
[53] L.Devilliers、S.Allasonnire、A.Trouv和X.Pennec。,商空间中方差/预方差最小化模板估计的不一致性。熵,19(6):28。(2017). 几何结构数据统计145
[54] N.Miolane、S.Holmes、X.Pennec.、。,模板形状计算:纠正渐近偏差。SIAM成像科学杂志,10(2):808-844,(2017)·Zbl 1403.62128号
[55] N.Miolane、S.Holmes、X.Pennec.、。,拓扑约束模板估计控制其一致性。SIAM几何与代数杂志(修订版)。(2018). 小尺度与大尺度特征:比较适当的数据分析方法凯瑟琳·特纳持续同源性捕获了所有不同长度尺度的几何和拓扑特征。我们可以使用持久同源性作为预处理步骤,将原始数据替换为通过持久同源性计算的拓扑摘要。启发性地,每个持久同源类都对应于数据中的一些几何或拓扑特征。在本次演讲中,我将比较一些示例,讨论哪些拓扑摘要是合适的,哪些统计方法是适用的。当比较两个不同样本的持久同源性时,我们可能有兴趣使用持久同源类作为单个“大规模”特征的代表。在这种情况下,很有动机在持久性图之间使用瓶颈或Wasserstein距离,因为这些距离与持久性同源类匹配,并比较每对中的差异。例如,我们可以考虑将持久同源变换应用于形态学数据集,例如各种灵长类动物的跟骨(脚跟骨)集合。在这里,我们有一个球体中每个向量的持久性图,我们在这个方向上通过高度函数进行过滤。生物形状特征将创建持久的同源类。使用1-Wasserstein距离,我们可以在方向球上积分,并将一对骨骼上的生物形状特征开始和结束的时间差相加。相反,在某些应用中,我们还关心“短”寿命的持久同源类的数量分布(例如在点模式分析中)。这里的特性启发性地对应于不同类型的本地配置。通过分析具有特定出生和死亡值的持久同源类的数量分布,我们间接地分析了局部特征的这些分布。持久同源秩函数在这些类型的应用中很有用。例如,它可以区分2D粒子系统的相类型(流体、六方和结晶),并且与实验球体填充中的体积填充分数高度相关。146 Oberwolfach报告3/2018高等维度中的污点——野兽是真实的!Benjamin Eltzner(与Stephan F.Huckemann联合工作)中心极限定理(CLT)是统计学的基础之一。渐近分布分位数的使用主要取决于这样一个事实,即样本平均数b√µ与总体平均数µ之间的差异分布以1/n的速率收敛于高斯分布。在维数为p的流形M上,例如圆,通常对分布或样本的平均值的定义不起作用。相反,平均值被定义为最小化问题的解,使用一些度量dµ:=argminE[d(λ,X)2]µbn:=argmin1Xnd(λ、Xλ∈M∧∈Mnj)2,j=1,其中,为了简单起见,我们假设唯一性(a.s.)。在圆上,[2]发现存在概率分布,其中CLT以渐近速率n-τ保持,τ<1/2。这种分布的平均值称为“污点”。定义1(恶臭)。设µ为总体平均值,bµ为样本平均值。如果τ<1/2:nτlogµ(bµn)=OP(1),概率测度P称为拖尾,其中log表示微分几何指数映射的倒数。我们探索了在更高维中产生污点的必要条件,证明了CLT,并提供了一个例子和模拟。1.涂抹的必要条件我们参考文献[1]中的两个定理来指出出现涂抹现象的必要条件。对于某些q∈M,定义了截轨迹C(q):={p∈M、多个最短测地线连接q和p},并设Bε(q)是q周围半径为ε的测地线球。然后我们可以建立定理1([1]的推论2.3)。如果支持(P)⊆M{q∈M:∃x∈Bε(µ):q∈C(x)},则CLT对µ成立。相反,这意味着非空的C(µ)和C处的非零概率密度对于涂污是必要的。这个定理并不局限于一类特定的流形,而是普遍成立的,因此它决定了出现模糊性的一个重要必要条件。出现的下一个问题是,切割轨迹上的概率度量必须满足什么条件才能导致污点。对于这个问题,考虑以下定理2([1]中的定理3.3)是有帮助的。让U⊂Rpbe为0的开放邻域。如果以下条件对y∈U成立几何结构数据的统计147(1)E[gradyd(expµ(y),X)2]<∞和E[Hessyd(exp¦µ;(2) 对于ε,P(C(Bε(µ))=O(εP−C)0,0≤c<p;(3) 对于Fr′echet函数F(y):=E[d(expµ(y),X)2],Hess F(0)是正定的;那么,如果p>2+c,则标准中心极限定理成立。换句话说:对于维数p>2,在切割轨迹上发散不快的偶数概率密度允许一个正常的非肉食CLT。很明显,只有违反了定理的假设,才会出现污点。假设(1)和(2)是令人信服的规律性假设,违反这两个假设的概率测度可能被视为相当病态。然而,假设(3)是一个非常精细的技术假设,它并不是以简单的方式遵循更自然的假设。因此,我们关注违反此假设的概率度量。2.任意维球面上的模糊性首先,我们给出了一个渐近结果,它对于定理2中的条件(3)不成立的情况也是有效的。为了简洁起见,我们抑制了一些技术假设。定理3([4]中的定理11,[3]中定理5.23的推广)。假设Fr´echet函数允许以下形式的幂级数展开,其中Tj>0,R∈SO(m)Xm F(x)=F(0)+Tj|(Rx)j|R+o(kxkr),其中2≤R∈Rj=1具有对称正定矩阵W和多元正规向量G。表达式(RTlogµ(bµn))r−1表示分别取绝对值的幂乘以每个分量中的原始符号的乘积。例如,假设北极的点质量为1−α∈(0,1),南半球的总质量为α,呈均匀分布,如图1所示。然后,每个p的均匀密度都有一个临界值α标准,使得Fr´echet函数的Hessian消失,并且第一个非消失项的平均值为r=4阶。因此,平均值是模糊的,渐近速率τ=1/6。尽管迄今为止已知的所有具有模糊平均值的度量都是经过精心构建的,但这个概念比乍一看更为普遍。在有限的样本量下,来自接近模糊测度的概率测度的样本可能会受到收敛速度慢的影响,这将使假设检验不可靠。作为一个例子,我们用α=αcrit+β在Sp上对上述测量值的样本方差进行了模拟。对于每个样本大小,我们绘制了1000 148份Oberwolfach报告3/2018图1。用拖尾平均值对球体上的概率测量值进行了说明。样本,确定每个样本的球面平均值,然后确定这些平均值到北极的平方距离之和。对于β≤0,我们有一个唯一的最小值,对于涂片情况β=0,我们预计V表示的经验方差会缓慢衰减,速率接近n−13,对于β<0,我们预期速率接近n–1。图2.从左到右,尺寸p=2、10和100的不同β值的模拟方差V乘以n。黑线V⁄n−1(实线)和V⁄n−13(虚线)供参考。然而,图2清楚地表明,渐近速率遵循拖尾情况,直到相当大的样本量,然后才进入标准CLT行为。这种影响随着维度的增加而变得更加明显,从而导致高维度低样本量的问题。参考文献
[56] R.Bhattacharya和L.Lin,非欧几里德空间上Fr′echet均值和非参数推断的综合CLT。,《美国数学学会会刊》145(2016)
[57] T.Hotz和S.Huckemann,《圆上的内在平均值:唯一性、轨迹和渐近性》,《统计数学研究所年鉴》67(1)(2015),177-193·Zbl 1331.62269号
[58] A.van der Vaart,《渐近统计》,剑桥大学出版社,(2000年)·Zbl 0910.62001号
[59] B.Eltzner和S.Huckemann,流形的Smeary中心极限定理及其在高维球面上的应用,arXiv:1801.06581几何结构数据的统计149流形上的概率推断Stefan Sommer(与Sarang Joshi联合工作)流形值数据的统计分析通常通过推广最小二乘准则和构造模拟类似欧几里德构造的数据表示来执行。例如,欧几里德主成分分析(PCA)程序的几种推广就是这种情况。在用低维线性子空间逼近后,主成分分析可以表示为最小化残余误差。诸如主嵌套球体(PNS/CPNS,[5])、水平分量分析(HCA,[8])、圆环PCA(TPCA,[3])测地线PCA(GPCA,[4])和重心子空间分析(BSA,[7])等程序将该公式推广到非线性流形设置。在欧氏空间中,将低维子空间拟合到数据可以等效地看作是通过极大似然拟合高斯正态分布。本质上,高斯分布的对数密度是负平方范数的函数,将其最大化相当于将平方距离最小化。受此启发,概率PGA[15]和后来的推广[9,12]通过将分布的参数族拟合到数据,定义了流形上概率PCA[14]过程的版本。基于这些思想,我们提出了一种用于流形值数据统计分析的通用概率方法:考虑独立分布的数据y1,y歧管M上。设Φθ是由参数θ参数化的概率分布族Φθ∈Prob(M)。假设现在M配备了一个固定的测量值µ0,并且µθ具有密度。然后我们可以让pθ:MR是密度Q,使得pθµ0=µθ。从pθ,我们得到一个似然L(θ;y1,…,yN)=Ni=1pθ。当然,从概率的观点来看,这种结构是自然的,然而,在流形统计文献中,这种公式尚未得到广泛的探讨。概率公式本质上把最小二乘构造的复杂性——向子空间的投影、极小值的存在、递归测地线、类线性子空间的构造——转移到概率分布参数族的构造上。这种分布可以从几何和概率的角度以自然的形式定义。特别是,随机过程产生的分布可以利用积分方程和SDE的无穷小定义通常与流形的微分结构自然兼容。这种构造的一个例子是各向异性正态分布[10,13,11],它是在帧编码协方差结构的流形的帧束中构造为布朗流的。使用Brownian 150 Oberwolfach Report 3/2018的类似示例图1。从北极(红色)到目标(黑色)的S2值Brownians桥样本,通过类似于过程(1)的引导桥方案进行模拟。定义非光滑空间上概率分布的运动可以在[6]中找到。这两种构造都使用参数θ来编码均值x∈M,并且在帧束构造中额外使用协方差∑。将这些参数与数据进行拟合,可以得到平均值或平均值和协方差的最大似然解释。关于在形状分析中使用随机过程构造概率分布的类似示例,请参见[1]。我们目前正在探索李群和轨道空间上的类似构造。随机过程的似然函数可以通过桥梁过程的蒙特卡罗抽样来近似。一种方法是将Delyon和Hu[2]的引导桥模拟方法推广到流形。我们探索了导向SDE Logy(v)(1)dyt=b(t,yt)dt+tdt+σ(t,yt)dWt t−t的适定性和存在性,它使用黎曼对数映射来确保在对漂移和系数项b和σ的合理假设下,目标v∈M被击中。即使Log在v的切割轨迹处不是连续的,也可以证明该过程存在,并且可以从采样yt中近似求出v的可能性。这些考虑引起的一个重要问题是概率估计量的性质和自然性,例如ML平均值。Frech′et均值及其相应的流形中心极限定理受M曲率的影响。在非光滑类别中,Frech´et均值表现出粘性或涂抹性效应。ML均值是否具有类似的性质仍然是一个悬而未决的问题。几何结构数据统计151参考文献
[60] 亚历克西斯·阿诺登(Alexis Arnaudon)、达里尔·霍尔姆(Darryl D.Holm)和斯特凡·索默(Stefan Sommer)。随机形状分析的几何框架。已提交,arXiv:1703.09971[cs,math],2017年3月·Zbl 1422.60089号
[61] Bernard Delyon和Ying Hu。条件扩散模拟及其在参数估计中的应用。随机过程及其应用,116(11):1660-16752006年11月·Zbl 1107.60046号
[62] 本杰明·埃尔茨纳(Benjamin Eltzner)、斯蒂芬·哈克曼(Stephan Huckemann)和坎蒂·V·马尔迪亚(Kanti V.Mardia)。圆环主成分分析及其在RNA结构中的应用。arXiv:1511.04993[q-bio,stat],2015年11月。arXiv:1511.04993·Zbl 1405.62173号
[63] 斯蒂芬·哈克曼(Stephan Huckemann)、托马斯·霍茨(Thomas Hotz)和阿克塞尔·蒙克(Axel Munk)。内禀形状分析:黎曼流形模等距李群作用的测地PCA。中国统计局,20(1):1-1002010年1月·Zbl 1180.62087号
[64] Jung Sungkyu、Ian L.Dryden和J.S.Marron。分析主要嵌套球体。Biometrika,99(3):551-5682012年9月·Zbl 1437.62507号
[65] 汤姆·奈。通过扩散过程在树空间上构造分布。Mathematisches Forschungsinstitut Oberwolfach,2014年。
[66] 泽维尔·佩内克。流形上的重心子空间分析。arXiv:1607.02833[math,stat],2016年7月。arXiv:1607.02833·Zbl 1410.60018号
[67] 斯特凡·索默。水平尺寸缩减和重复框架束开发。《信息几何科学》,LNCS,第76-83页。施普林格,2013年·Zbl 1350.62012年
[68] 斯特凡·索默。流形上的扩散过程和PCA。数学Forschungsinstitut Oberwolfachhttps://www.mfo.de/document/1440a/OWR网站201444.pdf,2014年。
[69] 斯特凡·索默。流形上的各向异性分布:模板估计和最可能路径。医学成像信息处理,《计算机科学讲义》第9123卷,第193-204页。斯普林格,2015年。
[70] 斯特凡·索默。流形上的各向异性加权和非完整约束演化。熵,18(12):4252016年11月。
[71] 斯特凡·索默。流形值数据主成分分析的无穷小概率模型。arXiv:1801.10341[cs,math,stat],2018年1月。arXiv:1801.10341·Zbl 1426.62404号
[72] Stefan Sommer和Anne Marie Svane。使用随机发展和亚黎曼框架束几何建模各向异性协方差。《几何力学杂志》,9(3):391-4102017年6月·Zbl 1367.53031号
[73] Michael E.Tipping和Christopher M.Bishop。概率主成分分析。英国皇家统计学会杂志。B辑,61(3):611-6221999年1月·Zbl 0924.62068号
[74] 张苗苗和P.T.Fletcher。概率主测地分析。在NIPS中,第1178-1186页,2013年。子空间Xavier Pennec的经验平均值、PCA和标志中的曲率效应由于我们在实践中样本数量有限,几何统计中的一个问题是确定黎曼流形中n个IID样本的经验Fr′echet平均值的性质。在足够集中的条件下,经验Fr′echet平均值存在,并且对于每个样本都是唯一的,因此我们可以为固定数量的样本定义其期望矩。使用黎曼度量的泰勒展开,我们可以计算(充分集中)分布的矩的泰勒展开。这反过来用于实际计算IID n样本的经验平均值的一阶和二阶矩。152 Oberwolfach报告3/2018预期的经验平均值(或更准确地说,其在基础分布平均值处的预期对数)在分布扩展中有一个意外的非消失项(偏差),其阶数为4,样本数为1/n。该偏差项是黎曼曲率的协方差导数与协方差矩阵的双重收缩,对于对称空间,该偏差项为零:E[logx?(?xn)a]=1(2?24nbRdcea+?aRcebd)(Mn2)bc(Mn1)de+O(ǫ5)。同样,经验平均值的协方差在1/n收缩两倍黎曼曲率时具有校正项,协方差为:n2+3nRacedMbe2+RbcedMae2-Mcd2+O(ǫ3)。这个术语可以解释为一个扩展的Ricci曲率:在正弯曲空间中,与欧几里德空间相比,随着样本数的收敛速度较慢,而在负弯曲空间中加速。我们推测,在曲率变得奇异的极限情况下,这些效应可能是均值粘性的前奏。演讲的第二部分重点讨论将PCA推广到流形的仿射跨度的标志(正确嵌套的序列)。重心子空间和仿射跨度被定义为多个参考点的加权平均轨迹的(完成)。通过定义参考点的顺序,它们可以自然嵌套,从而可以构造正向或反向嵌套的子空间序列。然而,正向或反向方法一次优化一个子空间,无法同时优化标志的所有子空间的未解释方差。为了获得一个全局准则,将欧氏空间中的PCA重新表述为线性子空间标志的优化,我们提出了一个未解释方差准则的扩展,该扩展很好地推广到黎曼流形中仿射跨度的标志。这导致了对流形上PCA的一个特别有吸引力的推广,我们称之为重心子空间分析(BSA)。[1]参考文献中提供了更多详细信息
[75] X.Pennec,《流形的重心子空间分析》,载于数理统计研究所《统计年鉴》。https://arxiv.org/abs/1607.02833v22017年10月。持久同源Anthea Monod的热带充分统计(与Sara Kali´snik、Juan´Angel Patiáno-Galindo和Lorin Crawford联合工作)。我们表明,基于热带几何的欧几里德空间嵌入可以生成稳定的条形码充分统计。传统上,条形码是拓扑特征的多尺度摘要,用于捕获数据的“形状”;然而,在实践中,它们具有复杂的结构,因此很难在统计设置中使用几何结构153数据统计。本文给出的充分性结果允许在条形码热带化表示上假设经典概率分布。这使得各种参数统计推断方法都适用于条形码,同时保持其初始解释。更具体地说,我们证明可以构造指数族分布。我们从概念上证明了其充分性,并说明了其在持久同源维0和1中的实用性,以及对艾滋病毒和禽流感数据的具体参数应用。参考文献
[76] A.Monod,S.Kali´snik,J.´A。Patiáno-Galindo,L.Crawford热带持久同源性充分统计,arXiv:1709.02647(2017)。黎曼流形上的协方差张量Washington Mio(与Haibin Hang和Facundo M´emoli联合工作)均值和协方差张量计是欧几里德空间中广泛使用的数据摘要,允许使用主成分分析等技术进行简单的可视化和推断。均值作为Fr′echet函数的极小值推广到度量空间上的数据;然而,仍然缺乏协方差张量的原理公式。在这里,我们讨论了一种在黎曼流形上取值的随机变量协方差张量的方法。为了激发我们的公式,我们首先重新解释与随机变量y∈Rd(具有有限二阶矩)相关的经典协方差张量,该随机变量是根据概率测度α分布的。我们将协方差视为张量场∑α:Rd,而不是仅考虑y相对于平均值的协方差Rd⊗Rd由Z(1)∑α(x)=。Rd∑α编码相对于任何参考点x∈Rd的协变,并且明显仅取决于基本分布α。被积函数上的项(y−x)使用Rd上的向量空间结构,因此(1)不直接扩展到流形上的分布。为了避免这个问题,我们重写协方差如下。考虑核函数u(x,y)=kx−yk2/2,我们可以将其解释为x相对于y的势能。对于一个随机y∈Rd,u(·,y)的梯度场由∧xu(x、y)=x−y给出。因此,我们可以写Z(2)∑α,Rd是一个只调用局部线性化并更容易推广到流形设置的表达式。154 Oberwolfach报告3/2018设(M,g)是黎曼流形,y∈M是根据Borel概率测度α分布的随机变量,u:M×MR+一个光滑、对称的核函数。(我们假设存在A>0,使得k+xu(x,y)kx≤A,∀x,y∈M,但这个假设可能会放宽。)对于k≥1,我们定义k张量场∑kα,uat x∈M为随机变量⊗kxu(x,y)∈kTxM的期望值。更正式地说,∑kα,uis是由Z(3)∑kα给出的M的切丛的k倍张量乘积的截面,u(x)=⊗kŞxu(x,y)dα(y)。Mα相对于核u的Fr′echet函数定义为Z(4)Vα,u(x)=u(x,y)dα(y)。Rd注意,1-张量∑1α,ui是Vα,u的梯度场,即,+Vα,u=∑1 a,u。为了说明协方差张量的稳定性结果,我们引入了一些符号。对于每个x∈M,M上的黎曼结构在纯张量上给出的⊗kTxM上诱导了一个内积,即\8855;ki=1vi,\8855]ki=1wix=∏ki=1hvi,wiix。我们用k·kx表示相关范数,在符号中省略k。我们用dg表示(M,g)上与(M,dg)相关联的1-Wasserstein空间的测地距离,用w1表示P1(M,d)上的1-Waserstein距离。定理1.设(M,g)是完备黎曼流形,α,β∈P1(M,dg)。假设u:M×MR+是一个光滑的对称函数,满足(i)k+xu(x,y)kx≤a,∀x,y∈M和(ii)k+xu(x、y1)−x(x,y2)kx≥Ldg(y1,y2。那么,对于任何k≥1,supk∑kα,u(x)−∑kβ,u(x)kx≤kAk−1L w1(α,β)。x∈M备注。通过关于经验测度收敛的众所周知的事实,协方差场的一致性结果作为该稳定性结果的必然结果(参见[2])。从黎曼流形上与扩散距离相关的势能导出的协方差场导致协方差张量的尺度空间,从而提供丰富、信息丰富的多尺度数据摘要。在这里,我们只讨论欧几里德情况(参见[1]),从扩散距离的定义开始。设K:Rd×Rd×(0,∞)R+是由(4πt)d/2exp−kx−yk4t2给出的热核。对于每个t>0,考虑嵌入κt:RdL2(Rd)由x7定义K(x,·,t),它将x映射到以x为中心的各向同性高斯函数,方差σt2=2t。扩散距离dt是由这种嵌入引起的Rd上的度量,直到我们引入一个乘法因子来简化几个表达式。更明确地说,对于任何x1,x2∈Rd,1(6)dt(x1,x2)=√kκt(x1)−κt。2几何结构数据的统计155图1.圆圈上1000个等距点的协方差场(由Diego H.D´´az Mart´´)。计算表明,直径(Rd,dt)=1/(8πt)d/4。对于每个t>0,设ut:Rd×RdR+是核ut(x,y)=d2(x,y)/2。Rd上概率测度α相对于ut的k协方差张量和t/2 Fr′echet函数将分别表示为∑kα和Vα,t。这产生了协方差张量场(和Fr′echet函数)的单参数族,以t>0为索引,是α的多尺度汇总。([2]中提出了相关的2-张量场。)图1描述了由1000个等距点组成的数据集在固定比例下的2-张量场。对称张量被绘制为从其特征分解中获得的椭圆。设αt是初始条件为α的热方程的解,它将α软化为光滑密度函数。然后,可以证明1(4πt)d/2−αt=diam2(Rd,dt/2)−αt。Pn如果y1,yn∈Rdare数据点和α=i=1δi/n是相关的经验测度,那么α是相应的高斯核密度估计量。因此,(7)给出了Fr´echet函数等密度估计量的解释(参见[1]),将密度估计量集成到α的“张量化”矩的层次中。备注:(1)协方差张量的构造并不直接适用于核u(x,y)=d2g(x,y)/2,因为它不一定是光滑的。尽管如此,如果α相对于黎曼测度是绝对连续的,则可以定义协方差张量,因为u的奇点仅出现在y∈Cx处,即x的截轨迹,其测度为零。(2) 使用Fr′echet函数或张量场的标量约简作为滤波函数的持久同源性可用于以可计算的方式提取有关数据几何组织的信息。(3) 人们可以定义加权网络顶点集上分布的协方差张量的离散形式。(4)如果∑t=∑2α,t处处非奇异,那么张量场∑−1定义了M上的一个新的黎曼结构,该结构可以被视为156 Oberwolfach Report 3/2018(M,g,α)的形状,标度t>0。例如,如果α由正密度函数给出,则满足该条件。参考文献
[77] D.H.D´ıaz Mart´ınez,C.H.Lee,P.T.Kim,W.Mio,《用扩散Fr´echet函数探测数据的几何》,《应用与计算谐波分析》(2018),已被接受出版。
[78] D.H.D´az Mart´ñnnez,F.M´emoli,W.Mio,《数据的形状和概率测度》,arXiv:1509.04632v2。流形Marc Arnaudon中曲线之间的最佳匹配(与Alice Le Brigant、Marc Arnoudon和Fr´ed´eric Barbaresco共同工作)本演讲涉及两条流形值曲线之间的最优匹配计算。曲线被视为无限维流形的元素,并使用在重新参数化组作用下不变的黎曼度量进行比较。这一组归纳出一个商结构,经典地解释为“形状空间”。我们引入了一个简单的算法,允许使用相关主束中路径的标准分解来计算商形状空间的测地线。我们考虑弹性度量的特殊情况,并对平面、双曲平面和球面上的开放曲线进行了模拟。1.引言比较曲线形状的一种流行方法是通过黎曼框架。曲线集被视为作用于重新参数化组的无限维流形,并配备了相对于该组作用不变的黎曼度量G。在这里,我们考虑了速度永不消失的黎曼流形(M,h·,·i)中的一组开定向曲线,即光滑浸入,M=Imm([0,1],M)={c∈c∞([0,1]M):c′(t)6=0∀t∈[0,1]}。它是Fr´echet流形C∞([0,1],M)的开子流形,并且它在点C处的切空间是沿着M中的曲线C的无穷小向量场的集合,TcM={w∈C∞([0,1],TM):w(T)∈Tc(T)M∀T∈[0,1]}。曲线c可以通过正确的构图c进行重新参数化随差分同构的增加而增大:[0,1][0,1],其集合用Diff+([0,1])表示。我们考虑商空间S=M/Diff+([0,1],M),解释为“形状”或“未参数化曲线”的空间。如果我们将自己限制在微分同胚群自由作用的M的元素上,那么我们得到了一个主丛π:MS、 其中的纤维是所有相同模量重新参数化曲线的集合,即投影在相同“形状”上。我们用?c:=π(c)∈S表示曲线的形状c∈M。任何切线向量w∈TcM都可以统计具有几何结构的数据157,然后分解为垂直部分wver∈Verc的和,该垂直部分具有在不改变其形状的情况下重新参数化曲线的作用,而水平部分whor∈Horc=(Verc)↓G,G-与光纤正交,TcM∋w=wver+whor∈Verc𕑷Horc,Verc=ker-Tcπ={mv:=mc′/|c′|:m∈c∞([0,1],R),m(0)=m(1)=0},Horc={h∈TcM:Gc(h,mv)=0,∀m∈c∞([0,1]。如果我们用黎曼度量Gc:TcM×TcM装备MR、 c∈M,即沿纤维的常数,即(1)Gc(w,zψ)=Gc(w,z),∀∈Diff+([0,1]),则形状空间S上存在一个黎曼度量?G,使得π是从(M,G)到(S,G)的黎曼浸没,即Gc(whor,zhor)=Gπ(c)(Tcπ(w),Tc∏(z)),ᙈw,z∈TcM。该表达式定义了“G”,即它不取决于代表c、w和z的选择([4],§29.21)。如果G的测地线具有水平初始速度,则其速度矢量始终保持水平(我们称之为水平测地线),并投影到?G形状空间的测地线上([4],§26.12)。?G的两个形状之间的距离由d(c?0,c1)=inf d(c0,cl)给出)|∈Diff+([0,1])。因此,可以通过构造水平测地线来解决形状空间中的边值问题,例如通过最小化水平路径能量[1]、[7],或者通过将其中一条边界曲线的最佳重新参数化作为优化问题[2]、[6]、[8]中的参数来实现。这里我们介绍了一个简单的算法,该算法计算将具有固定参数化c0的初始曲线连接到最近的重参数化c1的水平测地线目标曲线c1。最佳重新参数化产生我们称之为曲线c0和c1之间的最佳匹配。2.最佳匹配算法我们要计算测地线路径s7?c(s)在两条曲线c0和c1的形状之间,即水平测地线s7的投影?c=π(ch)ch(s)-如果存在-将c0连接到c1inM的光纤。该水平路径验证了所有s∈[0,1]的ch(0)=c0,ch(1)∈π−1(c1)和∈ch/d s(s)∈Horch(s)。其终点给出了最佳的重新参数化c1相对于初始曲线c0的目标曲线c1的,即d(c⁄0,c1)=d(c0,cl)=d(c0,ch(1))。在接下来的所有内容中,我们确定了一条曲线[0,1]∋s 7的路径c(s)∈M与两个变量[0,1]×[0,1]∋(s,t)7的函数c(s,t将M中的c(s)转换为水平路径158Oberwolfach报告3/2018,通过差异化路径重新参数化,即c(s)=chor(s)(s)其中弦∈Horchor(s),且对于所有s∈[0,1],¼(s)∈Diff+([0,1])。也就是说,(2)c(s,t)=弦(s,(s,t))∀s,t∈[0,1]。速度矢量c的水平和垂直部分可以用这种分解表示。实际上,通过对(2)关于s和t的导数,我们得到(3a)cs(s)=chors(s)б(s)+бs(s)·弦ξ(s),(3b)ct(s)=ξt(s)·chort(s)因此,如果vhor(s,t):=chort(s,t)/|chort(s,t)|表示chor的标准化速度矢量,(3b)给出,因为ξt>0,v(s)=vhor(s)(s)。我们可以看到方程(3a)右侧的第一项是水平的。的确,对于任何m:[0,1]C∞([0,1],R)使得m(s,0)=m(s、1)=0表示所有s,因为G是重参数化不变量,所以我们有G弦(s),m(s)·v(s)=G弦(s),m(s)·v或(s)(s)=G弦,m(s)(s)−1·vhor(s)=G弦,m(s)·v或(s)(s)-1。由于对于所有s,m(s,0)=∆m(s,1)=0,因此向量m(s)·vhor(s)是垂直的,其与水平向量弦的标量积为零。另一方面,方程(3a)右侧的第二项是垂直的,因为它可以写为s(s)·chort(s)=m(s)·v(s),其中m秒(s)。我们称弦为关于G命题1的路径c的水平部分。曲线c路径的水平部分的长度最多与c LG(弦)≤LG(c)的长度相同。现在我们将看到如何计算曲线路径的水平部分。命题2(路径的水平部分)。让s7c(s)是M中的路径。然后其水平部分由chor(s,t)=c(s,(s)−1(t))给出,其中微分形态的路径s7(s)是PDE(5)的解s(s,t)=mR、 第7天m(s,t):=cvers(s,t)是cs(s)的垂直分量。几何结构数据的统计159如果我们取连接两条曲线c0和c1的测地线的水平部分,我们将得到一条将c0连接到不再是测地线的c1光纤的水平路径。然而,该路径缩短了c0和c1光纤之间的距离,并提供了“更好”的代表性c1=c1(1)的目标曲线。通过计算c0和这个新的代表∆c1之间的测地线,我们可以保证再次减少到光纤的距离。我们提出的算法简单地迭代了这两个步骤。数据:c0,c1∈M结果:c1集合бc1c1和间隙2×阈值;而Gap>Threshold确实构造了测地线s7c(s)在c0和c1之间;计算水平部分s7c的弦;设置间隙distL2chor(1)、Уc1和Гc1弦(1);end算法1:最佳匹配。3.示例:弹性度量在本节中,我们考虑Mio等人在[5]中为平面曲线引入的弹性度量的两参数族的特殊情况。我们用+表示黎曼流形M的Levi-Civita连接,用+tw:=ctw,+2tw:=ct ctw表示向量场w沿参数t的曲线c的一阶和二阶协变导数。对于流形值曲线,可以用Z1(6)Ga,bc(w,z)=hw(0),z(0)定义任意c∈TcM和w,z∈TcM的弹性度量i+a2h+wN,正负zNi+b2h+wT、+TzTid公司ℓ, 0其中dℓ =|c′(t)|dt和ℓ=|c′1(t)+根据弧长分别表示积分和协变求导。对于系数a=1和b=1/2的选择,如果我们采用所谓的平方根速度表示法[3],测地线方程很容易数值求解,其中每条曲线由其起点形成的对表示,速度矢量由其范数的平方根重整化。让我们刻画Ga,b的水平子空间,并给出切线向量的分解。命题3(弹性度量向量的水平部分)。设c∈M是光滑浸入。对于弹性度量(6),切线向量h∈TcM是水平的,当且仅当它验证了常微分方程(7)(A/b)2−1 h th,tvi−h 2th,vi+| c′|−1h,tc′,vih­th,vi=0。切线向量w∈TcM的垂直部分和水平部分由wver=mv,whor=w−mv,160Oberwolfach Report 3/2018给出,其中实函数m∈C∞([0,1],R)验证了m(0)=m(1)=0和m′′-h tc′/|C′|,vim′−+tw,vi。这使我们能够描述Ga,b曲线路径的水平部分。命题4(弹性度量的路径的水平部)。让s7c(s)是M中的路径。然后其水平部分由chor(s,t)=c(s,(s)−1(t))给出,其中微分形态的路径s7(s)是PDE(9)的解R、 第7天m(s,t)是所有ODE mtt−h+tct/|ct |,vimt−(a/b)2 |+tv | 2m=h+t tcs,vi−(a/b)2−1 hütcs,tvi−hмtct/| ct |,vi‖tcs的解。我们使用以下算法数值求解命题的PDE。数据:曲线路径s7c(s)结果:微分同态的路径s7ξ(s)fork=1到n确实估计导数ξt(nk,·);用有限差分法求解ODE(10),得到m(nk,·);设置s(kn,t)所有t的m(kn,t)/| ct(kn、t)|·t(nk,t;传播(k+1n,t)(kn,t)+n1s(kn、t),适用于所有t;结束算法2:曲线路径的分解。参考文献
[79] M.Bauer,P.Harms和P.W.Michor,n空间超曲面形状空间的几乎局部度量,SIAM J.成像科学。,5(1) (2012), 244-310. ·兹比尔1251.58002
[80] M.Bauer,M.Bruveris,P.Harms和J.Møller-Andersen,曲线空间上sobolev度量的数值框架,SIAM J.Imaging Sci。,10 (2017), 47-73. ·Zbl 1367.49021号
[81] A.Le Brigant,在SRV框架中计算流形值曲线之间的距离和测地线,J.Geom。机械。,9, 2 (2017), 131 – 156. ·Zbl 1366.58005号
[82] P.W.Michor,微分几何主题,《数学研究生》第93卷,美国数学学会,普罗维登斯,RI(2008)·Zbl 1175.53002号
[83] W.Mio,A.Srivastava和S.H.Joshi,《平面弹性曲线的形状》,《国际计算机视觉杂志》,73(2007),307–324·Zbl 1477.68398号
[84] A.Srivastava、E.Klassen、S.H.Joshi和I.H.Jermyn,欧几里德空间中弹性曲线的形状分析,IEEE PAMI,33,7(2011),1415-1428。
[85] A.B.Tumpach和S.C.Preston,弧长参数化平面曲线流形上的商弹性度量,J.Geom。机械。,9, 2 (2017), 227 – 256. ·Zbl 1365.53002号
[86] Z.Zhang,E.Klassen和A.Srivastava,球形轨迹的相位振幅分离和建模(2016),arXiv:1603.07066。几何结构数据的统计161协方差算子的Procrustes度量和高斯过程的最优耦合Victor M.Panaretos(与Valentina Masarotto和Yoav Zemel联合工作)协方差算子是函数数据分析的一个关键研究对象:随机过程的非参数统计,其中,样本路径被视为某些无限维可分离Hilbert空间H的随机元素的实现。协方差算子的谱分解提供了标准方法来量化过程X的随机变化(取H中的值),并规范通常不成立的相关推理问题。在现代应用中,协方差算子本身可能会发生随机变化,通常是在考虑了多个不同“总体”的功能数据的情况下,并且有充分的理由怀疑每个总体可能呈现不同的结构特征。然后,每个K总体将表示随机元素XkofH的定律,平均函数µK∈H和协方差算子∑K:H×HH.为了推理的目的,我们将观察每个群体的Nk实现:{Xki:i=1,…,Nk;k=1,..,k}。这一领域的早期贡献是通过金融和生物物理应用推动的,并导致了功能种群二阶变异方法和理论的激增。然而,其中许多方法本质上是线性的:它们在Hilbert-Schmidt算子的空间中嵌入协方差算子,并对相应的度量进行统计推断。然而,协方差算子基本上被约束为服从非线性约束,因为它们被描述为Hilbert-Schmidt类算子的“平方”。在多元(有限维)文献中,这个问题早已为人所知,并得到了很好的研究,主要是因为它与扩散张量成像和形状理论等重要应用有着天然的联系。因此,在协方差矩阵空间的各种可能的几何形状下,已经研究了协方差算子种群的推断。然而,这些度量中的许多并不容易推广到无限维空间,因为它们涉及行列式、对数和倒数等数量。Pigoli等人[2]首先在考虑适当非线性空间中二阶变异的推理方面取得了重要进展,其动机是浪漫主义语言中语音的跨语言变异问题。他们专注于推广所谓的Procrustes反射大小和形状度量(以下简称Procrustes-metric),并推导了其一些基本属性,以期启动协方差算子的非欧几里德分析程序。在这样做的过程中,他们(隐式或显式)就这个度量的几何性质、其统计解释以及关于这个度量的Fr′echet平均值的属性,产生了许多更有趣的研究方向。162 Oberwolfach报告3/2018我们报告了最近的工作[1],解决了其中一些问题,并进一步加深了我们对Procrustes度量和归纳统计模型和程序的理解,从而为非欧几里德统计的这一新研究方向奠定了坚实的基础。起点是一个相对简单但相当重要的观察结果:两个协方差算子onH之间的Procrustes度量与分别赋予这些协方差的两个中心高斯过程onH之间的Wasserstein度量一致。这种联系使我们能够利用最佳运输的几何和分析特性,并以两种方式作出贡献。一方面,通过回顾和收集在Procrustean上下文中重新解释的Wasserstein空间的一些重要方面,我们阐明了关键几何(切线束和测地线的结构)、拓扑(与核拓扑等价)和计算(具有收敛保证的下降算法)赋予普鲁克斯度量的协方差空间的方面。另一方面,我们建立了新的结果:我们证明了经验Fr′echet均值关于Procrustes度量的协方差的存在性、唯一性和(一致超紧)稳定性,并通过高斯最优(多重)耦合的概念构造了切线空间主成分分析。我们还确定了与Procrustes度量兼容的生成性统计模型,并将其与函数数据分析中的扭曲/注册问题联系起来。我们通过对Fr’echet均值的正则性进行推测得出结论,这可能会对统计推断产生重要影响:给定∑1。。。,对于H上的∑K射协方差算子,我们猜想它们关于Procrustes度量的Fr′echet均值也是内射的。参考文献
[87] Masarotto,V.、Panaretos,V.M.和Zemel,Y.(2018年)。协方差算子上的Procrustes度量和高斯过程的最优运输。arXiv公司:1801.01990·Zbl 1420.60048号
[88] Pigoli,D.、Aston,J.D.、Dryden,I.L.、Secchi,P.(2014)。协方差算子的距离和推断。《生物特征》,101(2):409-422。概率论中的曲率概念Theo Sturm各种曲率概念已从黎曼几何扩展到更一般的空间——度量空间或度量测度空间——并在概率论中发挥着重要作用。我们简要讨论其中最重要的三个。1.截面曲率的上限让我们回顾一下Alexandrov意义上曲率上限的定义。为了简单起见,在这里和后续部分中,我们将自己限制为曲率边界0。几何结构数据统计163定义1.测地线空间(X,d)具有全局非正曲率,前提是三角形比欧几里德空间(“全局NPC空间”,“哈达玛空间”)中的三角形更薄。例子。对于单连通黎曼流形,这等价于非正截面曲率。这些空间的一个非常直观的特征性质是毕达哥拉斯不等式a2+b2≤c2。特别重要的是,下面的四元特征很容易看出在收敛下是稳定的,并立即传递到函数空间中的值。定理1(Sturm 2003,Berg-Nikolaev 2008)。(X,d)具有全局非正曲率,当X4 d2(x1,x3)+d2(x2,X4)≤d2(xi,xi+1)(∀x1,x2,x3,X4)。i=1示例。映射f:X的L2空间从某个测度空间(X,m)到NPC空间(Y,d)的Y也是NPC。这里d2(f,g)=RXd2 f(x),g(x)dm(x)。定理2(Cartan,Fr’echet,Karcher,…,Sturm)。R•∀µ∈P1(X):∃!z7的极小值[d2(z,x)−d2(y,x)]dm(x),与y无关,用b(µ)•∀µ表示,ν∈P1(x):db(µ。定理3(Sturm 2003)。假设(Yi)是有界iid,其分布为φ∈P1。然后,n的P-a.s→ ∞ 1倍b(µ)n i=1,。。。,n这里的“归纳平均值”sn=1nPi=1,。。。,nYi是递归定义的:s1=Y1,sn是测地线上从sn−1=γ(0)到Yn=γ(1)的点γ(n1)。收敛速度是指数级的。该比率可以按照欧几里得的情况进行估计,见[Kei Funano,Osaka J Math 2010]。2.截面曲率的下限接下来,我们回顾一下亚历山德罗夫意义上的曲率下限的定义,同样为了简单起见,假设下限为0。定义2.测地空间(X,d)具有非负曲率,当三角形比欧几里得空间(“CAT(0)空间”)中的三角形更胖时。164 Oberwolfach报告3/2018示例。对于黎曼流形,这等价于非负截面曲率。再一次,一个非常直观的特征性质是勾股不等式a2+b2≥c2;并且四重表征是特别重要的。定理4(Sturm 1999,Lebedeva-Petrunin 2010)。测地空间(X,d)具有非正曲率,当X3 d2(x0,xi)≥1Xd2(xi,xj)(∀x0,x1,x2,X3)。3 i=11≤i<j≤3这里我们将讨论两个重要示例Wasserstein空间(P2(X),W2)具有非负曲率当且仅当(X,d)具有此曲率。•“空间空间”{(X,d,m):度量测度空间}/~度量测度空间是由空间X、X上的完全可分度量d和其上的Borel概率测度组成的三元组(X,德,m)。如果在两个度量空间的支撑之间存在保持等距的度量,则两个度量度量空间是同构的。两个度量空间(X0,d0,m0)和(X1,d1,m1)之间的L2直径距离被定义为∆(X0、d0、m0),(X1、d1、m1)ZZ2 1/2=inf d0(X0,y0)−d1(X1,y1)dm(X0、X1)dm(y0,y1。定理5.度量测度空间同构类的度量空间(X,∆)是具有非负曲率的测地空间。公制空间(X,∆)不完整。其完备X·是伪度量测度空间(X,d,m)与X Polish,m Borel,d对称,可测,三角不等式等价类的空间;无限制:X=[0,1],m=λ;•是Y的凸闭子集(由上述三元组组成,没有三角形不等式),同构于L2s([0,1]2,λ2)/Inv([0,1],λ),Inv([0,1],λ)=保测度映射集ψ:[0,1][0,1]通过ψ*g(s,t)=g(ψ(s),ψ(t))作用于L2s(…)。(X,∆)的稠密子集由一组由有限多个点组成的度量测度空间给出,该度量空间配备了一致测度和距离函数。这些空间具有独立的意义;几何结构数据的统计165考虑实值对称(n×n)矩阵的Hilbert空间M(n)在对角线上消失,并配有(重新规范化的)l2-模。置换群Sn通过f~f′定义了一个等价关系⇐⇒∃σ∈Sn:fij=fσ′iσj(∀i,j)。定理6.具有度量dMn(f,f′)=inf{kf−σ*f′kM(n):σ∈Sn}的商空间Mn=M(n。f处的切线空间由TfMn=Rn(n−1)2/Sym(f)给出,其中Sym(f)=σ∈Sn:σ*f=f是f的对称群。3.Ricci曲率的下界最后,让我们简单地提到度量测度空间的合成Ricci下界的强大概念,它表示为Boltzmann熵Rρlogρdm的半凸性,如果ν=ρ·m+∞,则如果ν6≪mon Wasserstein空间。定义3(Sturm 2006,Lott-Villani 2009)。三元组(X,d,m)的Ricci曲率≥K iff∀0,µ1∈P2(X):∃W2-测地线(µt)ts.t.\8704»t∈[0,1]:K 2t(1−t)W22(µ0,μ1)。这一综合定义的成功和重要性源于这样的事实:•它等价于黎曼流形的Ric≥K·g•它在收敛性下是稳定的•它在一般情况下暗示了大多数几何和泛函不等式,这些不等式在黎曼情况下被称为下Ricci界的结果(例如直径、特征值、热核等的估计)。如果基本度量测度空间是无穷小的Hilbertian,那么热流是线性的,并且以下断言是等价的•(X,d,m)对于所有t>0和所有µ,ν,Ricci曲率≥K•W2(Ptµ,Ptν)≤e−KtW2(µ,☑)。166Oberwolfach Report 3/2018树木数据降维惠灵乐进化树的BHV空间是一个分层空间。特别是,具有m+2个叶子的树木的空间Tm+2具有(2m+1)!!m维地层及其边界地层,选自RM m中的m正值地层,其中m=2m+2−m−4。由于空间的维数和结构,再加上树数据通常在空间中分布得相当广泛,因此很难直接应用常见的欧几里德统计技术。在树空间中构造主测地线的方法最近在[3]中得到了发展。论文[4]提出使用加权Fr′echet轨迹方法将欧氏空间中第k个主成分的思想推广到树空间,而[5]则使用热带几何学来解决类似的问题。对于流形上的数据分析,在一定程度上保留树空间的某些非欧几里德结构的另一种可能的方法是,在简化数据结构的同时,使用对数映射将数据映射到Fr′echet平均值的切线锥。点x∈Tm+2处的切锥是一种拓扑结构和分层,它模仿了x附近的Tm+2本身。特别是,如果x位于顶维地层中,则x处的切锥体是通常的切空间。如果x位于共维一的地层中,那么x处的切锥是一本有三页的开着的书。在x处的对数图将树空间中的任何y映射到测地线的初始段,从x到y重新缩放到长度等于x和y之间的距离(参见[1]和[2])。特别是,在x∈σ处,限制在σ边界的地层上的对数映射是“同一性”映射。因此,在测井图下,这些地层中的点的图像没有失真。在使用对数图将树数据投影到Fr’echet平均值的切线锥后,我们可以通过适当地采用欧几里德方法进一步分析投影数据。我们使用下面的简单示例来说明这个想法。假设Tm+2中一组数据的Fr’echet平均值位于共维一层σ中。可以考虑将主蜘蛛拟合到投影数据,如下所示。假设投影数据为x0,1,··,x0,k0∈ii,其中1 6i 6 3,k0>0,ki>0,Rm−1是σ的切线空间,τi是σ边界的第i个顶维地层。然后,数据的主蜘蛛可以定义为由[3i(a,bi),i=1,其中(a,b)是直线a+tb的交点,单位为Rm,与Rm−1×R+和(a,b1,b2,b3)几何结构数据统计167 Xk0X3Xki系列 =参数infd(x0j,a)2+d(xij,i(a,bi))2。a∈Rm-1,bi∈Rm−1×Ri+j=1i=1j=1这个过程可以推广到两个以上的维度,例如,当投影数据的Fr’echet平均值位于较高的共维地层中时,2D主要打开书本。然而,上述方法并不是解决这些问题的唯一方法,它提出了进一步的问题,即如何推广欧几里德统计方法来处理简单但通用的欧几里得锥上的数据,同时考虑到生物数据的特征。参考文献
[89] D.Barden、H.Le和M.Owen,在系统发育树空间中限制Fr’echet平均值的行为,《统计数学研究所年鉴》70(2018),99-129·Zbl 1394.62153号
[90] D.Barden和H.Le,北方空间中的对数图、其极限和Fr’echet均值,arxiv.org/pdf/1703.07081.pdf(2017)·Zbl 1434.60007号
[91] T.M.W.Nye,系统发育树空间中的主成分分析,Ann.Statist。39(2011), 2716-2739. ·Zbl 1231.62110号
[92] T.M.W.Nye,X.Tang,G.Weyenberg和R.Yoshida,主成分分析和系统发育树空间中Fr’echet平均值的位置,《生物统计学》104(2017),901-922·兹伯利07072335
[93] R.Yoshida,L.Zhang和X.Zhang,热带主成分分析及其在系统发育学中的应用,arxiv.org/pdf/1710.02682.pdf(2017)。分层空间、飞翼和多参数持久同调Ezra Miller定义1.拓扑分层空间是Hausdorff拓扑空间X,它是一个不相交的并集X=M1к·流形(地层)的Misuch,(1)对于所有k≤ℓ; 对于地层中的任何点x,y,Mithere是同胚xX与•地层保持(因此,(Mk)=Mk表示所有k)和•(X)=y。分层空间的概念比预先给定的更具限制性,例如,人们可以省略同胚条件,但该定义相当于空间X的局部结构沿任何固定地层都是局部平凡的。也就是说,同胚条件意味着在任何点x∈Mithe x的局部结构看起来与y∈Mi的结构相同。拓扑分层空间的示例包括所有Whitney分层空间[GM88],特别是所有实半代数簇(以及所有实代数簇和复代数簇)[Shi97,I.2.10]。因此,多面体细胞复合体是分层空间。嵌入R2中的任何平面图也是拓扑分层的。168Oberwolfach报告3/2018果蝇的翅膀(图片取自[Mil15])就是这样的平面嵌入图。它们是自然分层的,0维的层是矿脉图的顶点,1维的层则是构成矿脉本身的弧。(在所呈现的数据集中,弧被编码为二次样条,特别是代数样条。)该演讲提出了一种从几何统计学中总结这些翼脉图的方法,以尊重分层,从而从具有生物学意义的分层中学习。这种分析的动机是机翼具有不同的拓扑结构,因此基于陆地的方法不适用。例如,请注意,左侧所示的正常机翼与中间机翼(有一个额外的横脉)以及右侧所示的机翼(其中一个纵脉未到达机翼边界)不同。待测试的生物学假设假设,为了论证,选择特定类别的连续变化,例如选择更长的翅膀,平均会导致相关的连续变化(更长的翅膀),但“在类似方向上”拓扑变化的速率更高。要做到这一点,需要包含拓扑和几何信息的摘要。所讨论的方法应用了多参数持久同源性。该方法大约在十年前引入[CZ09],但主要是在离散变化参数的背景下开发的。分层飞翼的想法是使用两个实际参数。一个记录以顶点为中心的球的半径(0维层),另一个记录边缘加厚的宽度(1维层):(取自[Mil15]的图像)。给定半径r和厚度s的拓扑空间Xrs是通过删除r展开的顶点,从s加厚边的并集得到的。双参数持久同源性{Hi(Xrs)|r,s∈r≥0}概括了分层飞翼。为了给出总结的外观以及它如何反映分层的概念,我们给出了一个简单的玩具示例[Mil17,示例1.3]。左侧图像中玩具模型“飞翼”的第0个持久同源性被描绘为右侧图像中几何结构数据的统计169,其中每对参数(r,s)∈R2根据其相关向量空间H0(Xrs)的维数着色,即3,2,或1向上(增加边缘厚度)向右(减小圆盘半径):(图片由Ashleigh Thomas制作)。指定从维数3的向量空间到维数2或1的向量空间的过渡的关系,与指定从维数2到维数1的过渡的那些关系一样,都位于一条实代数曲线上。最后,要点是,无论图的拓扑如何,嵌入的平面翼面图都被总结为平面上的积分值函数。这些总结适用于普通的线性统计方法。参考文献[CZ09]Gunnar Carlsson和Afra Zomordian,多维持久性理论,离散和计算几何42(2009),71-93。[GM88]M.Goresky和R.MacPherson,分层莫尔斯理论,Ergebnisse der Mathematik und ihrer Grenzgebiete(3)[数学和相关领域的结果(3)],14,SpringerVerlag,柏林,1988年。[Mil15]埃兹拉·米勒(Ezra Miller),《果蝇和模数:生物学和数学之间的相互作用》,《美国数学通告》(Notices of the American Math)。《社会》62(2015),第10期,1178-1184。doi:10.1090/noti1290 arXiv:q-bio.QM/1508.05381[Mil17]Ezra Miller,真实多参数持久性模块的数据结构,107页。arXiv:数学。AT/1709.08155v1[Shi97]Masahiro Shiota,《次解析和半代数集的几何》,《数学进展》,第150卷,斯普林格出版社,纽约,1997年。doi:10.1007/978-1-4612-2008-4通过持久同调实现动态度量空间的稳定签名。Facundo M´emoli(与Woojin Kim联合工作)将数据作为一个静态有限度量空间(X,dX),层次聚类方法找到了一个层次化的分区族,该族捕获了数据集中的一些多尺度特征。这些分区的层次族被称为树状图(见左图),从图论的角度来看,它们是平面的,因此它们的可视化很简单。170Oberwolfach报告3/2018我们现在将注意力转向动态数据的聚类问题。我们将动态数据集建模为时变有限度量空间,并研究树状图概念的简单推广,我们称之为formigram(见右图),它是单词formicarium1和diagram的组合。当数据点沿某个尺度参数聚集时,树状图可用于建模情况,而当数据点也可能分离或分解,然后在不同的参数值重新组合时,形式图更适合表示现象。考虑这种情况的一个动机来自对动物、车队、移动集群或移动群体的群集/群集/放牧行为的研究和描述(全文中列出了大量参考文献[13])。与树状图相比,形状图并不总是平面的,因此需要进行更多的简化,以便更容易地可视化它们包含的信息。我们通过将之字形的持久同源条形码/图表[3]与表格关联来实现这一点。我们证明了所得到的签名(1)对于输入动态度量空间的扰动是稳定的,(2)仍然具有信息性。所谓的单链接层次聚类方法[10]从有限度量空间中以稳定的方式生成树状图:即,如果输入静态数据集在Gromov-Hausdorff意义下很接近,那么输出树状图也会很接近[4]。这一结果进一步推广到高维同源特征[5]。在本文中,我们研究了在多大程度上可以导出与动态数据集类似的结果。我们的结果概述在下文中,由于本文的篇幅有限,我们省略了一些定义,这可以在完整版本[13]中找到。在本文中,X和Y是非空有限集。我们分别用R和R+表示实数集和非负实数集。通过集合X上的动态度量空间(DMS),我们表示一对γX=(X,dX(·)),其中dX(.):R×X×XR+满足以下条件:(1)对于每个t∈R,映射dX(t):X×XR+是X上的伪度量,(2)对于任何固定X,X′∈X,映射t7dX(t)(x,x′)是连续的,(3)存在t0∈R,使得dX(t0)是x上的度量(为了不在x上有多余点)。回想一下,根据定义,对应R⊂X×Y分别通过第一和第二坐标的正则投影映射到X和Y上。我们对所有DMS的收集进行了如下计量。该度量的结构是Gromov-Hausdorff距离和Reeb图的交错距离[2,6]之间的混合[8]。定义1(DMS之间的交叉距离)。设γX、γYbe-DMS分别位于X和Y上,且ε≥0。如果在半自然条件下有1A蚁穴作为蚂蚁的围栏,我们说γX和γYareε-交错[12]。几何结构数据的统计171图1。这说明了将DMSγX(第一行的动态点云)转换为条形码的过程,条形码汇总了其聚类信息(最后一行):对于固定的δ≥0,应用Rips函数Rδ到γX会产生锯齿形单形过滤(第二行)。然后我们将连通分量函子π0应用于锯齿形单纯形滤波,得到一个形式图(第三行)。通过一些代数过程,最终获得条形码(最后一行)。详见[13]。存在一个对应关系R⊂X×Y,使得∀(X,Y),(X′,Y′)∈R,\8704]t∈R、mindY(s)(Y,Y′)≤dX(t)(X,X′)和mindX(s)。s∈[t]εs∈[P]εγX和γY之间的交错距离ddynI(γX,γY)由γX和ΓYareε交错的下确界ε≥0定义。如果对于任何ε≥0,γX和γY没有ε交错,则声明ddynI(γX,γY)=+∞。给定一个DMSγX(满足温和驯化条件[13,定义2.4]),对于每个非负整数k和连通性参数δ≥0,我们将其与之字形持久同源性Hk(Rδ(γX))关联,其中Rδ(βX)是由γX导出的Rips之字形过滤(详见图1和[13,第D节])。以下稳定性结果表明,分配γX7dgm(Hk(Rδ(γX))):定理1(稳定性定理)。对于任意两个驯化的二甲基亚砜γX和γY,以及任意δ≥0:dBdgm(H0(Rδ(γX)),dgm。我们注意到下界可以在多项式时间内计算[3,9,11]。在证明定理1的方法中,我们引入了(a)形式图的概念,既作为DMS动态聚类行为的总结(类似于树状图),又作为其代数解释(通过其锯齿状持久性条形码)是简约的对象(参见图1中的最后两行);(b) 格式图之间距离dFI的概念,它介导了ddynI和条形码之间的瓶颈距离;并受到实际应用的激励(c)对formigrams的平滑操作。特别是,为了证明定理1,我们利用了Botnan和Lesnick[1]关于之字形持久性的最新稳定性结果。上述定理1以及静态有限度量空间的现有结果表明,这种稳定性可能扩展到0维同调之外。有趣的是,有一系列反例表明,如定理1所示,稳定性是一种现象,似乎本质上与172 Oberwolfach Report 3/2018聚类(即H0)信息有关。我们让读者参考[13,定理1.3,图2]了解详细信息。致谢:这项工作得到了国家科学基金会拨款IIS-1422400和CCF-1526513的部分支持。参考文献
[94] 马格努斯·巴克·博特南和迈克尔·莱斯尼克。持久性模块的代数稳定性。arXiv预印arXiv:1604.006552016·兹比尔1432.55011
[95] 彼得·布贝尼克和乔纳森·斯科特。持久同源性的分类。离散与计算几何,51(3):600-6272014·Zbl 1295.55005号
[96] Gunnar Carlsson和Vin De Silva。曲折的坚持。计算数学基础,10(4):367-4052010·Zbl 1204.68242号
[97] Gunnar Carlsson和Facundo M´emoli。层次聚类方法的特征、稳定性和收敛性。机器学习研究杂志,11:1425-14702010·Zbl 1242.62050
[98] F.Chazal、D.Cohen-Steiner、L.Guibas、F.M´emoli和S.Oudot。Gromov-Hausdorff使用持久性稳定形状签名。程序中。SGP,2009年。
[99] 埃里克·查扎尔(eric Chazal)神父、大卫·科恩·施泰纳(David Cohen-Steiner)、马克·格利塞(Marc Glisse)、列奥尼达斯·吉巴斯(Leonidas J.Guibas)和史蒂夫·奥多特(Steve Oudot)。持久性模块及其图表的接近程度。程序中。第25届ACM研讨会。计算时。几何。,第237-246页,2009年·Zbl 1380.68387号
[100] 大卫·科恩·斯坦纳(David Cohen-Steiner)、赫伯特·埃德尔斯布鲁纳(Herbert Edelsbrunner)和约翰·哈勒(John Harer)。持久性图的稳定性。离散与计算几何,37(1):103-1202007·Zbl 1117.54027号
[101] 文·德·席尔瓦(Vin De Silva)、伊丽莎白·蒙克(Elizabeth Munch)和阿米特·帕特尔(Amit Patel)。分类Reeb图。离散与计算几何,55(4):854-9062016·兹比尔1350.68271
[102] 赫伯特·埃德尔斯布伦纳(Herbert Edelsbrunner)和约翰·哈勒(John Harer)。计算拓扑-简介。美国数学学会,2010年·兹比尔1193.55001
[103] N.Jardine和R.Sibson。数学分类法。约翰·威利父子公司,伦敦,1971年。概率与数理统计中的威利级数·Zbl 0322.62065号
[104] Nikola Milosavljevi´c、Dmitriy Morozov和Primoz Skraba。矩阵乘法时间中的曲折持久同源性。《第二十六届计算几何年度研讨会论文集》,SoCG’11,第216-225页,美国纽约州纽约市,2011年。ACM公司。网址:http://doi.acm.org/10.1145/1998196.1998229,doi:10.1145/1998196.1998229·Zbl 1283.68373号
[105] 维基百科。Formicarium-Wikipedia——自由百科全书。https://en.wikipedia.org/wiki/Formicarium网站, 2017. [在线;2017年6月3日访问]。
[106] Woojin Kim和Facundo Memoli。基于Zigzag持久同调的动态度量空间的稳定签名。arXiv预印arXiv:1712.040642017·Zbl 1480.55007号
[107] 赞恩·史密斯(Zane Smith)、伍金·金(Woojin Kim)和法昆多·梅莫利(Facundo Memoli)。关于植绒、形状图和锯齿形条形码的计算示例。https://research.math.osu.edu/networks/formigrams网站, 2017. 对称正定矩阵Sungkyu Jung的标度旋转统计(与Armin Schwartzman、David Groisser和Brian Rooks联合工作)我们讨论了Sym+(p)上的几何结构,Sym+是p×p对称正定(SPD)矩阵的集合,p≥2。特征分解确定了Sym+(p)的分层(由特征值多重性定义)和特征分解映射F:SO(p)×Diag+(pSym+(p),F((U,D))=U DU−1[1]。这就引出了缩放旋转距离的概念[2],这是一种通过Sym+(p)中的平滑曲线将SPD矩阵X转换为几何结构数据统计173和Y所需的最小缩放和旋转量的度量。给出了连接SO(p)×Diag+(p)中两条光纤的最小长度测地线的Sym+(p。连接X和Y上光纤的测地线的长度是我们定义的X到Y的缩放旋转距离。这个标度旋转几何框架与用商空间SO(p)×Diag+(p)识别Sym+(p~,其中等价关系~由F给出;(U1,D1)~(U2,D2)当且仅当F((U1、D1)=F(((U2、D2)))。MSSR曲线在X和Y之间的升力实际上是X升力和Y升力之间所有连续路径中的最小长度路径,它是测地线。允许光纤中SO(p)×Diag+(p)路径的不连续性,会导致Sym+(p)中的最小长度分段平滑缩放旋转曲线。这样一条曲线的长度给出了标度旋转度量ρ的概念,并且(Sym+(p),ρ)是一个度量空间。在扩散张量成像的应用领域中,张量被定义为3×3 SPD矩阵M,通常由相应的椭球体可视化,其表面坐标x∈3满足xTM−1x=1。缩放旋转几何框架通过X和Y之间的MSSR曲线提供了两个SPD矩阵或张量之间的平滑插值方法。当X的多个特征值集合与Y的多个特点值集合重合时,如果特征值是不同的,并且特征值之间的差异足够大,则标度旋转插值是一个纯恒角速度旋转。这可以防止在插值两个“瘦”张量时张量(椭球体)“膨胀”。作为比较,假设插值由X和Y之间的最短测地线给出,其中测地线定义在Sym+(p)上的仿射变黎曼内积下。这种插值的形式是fAI(t)=X1/2exp(t log(X−1/2Y X−1/2))X1/2,其中exp和log是矩阵指数及其逆函数。如果X的特征向量矩阵集与Y的特征向量阵集不相交,则fAI的特征向量阵列的角速度不是常数。本摘要中省略的数据示例证实了这一点。当平滑度要求放宽到分段平滑时,缩放旋转框架的优势是否仍然存在?如果最小分段平滑曲线确实是平滑的,那么答案是肯定的。在所有分段光滑曲线中,两条MSSR曲线最短的X,Y上条件的形式代数分析是一个开放问题。参考文献
[108] David Groisser、Sungkyu Jung和Armin Schwartzman。对称正定矩阵缩放旋转统计的几何基础:低维最小平滑缩放旋转曲线。电子。《J.Stat.》11:1092-1159,2017年·Zbl 1361.53061号
[109] 宋楚荣、阿明·施瓦茨曼和大卫·格罗伊斯。对称正定矩阵的缩放旋转距离和插值。SIAM J.矩阵分析。申请。36 11801201. 174Oberwolfach报告3/2018 S-reps及其统计Stephen Pizer S-reps是解剖物体的丰富几何表示,适合形状分析统计。它们是准中胚层的骨骼模型,并且是稳定的,因此在解剖群体中的对象之间存在称为辐条向量的原始向量的对应关系。海马体的s-rep示例如图1所示–辐条是连续的,但显示的是密集采样。图1.s-rep图2.计算机中表示的海马的s-rep。s-rep捕捉对象边界方向U的重要形状属性(沿边界变化)、对象宽度r(实际上是半宽度)的相关形状属性(沿着对象变化)以及对象的位置信息。因此,与其他对象表示相比,它提供了改进的统计性能,如各种实证研究所示,这些实证研究将其应用于分类,并提供从3D图像分割的先验。可以为任何数量的基本分支和任何拓扑生成S-rep。然而,我们关注的是3D中没有基本分支的对象,它们要么是球形拓扑结构,要么是slabular几何结构(三个主轴具有明显不同的长度),要么是广义圆柱体拓扑结构(曲线中心曲线扩展为半径为ǫ的曲线圆柱体)。很多物体都采用这两种形式之一,并已成功地用s-reps表示,例如,Slabular:海马、侧脑室、壳核、大脑皮层(尽管皮层严重折叠)、膀胱、前列腺、心脏、肺、肌肉;广义圆柱体:各种动脉、直肠。如图3所示,2D中未支链的s-rep骨架是一条具有圆形拓扑的折叠曲线,因此曲线的两侧粘贴在一起。在3D中,颅骨的形状可以理解为由两片塑料薄膜粘贴在一起并沿折叠曲线连接而成。在其广义圆柱体形式中,骨架由一个带半径“轮辐”向量的弯曲圆柱体形成,从骨架上的每个点到对象边界形成s-rep。s-rep适合作为数据给出的对象边界,其方式使几何结构数据统计175图3。二维s-rep。在数学形式上,辐条向量沿着骨架是连续的。骨骼的两侧遵循相同的位置轨迹。(1) 辐条填满物体内部(2)辐条互不交叉(3)辐条从折叠处到边界上的波峰点,那里有波峰(4)骨架上与周围空间相同的点的辐条长度接近相等(5)辐条几乎正交地与边界相交(6)辐条的摆动遵循径向形状操作符[1],类似于描述边界法线摆动的著名形状操作符,描述骨架上辐条的摇摆。辐条末端与边界以及条件4和5的拟合的近似性质使得分支拓扑可以作为一个先决条件给出,拟合是稳定的,并且与边界相当紧密,这适用于统计的s-rep,不同于其浓密骨架的骨骼模型的中间形式,对边界噪声高度敏感,使得统计分析极难实现。为了进行计算机表示,使用了s-rep的采样辐条,并且使用上述径向形状操作符的辐条插值[2]的数学上仔细的方法可以在任何所需密度下生成辐条,该密度用于拟合所有插值辐条末端的边界数据。对输入边界的拟合只需要用户提供沿着对象的长轴的辐条数量和跨越对象的第二宽轴的辐条数量。鉴于此,轮辐的规则间距是通过在统计中使用的s-rep训练样本中产生对应关系来确定的。计算机表示的(离散的)s-rep中的每个轮辐由长度r、轮辐方向U和骨架点p组成。表示的(长度,方向)形式可以更直接地描述所需的对象特征,在s-rep所在的抽象流形上生成性能更好的测地线,经验表明,与辐条的欧几里德表示法相比,它能产生更好的统计分析。176 Oberwolfach报告3/2018 s-rep的n条辐条的长度抽象地活在Rn上(对于n条辐条长度的对数),以及这些辐条的方向U活在(S2)n上。根据[3],将每个骨架的np值集中在其质心上,作为一个空间尺度,可以理解骨架上n个辐条位置的元组,计算为中心点和S3n-4上一点的欧氏范数γ。经验表明,这种空间点元组表示比欧几里德表示具有更好的统计性能。取下空间尺度的对数后,空间尺度位于R1上。因此,s-rep被理解为生活在多球体(S2)n×S3n−4和Rn的笛卡尔积上。s-reps的概率估计分析是通过Marron在本论文摘要中描述的方法完成的。这里将简要介绍s-重复的分类方法。将两个训练班中的s-rep合并,并从该合并中计算出主嵌套球体的极坐标系(PNS)。然后,通过编译每个降维的PNS得分,将每个训练s-rep转换为欧氏化坐标。因此,这些欧氏化坐标的元组通过欧氏方法距离加权判别(DWD)[5]进行分析,以在欧氏空间中产生分离方向。然后,将欧氏化训练用例投影到该方向上,以形成每个类的直方图。然后,在使用训练中导出的极坐标系对新s-rep进行欧氏化后,使用这些直方图计算其类概率。这种方法也适用于多面体和欧几里德空间的笛卡尔积上的其他表示。使用这种方法将许多大脑结构分为控制类和疾病类,取得了优于其他对象表示及其相关统计分析技术的结果[4]。同样,通过一种基于s-reps计算先验值(解剖形状统计)的后验优化变体,从多种3D医学图像类型中对许多解剖结构进行了高质量的3D分割[2]。未来的工作将包括使用PPCA分析多球体统计数据[6],根据Mio的想法对s-reps进行多尺度分析(参见本论文集),生成一种s-rep变体,该变体可以处理带尖点的3D物体,例如尾状核[4],评估各种脑结构分类[4],进一步开发广义圆柱的s-rep,并将s-reps扩展到具有其他拓扑或基本分支的对象。参考文献
[110] J.达蒙。从媒体数据中确定对象边界的几何图形。国际计算机视觉杂志63:45-64,(2005)·Zbl 1477.68466号
[111] J.维克里。
[112] D.G.肯德尔。形状的扩散。应用概率的进展,9,3:428-430(1977)
[113] J.Hong。几何结构数据统计177
[114] J.S.Marron、M.J.Todd和J.Ahn。距离加权歧视。《美国统计协会杂志》,102480:1267-1271,(2007)·Zbl 1332.62213号
[115] B.Eltzner、S.Jung和S.F.Huckemann。多边形上的降维及其在骨架表示中的应用。《信息几何科学》2015年论文集,22-29,(2015)。关于潜在变量模型的几何Søren Hauberg潜在变量模型(LVMs)通过低维随机变量x∈x=RD,(d≪d)和(一般非线性)随机映射f:x描述数据y∈y=RD的分布在这里,我们讨论由这个随机映射诱导的随机黎曼几何。本文的结果首次在[1,2]中陈述。为了明确讨论,我们考虑高斯过程(GP)LVM[3],其中f具有分量条件独立的高斯过程条目,(1)fi(x)~GP(mi(x),k(x,x′)),∀i=1,D.这里,miand k是ithGP的均值和协方差函数。注意,我们假设所有维度的协方差函数都相同,因为这简化了未来的计算。无论这种简化如何,所呈现的关键结果仍然有效。假设k是足够光滑的协方差,则f中的样本图像是光滑的d维浸入流形。注意,这个流形只与d维欧几里德空间局部微分,并且它可能全局自相交。然后自然地考虑拉回度量M=J⊤JoverX,其中J∈RD×dis是f的雅可比。这定义了X上的黎曼度量。由于f是随机的,所以M也是随机对象。由于高斯变量在微分下是闭合的,因此J遵循GP,YDYD J~N(µ(J,:),∑)=N(≠K⊤−1Y:,J,≠2K*,∗−K᛬K−1(2)x,∗x,x*,xx,xK*,x),J=1j=1,其中我们使用GP的标准符号[4]。因此,给定点的M由非中心Wishart分布[5](3)M~Wd(D,∑,E[J]⊤E[J]])控制。根据定义,整个度量遵循广义Wishart过程[6]。由于度量是一个随机变量,我们无法应用标准黎曼几何来理解空间X(例如,曲率是随机的,测地线是随机微分方程的解,等等)。然而,我们可以检查度量(4)E[M]=E[J⊤J]=E[J]\8868;E[J]+D∑=O(D)(5)var[Mij]=D(∑2ij+∑ii∑jj)+µJ∑µJ+µi∑i=O(D)178Oberwolfach Report 3/2018,我们发现两者都随着Y的维度线性增长。这引发了关于回拉度量在高维D中如何表现的问题→ ∞. 确保Y的内积收敛于极限D中的通常L2内积→ ∞ 我们让1XZ(6)代比→∞阿特比特。i=1然后,自然回拉变为M=D1J⊤J,其力矩为1(7)E[бM]=EJ𕩫J=1E[J]𕩰E[J]+∑=O(1)DD(8)DD2j∑µJ+D2µi∑µ的i=OD1,在极限D中→ ∞ 因此,我们可以看到,即使基本流形是一个随机对象,方差消失,度量也变得完全确定。含义和扩展。这个简单易证明的结果相当令人惊讶:即使我们只有关于底层数据流形的随机信息,其度量也是确定性的。此外,从等式7中,我们可以看出,这个确定性度量对应于平均值f的(通常)回调度量加上捕捉流形不确定性的附加项。这意味着在数据密度低的区域(流形不确定的区域)度量值较大,因此测地线将倾向于避开此类区域。图中显示了一个这样的例子。这里,人体运动捕捉数据y用于估计二维流形[1]。在图中,白点对应于数据的低维表示,绿色曲线是在预期度量下计算的测地线示例,背景颜色与预期度量引起的体积度量成比例。我们看到,在数据密度低的地区,度量值“更大”,测地线因此遵循数据的结构。后者在分析实际数据时非常有用,因为基于距离的数据分布将很好地适应数据[2]。从实用的角度来看,测地线可以通过在期望度量下数值求解通常的常微分方程组来用X计算。解决方案是X中的曲线,对应于Y中的GP。因此,测地线仍然是随机对象,但可以通过求解一组确定性方程来确定。所给出的推导依赖于f(X)的维数是条件独立的,这是一个常见的假设。这可以缓解:如果维度(不完全)相关,那么方差仍然会下降,尽管速度比D−1慢。因此,作为一般经验法则,浸没在高维空间中的不确定流形的几何结构数据的随机统计179回拉度量与(确定性)预期度量很好地近似。致谢。SH得到了VILLUM FONDEN的研究资助(15334)。该项目已收到欧洲研究委员会(ERC)根据欧盟地平线2020研究与创新计划(第757360号拨款协议)提供的资金。参考文献
[116] A.Tosi、S.Hauberg、A.Vellido和N.Lawrence,概率几何的度量,《人工智能不确定性会议》(2014)。
[117] G.Arvanitis、LK.Hansen和S.Hauberg,《潜在空间奇数:深层生成模型的曲率》,学习表征国际会议(2018年)。
[118] N.Lawrence,高斯过程潜在变量模型的概率非线性主成分分析,机器学习研究杂志6。2005年11月:1783-1816·Zbl 1222.68247号
[119] 欧洲委员会。拉斯穆森和CKI。Williams,《机器学习的高斯过程》,大学出版社(2006年)·Zbl 1177.68165号
[120] RJ公司。Muirhead,《多元统计理论方面》,John Wiley&Sons(2005)。
[121] AG.威尔逊
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。