机器学习研究进展 因果学习和推理第二届会议记录2023年4月11日至14日在德国乌宾根亚马逊开发中心举行机器学习研究论文集于2023年8月10日作为第213卷出版。卷编辑:米哈拉·范德沙尔Cheng Zhang(张成)多米尼克·詹津系列编辑器:尼尔·D·劳伦斯 https://proceedings.mlr.press/v213/ 2023年8月10日星期四10:10:35+0000 2023年8月10日星期四10:10:35+0000 Jekyll v3.9.3 基于事实观察的异质性学习用于反事实预测 现有的因果方法专门利用基于观察到的协变量的异质性来预测异质性结果。即使使用当今的大数据,收集的协变量也可能不包含完全混淆。当缺少一些混淆因素时,这些方法可能会受到混淆偏差和缺少异质性的影响。为了解决这两个问题,我们建议利用观测数据中的事实观测来恢复潜在的混杂因素。由于学习的混杂表征利用了潜在混杂因素的异质性,因此可以得到更精细的异质性结果预测,这比仅基于协变量的预测更接近个体水平。具体而言,我们提出了一种新的基于事实观察的异质性学习(FOHL)算法,该算法具有用于混淆表示学习的编码器和用于结果预测的解码器。理论分析揭示了从实际观测中恢复混杂因素以使异质预测更接近个体水平的有效性。此外,实验结果表明,我们的FOHL方法可以优于现有的基线。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/zou23a.html https://proceedings.mlr.press/v213/zou23a.html 干扰和模型不确定性下的因果推理 将数据作为输入的算法通常假设输入数据集中的变量是独立且相同分布的(IID)。然而,在许多由单元/样本相互作用的过程生成的真实数据集中,可能会违反IID。典型的例子包括公共卫生中可能与传染病有关的传染病、金融中的经济危机和社会科学中的风险行为。处理非IID数据(不做额外假设)需要访问真实的数据生成过程和单元/样本之间的确切交互模式,这可能不容易获得。这项工作的重点是在交互模式存在不确定性的情况下,样本之间的一种特定类型的交互作用,即干扰(即某些单元的处理会影响其他单元的结果)。主要贡献包括使用线性图形因果模型对不确定交互进行建模,在错误假设IID时量化偏差,提出消除此类偏差的程序,并推导平均因果影响的界限。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/zhang23a.html https://proceedings.mlr.press/v213/zhang23a.html 多干预分布上的联合学习一致因果抽象 抽象可用于将两个结构因果模型关联起来,这两个模型代表不同分辨率的同一系统。学习保证干预分布一致性的抽象概念,可以让人们在尊重潜在因果关系的同时,跨多个粒度级别联合推理证据。本文基于Rischel(2020)最近提出的抽象形式化,介绍了SCM之间因果抽象学习的第一个框架。在此基础上,我们提出了一种联合求解许多组合子问题的可微编程解决方案,并针对合成设置和与电动汽车电池制造相关的具有挑战性的现实问题,研究了其相对于独立和顺序方法的性能和利益。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/zennaro23a.html https://proceedings.mlr.press/v213/zennaro23a.html 综合控制模型的非参数可辨识性和灵敏度分析 量化因果关系是从医学到经济学等许多领域的一个重要问题。解决这个问题的金标准是进行随机对照试验。然而,在许多情况下,此类试验无法进行。在缺乏此类试验的情况下,已经设计了许多方法来量化给定某些假设的观测数据干预的因果影响。一种广泛使用的方法是综合控制模型。虽然已经从一系列假设中获得了此类模型中因果估计的可识别性,但广泛且隐含的假设是,干预前后的所有时间段都满足了基本假设。这是一个强有力的假设,因为综合控制模型只能在干预前阶段学习。在本文中,我们解决了这一挑战,并通过证明其遵循不变因果机制的原理,证明了无需此假设即可获得可识别性。此外,我们首次在Pearl的结构因果模型框架中制定和研究了综合控制模型。重要的是,我们提供了一个通用框架,用于对违反非参数可识别性假设的综合控制因果推断进行敏感性分析。最后,我们对模拟数据和实际数据的敏感性分析框架进行了实证验证。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/zeitler23a.html https://proceedings.mlr.press/v213/zeitler23a.html 零膨胀数据的有向图形模型与因果发现 随着技术的进步,单个细胞的基因表达测量可以用于获得对基因之间调节关系的精确见解。定向图形模型非常适合探索这种(因果)关系。然而,由于数据通常显示零膨胀的表达模式,单细胞数据的统计分析变得复杂。为了应对这一挑战,我们提出了基于Hurdle条件分布的有向图形模型,该条件分布根据父变量中的多项式及其为零或非零的$0/1$指标进行参数化。虽然高斯模型的有向图一般只能在等价类内识别,但我们表明,在自然和弱假设下,可以识别零膨胀模型的精确有向非循环图。我们提出了图形恢复的方法,将我们的模型应用于T辅助细胞上的真实单细胞基因表达数据,并通过模拟实验验证了实际中的可识别性和图形估计方法。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/yu23a.html https://proceedings.mlr.press/v213/yu23a.html 论介入性Kullback-Leibler分歧 现代机器学习方法擅长于静态设置,在静态设置中,可以为给定任务提供大量的身份识别训练数据。然而,在动态环境中,智能代理需要能够跨域传输知识和重用学习的组件。有人认为,这可能是通过因果模型实现的,目的是在独立的因果机制方面反映现实世界的模块化。然而,给定数据集背后的真实因果结构通常无法识别,因此,最好能在观测和干预层面上量化模型之间的差异(例如,基本事实和估计之间的差异)。在目前的工作中,我们引入了干预Kullback-Leibler(IKL)分歧,以量化模型之间的结构和分布差异,这些差异是基于由地面实况干预产生的有限组多环境分布。由于我们通常无法量化每一组有限的干预分布的因果模型之间的所有差异,我们提出了干预目标的充分条件,以识别模型可证明同意或不同意的观察变量子集。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/wildberger23a.html https://proceedings.mlr.press/v213/wildberger23a.html 利用因果图进行随机实验中的阻塞 经常进行随机实验来研究感兴趣的因果效应。阻塞是一种在实验材料不均匀时精确估计因果效应的技术。它包括根据导致非均质性的协变量对可用的实验材料进行分层,然后在这些地层(称为块体)中随机化处理。这消除了协变量对相关因果效应的不必要影响。我们研究了如何找到一组稳定的协变量来形成块的问题,以最小化因果效应估计的方差。利用潜在的因果图,我们提供了一个有效的算法来获得一般半马尔可夫因果模型的这样一个集合。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/umrawal23a.html https://proceedings.mlr.press/v213/umrawal23a.html 基于共同命运的无监督对象学习 从未标记视频中学习生成性对象模型是一个长期存在的问题,也是因果场景建模所必需的。我们将这个问题分解为三个子任务,并为每个子任务提供候选解决方案。受格式塔心理学共同命运原则的启发,我们首先通过无监督运动分割提取运动物体的(噪声)掩模。其次,生成模型分别训练在背景和运动对象的掩码上。第三,将背景和前景模型组合在一个条件“枯叶”场景模型中,以采样自然出现遮挡和深度分层的新场景配置。为了评估各个阶段,我们引入了FISHBOWL数据集,该数据集位于复杂的现实世界场景和简单对象的通用以对象为中心的基准测试之间。我们表明,我们的方法学习生成模型,这些生成模型超越了输入视频中的遮挡,并以模块化的方式表示场景,通过允许例如在训练期间未观察到的对象数量或密度,允许在训练分布之外生成似是而非的场景。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/tangmann23a.html https://proceedings.mlr.press/v213/tangmann23a.html 具有潜在变量的样本特定根因果推断 根本原因分析试图确定导致不希望的结果的一组初始扰动。在之前的工作中,我们使用在结构方程模型中预测诊断的外生误差项来定义特定于样本的疾病根源。我们使用Shapley值严格量化预测。然而,用于推断根本原因的相关算法假设没有潜在的混淆。我们放宽了这一假设,允许在预测因素之间进行混淆。然后,我们引入了一个相应的过程,称为带潜伏期的提取错误(EEL),用于在线性非高斯非循环模型下恢复错误项,直至被某些路径上的其他错误项污染。EEL还确定了用于快速计算Shapley值的最小相关误差集。该算法绕过了在这两种情况下估计潜在因果图的难题。实验表明,与前辈相比,EEL具有更高的准确性和鲁棒性。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/strobl23b.html https://proceedings.mlr.press/v213/strobl23b.html 凸壳临床试验的推广 随机临床试验消除了混杂因素,但规定了严格的排除标准,将招募限制在人群的一部分。观察数据集更具包容性,但存在混淆——由于部分优化的医生处方模式,往往会对治疗反应随时间的变化提供过于乐观的估计。因此,我们假设未经证实的治疗反应介于治疗分配之前的观察估计和治疗分配之后的观察估计之间。这种假设使我们能够通过使用一种称为最优凸包(OCH)的算法同时分析观测数据和试验数据,将独家试验的结果外推到更广泛的人群中。OCH以条件期望的凸壳或条件密度的凸壳(也称为混合物)表示处理效果。该算法首先利用观测数据学习组分期望值或密度,然后利用试验数据学习线性混合系数,以近似真实的处理效果;理论很重要地解释了为什么这种线性组合应该成立。OCH以最先进的准确性从预期和密度两方面评估治疗效果。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/strobl23a.html https://proceedings.mlr.press/v213/strobl23a.html 通过故意欠采样进行因果学习 对因果机制感兴趣的领域科学家通常受到他们收集社会、物理或生物系统测量值的频率的限制。一个常见且似是而非的假设是,较高的测量频率是获得有关潜在动力因果结构的更多信息数据的唯一途径。这种假设是设计新的、更快的仪器的强大推动力,但这种仪器可能不可行,甚至不可能。在本文中,我们证明了这一假设是错误的:在某些情况下,我们可以通过测量比我们现有工具慢得多的结果来获得关于因果结构的额外信息。我们提出了一种算法,该算法使用多个测量时间尺度上的图来推断潜在的因果结构,并表明在较慢的时间尺度上包含结构可以减少可能因果结构的等价类的大小。我们提供了有关故意欠采样产生增益的概率以及增益大小的模拟数据。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/solovieva23a.html https://proceedings.mlr.press/v213/solovieva23a.html 多变量时间点过程的影响预警 从连续时间数据集中识别影响感兴趣事件的事件子集在各种应用中都很有意义。然而,现有方法往往无法以时效的方式产生准确和可解释的结果。在本文中,我们提出了一个神经模型——多变量时间点过程的影响-注意(IAA-MTPPs),该模型利用变压器中强大的注意机制来捕获事件类型之间的时间动态,这与现有的实例-实例注意不同,在保持可解释性的同时使用变分推理。给定事件序列和先验影响矩阵,IAA-MTPP通过关注-影响机制有效地学习近似后验,然后通过影响-注意公式对给定采样影响的序列的条件似然进行建模。这两个步骤都是在B块多头自关注层中高效完成的,因此,与RNN等顺序模型相比,我们使用可并行化变压器体系结构的端到端训练能够实现更快的训练。与现有基准相比,我们在多个综合和实际基准上表现出了强大的实证性能,包括对分散化金融应用的定性分析。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/shou23a.html https://proceedings.mlr.press/v213/shou23a.html 一种用于因果发现的元增强学习算法 揭示现象、领域或环境的潜在因果结构具有重大的科学意义,尤其是因为可以从这些结构中得出推论。然而,不幸的是,鉴于一个环境,确定其因果结构带来了重大挑战。其中包括需要昂贵的干预措施以及必须搜索的可能结构的空间大小。在这项工作中,我们提出了一种元强化学习设置,通过学习因果发现算法来解决这些挑战,称为元因果发现,或MCD。我们将该算法建模为一种策略,该策略在一组具有已知因果结构的环境中进行训练,以执行预算干预。同时,政策学会保持对环境因果结构的估计。然后,学习的策略可以用作因果发现算法,以在几毫秒内估计环境的结构。在测试时,我们的算法即使在产生以前看不到的因果结构的环境中也表现良好。我们的经验表明,与玩具环境中的SOTA方法相比,MCD估计了良好的图,从而构成了学习因果发现算法的证明概念。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/sauter23a.html https://proceedings.mlr.press/v213/sauter23a.html 单连通路径图中部分协方差的因式分解 我们扩展了路径分析,证明了对于单连通路径图,两个随机变量的部分协方差分解了变量之间路径中的节点和边。该结果允许我们确定每个节点和边对偏协方差的贡献。它还使我们能够证明,在单连通路径图中,辛普森悖论是不可能发生的。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/pena23a.html https://proceedings.mlr.press/v213/pena23a.html 边界处理效果的随机因果规划 因果关系估计在自然科学和社会科学的许多任务中都很重要。我们为连续部分识别问题设计了算法:当未测量的混杂使得识别不可能时,限制多元连续处理的效果。具体来说,我们将因果效应作为约束优化问题中的目标函数,并最小化/最大化这些函数以获得边界。我们将灵活的学习算法与蒙特卡罗方法相结合,以随机因果规划的名义实现了一系列解决方案。特别是,我们展示了如何在辅助变量被分为预处理集和后处理集的情况下有效地制定通用框架,在这些情况下,不容易指定细粒度因果图。在这些设置中,我们可以避免需要完全指定隐藏的常见原因的分布族。蒙特卡罗计算也大大简化,从而产生了在计算上更稳定的算法。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/padh23a.html https://proceedings.mlr.press/v213/padh23a.html 离散时间过程的局部相关图 离散时间过程的局部依赖图封装了有关多维过程过去和当前状态之间依赖关系的信息,因此可以表示反馈回路。即使在离散时间设置中,随机过程中的条件依赖语句与潜在局部依赖图的分离特性相关的一些自然问题也分散在整个文献中。我们提供了统一的观点,并填补了某些空白。在本文中,我们研究了两种条件独立性的图形特征:那些在平稳状态下发生在马尔可夫链中的独立性,以及给定第三个子过程的过去,一个子过程过去与另一个子过程未来之间的独立性。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/niemiro23a.html https://proceedings.mlr.press/v213/niemiro23a.html 基于分数匹配的可扩展因果发现 本文演示了如何从观测非线性加性高斯噪声模型中对数似然的二阶导数中发现整个因果图。利用可扩展的机器学习方法近似分数函数$\nabla\operatorname{日志}p(\mathbf{X})$,我们扩展了Rolland等人的工作。(2022),该工作仅从分数中恢复拓扑顺序,并且需要昂贵的修剪步骤来去除排序中允许的伪边。我们的分析导致了DAS(Discovery At Scale的首字母缩写),一种实用的算法,通过与图形大小成比例的因子来降低修剪的复杂性。在实践中,DAS以当前最先进的技术实现了具有竞争力的准确性,同时速度快了一个数量级以上。总的来说,我们的方法实现了原则性和可扩展的因果发现,大大降低了计算门槛。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/montagna23b.html https://proceedings.mlr.press/v213/montagna23b.html 任意噪声下加性模型的分数匹配因果发现 因果发现方法本质上受到确保结构可识别性所需的一组假设的约束。此外,为了简化推理任务,通常会施加额外的限制:这是加性非线性模型上的高斯噪声假设的情况,这在许多因果发现方法中很常见。本文指出了该假设下推断的不足,分析了噪声项高斯性破坏下边缘反演的风险。然后,我们提出了一种新的方法,根据具有一般噪声分布的加性非线性模型生成的数据推断因果图中变量的拓扑顺序。这就产生了NoGAM(不仅是高斯加性噪声模型),这是一种因果发现算法,具有最小的假设集和最先进的性能,以合成数据为实验基准。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/montagna23a.html https://proceedings.mlr.press/v213/montagna23a.html 使用综合协方差的工具过程 在存在混淆的情况下,通常使用仪器变量方法进行参数估计。它们也可以应用于随机过程。仪器变量分析利用矩方程获得因果参数的估计值。我们证明了在随机过程中,可以使用积分协方差矩阵找到这样的矩方程。这提供了新的辅助变量方法,一类连续时间过程中的辅助变量法,以及离散和连续时间过程的统一处理。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/mogensen23a.html https://proceedings.mlr.press/v213/mogensen23a.html 因果抽象与软干预 因果抽象提供了一种理论,描述了几个因果模型如何在不同的细节层次上表示同一个系统。现有的理论建议将抽象模型的分析局限于将因果变量固定为常数值的“硬”干预。在这项工作中,我们将因果抽象扩展到“软”干预,即在不添加新的因果关系的情况下,将可能非恒定的函数分配给变量。具体而言,(i)我们将Beckers和Halpern(2019)的$\tau$-抽象推广到软干预,(ii)我们提出了软抽象的进一步定义,以确保软干预之间的唯一映射,以及(iii)我们证明了我们对软抽象的构造性定义保证了干预映射$\omega$具有特定且必要的显式形式。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/massidda23a.html https://proceedings.mlr.press/v213/massidda23a.html 部分定向图形模型定向的实用算法 在观察性研究中,真正的因果模型通常是未知的,需要根据可用的观测数据和有限的实验数据进行估计。在这种情况下,学习的因果模型通常表示为部分有向无环图(PDAG),其中包含有向和无向边,表示随机变量之间因果关系的不确定性。本文的重点是最大定向任务,对于给定的PDAG,该任务的目的是最大限度地定向无向边,从而得到的图表示与输入PDAG相同的马尔可夫等价DAG。该任务是因果发现中经常使用的子程序,例如,作为著名PC算法的最后一步。利用与寻找PDAG的一致DAG扩展问题的联系,我们通过提出两种扩展PDAG的新方法,推导出计算最大方向的更快算法,这两种方法都强调简单性和实用性。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/luttermann23a.html https://proceedings.mlr.press/v213/luttermann23a.html 基于稀疏机制移位模型的单细胞因果表征学习 变量自动编码器(VAE)等潜在变量模型已经成为分析生物数据的一种工具,特别是在单细胞基因组学领域。剩下的一个挑战是将潜在变量解释为定义细胞特性的生物过程。在生物应用程序之外,这个问题通常被称为学习分离表征。尽管引入了VAE的几个解缠结变体,并将其应用于单细胞基因组数据,但从独立和相同分布的测量结果来看,如果没有额外的结构,这项任务是不可行的。相反,最近的方法建议利用非平稳数据以及稀疏机制转移假设,以学习具有因果语义的分离表示。在这里,我们将这些方法学进展的应用扩展到分析具有遗传或化学扰动的单细胞基因组数据。更准确地说,我们提出了单细胞基因表达数据的深层生成模型,其中每个扰动都被视为针对未知但稀疏的潜在变量子集的随机干预。我们在模拟的单细胞数据上对这些方法进行基准测试,以评估它们在潜在单元恢复、因果目标识别和域外泛化方面的性能。最后,我们将这些方法应用于两个真实世界的大规模基因扰动数据集,发现利用稀疏机制转移假设的模型在迁移学习任务上优于当代方法。我们使用scvi-tools库实现了我们的新模型和基准测试,并将其作为开源软件发布在\url{https://github.com/Genentech/sVAE}. 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/lopez23a.html https://proceedings.mlr.press/v213/lopez23a.html 因果三联体:以干预为中心的因果表征学习面临的挑战 近年来,人们对从干预下的低水平图像对中学习高水平因果表征的兴趣激增。然而,现有的工作大多局限于远离现实问题的简单合成设置。在本文中,我们提出了因果三元组,这是一个因果表征学习基准,它不仅具有视觉上更复杂的场景,而且还具有两个在以前的作品中经常被忽视的关键需求:(i)一个可操作的反事实设置,其中只有特定的(对象级)变量允许反事实观察,而其他变量则不允许;(ii)干预性下游任务,强调独立因果机制原则的分布外稳健性。通过广泛的实验,我们发现基于非纠缠或以对象为中心表示的知识构建的模型显著优于分布式模型。然而,最近的因果表征学习方法仍然难以识别这种潜在的结构,这表明因果三元组面临着巨大的挑战和机遇。我们的代码和数据集将在https://sites.google.com/view/causaltriplet。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/liu23a.html https://proceedings.mlr.press/v213/liu23a.html 回溯反事实 反事实推理是人类认知中普遍存在的一种推理方式,即设想假想场景或可能的世界,其中某些情况与(f)实际发生的情况(反事实)不同。传统上,相反的情况被视为“小奇迹”,它们在局部违反自然法则的同时具有相同的初始条件。在Pearl的结构因果模型(SCM)框架中,通过干预修改因果律,同时共享外生变量的值,使其在数学上严谨。然而,近年来,这种纯粹的干预主义对反事实的解释越来越受到哲学家和心理学家的审查。相反,他们提出了对反事实的回溯解释,根据该解释,因果定律在反事实世界中保持不变;与事实世界的差异被“回溯”到改变的初始条件(外生变量)。在本研究中,我们在SCM框架内探索并正式化了这种反事实推理的替代模式。尽管有大量证据表明人类会回溯,但就我们所知,本研究构成了回溯反事实的第一个一般说明和算法。我们在相关文献的背景下讨论了回溯语义,并将其与可解释人工智能(XAI)的最新发展联系起来。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/kugelgen23a.html https://proceedings.mlr.press/v213/kugelgen23a.html 基于图像的治疗效果异质性 随机对照试验(RCT)被认为是评估干预措施平均治疗效果(ATE)的金标准。RCT的一个重要用途是研究全球贫困的原因,这一主题在2019年授予杜弗洛、班纳吉和克莱默的纪念阿尔弗雷德·诺贝尔的瑞典国家银行经济科学奖中明确引用,因为他们“以实验方法缓解全球贫困”。因为ATE是一个人口总结,研究人员通常希望通过对RCT数据收集过程中测量的年龄和种族等表格变量进行调节,更好地了解不同人群的治疗效果如何不同。尽管这些变量具有实质性的重要性,但它们通常只在实验时间附近才被观察到:单独使用这些变量可能无法捕捉到影响变化的历史、地理或邻里特定因素。在全球贫困研究中,当实验单元的地理位置大致已知时,卫星图像可以提供一个窗口,了解对了解异质性很重要的历史和地理因素。然而,目前还没有一种因果推理方法能够让应用研究人员从图像中分析条件平均治疗效果(CATE)。在本文中,我们开发了一个深度概率建模框架,用于识别具有相似治疗效果分布的图像簇,使研究人员能够通过图像分析治疗效果的变化。我们的可解释图像CATE模型还强调了一个图像敏感性因子,该因子量化了图像片段在平均效应聚类预测中的重要性。我们将所提出的方法与仿真中的备选方案进行了比较;此外,我们展示了该模型在实际RCT中的工作原理,评估了乌干达北部扶贫干预的效果,并获得了该国其他未收集实验数据的地区治疗效果的后验预测分布。我们在开源软件包中提供所有建模策略的代码,并讨论其在图像数据也很普遍的其他领域(如生物医学科学)中的适用性。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/jerzak23a.html https://proceedings.mlr.press/v213/jerzak23a.html 通过神经上下文分解发现连续变量的局部独立性 条件独立性提供了一种理解感兴趣变量之间因果关系的方法。一个底层系统可能会表现出更精细的因果关系,尤其是变量与其父变量之间的因果关系。这种关系称为局部独立关系。最广泛研究的局部关系之一是上下文特定独立性(CSI),它支持条件变量的特定赋值。然而,由于它不允许连续变量,其适用性往往受到限制:以连续变量的特定值为条件的数据即使没有实例,也只包含很少的实例,因此不可能测试独立性。在这项工作中,我们定义并表征了父母变量的一组特定联合分配中的局部独立关系,我们称之为上下文集特定独立性(CSSI)。然后我们给出了CSSI的规范表示,并证明了其基本性质。基于我们的理论发现,我们将发现系统中多个CSSI关系的问题归结为寻找联合结果空间的划分。最后,我们提出了一种新的方法,即新的神经上下文分解(NCD),该方法通过施加每个集合来学习这种划分,从而通过建模条件分布来诱导CSSI。我们的经验证明,该方法成功地发现了合成数据集和反映真实物理动力学的复杂系统中的基本真理局部独立关系。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/hwang23a.html https://proceedings.mlr.press/v213/hwang23a.html 因果单元选择的一种算法及其复杂性结果 单元选择问题旨在确定对象,即单元,这些对象在受到刺激时最有可能表现出期望的行为模式(例如,即将流失但如果受到鼓励会改变主意的客户)。最近引入了具有反事实目标函数的单元选择,现有工作侧重于根据观测和干预数据限定一类特定的目标函数,称为效益函数,因为无法使用完全指定的模型来评估这些函数。在给定一类广泛的因果目标函数和一个完全指定的结构因果模型(SCM)的情况下,我们提出了第一个精确的算法来寻找最优单元,从而补充了这一工作。我们证明了这类目标函数下的单位选择是$\box{NP}^{\box{PP}}$完全的,但当单位变量对应于SCM中的所有外生变量时,单位选择是NP完全的。我们还为我们提出的算法提供了基于树宽的复杂度界限,同时将其与一个著名的最大后验概率(MAP)推理算法相关联。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/huang23a.html https://proceedings.mlr.press/v213/huang23a.html 评估基于时间观测的因果发现技术在道路驾驶员行为中的应用 自主机器人需要对其环境中动态代理的行为进行推理。通常通过应用因果发现技术来创建模型来描述这些关系。然而,就目前来看,观测因果发现技术很难充分应对诸如因果稀疏性和非平稳性等条件,这些条件通常出现在自治代理域中的在线使用中。同时,由于领域限制,介入技术并不总是可行的。为了更好地探索观测技术面临的问题,并促进对这些主题的进一步讨论,我们对自主驾驶领域的10种当代观测时间因果发现方法进行了基准测试。通过对从现实世界数据集中提取的因果场景以及综合生成的因果场景进行评估,我们强调了需要改进的地方,以便将因果发现技术应用于上述用例。最后,我们讨论了未来工作的潜在方向,以帮助更好地解决当前最先进技术所面临的困难。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/howard23a.html https://proceedings.mlr.press/v213/howard23a.html 用于估计因果效应的局部因果发现 即使我们数据背后的因果图未知,我们也可以使用观测数据来缩小平均治疗效果(ATE)可以采用的可能值,方法是:(1)将因果图识别为马尔可夫等价类;(2)估计类中每个图的ATE。虽然PC算法可以在强信度假设下识别此类,但它在计算上可能是禁止的。幸运的是,只需要处理周围的局部图结构来识别可能的ATE值集,这是局部发现算法用来提高计算效率的一个事实。在本文中,我们介绍了使用紧急碰撞检查(LDECC)的局部发现,LDECC是一种新的局部因果发现算法,它利用非屏蔽碰撞器,以不同于现有方法的方式定位治疗的父项。我们证明了存在这样的图:LDECC的性能指数级优于现有的局部发现算法,反之亦然。此外,我们还表明,LDECC和现有算法依赖于不同的信度假设,利用这一洞察力削弱了识别可能ATE值集的假设。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/gupta23b.html https://proceedings.mlr.press/v213/gupta23b.html 主动采样可以减少离线强化学习中的因果混淆吗? 因果混淆是一种代理学习到反映数据中不完美虚假相关性的策略的现象。如果大多数训练数据都包含这种虚假的相关性,那么在训练期间,这样的策略可能会被错误地认为是最佳的。这种现象在机器人等领域尤为明显,在代理的开放和闭环性能之间可能存在较大差距。在这种情况下,根据训练期间的开环度量,导致混乱的模型可能表现良好,但在实际应用中可能会出现灾难性的失败。在本文中,我们研究了离线强化学习中的因果混淆。我们研究了从演示数据集中选择性地抽取适当的点是否可以使离线强化学习代理消除环境的潜在因果机制的歧义,缓解离线强化学习中的因果混淆,并生成更安全的部署模型。为了回答这个问题,我们考虑了一组定制的离线强化学习数据集,这些数据集表现出因果模糊性,并评估了主动抽样技术在评估时减少因果混淆的能力。我们提供的经验证据表明,随着培训的进行,统一和主动抽样技术能够持续减少因果混淆,并且主动抽样能够比统一抽样更有效地做到这一点。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/gupta23a.html程序 https://proceedings.mlr.press/v213/gupta23a.html程序 基于混合模型的有限全局混淆因果推断 贝叶斯网络是一组$n$随机变量(顶点)上的有向无环图(DAG);贝叶斯网络分布(BND)是随机变量的概率分布,在图上是马尔可夫分布。这种模型的有限$k$-混合由一个较大的图来表示,该图具有一个额外的“隐藏”(或“潜在”)随机变量$U$,范围为$\{1、\ldots、k\}$,以及从$U$到其他每个顶点的有向边。这类模型是因果推断的基础,其中$U$模型是多个群体的未观察到的混淆效应,模糊了可观察DAG中的因果关系。通过解决混合问题并用$U$恢复联合概率分布,传统上无法识别的因果关系变得可识别。通过对空图上研究得比较透彻的“乘积”情况的简化,我们给出了第一个学习非空DAG混合的算法。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/gordon23a.html https://proceedings.mlr.press/v213/gordon23a.html 利用未观察到的混杂因素,从短期实验和长期观测数据中估计长期因果效应 理解和量化因果关系是许多领域的一个重要问题。这个问题的普遍公认的标准解决方案是进行随机对照试验。然而,即使可以进行随机对照试验,由于成本考虑,它们的持续时间通常也相对较短。这使得学习长期因果关系在实践中成为一项非常具有挑战性的任务,因为长期结果只有在长时间延迟后才能观察到。在本文中,我们研究了在实验和观测数据都可用的情况下,长期治疗效果的识别和估计。以前的工作提供了一种评估策略,以确定此类数据制度的长期因果影响。然而,只有假设观测数据中没有未观察到的混杂因素,这种策略才有效。在本文中,我们专门讨论了观测数据中存在未测量混杂因素的具有挑战性的情况。我们的长期因果效应估计器是通过将回归残差与短期实验结果以特定的方式相结合来创建工具变量,然后使用工具变量回归来量化长期因果效应。我们证明了该估计量是无偏的,并对其方差进行了分析研究。最后,我们利用合成数据以及国际中风试验的真实数据对我们的方法进行了实证检验。相关源代码和文档已在我们的\href中免费提供{https://github.com/vangoffrier/UnConfunding网站}{在线存储库}。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/goffrier23a.html https://proceedings.mlr.press/v213/goffrier23a.html 基于实时建模的非静态非线性时间序列数据因果发现 随着要分析的物联网数据量的增加,从多变量连续时间序列数据中发现因果关系变得越来越重要。然而,由于这些数据的非平稳特性,如分布偏移和系统动力学的非线性,使用传统的线性因果发现方法很难从这些数据中识别因果结构。非线性因果发现方法的应用也普遍受到限制,仍然存在一些问题,如计算复杂性、可解释性和对非平稳性的鲁棒性。为了应对这些挑战,我们提出了一种新的因果发现方法JIT-LiNGAM,该方法基于线性非高斯非周期模型(LiNGAM)和实时(JIT)框架,也称为Lazy-Learning或Model-on-Demand。我们的方法在每次给定新的输入样本时,都会从过去数据的相邻样本中估计局部线性结构因果模型。用局部线性模型近似一个固有的全局非线性模型,我们可以受益于非线性和非平稳数据因果关系的高检测性能,通过线性表达式提高因果效应的可解释性,并降低计算复杂性。我们基于泰勒定理构造了该算法,并通过简单的实验展示了有效的邻域选择算法。使用具有非线性和非平稳性的人工数据进行的数值实验结果表明,在一些通用的评估指标下,与此类数据的代表性方法相比,我们的方法是有效的。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/fujiwara23a.html https://proceedings.mlr.press/v213/fujiwara23a.html 区分分类数据的因果关系:统一通道模型 利用对随机变量的观察来区分因果关系是因果发现中的一个核心问题。针对该任务提出的大多数方法,即加性噪声模型(ANM),仅适用于定量数据。受条件概率质量函数(pmf)作为离散无记忆信道的启发,我们提出了一个准则来解决分类变量(生活在没有意义顺序的集合中)的因果问题。我们选择条件pmf更接近均匀信道(UC)的方向作为最可能的因果方向。其基本原理是,在UC中,正如在ANM中一样,条件熵(针对给定原因的效果)独立于原因分布,符合原因和机制独立的原则。我们称之为统一信道模型(UCM)的方法将ANM原理扩展到分类变量。为了评估条件pmf(根据数据估计)与UC的接近程度,我们使用统计测试,并由UC信道的闭合估计支持。在理论方面,我们证明了UCM的可识别性,并证明了它与具有低基数外生变量的结构因果模型的等价性。最后,在合成数据、基准数据和实际数据的实验中,所提出的方法与最新的最先进的替代方法进行了比较。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/figueiredo23a.html https://proceedings.mlr.press/v213/figueiredo23a.html 超越马尔可夫等价类:在潜在混淆下扩展因果发现 在这项工作中,我们展示了如何结合两种流行的范式,在存在潜在混杂因素的情况下,从观测数据中发现因果关系,以获得更具信息量的因果模型。在基于基本约束的因果发现算法FCI的基础上,我们利用直接因果对识别的能力来发现新的关系,随后可以传播这些关系,以便在模型的其余部分找到更多的因果关系。这一想法以前曾被探讨过,但直到现在一直是在没有潜在混淆因素的假设下。使用我们的新因果方向标准(CDC),我们最终可以放弃这个限制。我们推导了用于定向附加因果关系的推理规则,并展示了如何在CDC搜索过程中最小化测试数量。在我们对一系列模拟数据集进行的实验评估中,得到的FCI-CDC算法与普通FCI相比,召回率提高了5%-10%,并且没有损失精确度。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/diepen23a.html https://proceedings.mlr.press/v213/diepen23a.html 分支机构价格和原因发现折扣 我们展示了如何通过包含定价将整数规划(IP)方法扩展到基于分数的因果发现。定价允许在求解过程中添加新的IP变量,而不是要求它们在最初都存在。非循环约束的双重值允许以原则方式进行此添加。我们对GOBNILP算法进行了扩展,以实现DAG学习的分支-提要-切割方法。实证结果表明,实施延迟定价方法是有益的。GOBNILP中当前的定价算法速度较慢,因此需要进一步研究快速定价。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/cussens23a.html https://proceedings.mlr.press/v213/cussens23a.html 增强动态场景中机器人传感器数据的因果发现 从传感器数据的时间序列中识别动态系统的主要特征和学习因果关系是许多现实世界机器人应用中的关键问题。在本文中,我们提出了一种最先进的因果发现方法PCMCI的扩展,该方法嵌入了一个基于传递熵的额外特征选择模块。新算法从一组前缀变量出发,通过只考虑被观测系统的主要特征,而忽略那些被认为对理解系统演化不必要的特征,重建了被观测系统因果模型。我们首先在玩具问题和大脑网络的合成数据上验证了该方法,其中地面-真相模型可用,然后在使用大规模人类轨迹时间序列数据集的真实机器人场景上验证了此方法。实验表明,我们的解决方案在准确性和计算效率方面优于以前最先进的技术,能够更好更快地从机器人传感器数据中发现有意义的模型。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/castri23a.html https://proceedings.mlr.press/v213/castri23a.html 带约束的因果模型 因果模型已被证明在提供一组变量之间因果关系的形式化表示方面非常有用。然而,在许多情况下,变量之间存在非因果关系。例如,我们可能需要变量$LDL$、$HDL$和$TOT$,它们代表低密度脂蛋白胆固醇水平、高密度脂蛋白胆甾醇水平和总胆固醇水平,关系为$LDL+HDL=TOT$。这在标准因果模型中无法实现,因为我们可以同时干预所有三个变量。本文的目标是扩展标准因果模型,以考虑变量设置的约束。虽然扩展相对简单,但为了使其有用,我们必须定义一个新的干预操作,将变量与因果方程断开。我们举例说明了这种扩展的有用性,并为带有约束的因果模型提供了一个完善的公理化。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/beckers23a.html https://proceedings.mlr.press/v213/beckers23a.html 条件Granger因果时间网络的学习 从观测时间序列数据导出的Granger-causality用于许多实时干预不可行的实际应用中。然而,在具有大量节点和时滞的大型时态网络中发现Granger-causal链路会导致数百万时滞模型参数,这需要我们进行稀疏性和重叠假设。在本文中,我们建议学习时滞模型参数,以提高链接的召回率,同时在观测时间序列违反重叠假设时学习延迟预测。通过学习这种条件时滞模型,我们证明,在发现Granger-careal链接时,精确调用曲线下的面积增加了25%,在不同学科的三个流行和多样的数据集(DREAM3基因表达、MoCAP人体运动识别和《纽约时报》基于新闻的股票价格预测)中,预测准确度提高了18-25%使用相应的大型时间网络,在多个基线模型上,包括多元自回归、神经格兰杰因果关系、图形神经网络和图形注意模型。Granger-casual链接发现的显著改进,可能会进一步提高利用这些流行数据集的下游实际应用程序的预测准确性和建模效率。 2023年8月10日星期四00:00:00+0000 https://proceedings.mlr.press/v213/balashankar23a.html https://proceedings.mlr.press/v213/balashankar23a.html