跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国统计协会。作者手稿;PMC 2023年1月1日提供。
以最终编辑形式发布为:
美国统计协会杂志,2022年;117(539): 1243–1253.
2021年1月4日在线发布。 数字对象标识:10.1080/01621459.2020.1844719
预防性维修识别码:项目经理C9718422
NIHMSID公司:美国国立卫生研究院1774499
PMID:36465716

耦合发电

关联数据

补充资料

摘要

实例生成创建代表性示例来解释学习模型,如回归和分类。例如,感兴趣主题的代表性句子专门描述用于句子分类的主题。在这种情况下,除了标记的数据外,还可能存在大量未标记的观察结果,例如,许多未分类的文本语料库(未标记的实例)只有几个分类的句子(标记的示例)可用。在本文中,我们介绍了一种新的生成方法,称为耦合生成器,它基于间接生成器和直接生成器生成给定特定学习结果的实例。间接生成器使用逆原理生成相应的逆概率,从而能够利用未标记的数据生成实例。直接生成器根据实例的学习结果学习实例的分布。然后,耦合发电机从间接发电机和直接发电机中寻找最佳发电机,这两种发电机的设计目的都是为了享受两者的好处,并提供更高的发电精度。对于给定主题的句子生成,我们为间接生成器开发了一个基于嵌入的回归/分类与无条件递归神经网络,而条件递归神经网对于相应的直接生成器来说是自然的。此外,我们推导了间接生成器和直接生成器的有限样本生成误差界,以揭示这两种方法的生成方面,从而解释了耦合生成器的优点。最后,我们将所提出的方法应用于抽象分类的实际基准测试,并证明耦合生成器可以从字典中合成相当好的句子来描述感兴趣的特定主题。

关键词:分类、自然语言处理、数值嵌入、半监督生成、非结构化数据

1介绍

为给定的结构化信息生成文章或文本是一个重要的人工智能(AI)问题,它会自动模仿某种写作风格。虽然解决这个人工智能问题相当具有挑战性,但我们在本文中处理它的简单版本,我们称之为实例(示例)生成,即生成给定特定结果的代表性实例,以描述和解释相应的学习模型,例如分类和回归。

在许多实际应用中,使用黑盒预测模型(如深度神经网络)提供了较高的经验学习精度[14,15]. 然而,很难理解这种学习模式。从生成的角度来看,实例生成可以回顾性地描述实例和结果之间的关系。它的应用包括句子分类的主题描述、抽象文本摘要[12]、和图像字幕[25],其中生成的句子呈现主题、文本和图像的描述性示例。在这种情况下,句子生成允许我们在提供结构化信息时撰写新颖的文章和图像字幕。例如,UCI抽象分类基准1由文章摘要中的句子组成,这些句子被标记为五个主题类别之一。这里的目标是学习一种句子生成机制,以在给定特定主题的情况下编写一个新颖的摘要,其中生成性能是通过基于测试样本的交叉熵误差来衡量的。

在文献中,尽管实例生成在人工智能中有着广泛的重要应用,但它在很大程度上仍未被探索,尽管已经提出了一些句子生成的方法。例如,计算语言学方法将单词/短语表示为树,以模拟语言依赖性[20],一种学习方法使用大型文本语料库来学习句子结构,而无需任何语言注释[5]. 在[26]提出了一种句子生成模型,该模型通过对句子的潜在主题进行采样,然后使用递归神经网络(RNN)对句子中的单词进行采样来生成文档。在[37,17],图像字幕通过卷积神经网络(CNN)和RNN之间的相互作用将图像内容链接到语言模型。然而,在给定结构化信息的情况下,以及结合标记和未标记数据的实例生成方面的工作很少。

主题实例数据的一个主要特征是,未标记数据的数量可能远远大于标记数据。例如,在句子生成中,未分类的句子大约是分类的句子的十倍。这是一种半监督学习的并行情况,不同的重点是利用未标记的数据来提高监督学习的预测准确性[42,18]这与我们这一代人的学习目标形成了鲜明对比。

我们的主要贡献在于开发了一个新的半监督生成框架,用于生成给定结果的实例。在此基础上,我们提出了三种生成方法——间接生成、直接生成和耦合生成。间接生成器使用反向学习原理估计给定实例结果的条件概率分布,从而能够利用未标记的数据(如果可用)。另一方面,直接生成器以有监督的方式估计给定结果的实例的相应条件概率。然后,耦合发电机被设计成可以享受两代人的利益。所提出的生成器在句子生成中进行了说明,其中我们通过连续的next-word-prediction生成句子。具体来说,我们将基于正则化嵌入的回归/分类与间接生成器的无条件RNN结合起来,而将条件RNN用于直接生成器。

为了阐明这三种生成器的生成性能,我们推导了每种方法的有限样本生成误差界。有趣的是,间接生成器的生成误差取决于给定实例的结果的条件密度和边际密度的参数空间的复杂性。类似地,直接生成器的条件密度由给定结果的实例的条件密度决定。因此,间接发电机和直接发电机在使用未标记数据生成数据方面有各自的优势,重要的是,耦合发电机在生成精度方面都具有优势。这一点,再加上句子分类的实际基准,证明了耦合生成在构建相当好的句子来描述特定主题方面的实用性。数值上,该方法优于单独的RNN方法,并且间接生成器可以利用额外的未标记数据进一步提高性能。

本文的结构如下。第2节介绍了基于间接发电和直接发电的耦合发电框架。第3节发展了所提方法的生成性能理论。第4节致力于开发一种新的句子生成方法,通过连续的下一个单词预测给出感兴趣的主题。第5节研究了耦合发电机的运行特性,并将其与直接和间接发电机以及一个竞争对手进行了比较。这个附录包含技术证明。

2方法

考虑一个生成模型,其目标是生成一个实例X(X)给出结果Y(Y),其中X(X)Y(Y)表示实例和响应变量,这些变量可以是数字的,也可以是非结构化的,例如无法以预定义方式表示的文本和文档。在本文中,我们重点讨论了基于条件分布的生成模型下的实例生成X(X)|Y(Y)属于X(X)给出的结果Y(Y)例如,在句子生成中[26],实例生成生成以下典型示例X(X)给定的特定主题Y(Y),其中X(X)Y(Y)表示句子及其相关主题。

例如,生成一个标记的训练样本(x个,)=1n个以及一个只提供实例的示例(x个j个)j个=1n个˜,其样本大小n个˜可能大大超过或小于样本量n个在我们的上下文中,我们利用未标记的样本来提高实例生成的生成准确性。

间接发电机。

间接生成器使用的估计值生成实例X(X)|Y(Y)通过逆关系(1):估计值Y(Y)|X(X)基于(x个,)=1n个英寸(2)和边缘密度X(X)基于综合数据(x个)=1n个(x个j个)j个=1n个˜英寸(). 也就是说,

间接:^X(X)|Y(Y)b条(x个)=^Y(Y)|X(X)(x个)^X(X)(x个)x个X(X)^Y(Y)X(X)(x个)^X(X)(x个)d日x个,
(1)

^Y(Y)X(X)=argmin(最小值)Y(Y)|X(X)如果b条n个1=1n个日志(Y(Y)X(X)(x个))+λb条Jb条(Y(Y)X(X)),
(2)

^X(X)=argmin(最小值)X(X)如果(n个+n个˜)1(=1n个日志(X(X)(x个))+j个=1n个˜日志(X(X)(x个j个)))+λJ(X(X)),
(3)

哪里^Y(Y)X(X)^X(X)英寸(1)是正则最大似然估计Y(Y)|X(X)X(X),Jb条J例如,是正规化者,1-或2-神经网络模型中的正则化,λb条≥0且λ≥0是控制正则化权重的调谐参数,以及如果b条英寸(2)和如果英寸()是的参数空间Y(Y)|X(X)X(X)分别是。请注意x个X(X)^X(X)Y(Y)(x个)^X(X)(x个)d日x个英寸(1)使正常化^X(X)Y(Y)b条要成为概率密度,尽管当只关注分布的某些方面(如模式或百分位数)而不是分布本身时,没有必要进行归一化。重要的是,间接生成器只利用实例(未标记)数据(x个j个)j个=1n个˜,但估计中的任何潜在偏差X(X)基于(x个j个)j个=1n个˜可以转化为Y(Y)|X(X).

直接发电机。

直接发电机使用X(X)|Y(Y)生成实例,通过最小化X(X)鉴于Y(Y)基于(x个,)=1n个:

直接:^X(X)|Y(Y)(f)(x个)=^X(X)|Y(Y)(x个),^X(X)Y(Y)=argmin(最小值)X(X)|Y(Y)如果(f)n个1=1n个日志(X(X)Y(Y)(x个))+λ(f)J(f)(X(X)Y(Y)),
(4)

哪里如果(f)是的参数空间X(X)|Y(Y),J(f)是一名正规化者,并且λ(f)≥0是控制正则化权重的调谐参数。

看起来(4)可以通过条件似然扩展以利用额外的未标记数据X(X)|Y(Y)和混合关系X(X)Y(Y)(x个)Y(Y)()d日=X(X)(x个)然而,不幸的是,当包含额外的未标记数据时,混合方法可能会出现渐近偏差,从而降低X(X)|Y(Y)[8,9,39]. 这是因为当如果(f)是错误的,而且它的影响甚至可能是最小的,特别是当支持Y(Y)很大。如中的定理所示第4节[39],监督和半监督最大似然估计可能收敛到不同的值,因此,当模型在其中指定错误时,更多的未标记数据产生更大的估计偏差,如Kullback-Leibler散度所测量的X(X)0不属于参数空间如果(f)={X(X)(x个)=X(X)|Y(Y)(x个)Y(Y)()d日;X(X)|Y(Y)如果(f)}或者混合关系不满足。此外,如图1和图2所示[8]和图4.1[7]实证研究表明,当SecStr数据集中标记数据的大小超过30时,基于标记数据和未标记数据的EM算法往往仅基于标记数据而降低性能。因此,X(X)|Y(Y)基于标记数据的估计比基于标记和未标记数据的评估具有更好的性能。

总之,如何利用未标记的数据来提高发电性能仍是一个悬而未决的问题,这取决于在实践中可能无法验证的模型假设。值得一提的是(4)是一个一般的公式,没有假设任何具体的假设X(X)与相关如果(f)然而如果这种假设在实践中变得可用(4)可以基于它进行推广,以合并未标记的数据以进行改进。目前,我们不会追求这一方面,因为间接方法可以从额外的未标记数据中受益,如定理1在里面第3节.

耦合发电机。

估计的困难程度^X(X)Y(Y)(f)和的^X(X)Y(Y)b条可能会有所不同,尤其是当X(X)可以从实例数据和未标记数据中很好地估计。根据情况,前者可能比后者更难,反之亦然。这方面的一些理论结果如所示第4.5节然后,我们通过在两者之间选择最大化预测对数似然或最小化负对数似然的一个,提出耦合发电,例如(23)在句子生成示例中。特别是,耦合发电机定义为:,

^X(X)Y(Y)c(c)={^X(X)Y(Y)(f)如果^X(X)Y(Y)(f)较高的原木类木材价值验证设置^X(X)Y(Y)b条,^X(X)Y(Y)b条否则。
(5)

概率密度^X(X)Y(Y)c(c)给出了X(X)鉴于Y(Y)首先,我们可以使用模式生成代表性实例X(X)|Y(Y)给出一种表示或抽样X(X)|Y(Y)用于多种表示。第二,区别特征X(X)关于Y(Y)可以通过比较提取^X(X)Y(Y)c(c)在不同的Y(Y)-回顾性价值观。例如,在分类中Y(Y)=±1,比较^X(X)Y(Y)=1c(c)^X(X)Y(Y)=1c(c)导致区别特征。这方面将在其他地方进行进一步调查。

耦合学习有其独特的特点,尽管它似乎与半监督变分自动编码器有着遥远的联系[18]和逆自回归流[19]. 特别是[19]使用生成模型X(X)|Y(Y)X(X)增强判别模型Y(Y)|X(X)将边际分布视为条件分布的混合,而所提出的间接生成器集成了未标记的数据来单独估计边际分布。此外[18]估计X(X) X(X)通过自回归神经网络的一系列潜在因素和不可避免的变换,通过可逆关系连接块。然而,该方法通过贝叶斯定律将两个条件密度联系起来。最后,从理论上证明[19]和[18]仍然未知。

三。理论

本节开发了一种学习理论,用于研究直接、间接和耦合发电机的发电误差。特别地,我们推导了估计量的有限样本生成误差界^X(X)Y(Y)b条,^X(X)Y(Y)(f)、和^X(X)Y(Y)c(c)第页,共页(1), (4)和(5).

生成的生成错误X(X)鉴于Y(Y)定义为两个条件密度之间的预期Hellinger-距离X(X)|Y(Y)q个X(X)|Y(Y)关于Y(Y):

d日(X(X)Y(Y),q个X(X)Y(Y))=(E类Y(Y)小时2(X(X)Y(Y),q个X(X)Y(Y)))1/2(E类Y(Y)(X(X)Y(Y)q个X(X)|Y(Y))2d日μ)1/2,

哪里μ勒贝格措施实施了吗x个、和E类Y(Y)是关于以下方面的期望Y(Y).

三参数空间如果b条,如果、和如果(f)定义用于估算Y(Y)|X(X)英寸(2),X(X)英寸()、和X(X)|Y(Y)英寸(4),每个都可以根据相应的样本大小进行选择。然后,它们的正则参数空间如下所示:如果b条,k个={Y(Y)|X(X)如果b条:J(Y(Y)X(X))k个}对于(2),如果,k个={X(X)如果:J(X(X))k个}对于()、和如果(f),k个={X(X)Y(Y)如果(f):J(X(X)Y(Y))k个}对于(4). 在此基础上,我们定义了度量熵来度量其复杂性,以用于我们的理论。

这个u个-括号度量熵H(H)(u个,如果)空间的如果相对于距离D类定义为u个-的括号如果最小尺寸的。A类u个-的括号如果是(函数对的)有限集{(j个,j个单位),j个=1,,N个}这样,对于任何如果,有一个j个这样的话j个j个单位具有d日(j个,j个单位)u个;j个=1,,N个。请注意d日2(Y(Y)X(X),q个Y(Y)X(X))=E类X(X)(小时2(Y(Y)X(X),q个Y(Y)X(X))),小时2(X(X),q个X(X))、和E类Y(Y)小时2(X(X)Y(Y),q个X(X)Y(Y)),分别用于如果b条,k个,如果,k个、和如果(f),k个.

量化真实密度的近似程度Y(Y)X(X)0通过如果b条,我们引入一个距离ρb条(Y(Y)X(X)0,Y(Y)X(X))=E类X(X)E类Y(Y)X(X)α(Y(Y)X(X)0/Y(Y)X(X)),其中α(x个) =α−1(x个α−1)用于α∈ (0, 1). 如中所建议第4节第页,共页[38],此距离比相应的Hellinger距离强。同样,ρ(X(X)0,X(X))=E类X(X)α(X(X)0/X(X))ρ(f)(X(X)Y(Y)0,X(X)Y(Y))=E类X(X)E类Y(Y)X(X)α(X(X)Y(Y)0/X(X)Y(Y))定义为近似真实密度X(X)0X(X)Y(Y)0通过如果如果(f)分别为。

Y(Y)|X(X)*如果b条X(X)*如果是的两个近似点Y(Y)X(X)0X(X)0在那里面ρb条(Y(Y)X(X)0,Y(Y)X(X)*)γb条ρ(X(X)0,X(X)*)γ对于某些序列γb条≥0且γ≥ 0. 当然,γb条=0时Y(Y)X(X)0如果b条γ=0时X(X)0如果.

定理1(间接生成器)。

假设存在一些正常数c(c)1c(c)6这样,对于任何ϵb条>0和λb条≥ 0,

啜饮k个128k个21/2k个1/2H(H)1/2(u个/c(c),如果b条,k个)d日u个/k个c(c)2n个1/2,k个=c(c)1ϵb条2+λb条(k个1),
(6)

并且,对于任何ϵ>0和λ≥ 0,

啜饮k个128k个21/2k个1/2H(H)1/2(u个/c(c)6,如果,k个)d日u个<k个c(c)5(n个+n个˜)1/2,k个=c(c)4ϵ2+λ(k个1),
(7)

然后

P(P)(d日(^X(X)Y(Y)b条,X(X)Y(Y)0)2(ηb条+η))8经验(c(c)7n个ηb条2)+8经验(c(c)8(n个+n个˜)η2),ηb条=最大值(ϵb条,γb条1/2),η=最大值(ϵ,γ1/2),
(8)

前提是λb条最大值(Jb条(Y(Y)X(X)*),Jb条(Y(Y)X(X)0),1)c(c)9ηb条2λ 最大值(J(X(X)*),J(X(X)0),1)c(c)9η2、和c(c)7c(c)9是一些正常数。因此,d日(^X(X)Y(Y)b条,X(X)Y(Y)0)=O(运行)(ηb条+η)作为n个,n个˜在下X(X),Y(Y)0.

定理1指示间接生成器的生成误差由估计误差控制ϵb条ϵ来自(2)和()和近似误差γb条γ,其中ϵb条ϵ可以通过求解熵积分方程得到(6)和(7). 此外,可以通过调整λb条λ。请注意η可以调整为以下较小的顺序ηb条当未标记数据的大小大大超过标记数据的尺寸时。那么间接方法的泛化误差主要由以下因素决定ηb条换句话说,间接发电机的性能主要取决于Y(Y)|X(X).

对于直接发电机,让X(X)Y(Y)*如果(f)近似于X(X)|Y(Y)0在那里面ρ(f)(X(X)|Y(Y)0,X(X)|Y(Y)*) ≤γ(f)对一些人来说γ(f)≥ 0.

定理2(直接生成器)。

假设存在一些正常数c10–c12,这样,对于任何ϵ(f)> 0,和λ(f)≥ 0,

啜饮k个128k个21/2k个1/2H(H)1/2(u个/c(c)12,如果(f),k个)d日u个/k个c(c)11n个1/2,k个=c(c)10ϵ(f)2+λ(f)(k个1),
(9)

然后

P(P)(d日(^X(X)Y(Y)(f),X(X)Y(Y)0)η(f))8经验(c(c)13n个η(f)2),η(f)=最大值(ϵ(f),γ(f)1/2),
(10)

前提是λ(f) 最大值(J(f)(X(X)|Y(Y)*),J(f)(X(X)|Y(Y)0),1)c(c)9η(f)2,和c13> 0是一个常量.因此,d日(^X(X)Y(Y)(f),^X(X)Y(Y)0)=O(运行)(η(f))作为n个→ ∞ 在下面X(X),Y(Y)0.

与间接生成相比,生成错误η(f)直接发电量可能比间接发电量大或小得多ηb条取决于如果(f),如果b条,以及相应的近似误差γ(f)γb条,何时X(X)可以很好地估计。这表明,根据模型假设,其中一个可能优于另一个。

请注意γ(f),γb条、和γ是函数空间逼近能力的逼近误差如果(f),如果b条如果[35,40]. 特别地,当函数空间由ReLU深度神经网络定义以近似Sobolev空间中的函数时,近似误差是可用的,并且与神经网络的规模有关[40].

定理3说耦合发电机的性能并不比间接发电机和直接发电机差(5)用于根据大小的独立交叉验证样本进行选择N个.

定理3(耦合生成)。

低于 X(X),Y(Y)0,作为N→ ∞,中定义的耦合发电机(5)满足 K(X(X)Y(Y)0,^X(X)Y(Y)c(c))最小值(K(X(X)Y(Y)0,^X(X)Y(Y)b条),K(X(X)Y(Y)0,^X(X)Y(Y)(f))),其中K(X(X)|Y(Y),q个X(X)|Y(Y))是p之间的Kullback-Leibler散度X(X)|Y(Y) 和qX(X)|Y(Y).

评论:

定理3,如果K(X(X)Y(Y)0,X(X)Y(Y))c(c)142d日2(X(X)Y(Y)0,X(X)Y(Y))对于某个常数c(c)14>0,然后d日(X(X)Y(Y)0,^X(X)Y(Y)c(c))c(c)15最小值(d日(X(X)Y(Y)0,^X(X)Y(Y)b条),d日(X(X)Y(Y)0,^X(X)Y(Y)(f))),当似然比有界时发生。

4给定主题的句子生成

本节推导了句子生成的生成方法,该方法将先前开发的似然方法与语言模型相结合以构成句子。因此,可以生成一个新句子,该句子可能不会出现在训练数据中;看见表3例如。

表3

耦合生成器基于UCI基准文本语料库的一个随机分区生成的摘要,用于句子分类。这里五个句子(1)-(5)对应五个类别:AIM、OWN、CONTRAST、BASIS、MISC,每个句子的前五个单词都是预先指定的。除“改善“(4)中有错误,并且科尔莫戈罗夫(1)和以色列人在(3)中应大写。这些错误可以通过语法检查器更正。

(1) 本文扩展了选择规则理论的研究。(2) 我们使用以下想法和概念来测试我们的预测 科尔莫戈罗夫 复杂性取决于数据集示例的数量。(3) 结果表明: 以色列人 模型可以用来为分类精度提供新的结果。(4) 我们表明,实现与学习算法的性能有关 改善 预测的最佳预测器。(5) 平衡的效果由高水平的事件和共享的对象来描述.

一个完整的句子由词向量表示X(X)1:T型= (X(X)1, …,X(X)T型)',其中X(X)t吨t吨-第个单词,T型是句子特定的长度,′表示向量的转置。为了方便起见,我们写X(X)1=“启动”和X(X)T型+1=“END”分别作为句子的第一个单词和最后一个单词的空单词。例如,X(X)1=“开始”,X(X)2=``足球',X(X)=“是”,X(X)4=``a〃,X(X)5=``流行',X(X)6=``sport“,以及X(X)7=``END〃。与一起X(X)1:T型,其关联的主题类别Y(Y)= (Y(Y)1, …,Y(Y)K)'可用,其中Y(Y)j个∈{0,1}或Y(Y)j个最后,我们构造一个字典D类=(1,,|D类|)包含所有合成词,即X(X)t吨D类;t吨=1,,T型,带有|D类|表示D类大小。

为了简单起见,我们考虑一个固定的T型,其中可以使用固定长度处理不同长度的句子,如中所示表1.给定主题的句子生成Y(Y)生成一个句子X(X)1:T型+1使用条件概率P(P)(X(X)1:T型+1=x个1:T型+1|Y(Y)=). 然而,在句子层面上估计这种可能性是不可行的。因此,我们使用概率链规则在单词级别对其进行分解:

日志((X(X)1:T型+1=x个1:T型+1Y(Y)=))=t吨=1T型日志((X(X)t吨+1=x个t吨+1X(X)1:t吨=x个1:t吨,Y(Y)=)).
(11)

这种分解(11)允许通过学习给定现有单词,通过下一个单词来连续生成句子(X(X)t吨+1=x个t吨+1|x个1:t吨,)来自数据;t吨=1, …,T型.

表1

11个与句子相关的下一个字的指令序列。

主题句子
杂项SYMBOL的损失界意味着概率收敛.
1Null Null Null Null NullNull NullNULL Null Null Null nullNull Null START空零零零零开始这个
2Null Null Null Null Nul Null Nul Null NullNull NullNULL Null Null START损失
三。空零零零零空零零空空启动损失跳跃
4Null Null Nul Null NullNull Null Null START损失范围属于
5Null Null Nul Null NullNull START的损失范围符号
6Null Null Null Null START SYMBOL的丢失界限暗示
7Null Null Null START SYMBOL的丢失范围表示汇聚
8Null Null Null START SYMBOL的损失范围意味着收敛在里面
9Null Null START SYMBOL的损失范围意味着收敛于可能性
10空START SYMBOL的损失界表示仅在概率上收敛→。
11START SYMBOL的损失界仅表示概率收敛。结束

然而,估计(X(X)t吨+1=x个t吨+1|x个1:t吨,)对于非结构化仍然具有挑战性X(X)1:t吨因为在任何条件反射事件中都缺乏观察X(X)1:t吨鉴于Y(Y)即使有大量的培训数据。此外,很难利用未标记的数据进行估算(X(X)t吨+1=x个t吨+1|x个1:t吨,).

4.1. 间接发电机

在这种情况下,我们导出了(2)和的()通过(11)估计逆概率。明确地,(x个t吨+1|x个1:t吨,)可以写为

(x个t吨+1x个1:t吨,)=(x个1:t吨+1)(x个t吨+1x个1:t吨)x个t吨+1D类(x个1:t吨,x个t吨+1)(x个t吨+1x个1:t吨);
(12)

对于t吨=1, …,T型然后,我们估计逆概率(|x个1:t吨+1)基于标记数据(x个1:t吨,)=1n个和估算(x个t吨+1|x个1:t吨)基于(x个1:t吨)=1n个对于t吨= 1, …,T型、和未标记的数据(x个1:t吨j个)j个=1n个˜对于t吨= 1, …,T型j个.

估算(|x个1:t吨)可以继续进行非结构化预测x个1:t吨。继续,我们画一个句子x个1:t吨到数字矢量E类(x个1:t吨)称为大小的数字嵌入通过预处理嵌入模型,如Doc2Vec[23,24]和BERT[11]. 如果预处理嵌入模型足够(X(X)1:t吨=x个1:t吨)=(E类(X(X)1:t吨)=E类(x个1:t吨))[10],数字嵌入E类(x个1:t吨)捕获以词的共现形式表示的词与词之间的关系,这可能会提高非结构化预测因子的可预测性X(X)1:t吨接下来,我们建模(|x个1:t吨)通过(E类(x个1:t吨))什么时候Y(Y)∈{0,1}K是绝对的或Y(Y)K具有嵌入标签的连续性Y(Y):

(x个1:t吨)={σ((f)(E类(x个1:t吨))),如果{0,1}K,(2π)K/2经验(12(f)(E类(x个1:t吨))22),如果K,
(13)

哪里K是的尺寸Y(Y),σ(·)是softmax函数[1]、和(f)是非参数分类或回归函数林[]或线性函数(f)(E类(x个1:t吨))=θb条E类(x个1:t吨)具有θb条K×为了进行说明,我们使用线性表示(f)(E类(x个1:t吨))=θb条E类(x个1:t吨)英寸(13)顺序。现在是成本函数b条(θb条)英寸(2)成为

b条(θb条)=1n个=1n个(T型)1t吨=1T型日志((E类(x个:t吨))+λb条Jb条((f)),
(14)

哪里λb条≥0是一个调谐参数,并且Jb条((f))≥0是正则化子,例如,Jb条((f))=θb条如果2如果(f)(E类(x个1:t吨))=θb条E类(x个1:t吨),式中如果是矩阵的Frobenius范数。

另一方面,下一个单词的概率由RNN以

(x个t吨+1x个1:t吨)=o个[x个t吨+1](x个t吨,小时t吨;θ),具有小时t吨=小时(x个t吨,小时t吨1;θ),小时0=0,
(15)

其中[x个t吨+1] ={j个:j个=x个t吨+1},o个j个(x个t吨,小时t吨,θ)是发生的概率j个-第个单词D类、和小时(x个t吨,小时t吨+1,θ)是一个隐藏状态函数,例如长短期记忆单元(LSTM)[16],双向装置[32],一个门控复发单元(GRU)[6]和GPT2[30],θ是特定RNN模型的参数,例如,θ=(W公司o个,W公司x个,W公司小时)在基本RNN中,

o个(x个t吨,小时t吨,θ)=σ(W公司o个小时t吨),小时t吨=ϕ(W公司x个1[x个t吨]+W公司小时小时t吨1),小时0=0,
(16)

哪里σ(·),如前所述,是softmax和ϕ是一个激活函数,如ReLU函数[1],W公司o个第页×|D类|,W公司x个|D类|×x个、和W公司小时第页×第页、和第页是RNN的潜在因子数。请参见图1用于显示基本RNN的体系结构。

保存图片、插图等的外部文件。对象名为nihms-1774499-f0003.jpg

由间接和直接RNN生成器生成的句子(20)和(15),其中显示RNN体系结构,其中“SYMBOL的瞬时损失界仅表示概率收敛主题“MISC”由单词连续生成,小时t吨是中RNN的隐藏节点(20)和(15)、和小时0是初始隐藏状态,在(15)和“MISC”(20).

在地面上(15),成本函数(θ)英寸()成为

(θ)=(n个+n个˜)1=1n个(T型)1t吨=1T型日志(o个[x个t吨+1](x个t吨,小时t吨,θ))(n个+n个˜)1j个=1n个˜(T型j个)1t吨=1T型j个日志(o个[x个t吨+1j个](x个t吨j个,小时t吨j个,θ))+λJ(θ),
(17)

哪里λ≥0是一个调谐参数,并且J(θ)是正则化权重矩阵和激活层的正则化器[22].

最小化(14)和(17)产量估计器θb条θ分别是。然后,条件概率估计为^(x个1:t吨+1;θb条)=σ(θb条E类(x个1:t吨+1))^(x个t吨+1x个1:t吨;θ)=o个[x个t吨+1](x个t吨,小时t吨1,θ).将这些估计插入(12),我们得到了估计的概率,过程总结为,

^b条(X(X)t吨+1=x个x个1:t吨,)=^(x个1:t吨,x个;θb条)^(X(X)t吨+1=x个x个1:t吨;θ)x个D类^(x个1:t吨,x个;θb条)^(X(X)t吨+1=x个x个1:t吨;θ)θb条=argmin(最小值)θb条b条(θb条),θ=argmin(最小值)θ(θ).
(18)

然后,按如下顺序生成一个句子:

x个^t吨+1=argmax(最大值)x个D类^b条(X(X)t吨+1=x个X(X)1:t吨=x个1:t吨,Y(Y)=);t吨=1,,T型^.
(19)

此生成过程始于x个1=`START”或预先指定t吨0-单词x个1:t吨0并继续进行,直到x个T型^=``结束达到,其中T型^是终止时的索引。值得一提的是(18)规范化概率,但当最大化为(18)在中需要(19).

4.2. 直接发电机

直接发电受条件RNN(C-RNN[37,17])通过估算

(x个t吨+1x个1:t吨,)=o个[x个t吨+1](x个t吨,小时t吨1,,θ(f)),具有小时t吨=小时(x个t吨,小时t吨1,θ(f)),小时0=小时0(,θ(f)),
(20)

哪里θ(f)表示RNN的参数,以及小时0建立在标签信息之上,而不是小时0=0英寸(16). 如中所示(16),直接发电机需要附加参数W公司(f)第页(f)×K对于θ(f)=(W公司(f)o个,W公司(f)x个,W公司(f)小时,W公司(f))从以下方面模拟效果如下:

o个(x个t吨,小时t吨,,θ(f))=σ(W公司(f)o个小时t吨),小时t吨=ϕ(W公司(f)x个1[x个t吨]+W公司(f)小时小时t吨1),小时0=ϕ(W公司(f)),
(21)

哪里W公司(f)o个第页(f)×|D类|,W公司(f)x个|D类|×第页(f),W公司(f)小时第页×第页(f)、和第页(f)是RNN的潜在因子数。基于此,成本函数(4)成为

(f)(θ(f))=n个1=1n个(T型)1t吨=1T型日志(o个[x个t吨+1](x个t吨,小时t吨1,,θ(f)))+λ(f)J(f)(θ(f)),
(22)

哪里λ(f)≥0是一个调谐参数,并且J(f)(θ(f))是一个非负正则化子。最小化(22)英寸θ(f)产生一个估计θ(f),因此估计概率^(f)(x个x个1:t吨,)=o个[x个](x个t吨,小时t吨1,,θ(f)),来自(20). 然后,句子生成过程如下所示(19).

值得注意的是,直接和间接生成器可以使用不同的RNN模型分别实现,例如,直接RNN的GPT2(20)而间接RNN的LSTM(15). 此外,不同的RNN模型架构可能会产生不同的实证结果。该方面如所示第5节.

4.3. 耦合发电机

给定估计概率^(f)(x个t吨+1x个1:t吨,)^b条(x个t吨+1x个1:t吨,).耦合发电机在以下两个选项中选择一个^(f)^b条通过最小化对数似然损失的经验版本来确定验证集,

Ent公司(^)=T型1t吨=1T型日志^(X(X)t吨+1=x个t吨+1X(X)1:t吨=x个1:t吨,Y(Y)=).
(23)

4.4. 大规模计算

本节为中的间接发电机开发了一个计算方案(14)–(17)和直接发电机(22)可以通过标准RNN实现进行处理,如[36,29]. 特别是,当通过时间梯度方法使用随机反向传播时,计算复杂度与每个时间步长的参数数量成正比[27].

在下面,我们应用梯度下降[41]或随机梯度下降[31]解决(14). 对于(17),我们应用了一种经典的反向传播算法。在每种情况下,我们都使用分析梯度表达式进行更新。

间接发电梯度。

的渐变表达式θ英寸(17)在中给出[29],而这是为了θb条英寸(14)计算为

b条θb条,k个={λb条θb条,k个n个1=1n个(T型)1t吨=1T型(k个σk个(θb条E类(x个1:t吨))E类(x个1:t吨),{0,1}K,λb条θb条,k个n个1=1n个(T型)1t吨=1T型(k个θb条,k个E类(x个1:t吨))E类(x个1:t吨),K,
(24)

哪里θb条,k个表示k个第列,共列θb条.

间接发生器梯度下降的细节总结如下。

保存图片、插图等的外部文件。对象名为nihms-1774499-f0001.jpg

保存图片、插图等的外部文件。对象名为nihms-1774499-f0002.jpg

算法1可以通过随机梯度方案进行更新[2]. 引理1描述了算法1.

引理1。

如果成本函数为Lb条 在里面(14)和L 在里面(17)连续两次微分,且随机初始化的概率测度相对于Lebesgue测度是绝对连续的。然后,θb条 是全球最小值(14),虽然 θ 是局部最小值(17)几乎可以肯定,前提是 算法1 足够小.

4.5. 句子生成理论

本节概括了第3节下一个命令的问题。

现在我们使用X(X)|Y(Y),Y(Y)|X(X)、和X(X)分别代表{X(X)t吨+1X(X)1:t吨,Y(Y)}t吨=1T型,{Y(Y)X(X)1:t吨}t吨=1T型、和{X(X)t吨+1X(X)1:t吨}t吨=1T型。下一个命令的预期平方海林格尔距离为

d日(X(X)Y(Y),q个X(X)Y(Y))=(E类¯小时2(X(X)t吨+1X(X)1:t吨,Y(Y),q个X(X)t吨+1X(X)1:t吨,Y(Y)))12,
(25)

哪里E类¯()=T型1t吨=1T型E类X(X)1:t吨,Y(Y)().

的度量熵如果b条,k个由距离定义κ2(Y(Y)X(X),q个Y(Y)X(X))=E类¯小时2(Y(Y)X(X)1:t吨,q个Y(Y)X(X)1:t吨)同样,κ2(X(X),q个X(X))=E类¯小时2(X(X)t吨+1X(X)1:t吨,q个X(X)t吨+1X(X)1:t吨)、和d日2(X(X)|Y(Y),q个X(X)|Y(Y))用于如果,k个如果(f),k个分别为。

的近似误差Y|X年0ρb条(Y(Y)X(X)0,Y(Y)X(X))=E类¯α(0(Y(Y)X(X)1:t吨+1)(Y(Y)X(X)1:t吨+1))类似地,近似误差ρ(X(X)0,X(X))=E类¯α(0(X(X)t吨+1X(X)1:t吨)(X(X)t吨+1X(X)1:t吨))ρ(f)(X(X)Y(Y)0,X(X)Y(Y))=E类¯α(0(X(X)t吨+1X(X)1:t吨,Y(Y))(X(X)t吨+1X(X)1:t吨,Y(Y)))用于X(X)0X |年0.

推论1(顺序生成)。

中的所有结果 定理12 继续保持距离d(·,·)定义于(25).

接下来我们提供一个理论示例来说明推论1.

理论示例。

假设中的RNN(15)是一个基本的递归网络θ=(W公司o个,W公司x个,W公司小时)也就是说,o个(x个t吨,小时t吨1,θ)=σ(W公司o个小时t吨1),小时t吨=ϕ(W公司x个1[x个t吨]+W公司小时小时t吨1)、和小时0=0第页,其中W公司o个第页×|D类|,W公司x个|D类|×第页、和W公司小时第页×第页,第页是RNN的潜在因素数量,以及ϕ(z(z))是一个激活函数,例如sigmoid函数ϕ(z(z))=1/(1+经验(−z(z))),tanh函数ϕ(z(z))=棕褐色(z(z))和整流线性单元(ReLU)ϕ(z(z)) =z(z)+为了进行说明,我们将重点放在乙状结肠功能上。

中的RNN(20)是那个吗o个(x个t吨,小时t吨1,θ(f))=σ(W公司(f)o个小时t吨1),小时t吨=ϕ(W公司(f)x个1[x个t吨]+W公司(f)小时小时t吨1)、和小时0=ϕ(W公司(f)).网络参数为θ(f)=(W公司(f)o个,W公司(f)x个,W公司(f)小时,W公司(f)),其中W公司(f)o个第页(f)×|D类|,W公司(f)x个|D类|×第页(f),W公司(f)小时第页(f)×第页(f)、和W公司(f)第页(f)×K、和第页(f)是直接生成中RNN的潜在因子数。

推论2给出了直接和间接发电机的发电误差。

推论2(理论示例)。

对于估计的次字概率X(X)Y(Y)(f)通过直接发电机(22),我们有这个 d日(X(X)Y(Y)(f),X(X)Y(Y)0)=O(运行)(η(f)),哪里

η(f)=最大值{(Λ(f)n个日志(n个最大值(第页(f),2c(c)15)2T型T型1/2Λ(f)))12,γ(f)12},

Λ(f)=第页(f)(2|D类|+第页(f)+K),λ(f)=c(c)17η(f)2,和c15> 0和c16> 0是常数 E类Y(Y)Y(Y)22c(c)15.类似地,估计的次字概率 X(X)Y(Y)b条 通过间接发电机(14)和(17)满足:d日(X(X)Y(Y)b条,X(X)Y(Y)0)=O(运行)(ηb条+η),哪里

ηb条=最大值{(Λb条n个日志(c(c)16n个Λb条))12,γb条12},

η=最大值{(Λn个+n个˜日志(第页(n个+n个˜)2T型T型1/2Λ))12,γ12},

Λb条=千磅,Λ=第页(2|D类|+第页),λb条=c(c)18ηb条2,λ=c(c)18η2,和c16> 0和c18> 0是常数 E类¯E类(X(X)1:t吨)22c(c)16.

推论2表示间接发电机的发电误差(1)成为d日(^X(X)Y(Y)b条,X(X)Y(Y)0)=O(运行)(Λb条n个日志(n个Λb条))12什么时候(n个˜+n个)/n个=O(运行)(Λ日志(第页n个/Λ)Λb条日志(c(c)16n个/Λb条)),何时γb条=γ= 0. 事实上,生成误差主要由其估计误差决定(Y(Y)|X(X)1:t吨),因为(X(X)t吨+1|X(X)1:t吨)可以借助大量未标记的数据很好地估计n个˜n个在这种情况下,间接法优于直接法,尤其是当∧b条< Λ(f)表明间接方法的估计复杂度小于直接方法。有趣的是,直接生成器的生成误差与Hellinger距离下最大似然估计的生成误差一致[34,38]. 关于调谐,∧值较大b条,∧,和∧(f)增加了用于概率估计的相应函数空间的复杂性,从而减少了生成错误。因此,直接和间接生成器的生成误差实际上取决于参数空间的模型复杂性如果b条如果(f).

为了说明间接发电机和直接发电机各自优势的协同作用,我们考虑了两种情况。第一,d日(X(X)Y(Y)(f),X(X)Y(Y)0)=o个(1)但是d日(X(X)Y(Y)b条,X(X)Y(Y)0)如果是未标记的样本,则有界远离零(X(X)1:T型j个j个)j个=1n个˜遵循标记样本的不同边缘分布(X(X)1:T型)=1n个第二,d日(X(X)Y(Y)b条,X(X)Y(Y)0)=o个(1)但是d日(X(X)Y(Y)(f),X(X)Y(Y)0)在已标记但未标记的样本中,如果存在新词,则从零开始有界。然而,在这两种情况下,d日(X(X)Y(Y)c(c),X(X)Y(Y)0)=o个(1)当Kullback-Leibler散度等于Hellinger距离时。换句话说,只有耦合发电机在这两种情况下的发电误差趋于零。

5基准

本节在一个基准示例中检查耦合、间接和直接生成器的性能,并与基线方法“Separate RNN”进行比较,该方法适合每个主题的RNN,如[36]. 该基准涉及基于UCI机器学习库中文本语料库的句子分类2本语料库共有1039个标注句子,这些句子来自30篇文章的摘要和引言,其中五个主题类别分别是AIM(本文的特定目的)、OWN(对本文中自己的作品的描述)、CONTRAST(与其他作品的比较陈述,包括优缺点)、,BASIS(与其他工程的协议声明或其他工程的继续)和MISC(公认的科学背景或其他工程描述)。这些标签来自三个科学领域:计算生物学(PLOS)、arXiv上的机器学习库(arXiv)和心理学期刊判断与决策(JDM)。例如,根据科学主题分类,“SYMBOL的瞬时损失界意味着仅在概率上收敛”等典型句子被标记为“MISC”。除了上述标注的句子外,该语料库还包含了来自《公共科学图书馆》、《科学图书馆文献汇编》和《JDM》中300篇文章的34481个未标注的句子。

在继续之前,我们对文本语料库进行预处理,以过滤掉冗余的每个句子成分,从而将数字嵌入应用于间接生成器。首先,我们将所有数值、符号值和引文分别替换为“NUMBER”、“SYMBOL”和“CITATION”,并删除除逗号、句点和分号之外的所有独立标点符号。对于未标记的句子,我们删除了出现在语料库中少于20次的单词,从而得到了8286个句子的未标记语料库。在此基础上,我们构建了一个由5369个单词组成的词典,这些单词是从有标签和无标签的句子中提取出来的。

为了进行训练,我们根据数据集中所有句子的最大长度生成用于下一个单词预测的字符串。因此,句子中前面的所有标记都有助于预测下一个单词。具体来说,我们创建由连续的前一个单词组成的下一个单词前缀序列,并用空单词“null”填充相同长度的所有单词字符串。下一个命令序列的示例如所示表1以这种方式,我们收集了足够的训练句子,因为空单词不会影响我们的学习过程。现在,从原始的1039个标记句子中生成了28180个标记的next-word-prediction序列,以及从原始的8286个未标记句子中产生的174355个未标记序列。

发电性能由两个常用的指标来衡量,即次字熵损失和双语言评估理解(BLEU)损失[28]在测试样本上,近似于预测的Kullback-Leibler散度和Jaccard距离[13]分别是。给定的句子(x个1:T型^)=1n个测试生成自和它的指称句(x个1:T型)=1n个测试给定一个主题,熵损失在中定义为(23),而BLEU-损失(=1,…,4)可以写成

BLEU公司损失()=1n个测试1=1n个测试经验(最小值(1T型^T型,0))|(x个1:T型)(x个1:T型^)||(x个1:T型^)|,

哪里n个测试是测试集中的句子数量,|·|表示测试集的大小和语法(·)是-一个句子的克集合。对于句子“帽子里的猫”,其1克集合是{“the”、“cat”、“in”、“the”、“hat”},2克集合是{“the cat”、“cat in”、“in the”、“the hat”},3克集合是{“the cat in”、“cat in the”、“in the hat”}。BLEU公司-可以使用Python中的NLTK库计算损失。而熵损失衡量的是参考句子的发生概率,BLEU-损失集中在精确匹配两个句子中的连续单词。此外,我们还考虑SF-BLEU-损失评估生成句子的多样性[43],定义为

平方英尺BLEU公司损失()=1n个测试1=1n个测试经验(最小值(1T型^T型^最小值,0))最大值j个|(x个1:T型^)(x个1:T型^j个j个)||(x个1:T型^)|,

哪里T型^最小值=argmin(最小值)T型^j个;j个|T型^j个T型^|和高SF-BLEU-失分意味着更多样化。

为了进行训练、验证和测试,我们将所有标记的文章随机分成三组,每组的分区率分别为60%、20%和20%。此外,对于一个句子x个1:T型及其相关主题在测试集中,五个起始单词x个1:5与空词相反,空词用于预测句子的其余部分。

考虑语义标签的两种情况:(1)Y(Y)∈{0,1}K是分类的,使用主题类别中的一个热点编码将其编码为0–1向量;(2)Y(Y)K每个主题都是连续的=基于Doc2Vec的128维向量。在(2),每个主题由该主题类别中所有句子在训练数据中的平均嵌入表示。

在以下情况下Y(Y)∈{0,1}K,间接发电机涉及(14)和(17). 对于(14),我们使用Python库sklearn执行正则多项式逻辑回归嵌入式next-word预测序列训练样本研究(E类(x个1:t吨),),其中E类(x个1:t吨)是Doc2Vec的数字嵌入4大小为=128,最佳λb条通过最小化基于一组网格{.0001、.001、.01、.1、1、10、100}上的验证数据的熵损失来获得。对于(17)间接RNN是基于训练数据中标记和未标记的下一个字预测序列进行训练的。中的间接RNN模型(17)它分为四层,包括一个由5369个节点组成的嵌入层,每个节点对应字典中的一个单词D类,一个由128个潜在因素组成的LSTM层,一个输出维数为5369的致密层。请注意(17)固定为λ在嵌入层中从0.0001到0.0001,以在训练集中不存在的情况下正则化单词。类似地,直接发电机在(22),具有与间接RNN相同的配置,期望输入维度为|D类|+K=5,374在其嵌入层中。此外,独立RNN与给定每个主题的间接RNN具有相同的结构。

如中所述第4.2节不同的RNN模型体系结构可能会产生不同的经验性能。为此,我们比较了直接RNN的LSTM架构和GPT2架构。特别是,我们考虑具有12层和117M参数的基本GPT2[30]对于直接法,表示为direct-GPT2。LSTM和GPT2之间的一个关键区别在于其屏蔽的自我关注层,它屏蔽了未来的令牌,并通过位于当前位置左侧的令牌传递关注信息。

如果是连续的Y(Y)在数值嵌入后,除了线性回归(与多项式logistic回归相对)(14)使用sklearn对训练数据中标记的嵌入式next-word预测序列执行(E类(x个1:t吨),),其中每个是一个128维嵌入向量。

所有RNN模型都使用Keras进行训练5批次和历元大小为200和100,优化器为Adam,提前终止可防止过度拟合[4]耐心为20。此外,耦合发电机的调谐方式如下(5).

如中所示表2当只有标记数据可用时,耦合发电机比直接和间接发电机提供更高的精度,这表明了该方法的优点。当与未标记数据结合时,耦合生成器在类别和连续标签方面都优于直接生成器和单独RNN,在这种情况下选择间接生成器。在熵损失方面,间接生成器相对于单独RNN方法和直接生成器的改进量分别为20.3%和14.5%(对于分类情况)和29.1%和16.1%(对于连续情况)。关于BLEU1–BLEU(BLEU)4损失,类似的情况也会发生,改善的程度各不相同,最佳改善率约为15.6%。关于未标记数据,对有和无未标记数据的间接生成器进行比较表明,未标记数据确实有助于将间接生成器的性能提高14.5%以上。有趣的是,在熵损失方面,基于精细调谐GPT2的直接生成器优于基于LSTM的直接生成器和间接生成器,而耦合生成器在这两者之间取得了最佳性能。然而,它们在BLEU方面的表现相似分数。鉴于SF-BLEU分数、句子由直接生成者和间接生成者生成,具有高度的多样性。此外,语义标签Y(Y)在句子嵌入之后,Doc2Vec在间接生成和直接生成方面的表现略逊于其对应的范畴,这表明句子嵌入捕获的语义关系或语言学依赖可能不会产生影响,因为只有五个类别。最后,根据中的建议表3,除了三个语法错误可以通过语法检查器纠正外,基于这五个类别生成的摘要是合理的6.

表2

损失函数中的测试错误–熵、BLEU和SF-BLEU基于UCI句子分类文本语料库的20个随机分区的各种生成器(括号中的标准错误)。这里,“分离RNN”、“间接”、“直接”、“直接-GPT2”和“耦合”表示基于RNN-LSTM架构的分离RNN、间接和直接生成器、基于RNN-GPT架构的直接生成器和耦合生成器,而间接标签或耦合标签是指没有未标记数据的生成。

方法BLEU公司1-损失BLEU公司2-损失BLEU公司-损失BLEU公司4-损失
Y(Y) :分类标签
单独的RNN9.317(.040)0.895(.010)0.926(.008)0.954(.007)0.971(.005)
间接7.424(.049)0.768(.003)0.854(.002)0.885(.002)0.914(.002)
间接标签8.839(.060)0.831(.008)0.878(.005)0.899(.004)0.923(.003)
直接9.537(.054)0.823(.008)0.872(.005)0.895(.005)0.919(.004)
直接-GPT28.684(.051)0.900(.006)0.954(.002)0.970(.001)0.981(.001)
已耦合7.424(.049)0.768(.003)0.854(.002)0.885(.002)0.914(.002)
耦合标签8.644(.050)0.880(.008)0.932(.008)0.949(.007)0.963(.006)
SF-BLEU公司1-损失SF-BLEU公司2-损失SF-BLEU公司-损失SF-BLEU公司4-损失
单独的RNN0.076(.010)0.208(.027)0.271(.036)0.303(.043)
方法BLEU公司1-损失BLEU公司2-损失BLEU公司-损失BLEU公司4-损失
间接0.105(.006)0.296(.009)0.416(.012)0.502(.013)
间接标签0.138(.008)0.363(.022)0.472(.029)0.545(.036)
直接0.139(.006)0.372(.019)0.487(.026)0.561(.032)
直接-GPT20.053(.006)0.159(.019)0.255(.031)0.320(.040)
已耦合0.105(.006)0.296(.009)0.416(.012)0.502(.013)
耦合标签0.082(.011)0.233(.028)0.342(.038)0.417(.045)
方法BLEU公司1-损失BLEU公司2-损失BLEU公司-损失BLEU公司4-损失
Y(Y):基于Doc2Vec的连续标签[23,24]
间接7.641(.036)0.768(.005)0.851(.003)0.883(.003)0.912(.003)
间接标签8.512(.041)0.912(.010)0.937(.008)0.949(.007)0.960(.005)
直接9.102(.050)0.916(.010)0.939(.007)0.950(.005)0.961(.004)
已耦合7.641(.036)0.768(.005)0.851(.003)0.883(.003)0.912(.003)
耦合标签8.512(.041)0.912(.010)0.937(.008)0.949(.007)0.960(.005)
SF-BLEU公司1-损失SF-BLEU公司2-损失SF-BLEU公司-损失SF-BLEU公司4-损失
间接0.097(.005)0.261(.008)0.361(.010)0.440(.012)
方法BLEU公司1-损失BLEU公司2-损失BLEU公司-损失布鲁4-损失
间接标记0.064(.010)0.165(.026)0.211(.035)0.232(.040)
直接0.079(.014)0.202(.037)0.252(.046)0.271(.050)
已耦合0.097(.005)0.261(.008)0.361(.010)0.440(.012)
耦合标签0.064(.010)0.165(.026)0.211(.035)0.232(.040)

补充材料

补充1

单击此处查看。(7.3K,gz)

鸣谢

作者感谢编辑、副主编和两位匿名推荐人的宝贵意见和建议。

国家科学基金会资助的部分研究项目为DMS-1712564、DMS-1721216、DMS-1952539、DMS-1852386,国家卫生研究院资助的项目为1R01GM126002、R01HL105397和R01AG065636。

附录

引理1的证明。

请注意b条(θb条)英寸(14)在中是凸的θb条b条(θb条)和(θ)英寸(17)连续两次微分。然后,结果遵循的定理4[21]. 这就完成了证明。

定理1的证明。

请注意^Y(Y)b条()=^Y(Y)X(X)b条(x个)^X(X)b条(x个)d日x个

d日2(^X(X)Y(Y)b条,X(X)Y(Y)0)=((Y(Y)0()^Y(Y)|X(X)b条(x个)^X(X)b条(x个)^Y(Y)b条())1/2(Y(Y)0()X(X)Y(Y)0(x个))1/2)2d日x个d日.

此外,^Y(Y)X(X)b条(x个)d日=1根据三角不等式

d日(^X(X)|Y(Y)b条,X(X)Y(Y)0)(((Y(Y)0()^Y(Y)|X(X)b条(x个)^X(X)b条(x个)^Y(Y)b条())1/2(^Y(Y)|X(X)b条(x个)^X(X)b条(x个))1/2)2d日x个d日)1/2+(((^Y(Y)X(X)b条(x个)^X(X)b条(x个))1/2(^Y(Y)X(X)b条(x个)X(X)0(x个))1/2)2d日x个d日)1/2+(((^Y(Y)|X(X)b条(x个)X(X)0(x个))1/2(X(X)|Y(Y)0(x个)X(X)0(x个))1/2)2d日x个d日)1/2=小时(Y(Y)0,^Y(Y)b条)+小时(X(X)0,^X(X)b条)+(E类(小时2(^Y(Y)X(X)b条,Y(Y)X(X)0)))1/2.
(26)

请注意^X(X),Y(Y)b条(x个,)=^Y(Y)X(X)b条(x个)^X(X)b条(x个).通过三角形不等式,

小时(Y(Y)0,^Y(Y)b条)=(((X(X),Y(Y)0(x个,)d日x个)12(^X(X),Y(Y)b条(x个,)d日x个)12)2d日)12(((X(X),Y(Y)0(x个,))12(^X(X),Y(Y)b条(x个,))12)2d日x个d日)12(((X(X),Y(Y)0(x个,))12(X(X)0(x个)^Y(Y)X(X)b条(x个))12)2d日x个d日)12+(((^X(X)b条(x个))12(X(X)0(x个))12)2d日x个)12小时(X(X)0,^X(X)b条)+(E类(小时2(Y(Y)X(X)0,^Y(Y)X(X)b条)))12.

因此,d日(^X(X)Y(Y)b条,X(X)Y(Y)0)2(小时(^X(X)b条,X(X)0)+(E类(小时2(^Y(Y)X(X)b条,Y(Y)X(X)0)))1/2)。因此,

P(P)(d日(^X(X)Y(Y)b条,X(X)Y(Y)0)2(ηb条+η))P(P)(小时(X(X)0,^X(X))η)+P(P)((E类X(X)(小时2(Y(Y)X(X)0,^Y(Y)X(X))))12ηb条)1+2.

To绑定1,让

=P(P)((n个+n个˜)1=1n个+n个˜(日志(X(X)0(X(X)))日志(X(X)*(X(X))))+λJ(X(X)0)+λJ(X(X)*))c(c)9η2/4);

4=P(P)(啜饮d日(,0)η(n个+n个˜)1=1n个+n个˜(日志(X(X)(X(X))X(X)0(X(X))λJ(X(X))+λJ(X(X)0))c(c)9η2/4),

哪里c(c)91−2exp(−τ/2)/(1−经验(−τ/ 2))2>0是由截断常量定义的常量τ> 0. 然后1上边界为

P(P)(啜饮d日(,0)η(n个+n个˜)1=1n个+n个˜(日志(X(X)(X(X))/X(X)*(X(X))))λJ(X(X))+λJ(X(X)*))0)+4.

根据马尔可夫不等式,

P(P)((n个+n个˜)1=1n个+n个˜(日志(X(X)0(X(X)))日志(X(X)*(X(X))))c(c)9η2/4λJ(X(X)*))=1n个+n个˜E类X(X)(X(X)0(X(X))X(X)*(X(X)))α经验(c(c)9α8(n个+n个˜)η2)(1+αγ)n个+n个˜经验(c(c)9α8(n个+n个˜)η2)经验(c(c)9α8(n个+n个˜)η2+(n个+n个˜)αγ).

推论1第页,共页[33],47经验(c(c)8(n个+n个˜)η2/2),意味着17经验(c(c)7(n个+n个˜)η2)+经验(c(c)9α8(n个+n个˜)η2+(n个+n个˜)αγ)对于某个常数c(c)7> 0. 对于2,可以通过应用相同的参数来建立类似的概率界定理2并转换角色X(X)Y(Y)。这导致27经验(c(c)8n个ηb条2)+经验(c(c)9α8n个ηb条2+n个αγb条)对于某个常数c(c)8> 0. 然后,得到所需的结果。

定理证明2。

表示

5=P(P)(啜饮d日(,0)η(f)(n个1=1n个(日志(X(X)Y(Y)(τ)(X(X)Y(Y))X(X)Y(Y)*(X(X)Y(Y))))λJ(X(X)|Y(Y))+λJ(X(X)Y(Y)*))0),

6=P(P)(n个1=1n个(日志(X(X)Y(Y)0(X(X)Y(Y))X(X)Y(Y)*(X(X)Y(Y))))λJ(X(X)Y(Y)0)+λJ(X(X)Y(Y)*)c(c)9η(f)2/4).

根据最小值的定义η(f)> 0,

P(P)(d日(^X(X)Y(Y)(f),X(X)Y(Y)0)η(f))5+6,

哪里日志(如果(τ))=日志(X(X)Y(Y)(τ)(X(X)Y(Y)))日志(X(X)Y(Y)0(X(X)Y(Y)))

X(X)Y(Y)(τ)(x个)={经验(τ)X(X)Y(Y)*(x个),如果X(X)Y(Y)(x个)<经验(τ)X(X)Y(Y)*(x个),X(X)Y(Y)(x个),否则

是的左截断X(X)|Y(Y)(x个|).

接下来,我们绑定56分别进行。与中相同参数的应用[38]产生这样的结果

5P(P)(n个1=1n个(日志(X(X)Y(Y)0(X(X)Y(Y)))日志(X(X)Y(Y)*(X(X)Y(Y))))c(c)9η(f)2/4λ(f)J(X(X)Y(Y)*))P(P)(=1n个(X(X)Y(Y)0(X(X)Y(Y))X(X)Y(Y)*(X(X)Y(Y)))α经验(c(c)9α8n个η(f)2))=1n个E类Y(Y)E类X(X)Y(Y)(X(X)Y(Y)0(X(X)Y(Y))X(X)Y(Y)*(X(X)Y(Y)))α经验(c(c)9α8n个η(f)2)(1+αγ(f))n个经验(c(c)9α8n个η(f)2)经验(α8c(c)9n个η(f)2+n个日志(1+αγ(f)))经验(α8c(c)9n个η(f)2+n个αγ(f)),
(27)

其中第二个不等式来自λ(f)J(X(X)Y(Y)*)c(c)9η(f)2/8第三个不等式来自马尔可夫不等式。

我们对边界的处理6依赖于适当分区上的链接参数如果(f)和似然比的左截断[38,33]. 现在,考虑一个如果(f)=k个=1j个=0如果k个j个:

如果k个j个={如果(f):21ηn个2d日2(0,)2ηn个2,2j个1J0J()2j个J(0)},

如果k个0={如果(f):21ηn个2d日2(0,)2ηn个2,J()J(0)};k个=1,,j个=0,,

哪里日志(如果(τ))=日志(X(X)Y(Y)(τ)(X(X)Y(Y)))日志(X(X)Y(Y)0(X(X)Y(Y))).那么对于任何η(f)> 0,

6P(P)(啜饮d日(,0)η(f)(n个1=1n个日志(如果(τ))λ(f)J(X(X)Y(Y))+λ(f)J(X(X)Y(Y)0))c(c)9η(f)2/4)k个=1j个=0P(P)(啜饮如果k个j个(n个1=1n个日志(如果(τ))λ(f)J(X(X)Y(Y))+λ(f)J(X(X)Y(Y)0))c(c)9η(f)2/4)k个=1j个=0k个j个,
(28)

哪里k个j个=P(P)(啜饮(f)如果k个j个(n个1=1n个日志(如果(t吨))λ(f)J(X(X)|Y(Y))+λ(f)J(X(X)Y(Y)0))c(c)9η(f)2/4).治疗千焦,我们控制日志(如果(τ))。由第4个引理(共4个)[38],

啜饮如果k个j个E类(日志(如果(τ)))=啜饮如果k个j个E类Y(Y)(E类X(X)Y(Y)(日志(如果(τ))))c(c)9inf公司如果k个j个d日2(,*)c(c)9(2k个1η(f))2,
(29)

方差有界于

啜饮如果k个j个变量(日志(如果(τ)))啜饮如果k个j个E类Y(Y)(E类X(X)Y(Y)(日志(如果(τ))2))4经验(τ)啜饮如果k个j个E类Y(Y)小时2(X(X)Y(Y)0,X(X)Y(Y))4经验(τ)(2k个η(f))28经验(τ)δk个j个/c(c)9,
(30)

其中第二个不等式来自[38]. 然后,千焦由上界

k个j个P(P)(啜饮(f)如果k个j个(n个1=1n个日志(如果(τ))E类日志(如果(τ)))啜饮(f)如果k个j个(E类日志(如果(τ))+λ(J(X(X)Y(Y)0)J(X(X)Y(Y))))c(c)9η(f)2/4)P(P)(啜饮(f)如果k个j个(n个1=1n个日志(如果(τ))E类日志(如果(τ)))δk个j个)经验(n个δk个j个),
(31)

哪里>0是一个常量,δk个j个=c(c)92k个1ηn个2/2+λ(2j个11)J(X(X)Y(Y)0),δk个0=c(c)92k个2ηn个2/2,第二个不等式基于以下假设λJ(X(X)Y(Y)0)c(c)9η(f)2/4和(29)最后一个不等式来自引理2,并且j个-第个(j个≥2)力矩E类(|日志(X(X)Y(Y)(τ)(X(X)Y(Y))X(X)Y(Y)0(X(X)Y(Y)))|j个)以为界

E类Y(Y)E类X(X)Y(Y)(经验(|日志(X(X)Y(Y)(τ)(X(X)Y(Y))X(X)Y(Y)0(X(X)Y(Y)))|)112|日志(X(X)Y(Y)(τ)(X(X)Y(Y))X(X)Y(Y)0(X(X)Y(Y)))|)j个!2j个1E类Y(Y)(X(X)|Y(Y))1/2(X(X)Y(Y)0)1/222,

哪里1=(经验(τ/ 2) − 1 –τ/2)/(1−经验(−τ/2))2>0是一个常数,最后一个不等式来自引理5[34]. 只需验证以下条件(2.4)即可[38]. 以下各项的组合(28)和(31)屈服,屈服6k个=1j个=0经验(c(c)13n个δk个j个2)7经验(c(c)13n个η(f)2),其中,连同(27)产生这样的结果P(P)(d日(^X(X)Y(Y)(f),X(X)Y(Y)0)η(f))5+67经验(c(c)13n个η(f)2)+经验(α8c(c)9n个η(f)2+n个αγ(f))。然后会得到所需的结果。

定理证明3。

(X(X),Y(Y))=1N个作为交叉验证样本。签署人(5),

1N个=1N个日志^X(X)|Y(Y)c(c)(X(X)Y(Y))最小值(1N个=1N个日志^X(X)|Y(Y)(f)(X(X)Y(Y)),1N个=1N个日志^X(X)|Y(Y)b条(X(X)Y(Y))),

然后,期望的结果遵循大数定律,将两边的极限作为N个→ ∞. 这就完成了证明。

推论1的证明。

对于直接序列生成,我们在定理证明2.表示

7=P(P)(啜饮d日(,0)η(f)=1n个1n个T型t吨=1T型日志(0(X(X)t吨+1X(X)1:t吨,Y(Y))*(X(X)t吨+1X(X)1t吨;,Y(Y)))λ(f)J(f)(X(X)Y(Y)0)+λ(f)J(f)(X(X)Y(Y)*)c(c)9η(f)24),

8=P(P)(啜饮d日(,0)η(f)=1n个1n个T型t吨=1T型日志((t吨)(X(X)t吨+1X(X)1:t吨,Y(Y))0(X(X)t吨+1X(X)1:t吨,Y(Y)))λ(f)J(f)(X(X)Y(Y))+λ(f)J(f)(X(X)Y(Y)0)c(c)9η(f)24).

然后P(P)(d日(X(X)Y(Y)(f),X(X)Y(Y)0)η(f))7+8,其中(τ)(X(X)t吨+1|X(X)1:t吨,Y(Y))是的左截断(X(X)t吨+1|X(X)1:t吨,Y(Y))定义见定理证明2.

对于7,

7P(P)(=1n个(t吨=1T型0(X(X)t吨+1X(X)1:t吨,Y(Y))*(X(X)t吨+1X(X)1:t吨,Y(Y)))αT型1经验(c(c)9α8n个η(f)2))=1n个E类(t吨=1T型0(X(X)t吨+1X(X)1:t吨,Y(Y))*(X(X)t吨+1X(X)1:t吨,Y(Y)))αT型1经验(c(c)9α8n个η(f)2)=1n个E类¯((0(X(X)t吨+1X(X)1:t吨,Y(Y))*(X(X)t吨+1X(X)1:t吨,Y(Y)))α)经验(c(c)9α8n个η(f)2)(1+αγ(f))n个经验(c(c)9α8n个η(f)2)第页¯经验(α8c(c)9n个η(f)2+n个αγ(f)).

对于8,让如果t吨(τ)=日志((τ)(X(X)t吨+1X(X)1:t吨,Y(Y))/0(X(X)t吨+1X(X)1:t吨,Y(Y)))首先,

E类(T型1t吨=1T型如果t吨(τ))=T型1t吨=1T型E类X(X)1:t吨,Y(Y)(E类X(X)t吨+1(如果t吨(τ)X(X)1:t吨,Y(Y)))c(c)9T型1t吨=1T型E类X(X)1:t吨,Y(Y)((X(X)t吨+1X(X)1:t吨,Y(Y)(τ))12(X(X)t吨+1X(X)1:t吨,Y(Y)0)1222)=c(c)9d日2(X(X)Y(Y)(τ),X(X)Y(Y)0).

对于j个-第个时刻j个≥ 2,

E类|T型1t吨=1T型如果t吨(τ)|j个T型1t吨=1T型E类X(X)1:t吨,Y(Y)(E类X(X)t吨+1(|如果t吨(τ)|j个X(X)1:t吨,Y(Y)))j个!2j个T型1t吨=1T型E类X(X)1:t吨,Y(Y)(E类X(X)t吨+1((经验(|如果t吨(τ)|/2)1|如果t吨(τ)|/2)X(X)1:t吨,Y(Y)))j个!2j个(t吨=1T型E类X(X)1:t吨,Y(Y)((X(X)t吨+1X(X)1:t吨,Y(Y)(τ))12(X(X)t吨+1X(X)1:t吨,Y(Y)0)1222))j个!2j个1d日2(X(X)Y(Y)(τ),X(X)Y(Y)0),

其中第一个不等式来自Jensen不等式。然后

P(P)(d日(X(X)Y(Y)(f),X(X)Y(Y)0)η(f))6经验(c(c)7n个η(f)2)+经验(α8c(c)9n个η(f)2+n个αγ(f)),
(32)

遵循与中相同的参数定理证明2.

对于间接生成,让t吨(·) =(·|X(X)1:t吨)和E类t吨()=E类(X(X)1:t吨)然后,

d日(X(X)Y(Y)b条,X(X)Y(Y)0)=(T型1t吨=1T型E类X(X)1:t吨E类Y(Y)X(X)1:t吨小时2(^X(X)t吨+1X(X)1:t吨,Y(Y)b条,X(X)t吨+1X(X)1:t吨,Y(Y)0))122(T型1t吨=1T型(E类(小时(^X(X)t吨+1X(X)1:t吨,X(X)t吨+1X(X)1:t吨0)+(E类t吨小时2(^Y(Y)X(X)1:t吨+1,Y(Y)X(X)1:t吨+10))12)2))122(2T型1t吨=1T型(E类小时2(^X(X)t吨+1|X(X)1:t吨,X(X)t吨+1X(X)1:t吨0)+E类小时2(^Y(Y)X(X)1:t吨+1,Y(Y)X(X)1:t吨+10)))1222(d日(X(X),X(X)0^)+d日(Y(Y)X(X)^,Y(Y)X(X)0)),

第一个不等式来自(26)通过更换(·)作为t吨(·),和d日2(X(X),X(X)0)=E类¯小时2(^X(X)t吨+1X(X)1:t吨,X(X)t吨+1X(X)1:t吨0),d日2(Y(Y)X(X),Y(Y)X(X)0)=E类¯小时2(^Y(Y)X(X)1:t吨+1,Y(Y)X(X)1:t吨+10)因此,

P(P)(d日(X(X)|Y(Y)b条,X(X)|Y(Y)0)22(ηb条+η))P(P)(d日(X(X),X(X)0)η)+P(P)(d日(Y(Y)|X(X),Y(Y)X(X)0)ηb条)7经验(c(c)7(n个+n个˜)η2)+经验(αc(c)98(n个+n个˜)η2+α(n个+n个˜)γ)+7经验(c(c)8n个ηb条2)+经验(αc(c)98n个ηb条2+αn个γb条),

最后一个不等式来自(32). 类似地P(P)(d日(X(X),X(X)0)η)d日(Y(Y)X(X),Y(Y)X(X)0)可以建立。然后,得到所需的结果。

推论2的证明。

验证中的熵条件就足够了推论1.对于直接发电,让X(X)Y(Y)={(X(X)t吨+1X(X)1:t吨,Y(Y);θ(f))}t吨=1T型¯X(X)Y(Y)={(X(X)t吨+1X(X)1:t吨,Y(Y);θ¯(f))}t吨=1T型在里面如果(f),k个。那么

κ2(X(X)Y(Y),¯X(X)Y(Y))E类¯σ12(W公司(f)o个小时t吨1)σ12(W公司¯(f)o个小时¯t吨1)2212E类¯||W公司(f)o个小时t吨1W公司¯(f)o个小时¯t吨1||22E类¯(||(W公司(f)o个W公司¯(f)o个)小时t吨1||22+||W公司¯(f)o个(小时t吨1小时¯t吨1)||22)E类¯(W公司(f)o个W公司¯(f)o个如果2小时t吨122+W公司¯(f)o个如果2小时t吨1小时¯t吨122)(2k个(4k个)T型+1T型(4k个1)2)(W公司(f)x个W公司¯(f)x个如果2+2第页(f)W公司(f)小时W公司¯(f)小时如果2+4k个c(c)Y(Y)W公司(f)W公司¯(f)如果2)+第页(f)W公司(f)o个W公司¯(f)o个如果2T型1最大值(2第页(f),4k个c(c)15)2(4k个)T型θ(f)θ¯(f)22,

最后一个不等式使用的事实是

小时t吨小时¯t吨22(4k个)t吨14k个1(2W公司(f)x个W公司¯(f)x个如果2+4第页(f)W公司(f)小时W公司¯(f)小时如果2)+(4k个)t吨W公司(f)W公司¯(f)如果2Y(Y)22,

它使用的事实是

小时t吨小时¯t吨22(W公司(f)x个W公司¯(f)x个)1[X(X)t吨]+W公司(f)小时小时t吨1W公司¯(f)小时小时¯t吨1222W公司(f)x个W公司¯(f)x个如果2+4第页(f)W公司(f)小时W公司¯(f)小时如果2+4k个小时t吨1小时¯t吨122,

小时0小时¯022W公司(f)W公司¯(f)如果2Y(Y)22.

因此,H(H)(u个,如果(f),k个)Λ(f)日志(最大值(2第页(f),4k个c(c)15)(4k个)(T型+1)/2/T型1/2u个)通过设置满足熵条件ϵ(f)=(Λ(f)n个日志(最大值(第页(f),2c(c)15)2T型/T型1/2n个Λ(f)))1/2.

对于间接生成,只需验证推论2.让X(X)={P(P)X(X)(X(X)t吨+1X(X)1:t吨;θ)}t吨=1T型1¯X(X)={P(P)X(X)(X(X)t吨+1X(X)1:t吨;θ¯)}t吨=1T型1。请注意小时0=小时¯0=0第页

κ2(X(X),¯X(X))E类¯(W公司o个W公司¯o个如果2小时t吨122+W公司¯o个如果2小时t吨1小时¯t吨122)2k个(4k个)T型+1T型(4k个1)2(W公司x个W公司¯x个如果2+2第页(f)W公司小时W公司¯小时如果2)+第页(f)W公司o个W公司¯o个如果22第页T型1(4k个)T型θθ¯22.

然后,H(H)(u个,如果,k个)Λ日志(第页(4k个)(T型+1)/2T型1/2u个)通过设置满足熵条件ϵ=O(运行)((Λn个+n个˜日志(第页(n个+n个˜)2T型T型1/2)Λ))1/2).

此外,如果Y(Y)∈ {0,1}K,

κ2(Y(Y)X(X),¯Y(Y)X(X))E类¯(σ(θb条E类(X(X)1:t吨)))12(σ(θ¯b条E类(X(X)1:t吨)))1222,E类¯σ12(θb条E类(X(X)1:t吨))σ12(θ¯b条E类(X(X)1:t吨))2212E类¯(θb条θ¯b条)E类(X(X)1:t吨)2212θb条θ¯b条如果2E类¯E类(X(X)1:t吨)22.

同样,H(H)(u个,如果b条,k个)Λb条日志(k个c(c)16u个2)通过设置满足熵条件ϵb条=O(运行)((Λb条n个日志(c(c)16n个Λb条))1/2).

如果K,然后

κ2(Y(Y)X(X),¯Y(Y)X(X))=E类¯(1经验(18(θb条θ¯b条)E类(X(X)1:t吨)22)),18E类¯(θb条θ¯b条)E类(X(X)1:t吨)2218θb条θ¯b条如果2E类¯E类(X(X)1:t吨)22,
(33)

这意味着H(H)(u个,如果b条,k个)Λb条日志(k个c(c)1622u个)熵条件成立时ϵb条=O(运行)((Λb条n个日志(c(c)16n个Λb条))1/2)这就完成了证明。

引理2。

v(v)n个((f))=n个1/2=1n个(v(v)((f)(X(X)),(f)0(X(X)))E类v(v)((f)(X(X)),(f)0(X(X)))),假设存在一些通用常数a2> 0和一个> 0,对于j≥ 2,这样的话

E类|v(v)((f)(X(X)),(f)0(X(X)))|j个2j个!2j个d日2((f),(f)0),

对于任何δ> 0,如果

δ/2821/2δ1/2H(H)1/2(u个,V(V)δ)d日u个n个1/2δ,

哪里 V(V)δ={v(v)((f),(f)0):d日2((f),(f)0)δ,(f)如果},那么存在一些常数a4> 0和a5> 0取决于2 和a 这样的话

P(P)*(啜饮d日2((f),(f)0)δ;(f)如果v(v)n个((f))4n个1/2δ)经验(5n个δ),
(34)

其中P*是对应于 X(X)0.

引理2的证明。

结果来自于中的引理5和引理7[38],通过将引理5中的Hellinger距离替换为通用距离d日(·,·).

工具书类

[1]主教CM。模式识别和机器学习斯普林格,2006年。[谷歌学者]
[2]具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录,第177–186页。施普林格,2010年。[谷歌学者]
[3]布莱曼L。随机森林.机器学习,45(1):5–32, 2001.[谷歌学者]
[4]Caruana R、Lawrence S和Giles CL。神经网络中的过度拟合:反向传播、共轭梯度和提前停止.英寸神经信息处理系统的研究进展,第402-408页,2001年。[谷歌学者]
[5]Cheng J和Lapata M。通过提取句子和单词进行神经摘要.arXiv预打印arXiv:1603.07252, 2016.[谷歌学者]
[6]Cho K、Van Merriénboer B、Gulcehre C、Bahdanau D、Bougares F、Schwenk H和Bengio Y。基于rnn编解码的统计机器翻译短语表示学习.arXiv预打印arXiv:1406.1078, 2014.[谷歌学者]
[7]科兹曼F和科恩I。半监督学习的风险.半监督学习,第56-72页,2006年。[谷歌学者]
[8]Cozman FG、Cohen I和Cirelo M。未标记数据会降低生成分类器的分类性能.英寸佛罗里达州会议,第327–331页,2002年。[谷歌学者]
[9]Cozman FG、Cohen I和Cirelo MC。混合模型的半监督学习《第20届机器学习国际会议论文集》(ICML-03),第99–106页,2003年。[谷歌学者]
[10]戴B、沈X和王杰。嵌入学习.美国统计协会杂志,(出版中),2020年。[谷歌学者]
[11]Devlin J、Chang M-W、Lee K和Toutanova K。伯特:深度双向变换器的语言理解预训练.英寸NAACL-HLT公司, 2018.[谷歌学者]
[12]董磊、杨恩、王伟、魏福、刘X、王毅、高杰、周明和霍华德。用于自然语言理解和生成的统一语言模型预训练.英寸神经信息处理系统的研究进展,第13042–13054页,2019年。[谷歌学者]
[13]Gjorgjioski V、Kocev D和Díeroski S。多标签分类与pcts距离的比较《斯洛文尼亚KDD数据挖掘和数据仓库会议记录》(SiKDD’11),2011年。[谷歌学者]
[14]Goodfellow I、Pouget-Abadie J、Mirza M、Xu B、Warde-Farley D、Ozair S、Courville A和Bengio Y。生成性对抗网络.英寸神经信息处理系统的研究进展,第2672–2680页,2014年。[谷歌学者]
[15]何丹、夏毅、秦涛、王力、于恩、刘廷毅、马伟毅。机器翻译的双重学习.英寸神经信息处理系统的研究进展,第820–828页,2016年。[谷歌学者]
[16]Hochreiter S和Schmidhuber J。长短期记忆.神经计算,9(8):1735–1780, 1997. [公共医学][谷歌学者]
[17]Karphy A和Fei-Fei L。用于生成图像描述的深层视觉语义对齐《IEEE计算机视觉和模式识别会议记录》,第3128–3137页,2015年。[公共医学][谷歌学者]
[18]Kingma DP、Mohamed S、Rezende DJ和Welling M。基于深度生成模型的半监督学习.英寸神经信息处理系统的研究进展,第3581–3589页,2014年。[谷歌学者]
[19]Kingma DP、Salimans T、Jozefowicz R、Chen X、Sutskever I和Welling M。基于逆自回归流的改进变分推理.英寸神经信息处理系统的研究进展,第4743–4751页,2016年。[谷歌学者]
[20]Langkilde I.基于预测的统计句子生成。计算语言学协会第一届北美分会会议记录,第170-177页。计算语言学协会,2000年。[谷歌学者]
[21]Lee JD、Simchowitz M、Jordan MI和Recht B。梯度下降仅收敛于极小值《学习理论会议》,第1246-1257页,2016年。[谷歌学者]
[22]Merity S、Keskar NS和Socher R。规范和优化LSTM语言模型在2018年国际学习代表大会上。[谷歌学者]
[23]Mikolov T、Sutskever I、Chen K、Corrado GS和Dean J。单词和短语的分布式表示及其组成.英寸神经信息处理系统的研究进展,第3111–3119页,2013年。[谷歌学者]
[24]Mikolov T、Yih W-T和Zweig G。连续空间词表征的语言规律《计算语言学协会北美分会会议:人类语言技术》,第746–751页,2013年。[谷歌学者]
[25]穆拉切里五世和莫特瓦尼五世。图像字幕.arXiv预打印arXiv:1805.09137, 2018.[谷歌学者]
[26]Nallapati R、Melnyk I、Kumar A和Zhou B。Sengen:句子生成神经变分主题模型.arXiv预打印arXiv:1708.00308, 2017.[谷歌学者]
[27]Ollivier Y、Tallec C和Charpiat G。在线训练递归网络,无需回溯.arXiv预打印arXiv:1507.07680, 2015.[谷歌学者]
[28]Papineni K、Roukos S、Ward T和Zhu W-J.Bleu:机器翻译的自动评估方法。计算语言学协会第40届年会会议记录,第311-318页。计算语言学协会,2002年。[谷歌学者]
[29]Pascanu R、Mikolov T和Bengio Y。递归神经网络训练的难点.英寸机器学习国际会议,第1310–1318页,2013年。[谷歌学者]
[30]Radford A、Wu J、Child R、Luan D、Amodei D和Sutskever I。语言模型是无监督的多任务学习者.OpenAI博客,1(8):9, 2019.[谷歌学者]
[31]施密特·M、勒鲁·N和巴赫·F。用随机平均梯度最小化有限和.数学规划,162(1–2):83–112, 2017.[谷歌学者]
[32]Schuster M和Paliwal KK。双向递归神经网络.IEEE信号处理汇刊,45(11):2673–2681, 1997.[谷歌学者]
[33]沈X。论处罚方法.中国统计学,8(2):337–357, 1998.[谷歌学者]
[34]Shen X和Wong WH。筛选估计的收敛速度.统计年刊,第580-615页,1994年。[谷歌学者]
[35]Smale S和Zhou D-X。学习理论中近似误差的估计.分析和应用,1(01):17–41, 2003.[谷歌学者]
[36]Sutskever I、Martens J和Hinton GE。用递归神经网络生成文本《第28届国际机器学习会议(ICML-11)论文集》,第1017–1024页,2011年。[谷歌学者]
[37]Vinyals O、Toshev A、Bengio S和Erhan D。展示与讲述:一个神经图像字幕生成器《IEEE计算机视觉和模式识别会议记录》,第3156–3164页,2015年。[谷歌学者]
[38]Wong WH、Shen X等。筛极大似然比和收敛速度的概率不等式.统计年刊,23(2):339–362, 1995.[谷歌学者]
[39]Yang T和Priebe CE。模型错误指定对半监督分类的影响.IEEE模式分析和机器智能事务,33(10):2093–2103, 2011. [公共医学][谷歌学者]
[40]雅罗斯基D。深relu网络近似的误差界.神经网络,94:103–114, 2017. [公共医学][谷歌学者]
[41]Yu H-F、Huang F-L和Lin C-J。logistic回归和最大熵模型的双坐标下降法.机器学习,85(12):41–75, 2011.[谷歌学者]
[42]Zhou D、Hofmann T和Schölkopf B。有向图的半监督学习.英寸神经信息处理系统的研究进展,第1633-1640页,2004年。[谷歌学者]
[43]朱毅、卢S、郑L、郭J、张伟、王杰和于毅。Texygen:文本生成模型的基准测试平台2018年第41届ACM SIGIR信息检索研究与开发国际会议,第1097–1100页。[谷歌学者]