美国统计协会。作者手稿;PMC 2023年1月1日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理C9718422
NIHMSID公司:美国国立卫生研究院1774499
耦合发电
,1 ,1和2
本代
1明尼苏达州明尼阿波利斯明尼苏打大学统计学院,邮编55455;
沈晓桐
1明尼苏达大学统计学院,明尼苏达州明尼阿波利斯市,邮编55455;
王永雄
2斯坦福大学统计与生物医学数据科学系,加利福尼亚州94305。
1明尼苏达州明尼阿波利斯明尼苏打大学统计学院,邮编55455;
2加利福尼亚州斯坦福大学统计与生物医学数据科学系,邮编94305。
- 补充资料
附录1。
GUID:6C8FE4EE-9300-4D3D-A192-7C6212D244F8
摘要
实例生成创建代表性示例来解释学习模型,如回归和分类。例如,感兴趣主题的代表性句子专门描述用于句子分类的主题。在这种情况下,除了标记的数据外,还可能存在大量未标记的观察结果,例如,许多未分类的文本语料库(未标记的实例)只有几个分类的句子(标记的示例)可用。在本文中,我们介绍了一种新的生成方法,称为耦合生成器,它基于间接生成器和直接生成器生成给定特定学习结果的实例。间接生成器使用逆原理生成相应的逆概率,从而能够利用未标记的数据生成实例。直接生成器根据实例的学习结果学习实例的分布。然后,耦合发电机从间接发电机和直接发电机中寻找最佳发电机,这两种发电机的设计目的都是为了享受两者的好处,并提供更高的发电精度。对于给定主题的句子生成,我们为间接生成器开发了一个基于嵌入的回归/分类与无条件递归神经网络,而条件递归神经网对于相应的直接生成器来说是自然的。此外,我们推导了间接生成器和直接生成器的有限样本生成误差界,以揭示这两种方法的生成方面,从而解释了耦合生成器的优点。最后,我们将所提出的方法应用于抽象分类的实际基准测试,并证明耦合生成器可以从字典中合成相当好的句子来描述感兴趣的特定主题。
关键词:分类、自然语言处理、数值嵌入、半监督生成、非结构化数据
1 介绍
为给定的结构化信息生成文章或文本是一个重要的人工智能(AI)问题,它会自动模仿某种写作风格。虽然解决这个人工智能问题相当具有挑战性,但我们在本文中处理它的简单版本,我们称之为实例(示例)生成,即生成给定特定结果的代表性实例,以描述和解释相应的学习模型,例如分类和回归。
在许多实际应用中,使用黑盒预测模型(如深度神经网络)提供了较高的经验学习精度[14,15]. 然而,很难理解这种学习模式。从生成的角度来看,实例生成可以回顾性地描述实例和结果之间的关系。它的应用包括句子分类的主题描述、抽象文本摘要[12]、和图像字幕[25],其中生成的句子呈现主题、文本和图像的描述性示例。在这种情况下,句子生成允许我们在提供结构化信息时撰写新颖的文章和图像字幕。例如,UCI抽象分类基准1由文章摘要中的句子组成,这些句子被标记为五个主题类别之一。这里的目标是学习一种句子生成机制,以在给定特定主题的情况下编写一个新颖的摘要,其中生成性能是通过基于测试样本的交叉熵误差来衡量的。
在文献中,尽管实例生成在人工智能中有着广泛的重要应用,但它在很大程度上仍未被探索,尽管已经提出了一些句子生成的方法。例如,计算语言学方法将单词/短语表示为树,以模拟语言依赖性[20],一种学习方法使用大型文本语料库来学习句子结构,而无需任何语言注释[5]. 在[26]提出了一种句子生成模型,该模型通过对句子的潜在主题进行采样,然后使用递归神经网络(RNN)对句子中的单词进行采样来生成文档。在[37,17],图像字幕通过卷积神经网络(CNN)和RNN之间的相互作用将图像内容链接到语言模型。然而,在给定结构化信息的情况下,以及结合标记和未标记数据的实例生成方面的工作很少。
主题实例数据的一个主要特征是,未标记数据的数量可能远远大于标记数据。例如,在句子生成中,未分类的句子大约是分类的句子的十倍。这是一种半监督学习的并行情况,不同的重点是利用未标记的数据来提高监督学习的预测准确性[42,18]这与我们这一代人的学习目标形成了鲜明对比。
我们的主要贡献在于开发了一个新的半监督生成框架,用于生成给定结果的实例。在此基础上,我们提出了三种生成方法——间接生成、直接生成和耦合生成。间接生成器使用反向学习原理估计给定实例结果的条件概率分布,从而能够利用未标记的数据(如果可用)。另一方面,直接生成器以有监督的方式估计给定结果的实例的相应条件概率。然后,耦合发电机被设计成可以享受两代人的利益。所提出的生成器在句子生成中进行了说明,其中我们通过连续的next-word-prediction生成句子。具体来说,我们将基于正则化嵌入的回归/分类与间接生成器的无条件RNN结合起来,而将条件RNN用于直接生成器。
为了阐明这三种生成器的生成性能,我们推导了每种方法的有限样本生成误差界。有趣的是,间接生成器的生成误差取决于给定实例的结果的条件密度和边际密度的参数空间的复杂性。类似地,直接生成器的条件密度由给定结果的实例的条件密度决定。因此,间接发电机和直接发电机在使用未标记数据生成数据方面有各自的优势,重要的是,耦合发电机在生成精度方面都具有优势。这一点,再加上句子分类的实际基准,证明了耦合生成在构建相当好的句子来描述特定主题方面的实用性。数值上,该方法优于单独的RNN方法,并且间接生成器可以利用额外的未标记数据进一步提高性能。
本文的结构如下。第2节介绍了基于间接发电和直接发电的耦合发电框架。第3节发展了所提方法的生成性能理论。第4节致力于开发一种新的句子生成方法,通过连续的下一个单词预测给出感兴趣的主题。第5节研究了耦合发电机的运行特性,并将其与直接和间接发电机以及一个竞争对手进行了比较。这个附录包含技术证明。
2 方法
考虑一个生成模型,其目标是生成一个实例X(X)给出结果Y(Y),其中X(X)和Y(Y)表示实例和响应变量,这些变量可以是数字的,也可以是非结构化的,例如无法以预定义方式表示的文本和文档。在本文中,我们重点讨论了基于条件分布的生成模型下的实例生成对X(X)|Y(Y)属于X(X)给出的结果Y(Y)例如,在句子生成中[26],实例生成生成以下典型示例X(X)给定的特定主题Y(Y),其中X(X)和Y(Y)表示句子及其相关主题。
例如,生成一个标记的训练样本以及一个只提供实例的示例,其样本大小可能大大超过或小于样本量n个在我们的上下文中,我们利用未标记的样本来提高实例生成的生成准确性。
间接发电机。
间接生成器使用的估计值生成实例对X(X)|Y(Y)通过逆关系(1):估计值对Y(Y)|X(X)基于英寸(2)和边缘密度对X(X)基于综合数据和英寸(三). 也就是说,
哪里和英寸(1)是正则最大似然估计对Y(Y)|X(X)和对X(X),Jb条和J米例如,是正规化者,我1-或我2-神经网络模型中的正则化,λb条≥0且λ米≥0是控制正则化权重的调谐参数,以及英寸(2)和英寸(三)是的参数空间对Y(Y)|X(X)和对X(X)分别是。请注意英寸(1)使正常化要成为概率密度,尽管当只关注分布的某些方面(如模式或百分位数)而不是分布本身时,没有必要进行归一化。重要的是,间接生成器只利用实例(未标记)数据,但估计中的任何潜在偏差对X(X)基于可以转化为对Y(Y)|X(X).
直接发电机。
直接发电机使用对X(X)|Y(Y)生成实例,通过最小化X(X)鉴于Y(Y)基于:
哪里是的参数空间对X(X)|Y(Y),J(f)是一名正规化者,并且λ(f)≥0是控制正则化权重的调谐参数。
看起来(4)可以通过条件似然扩展以利用额外的未标记数据对X(X)|Y(Y)和混合关系然而,不幸的是,当包含额外的未标记数据时,混合方法可能会出现渐近偏差,从而降低对X(X)|Y(Y)[8,9,39]. 这是因为当是错误的,而且它的影响甚至可能是最小的,特别是当支持Y(Y)很大。如中的定理所示第4节[39],监督和半监督最大似然估计可能收敛到不同的值,因此,当模型在其中指定错误时,更多的未标记数据产生更大的估计偏差,如Kullback-Leibler散度所测量的不属于参数空间或者混合关系不满足。此外,如图1和图2所示[8]和图4.1[7]实证研究表明,当SecStr数据集中标记数据的大小超过30时,基于标记数据和未标记数据的EM算法往往仅基于标记数据而降低性能。因此,对X(X)|Y(Y)基于标记数据的估计比基于标记和未标记数据的评估具有更好的性能。
总之,如何利用未标记的数据来提高发电性能仍是一个悬而未决的问题,这取决于在实践中可能无法验证的模型假设。值得一提的是(4)是一个一般的公式,没有假设任何具体的假设对X(X)与相关然而如果这种假设在实践中变得可用(4)可以基于它进行推广,以合并未标记的数据以进行改进。目前,我们不会追求这一方面,因为间接方法可以从额外的未标记数据中受益,如定理1在里面第3节.
耦合发电机。
估计的困难程度和的可能会有所不同,尤其是当对X(X)可以从实例数据和未标记数据中很好地估计。根据情况,前者可能比后者更难,反之亦然。这方面的一些理论结果如所示第4.5节然后,我们通过在两者之间选择最大化预测对数似然或最小化负对数似然的一个,提出耦合发电,例如(23)在句子生成示例中。特别是,耦合发电机定义为:,
概率密度给出了X(X)鉴于Y(Y)首先,我们可以使用模式生成代表性实例对X(X)|Y(Y)给出一种表示或抽样对X(X)|Y(Y)用于多种表示。第二,区别特征X(X)关于Y(Y)可以通过比较提取在不同的Y(Y)-回顾性价值观。例如,在分类中Y(Y)=±1,比较和导致区别特征。这方面将在其他地方进行进一步调查。
耦合学习有其独特的特点,尽管它似乎与半监督变分自动编码器有着遥远的联系[18]和逆自回归流[19]. 特别是[19]使用生成模型对X(X)|Y(Y)和对X(X)增强判别模型对Y(Y)|X(X)将边际分布视为条件分布的混合,而所提出的间接生成器集成了未标记的数据来单独估计边际分布。此外[18]估计X(X)
对X(X)通过自回归神经网络的一系列潜在因素和不可避免的变换,通过可逆关系连接块。然而,该方法通过贝叶斯定律将两个条件密度联系起来。最后,从理论上证明[19]和[18]仍然未知。
三。 理论
本节开发了一种学习理论,用于研究直接、间接和耦合发电机的发电误差。特别地,我们推导了估计量的有限样本生成误差界,、和第页,共页(1), (4)和(5).
生成的生成错误X(X)鉴于Y(Y)定义为两个条件密度之间的预期Hellinger-距离对X(X)|Y(Y)和q个X(X)|Y(Y)关于Y(Y):
哪里μ勒贝格措施实施了吗x个、和是关于以下方面的期望Y(Y).
三参数空间,、和定义用于估算对Y(Y)|X(X)英寸(2),对X(X)英寸(三)、和对X(X)|Y(Y)英寸(4),每个都可以根据相应的样本大小进行选择。然后,它们的正则参数空间如下所示:对于(2),对于(三)、和对于(4). 在此基础上,我们定义了度量熵来度量其复杂性,以用于我们的理论。
这个u个-括号度量熵H(H)(u个,)空间的相对于距离D类定义为u个-的括号最小尺寸的。A类u个-的括号是(函数对的)有限集这样,对于任何,有一个j个这样的话具有。请注意,小时2(对X(X),q个X(X))、和,分别用于,、和.
量化真实密度的近似程度通过,我们引入一个距离,其中克α(x个) =α−1(x个α−1)用于α∈ (0, 1). 如中所建议第4节第页,共页[38],此距离比相应的Hellinger距离强。同样,和定义为近似真实密度和通过和分别为。
让和是的两个近似点和在那里面和对于某些序列γb条≥0且γ米≥ 0. 当然,γb条=0时和γ米=0时.
定理1(间接生成器)。
假设存在一些正常数c(c)1–c(c)6这样,对于任何ϵb条>0和λb条≥ 0,
并且,对于任何ϵ米>0和λ米≥ 0,
然后
前提是λb条和λ米
、和c(c)7–c(c)9是一些正常数。因此,作为n个,在下.
定理1指示间接生成器的生成误差由估计误差控制ϵb条和ϵ米来自(2)和(三)和近似误差γb条和γ米,其中ϵb条和ϵ米可以通过求解熵积分方程得到(6)和(7). 此外,可以通过调整λb条和λ米。请注意η米可以调整为以下较小的顺序ηb条当未标记数据的大小大大超过标记数据的尺寸时。那么间接方法的泛化误差主要由以下因素决定ηb条换句话说,间接发电机的性能主要取决于对Y(Y)|X(X).
对于直接发电机,让近似于对X(X)|Y(Y)0在那里面ρ(f)(对X(X)|Y(Y)0,对X(X)|Y(Y)*) ≤γ(f)对一些人来说γ(f)≥ 0.
定理2(直接生成器)。
假设存在一些正常数c10–c12,这样,对于任何ϵ(f)> 0,和λ(f)≥ 0,
然后
前提是λ(f)
,和c13> 0是一个常量.因此,作为n个→ ∞ 在下面.
与间接生成相比,生成错误η(f)直接发电量可能比间接发电量大或小得多ηb条取决于,,以及相应的近似误差γ(f)和γb条,何时对X(X)可以很好地估计。这表明,根据模型假设,其中一个可能优于另一个。
请注意γ(f),γb条、和γ米是函数空间逼近能力的逼近误差,和[35,40]. 特别地,当函数空间由ReLU深度神经网络定义以近似Sobolev空间中的函数时,近似误差是可用的,并且与神经网络的规模有关[40].
定理3说耦合发电机的性能并不比间接发电机和直接发电机差(5)用于根据大小的独立交叉验证样本进行选择N个.
定理3(耦合生成)。
低于
,作为N→ ∞,中定义的耦合发电机(5)满足
,其中K(对X(X)|Y(Y),q个X(X)|Y(Y))是p之间的Kullback-Leibler散度X(X)|Y(Y)
和qX(X)|Y(Y).
评论:
在定理3,如果对于某个常数c(c)14>0,然后,当似然比有界时发生。
4 给定主题的句子生成
本节推导了句子生成的生成方法,该方法将先前开发的似然方法与语言模型相结合以构成句子。因此,可以生成一个新句子,该句子可能不会出现在训练数据中;看见例如。
表3
耦合生成器基于UCI基准文本语料库的一个随机分区生成的摘要,用于句子分类。这里五个句子(1)-(5)对应五个类别:AIM、OWN、CONTRAST、BASIS、MISC,每个句子的前五个单词都是预先指定的。除“改善“(4)中有错误,并且科尔莫戈罗夫(1)和以色列人在(3)中应大写。这些错误可以通过语法检查器更正。
(1) 本文扩展了选择规则理论的研究。(2) 我们使用以下想法和概念来测试我们的预测
科尔莫戈罗夫
复杂性取决于数据集示例的数量。(3) 结果表明:
以色列人
模型可以用来为分类精度提供新的结果。(4) 我们表明,实现与学习算法的性能有关
改善
预测的最佳预测器。(5) 平衡的效果由高水平的事件和共享的对象来描述. |
一个完整的句子由词向量表示X(X)1:T型= (X(X)1, …,X(X)T型)',其中X(X)t吨是t吨-第个单词,T型是句子特定的长度,′表示向量的转置。为了方便起见,我们写X(X)1=“启动”和X(X)T型+1=“END”分别作为句子的第一个单词和最后一个单词的空单词。例如,X(X)1=“开始”,X(X)2=``足球',X(X)三=“是”,X(X)4=``a〃,X(X)5=``流行',X(X)6=``sport“,以及X(X)7=``END〃。与一起X(X)1:T型,其关联的主题类别Y(Y)= (Y(Y)1, …,Y(Y)K)'可用,其中Y(Y)j个∈{0,1}或最后,我们构造一个字典包含所有合成词,即,带有表示大小。
为了简单起见,我们考虑一个固定的T型,其中可以使用固定长度处理不同长度的句子,如中所示.给定主题的句子生成Y(Y)生成一个句子X(X)1:T型+1使用条件概率P(P)(X(X)1:T型+1=x个1:T型+1|Y(Y)=年). 然而,在句子层面上估计这种可能性是不可行的。因此,我们使用概率链规则在单词级别对其进行分解:
这种分解(11)允许通过学习给定现有单词,通过下一个单词来连续生成句子对(X(X)t吨+1=x个t吨+1|x个1:t吨,年)来自数据;t吨=1, …,T型.
表1
主题 | 句子 |
---|
杂项 | SYMBOL的损失界意味着概率收敛. |
1 | Null Null Null Null NullNull NullNULL Null Null Null nullNull Null START空零零零零开始→ 这个 |
2 | Null Null Null Null Nul Null Nul Null NullNull NullNULL Null Null START→ 损失 |
三。 | 空零零零零空零零空空启动损失→ 跳跃 |
4 | Null Null Nul Null NullNull Null Null START损失范围→ 属于 |
5 | Null Null Nul Null NullNull START的损失范围→ 符号 |
6 | Null Null Null Null START SYMBOL的丢失界限→ 暗示 |
7 | Null Null Null START SYMBOL的丢失范围表示→ 汇聚 |
8 | Null Null Null START SYMBOL的损失范围意味着收敛→ 在里面 |
9 | Null Null START SYMBOL的损失范围意味着收敛于→ 可能性 |
10 | 空START SYMBOL的损失界表示仅在概率上收敛→。 |
11 | START SYMBOL的损失界仅表示概率收敛。→ 结束 |
然而,估计对(X(X)t吨+1=x个t吨+1|x个1:t吨,年)对于非结构化仍然具有挑战性X(X)1:t吨因为在任何条件反射事件中都缺乏观察X(X)1:t吨鉴于Y(Y)即使有大量的培训数据。此外,很难利用未标记的数据进行估算对(X(X)t吨+1=x个t吨+1|x个1:t吨,年).
4.1. 间接发电机
在这种情况下,我们导出了(2)和的(三)通过(11)估计逆概率。明确地,对(x个t吨+1|x个1:t吨,年)可以写为
对于t吨=1, …,T型然后,我们估计逆概率对(年|x个1:t吨+1)基于标记数据和估算对(x个t吨+1|x个1:t吨)基于对于t吨= 1, …,T型我、和未标记的数据对于t吨= 1, …,T型j个.
估算对(年|x个1:t吨)可以继续进行非结构化预测x个1:t吨。继续,我们画一个句子x个1:t吨到数字矢量称为大小的数字嵌入对通过预处理嵌入模型,如Doc2Vec[23,24]和BERT[11]. 如果预处理嵌入模型足够[10],数字嵌入捕获以词的共现形式表示的词与词之间的关系,这可能会提高非结构化预测因子的可预测性X(X)1:t吨接下来,我们建模对(年|x个1:t吨)通过什么时候Y(Y)∈{0,1}K是绝对的或具有嵌入标签的连续性Y(Y):
哪里K是的尺寸Y(Y),σ(·)是softmax函数[1]、和(f)是非参数分类或回归函数林[三]或线性函数具有为了进行说明,我们使用线性表示英寸(13)顺序。现在是成本函数我b条(θb条)英寸(2)成为
哪里λb条≥0是一个调谐参数,并且Jb条((f))≥0是正则化子,例如,如果,式中如果是矩阵的Frobenius范数。
另一方面,下一个单词的概率由RNN以
其中[x个t吨+1] ={j个:周j个=x个t吨+1},o个j个(x个t吨,小时t吨,θ米)是发生的概率j个-第个单词、和小时(x个t吨,小时t吨+1,θ米)是一个隐藏状态函数,例如长短期记忆单元(LSTM)[16],双向装置[32],一个门控复发单元(GRU)[6]和GPT2[30],θ米是特定RNN模型的参数,例如,在基本RNN中,
哪里σ(·),如前所述,是softmax和ϕ是一个激活函数,如ReLU函数[1],,、和、和第页米是RNN的潜在因子数。请参见用于显示基本RNN的体系结构。
由间接和直接RNN生成器生成的句子(20)和(15),其中显示RNN体系结构,其中“SYMBOL的瞬时损失界仅表示概率收敛主题“MISC”由单词连续生成,小时t吨是中RNN的隐藏节点(20)和(15)、和小时0是初始隐藏状态,在(15)和“MISC”(20).
在地面上(15),成本函数我米(θ米)英寸(三)成为
哪里λ米≥0是一个调谐参数,并且J米(θ米)是正则化权重矩阵和激活层的正则化器[22].
最小化(14)和(17)产量估计器θb条和θ米分别是。然后,条件概率估计为和.将这些估计插入(12),我们得到了估计的概率,过程总结为,
然后,按如下顺序生成一个句子:
此生成过程始于x个1=`START”或预先指定t吨0-单词并继续进行,直到达到,其中是终止时的索引。值得一提的是(18)规范化概率,但当最大化为(18)在中需要(19).
4.2. 直接发电机
直接发电受条件RNN(C-RNN[37,17])通过估算
哪里θ(f)表示RNN的参数,以及小时0建立在标签信息之上,而不是小时0=0英寸(16). 如中所示(16),直接发电机需要附加参数对于从以下方面模拟效果年如下:
哪里,,、和第页(f)是RNN的潜在因子数。基于此,成本函数(4)成为
哪里λ(f)≥0是一个调谐参数,并且J(f)(θ(f))是一个非负正则化子。最小化(22)英寸θ(f)产生一个估计θ(f),因此估计概率,来自(20). 然后,句子生成过程如下所示(19).
值得注意的是,直接和间接生成器可以使用不同的RNN模型分别实现,例如,直接RNN的GPT2(20)而间接RNN的LSTM(15). 此外,不同的RNN模型架构可能会产生不同的实证结果。该方面如所示第5节.
4.3. 耦合发电机
给定估计概率和.耦合发电机在以下两个选项中选择一个和通过最小化对数似然损失的经验版本来确定验证集,
4.4. 大规模计算
本节为中的间接发电机开发了一个计算方案(14)–(17)和直接发电机(22)可以通过标准RNN实现进行处理,如[36,29]. 特别是,当通过时间梯度方法使用随机反向传播时,计算复杂度与每个时间步长的参数数量成正比[27].
在下面,我们应用梯度下降[41]或随机梯度下降[31]解决(14). 对于(17),我们应用了一种经典的反向传播算法。在每种情况下,我们都使用分析梯度表达式进行更新。
间接发电梯度。
的渐变表达式θ米英寸(17)在中给出[29],而这是为了θb条英寸(14)计算为
哪里θb条,k个表示k个第列,共列θb条.
间接发生器梯度下降的细节总结如下。
算法1可以通过随机梯度方案进行更新[2]. 引理1描述了算法1.
引理1。
如果成本函数为Lb条
在里面(14)和L米
在里面(17)连续两次微分,且随机初始化的概率测度相对于Lebesgue测度是绝对连续的。然后,θb条
是全球最小值(14),虽然
θ米
是局部最小值(17)几乎可以肯定,前提是
算法1
足够小.
4.5. 句子生成理论
本节概括了第3节下一个命令的问题。
现在我们使用对X(X)|Y(Y),对Y(Y)|X(X)、和对X(X)分别代表、和。下一个命令的预期平方海林格尔距离为
哪里.
的度量熵由距离定义同样,、和d日2(对X(X)|Y(Y),q个X(X)|Y(Y))用于和分别为。
的近似误差对Y|X年0是类似地,近似误差和用于对X(X)0和对X |年0.
推论1(顺序生成)。
中的所有结果
定理1和2
继续保持距离d(·,·)定义于(25).
接下来我们提供一个理论示例来说明推论1.
理论示例。
假设中的RNN(15)是一个基本的递归网络也就是说,、和,其中,、和,第页米是RNN的潜在因素数量,以及ϕ(z(z))是一个激活函数,例如sigmoid函数ϕ(z(z))=1/(1+经验(−z(z))),tanh函数ϕ(z(z))=棕褐色(z(z))和整流线性单元(ReLU)ϕ(z(z)) =z(z)+为了进行说明,我们将重点放在乙状结肠功能上。
中的RNN(20)是那个吗,、和.网络参数为,其中,,、和、和第页(f)是直接生成中RNN的潜在因子数。
推论2给出了直接和间接发电机的发电误差。
推论2(理论示例)。
对于估计的次字概率通过直接发电机(22),我们有这个
,哪里
,,和c15> 0和c16> 0是常数
.类似地,估计的次字概率
通过间接发电机(14)和(17)满足:,哪里
Λb条=千磅,,,,和c16> 0和c18> 0是常数
.
推论2表示间接发电机的发电误差(1)成为什么时候,何时γb条=γ米= 0. 事实上,生成误差主要由其估计误差决定对(Y(Y)|X(X)1:t吨),因为对(X(X)t吨+1|X(X)1:t吨)可以借助大量未标记的数据很好地估计在这种情况下,间接法优于直接法,尤其是当∧b条< Λ(f)表明间接方法的估计复杂度小于直接方法。有趣的是,直接生成器的生成误差与Hellinger距离下最大似然估计的生成误差一致[34,38]. 关于调谐,∧值较大b条,∧米,和∧(f)增加了用于概率估计的相应函数空间的复杂性,从而减少了生成错误。因此,直接和间接生成器的生成误差实际上取决于参数空间的模型复杂性和.
为了说明间接发电机和直接发电机各自优势的协同作用,我们考虑了两种情况。第一,但是如果是未标记的样本,则有界远离零遵循标记样本的不同边缘分布第二,但是在已标记但未标记的样本中,如果存在新词,则从零开始有界。然而,在这两种情况下,当Kullback-Leibler散度等于Hellinger距离时。换句话说,只有耦合发电机在这两种情况下的发电误差趋于零。
5 基准
本节在一个基准示例中检查耦合、间接和直接生成器的性能,并与基线方法“Separate RNN”进行比较,该方法适合每个主题的RNN,如[36]. 该基准涉及基于UCI机器学习库中文本语料库的句子分类2本语料库共有1039个标注句子,这些句子来自30篇文章的摘要和引言,其中五个主题类别分别是AIM(本文的特定目的)、OWN(对本文中自己的作品的描述)、CONTRAST(与其他作品的比较陈述,包括优缺点)、,BASIS(与其他工程的协议声明或其他工程的继续)和MISC(公认的科学背景或其他工程描述)。这些标签来自三个科学领域:计算生物学(PLOS)、arXiv上的机器学习库(arXiv)和心理学期刊判断与决策(JDM)。例如,根据科学主题分类,“SYMBOL的瞬时损失界意味着仅在概率上收敛”等典型句子被标记为“MISC”。除了上述标注的句子外,该语料库还包含了来自《公共科学图书馆》、《科学图书馆文献汇编》和《JDM》中300篇文章的34481个未标注的句子。
在继续之前,我们对文本语料库进行预处理,以过滤掉冗余的每个句子成分,从而将数字嵌入应用于间接生成器。首先,我们将所有数值、符号值和引文分别替换为“NUMBER”、“SYMBOL”和“CITATION”,并删除除逗号、句点和分号之外的所有独立标点符号。对于未标记的句子,我们删除了出现在语料库中少于20次的单词,从而得到了8286个句子的未标记语料库。在此基础上,我们构建了一个由5369个单词组成的词典,这些单词是从有标签和无标签的句子中提取出来的。
为了进行训练,我们根据数据集中所有句子的最大长度生成用于下一个单词预测的字符串。因此,句子中前面的所有标记都有助于预测下一个单词。具体来说,我们创建由连续的前一个单词组成的下一个单词前缀序列,并用空单词“null”填充相同长度的所有单词字符串。下一个命令序列的示例如所示以这种方式,我们收集了足够的训练句子,因为空单词不会影响我们的学习过程。现在,从原始的1039个标记句子中生成了28180个标记的next-word-prediction序列,以及从原始的8286个未标记句子中产生的174355个未标记序列。
发电性能由两个常用的指标来衡量,即次字熵损失和双语言评估理解(BLEU)损失[28]在测试样本上,近似于预测的Kullback-Leibler散度和Jaccard距离[13]分别是。给定的句子生成自对和它的指称句给定一个主题年,熵损失在中定义为(23),而BLEU我-损失(我=1,…,4)可以写成
哪里n个测试是测试集中的句子数量,|·|表示测试集的大小和语法我(·)是我-一个句子的克集合。对于句子“帽子里的猫”,其1克集合是{“the”、“cat”、“in”、“the”、“hat”},2克集合是{“the cat”、“cat in”、“in the”、“the hat”},3克集合是{“the cat in”、“cat in the”、“in the hat”}。BLEU公司我-可以使用Python中的NLTK库计算损失。而熵损失衡量的是参考句子的发生概率,BLEU我-损失集中在精确匹配我两个句子中的连续单词。此外,我们还考虑SF-BLEU我-损失评估生成句子的多样性[43],定义为
哪里和高SF-BLEU我-失分意味着更多样化。
为了进行训练、验证和测试,我们将所有标记的文章随机分成三组,每组的分区率分别为60%、20%和20%。此外,对于一个句子x个1:T型及其相关主题年在测试集中,五个起始单词x个1:5与空词相反,空词用于预测句子的其余部分。
考虑语义标签的两种情况:(1)Y(Y)∈{0,1}K是分类的,使用主题类别中的一个热点编码将其编码为0–1向量;(2)每个主题都是连续的对=基于Doc2Vec的128维向量。在(2),每个主题由该主题类别中所有句子在训练数据中的平均嵌入表示。
在以下情况下Y(Y)∈{0,1}K,间接发电机涉及(14)和(17). 对于(14),我们使用Python库sklearn执行正则多项式逻辑回归三嵌入式next-word预测序列训练样本研究,其中是Doc2Vec的数字嵌入4大小为对=128,最佳λb条通过最小化基于一组网格{.0001、.001、.01、.1、1、10、100}上的验证数据的熵损失来获得。对于(17)间接RNN是基于训练数据中标记和未标记的下一个字预测序列进行训练的。中的间接RNN模型(17)它分为四层,包括一个由5369个节点组成的嵌入层,每个节点对应字典中的一个单词,一个由128个潜在因素组成的LSTM层,一个输出维数为5369的致密层。请注意(17)固定为λ米在嵌入层中从0.0001到0.0001,以在训练集中不存在的情况下正则化单词。类似地,直接发电机在(22),具有与间接RNN相同的配置,期望输入维度为在其嵌入层中。此外,独立RNN与给定每个主题的间接RNN具有相同的结构。
如中所述第4.2节不同的RNN模型体系结构可能会产生不同的经验性能。为此,我们比较了直接RNN的LSTM架构和GPT2架构。特别是,我们考虑具有12层和117M参数的基本GPT2[30]对于直接法,表示为direct-GPT2。LSTM和GPT2之间的一个关键区别在于其屏蔽的自我关注层,它屏蔽了未来的令牌,并通过位于当前位置左侧的令牌传递关注信息。
如果是连续的在数值嵌入后,除了线性回归(与多项式logistic回归相对)(14)使用sklearn对训练数据中标记的嵌入式next-word预测序列执行,其中每个年我是一个128维嵌入向量。
所有RNN模型都使用Keras进行训练5批次和历元大小为200和100,优化器为Adam,提前终止可防止过度拟合[4]耐心为20。此外,耦合发电机的调谐方式如下(5).
如中所示当只有标记数据可用时,耦合发电机比直接和间接发电机提供更高的精度,这表明了该方法的优点。当与未标记数据结合时,耦合生成器在类别和连续标签方面都优于直接生成器和单独RNN,在这种情况下选择间接生成器。在熵损失方面,间接生成器相对于单独RNN方法和直接生成器的改进量分别为20.3%和14.5%(对于分类情况)和29.1%和16.1%(对于连续情况)。关于BLEU1–BLEU(BLEU)4损失,类似的情况也会发生,改善的程度各不相同,最佳改善率约为15.6%。关于未标记数据,对有和无未标记数据的间接生成器进行比较表明,未标记数据确实有助于将间接生成器的性能提高14.5%以上。有趣的是,在熵损失方面,基于精细调谐GPT2的直接生成器优于基于LSTM的直接生成器和间接生成器,而耦合生成器在这两者之间取得了最佳性能。然而,它们在BLEU方面的表现相似我分数。鉴于SF-BLEU我分数、句子由直接生成者和间接生成者生成,具有高度的多样性。此外,语义标签Y(Y)在句子嵌入之后,Doc2Vec在间接生成和直接生成方面的表现略逊于其对应的范畴,这表明句子嵌入捕获的语义关系或语言学依赖可能不会产生影响,因为只有五个类别。最后,根据中的建议,除了三个语法错误可以通过语法检查器纠正外,基于这五个类别生成的摘要是合理的6.
表2
损失函数中的测试错误–熵、BLEU我和SF-BLEU我基于UCI句子分类文本语料库的20个随机分区的各种生成器(括号中的标准错误)。这里,“分离RNN”、“间接”、“直接”、“直接-GPT2”和“耦合”表示基于RNN-LSTM架构的分离RNN、间接和直接生成器、基于RNN-GPT架构的直接生成器和耦合生成器,而间接标签或耦合标签是指没有未标记数据的生成。
方法 | 熵 | BLEU公司1-损失 | BLEU公司2-损失 | BLEU公司三-损失 | BLEU公司4-损失 |
---|
Y(Y)
:分类标签
| | | | | |
单独的RNN | 9.317(.040) | 0.895(.010) | 0.926(.008) | 0.954(.007) | 0.971(.005) |
间接 | 7.424(.049) | 0.768(.003) | 0.854(.002) | 0.885(.002) | 0.914(.002) |
间接标签 | 8.839(.060) | 0.831(.008) | 0.878(.005) | 0.899(.004) | 0.923(.003) |
直接 | 9.537(.054) | 0.823(.008) | 0.872(.005) | 0.895(.005) | 0.919(.004) |
直接-GPT2 | 8.684(.051) | 0.900(.006) | 0.954(.002) | 0.970(.001) | 0.981(.001) |
已耦合 | 7.424(.049) | 0.768(.003) | 0.854(.002) | 0.885(.002) | 0.914(.002) |
耦合标签 | 8.644(.050) | 0.880(.008) | 0.932(.008) | 0.949(.007) | 0.963(.006) |
| | SF-BLEU公司1-损失 | SF-BLEU公司2-损失 | SF-BLEU公司三-损失 | SF-BLEU公司4-损失 |
单独的RNN | | 0.076(.010) | 0.208(.027) | 0.271(.036) | 0.303(.043) |
方法 | 熵 | BLEU公司1-损失 | BLEU公司2-损失 | BLEU公司三-损失 | BLEU公司4-损失 |
---|
间接 | | 0.105(.006) | 0.296(.009) | 0.416(.012) | 0.502(.013) |
间接标签 | | 0.138(.008) | 0.363(.022) | 0.472(.029) | 0.545(.036) |
直接 | | 0.139(.006) | 0.372(.019) | 0.487(.026) | 0.561(.032) |
直接-GPT2 | | 0.053(.006) | 0.159(.019) | 0.255(.031) | 0.320(.040) |
已耦合 | | 0.105(.006) | 0.296(.009) | 0.416(.012) | 0.502(.013) |
耦合标签 | | 0.082(.011) | 0.233(.028) | 0.342(.038) | 0.417(.045) |
方法 | 熵 | BLEU公司1-损失 | BLEU公司2-损失 | BLEU公司三-损失 | BLEU公司4-损失 |
---|
Y(Y):基于Doc2Vec的连续标签[23,24] | | | | | |
间接 | 7.641(.036) | 0.768(.005) | 0.851(.003) | 0.883(.003) | 0.912(.003) |
间接标签 | 8.512(.041) | 0.912(.010) | 0.937(.008) | 0.949(.007) | 0.960(.005) |
直接 | 9.102(.050) | 0.916(.010) | 0.939(.007) | 0.950(.005) | 0.961(.004) |
已耦合 | 7.641(.036) | 0.768(.005) | 0.851(.003) | 0.883(.003) | 0.912(.003) |
耦合标签 | 8.512(.041) | 0.912(.010) | 0.937(.008) | 0.949(.007) | 0.960(.005) |
| | SF-BLEU公司1-损失 | SF-BLEU公司2-损失 | SF-BLEU公司三-损失 | SF-BLEU公司4-损失 |
间接 | | 0.097(.005) | 0.261(.008) | 0.361(.010) | 0.440(.012) |
方法 | 熵 | BLEU公司1-损失 | BLEU公司2-损失 | BLEU公司三-损失 | 布鲁4-损失 |
---|
间接标记 | | 0.064(.010) | 0.165(.026) | 0.211(.035) | 0.232(.040) |
直接 | | 0.079(.014) | 0.202(.037) | 0.252(.046) | 0.271(.050) |
已耦合 | | 0.097(.005) | 0.261(.008) | 0.361(.010) | 0.440(.012) |
耦合标签 | | 0.064(.010) | 0.165(.026) | 0.211(.035) | 0.232(.040) |
鸣谢
作者感谢编辑、副主编和两位匿名推荐人的宝贵意见和建议。
国家科学基金会资助的部分研究项目为DMS-1712564、DMS-1721216、DMS-1952539、DMS-1852386,国家卫生研究院资助的项目为1R01GM126002、R01HL105397和R01AG065636。
附录
引理1的证明。
请注意我b条(θb条)英寸(14)在中是凸的θb条和我b条(θb条)和我米(θ米)英寸(17)连续两次微分。然后,结果遵循的定理4[21]. 这就完成了证明。□
定理1的证明。
请注意和
此外,根据三角不等式
请注意.通过三角形不等式,
因此,。因此,
To绑定我1,让
哪里c(c)91−2exp(−τ/2)/(1−经验(−τ/ 2))2>0是由截断常量定义的常量τ> 0. 然后我1上边界为
根据马尔可夫不等式,
由推论1第页,共页[33],,意味着对于某个常数c(c)7> 0. 对于我2,可以通过应用相同的参数来建立类似的概率界定理2并转换角色X(X)和Y(Y)。这导致对于某个常数c(c)8> 0. 然后,得到所需的结果。□
定理证明2。
表示
根据最小值的定义η(f)> 0,
哪里和
是的左截断对X(X)|Y(Y)(x个|年).
接下来,我们绑定我5和我6分别进行。与中相同参数的应用[38]产生这样的结果
其中第二个不等式来自第三个不等式来自马尔可夫不等式。
我们对边界的处理我6依赖于适当分区上的链接参数和似然比的左截断[38,33]. 现在,考虑一个:
哪里.那么对于任何η(f)> 0,
哪里.治疗我千焦,我们控制。由第4个引理(共4个)[38],
方差有界于
其中第二个不等式来自[38]. 然后,我千焦由上界
哪里一三>0是一个常量,,,第二个不等式基于以下假设和(29)最后一个不等式来自引理2,并且j个-第个(j个≥2)力矩以为界
哪里一1=(经验(τ/ 2) − 1 –τ/2)/(1−经验(−τ/2))2>0是一个常数,最后一个不等式来自引理5[34]. 只需验证以下条件(2.4)即可[38]. 以下各项的组合(28)和(31)屈服,屈服,其中,连同(27)产生这样的结果。然后会得到所需的结果。□
定理证明3。
让作为交叉验证样本。签署人(5),
然后,期望的结果遵循大数定律,将两边的极限作为N个→ ∞. 这就完成了证明。□
推论1的证明。
对于直接序列生成,我们在定理证明2.表示
然后,其中对(τ)(X(X)t吨+1|X(X)1:t吨,Y(Y))是的左截断对(X(X)t吨+1|X(X)1:t吨,Y(Y))定义见定理证明2.
对于我7,
对于我8,让首先,
对于j个-第个时刻j个≥ 2,
其中第一个不等式来自Jensen不等式。然后
遵循与中相同的参数定理证明2.
对于间接生成,让对t吨(·) =对(·|X(X)1:t吨)和然后,
第一个不等式来自(26)通过更换对(·)作为对t吨(·),和,因此,
最后一个不等式来自(32). 类似地和可以建立。然后,得到所需的结果。□
推论2的证明。
验证中的熵条件就足够了推论1.对于直接发电,让和在里面。那么
最后一个不等式使用的事实是
它使用的事实是
和.
因此,通过设置满足熵条件.
对于间接生成,只需验证推论2.让和。请注意和
然后,通过设置满足熵条件.
此外,如果Y(Y)∈ {0,1}K,
同样,通过设置满足熵条件.
如果,然后
这意味着熵条件成立时这就完成了证明。□
引理2。
让
,假设存在一些通用常数a2> 0和一个三> 0,对于j≥ 2,这样的话
对于任何δ> 0,如果
哪里
,那么存在一些常数a4> 0和a5> 0取决于2
和a三
这样的话
其中P*是对应于
.
引理2的证明。
结果来自于中的引理5和引理7[38],通过将引理5中的Hellinger距离替换为通用距离d日(·,·). □
工具书类
[1]主教CM。模式识别和机器学习斯普林格,2006年。[谷歌学者] [2]具有随机梯度下降的大规模机器学习。在2010年COMPSTAT会议记录,第177–186页。施普林格,2010年。[谷歌学者] [3]布莱曼L。随机森林.机器学习,45(1):5–32, 2001.[谷歌学者] [4]Caruana R、Lawrence S和Giles CL。神经网络中的过度拟合:反向传播、共轭梯度和提前停止.英寸神经信息处理系统的研究进展,第402-408页,2001年。[谷歌学者] [5]Cheng J和Lapata M。通过提取句子和单词进行神经摘要.arXiv预打印arXiv:1603.07252, 2016.[谷歌学者] [6]Cho K、Van Merriénboer B、Gulcehre C、Bahdanau D、Bougares F、Schwenk H和Bengio Y。基于rnn编解码的统计机器翻译短语表示学习.arXiv预打印arXiv:1406.1078, 2014.[谷歌学者] [7]科兹曼F和科恩I。半监督学习的风险.半监督学习,第56-72页,2006年。[谷歌学者] [8]Cozman FG、Cohen I和Cirelo M。未标记数据会降低生成分类器的分类性能.英寸佛罗里达州会议,第327–331页,2002年。[谷歌学者] [9]Cozman FG、Cohen I和Cirelo MC。混合模型的半监督学习《第20届机器学习国际会议论文集》(ICML-03),第99–106页,2003年。[谷歌学者] [10]戴B、沈X和王杰。嵌入学习.美国统计协会杂志,(出版中),2020年。[谷歌学者] [11]Devlin J、Chang M-W、Lee K和Toutanova K。伯特:深度双向变换器的语言理解预训练.英寸NAACL-HLT公司, 2018.[谷歌学者] [12]董磊、杨恩、王伟、魏福、刘X、王毅、高杰、周明和霍华德。用于自然语言理解和生成的统一语言模型预训练.英寸神经信息处理系统的研究进展,第13042–13054页,2019年。[谷歌学者] [13]Gjorgjioski V、Kocev D和Díeroski S。多标签分类与pcts距离的比较《斯洛文尼亚KDD数据挖掘和数据仓库会议记录》(SiKDD’11),2011年。[谷歌学者] [14]Goodfellow I、Pouget-Abadie J、Mirza M、Xu B、Warde-Farley D、Ozair S、Courville A和Bengio Y。生成性对抗网络.英寸神经信息处理系统的研究进展,第2672–2680页,2014年。[谷歌学者] [15]何丹、夏毅、秦涛、王力、于恩、刘廷毅、马伟毅。机器翻译的双重学习.英寸神经信息处理系统的研究进展,第820–828页,2016年。[谷歌学者] [16]Hochreiter S和Schmidhuber J。长短期记忆.神经计算,9(8):1735–1780, 1997. [公共医学][谷歌学者] [17]Karphy A和Fei-Fei L。用于生成图像描述的深层视觉语义对齐《IEEE计算机视觉和模式识别会议记录》,第3128–3137页,2015年。[公共医学][谷歌学者] [18]Kingma DP、Mohamed S、Rezende DJ和Welling M。基于深度生成模型的半监督学习.英寸神经信息处理系统的研究进展,第3581–3589页,2014年。[谷歌学者] [19]Kingma DP、Salimans T、Jozefowicz R、Chen X、Sutskever I和Welling M。基于逆自回归流的改进变分推理.英寸神经信息处理系统的研究进展,第4743–4751页,2016年。[谷歌学者] [20]Langkilde I.基于预测的统计句子生成。在计算语言学协会第一届北美分会会议记录,第170-177页。计算语言学协会,2000年。[谷歌学者] [21]Lee JD、Simchowitz M、Jordan MI和Recht B。梯度下降仅收敛于极小值《学习理论会议》,第1246-1257页,2016年。[谷歌学者] [22]Merity S、Keskar NS和Socher R。规范和优化LSTM语言模型在2018年国际学习代表大会上。[谷歌学者] [23]Mikolov T、Sutskever I、Chen K、Corrado GS和Dean J。单词和短语的分布式表示及其组成.英寸神经信息处理系统的研究进展,第3111–3119页,2013年。[谷歌学者] [24]Mikolov T、Yih W-T和Zweig G。连续空间词表征的语言规律《计算语言学协会北美分会会议:人类语言技术》,第746–751页,2013年。[谷歌学者] [25]穆拉切里五世和莫特瓦尼五世。图像字幕.arXiv预打印arXiv:1805.09137, 2018.[谷歌学者] [26]Nallapati R、Melnyk I、Kumar A和Zhou B。Sengen:句子生成神经变分主题模型.arXiv预打印arXiv:1708.00308, 2017.[谷歌学者] [27]Ollivier Y、Tallec C和Charpiat G。在线训练递归网络,无需回溯.arXiv预打印arXiv:1507.07680, 2015.[谷歌学者] [28]Papineni K、Roukos S、Ward T和Zhu W-J.Bleu:机器翻译的自动评估方法。在计算语言学协会第40届年会会议记录,第311-318页。计算语言学协会,2002年。[谷歌学者] [29]Pascanu R、Mikolov T和Bengio Y。递归神经网络训练的难点.英寸机器学习国际会议,第1310–1318页,2013年。[谷歌学者] [30]Radford A、Wu J、Child R、Luan D、Amodei D和Sutskever I。语言模型是无监督的多任务学习者.OpenAI博客,1(8):9, 2019.[谷歌学者] [31]施密特·M、勒鲁·N和巴赫·F。用随机平均梯度最小化有限和.数学规划,162(1–2):83–112, 2017.[谷歌学者] [32]Schuster M和Paliwal KK。双向递归神经网络.IEEE信号处理汇刊,45(11):2673–2681, 1997.[谷歌学者] [33]沈X。论处罚方法.中国统计学,8(2):337–357, 1998.[谷歌学者] [34]Shen X和Wong WH。筛选估计的收敛速度.统计年刊,第580-615页,1994年。[谷歌学者] [35]Smale S和Zhou D-X。学习理论中近似误差的估计.分析和应用,1(01):17–41, 2003.[谷歌学者] [36]Sutskever I、Martens J和Hinton GE。用递归神经网络生成文本《第28届国际机器学习会议(ICML-11)论文集》,第1017–1024页,2011年。[谷歌学者] [37]Vinyals O、Toshev A、Bengio S和Erhan D。展示与讲述:一个神经图像字幕生成器《IEEE计算机视觉和模式识别会议记录》,第3156–3164页,2015年。[谷歌学者] [38]Wong WH、Shen X等。筛极大似然比和收敛速度的概率不等式.统计年刊,23(2):339–362, 1995.[谷歌学者] [39]Yang T和Priebe CE。模型错误指定对半监督分类的影响.IEEE模式分析和机器智能事务,33(10):2093–2103, 2011. [公共医学][谷歌学者] [40]雅罗斯基D。深relu网络近似的误差界.神经网络,94:103–114, 2017. [公共医学][谷歌学者] [41]Yu H-F、Huang F-L和Lin C-J。logistic回归和最大熵模型的双坐标下降法.机器学习,85(12):41–75, 2011.[谷歌学者] [42]Zhou D、Hofmann T和Schölkopf B。有向图的半监督学习.英寸神经信息处理系统的研究进展,第1633-1640页,2004年。[谷歌学者] [43]朱毅、卢S、郑L、郭J、张伟、王杰和于毅。Texygen:文本生成模型的基准测试平台2018年第41届ACM SIGIR信息检索研究与开发国际会议,第1097–1100页。[谷歌学者]