研究论文

开放式访问

重新审视隐性推荐中的负抽样与非抽样

作者:

一群线路接口单元，以及

美国计算机学会信息系统汇刊,音量41,问题1

文章编号：12，页数1-25

https://doi.org/10.1145/3522672

出版:2023年2月25日出版历史

所有格式 PDF格式

摘要

推荐系统在缓解信息过载问题方面发挥着重要作用。通常，推荐模型经过训练，以区分每个用户的积极（喜欢）和消极（不喜欢）实例。然而，在开放世界假设下，用户的内隐反馈只有正面的例子，没有负面的例子，这就提出了缺乏负面样本的不平衡学习挑战。为了解决这个问题，以前提出了两种学习策略，即负抽样策略和非抽样策略。第一种策略从缺失数据（即未标记数据）中抽取负面实例，而非抽样策略将所有缺失数据视为负面。尽管已知学习策略对算法性能至关重要，但到目前为止，负采样和非采样的深入比较还没有得到充分的探索。为了弥合这一差距，我们系统地分析了负抽样和非抽样在隐含推荐中的作用。具体来说，我们首先从理论上重新审视了负抽样与非抽样的反对意见。然后，通过仔细设置各种具有代表性的推荐方法，我们探索了负采样和非采样在不同场景中的性能。我们的实证结果表明，尽管负抽样已广泛应用于最近的推荐模型，但均匀抽样方法与非抽样学习方法相比表现出可比较的性能并不重要。最后，我们讨论了负采样和非采样的可扩展性和复杂性，并提出了一些开放的问题和值得进一步探索的未来研究课题。

1简介

在信息呈指数级增长的时代，推荐系统已被广泛应用于当今的网络平台，以缓解信息过载问题，帮助用户寻找所需的信息和项目[4,5,55]. 个性化推荐系统的关键是根据用户的历史交互来建模用户的偏好。主要有两个挑战：（1）如何设计有效的模型偏好算法；（2）如何在有限的用户反馈下训练算法。近年来，随着神经网络的迅速发展，人们提出了许多新的方法，并取得了显著的进步。对于第二个挑战，尝试次数较少。事实上，近年来已经提出了许多先进的推荐模型，但学习策略往往成为推荐性能的瓶颈。

一般来说，在真实场景中很难收集到明确的用户对项目的偏好，因此用户隐式反馈被广泛用于建模用户兴趣，如新闻门户的点击、电子商务中的购买以及在线视频平台上的浏览。在隐式反馈数据中，观察到的交互表示用户对某个项目的积极偏好，而其他未观察到的项目则未标记。只观察到积极反馈；负面反馈与未观察到的数据中的缺失值混合在一起。同时，与实际系统中的大量项目相比，用户通常只与少量项目交互。因此，由于缺乏可靠的负面数据从隐式反馈数据中学习推荐系统是非常具有挑战性的。在隐式数据中，非交互项并不一定意味着用户不喜欢这些项。例如，未被观察到的用户-项目交互可能是由用户没有看到项目或用户看到但不喜欢它引起的。因此，在未被观察的数据中，真实的负面和未标记的潜在正面示例混合在一起。如何发现和利用信息丰富的未观察到的示例成为优化学习性能的关键。

为了解决从内隐反馈数据中学习时缺乏负样本的问题，提出了两种具有代表性的学习策略。第一个策略，命名为阴性采样[6,30,52]，从那些未标记的数据中抽取几个负项目。第二种策略，命名为非抽样[9,32,33]，将所有未标记的项目视为阴性，并为其分配比阳性样本更低的权重。这两种策略都有各自的优缺点：由于训练实例数量有限，负采样效率更高，但其性能可能会受到采样负采样质量低和收敛速度慢的影响[9,41,70,77]; 当所有训练数据都得到充分利用时，非采样策略通常可以获得更好的性能，但效率低下可能是一个问题[10,32].

许多研究分别对负采样学习和非采样学习进行了改进。以往关于负抽样的工作主要侧重于使用其他抽样方法，而非均匀抽样[17,41,51,61]提高阴性样本的质量，例如通过普及分配抽取阴性项目[41]和生成性对抗网络（GAN）-基于模型[35,49,61]. 在另一个研究领域中，还开发了许多用于非采样优化的方法，以提高训练效率，包括交替最小二乘法（ALS）-基于的方法[32,33]和小批量随机梯度下降（SGD）-基于的方法[9,10,70].

据我们所知，虽然学习策略很重要，并且有很多关于改进消极抽样和非抽样的研究，但到目前为止，对内隐推荐中消极抽样和不抽样的深入比较还没有得到充分的探讨。为此，我们从理论和实验两方面系统分析了负抽样和非抽样在隐性推荐中的作用。具体来说，我们首先回顾了负采样和非采样的目标。然后，在使用各种有代表性的方法时，我们仔细设置，对负采样和非采样策略进行了彻底的比较。最后，我们讨论了负采样和非采样的可扩展性和复杂性，并提出了一些值得进一步探索的开放问题和研究课题。

我们的实证结果表明，尽管负抽样在最近的推荐模型中得到了广泛应用[6,27,30,63,65]对于广泛使用的均匀抽样学习方法来说，与非抽样学习方法相比，其性能仍有很大差距。为了减少间隙，重要的是通过使用先进的负采样仪来提高采样质量。此外，研究表明，均匀加权非采样学习方法甚至优于许多先进的基于采样的方法。基于上述观察结果，我们认为，如果不认识到负采样的偏差，那么负采样的不良性能可能会产生误导，因为现有的神经推荐方法通常依赖负采样进行有效优化，最近，在研究论文中，只使用基于采样的基线与新提出的技术进行比较已变得很常见[27,65,68,69]. 以前在信息检索和推荐系统领域的工作发现，一些复杂模型所取得的改进只是因为所选的基线方法薄弱或训练不足[14,15,44,54]. 我们相信，这项工作为内隐推荐中的负抽样和非抽样学习提供了一个健全的检验，为以后与内隐反馈数据的推荐相关的工作提供了参考。

本文的主要贡献总结如下：

(1)

我们从理论上重新审视了内隐推荐中消极抽样和非抽样学习的目的和风险。

(2)

我们对具有代表性的负抽样和非抽样训练策略进行了彻底的比较，并对不同数据集上的最佳设置使用了各种推荐算法。

(3)

实验结果表明，流行的和有代表性的基于否定抽样的推荐方法通常不会比具有非抽样学习的简单基线更好。

(4)

我们讨论了负采样和非采样的可扩展性和复杂性，并提出了一些值得进一步探索的开放问题和研究课题。

2相关工作

2.1项目建议

早期推荐方法[36,37]主要是为了模拟用户的明确反馈，例如对电影的评级。然而，隐式反馈实际上在真实场景中更容易收集，例如新闻门户的点击、电子商务中的购买以及在线视频应用程序的浏览。对于隐式反馈数据的推荐，以前提出了很多方法[10,30,33,52]. 由于真正的阴性与未标记的阳性混合在一起，这些方法在如何使用未观察到的数据方面各不相同。具体而言，Hu等人。[33]提出了一种基于非抽样的方法WMF，它将所有未观察到的项目视为负样本，并为其分配一个较低的恒定权重。然后几次努力[32,42]根据未观察到的项目是否确实为负项目，应用不同的权重策略来提高WMF。与非采样方法不同，Rendle等人。[52]提出了一种基于抽样的方法BPR，该方法基于用户对正负项目的相对偏好来优化MF模型。带负抽样的成对学习策略被广泛用于优化推荐模型[6,12,30,59]并已成为推荐中的主导技术。

随着深度学习技术的发展，在推荐系统中利用不同的神经网络进行了大量的工作。工作[30]呈现了一个神经协作滤波（NCF）用于联合学习矩阵分解和前馈神经网络的框架，用于隐式Top-K推荐。NCF已针对不同的推荐场景进行了广泛扩展[12,26,64]. 近年来，探索高级深度学习架构在推荐任务中的应用已成为一种趋势，例如利用注意机制[5,12,71],递归神经网络（RNN）[46],卷积神经网络（CNN）[28,81]、GAN[29,61]、和图形神经网络（GNN）[20,65]. 具体来说[65]提出了NGCF，通过在用户-项目交互图上传播嵌入来建模高阶连接。轻型GCN[27]是NGCF的扩展版本，通过删除特征转换和非线性激活函数来提高推荐任务的性能。除了以上主要使用负采样进行模型学习的方法外，还有一些基于非采样学习的神经推荐模型。例如，Chen等人推导了一种灵活的非抽样损失，并为各种推荐场景设计了几种有效的非抽样神经模型[7,9,10,11].

2.2模范培训推荐

以前有两种学习策略被提出用于从内隐反馈中学习：消极抽样策略[6,30,52]和非抽样策略[16,33,42,67].

负面抽样策略从未观察到的数据中抽取负面实例。通过抽样，训练样本的规模大大缩小；因此，培训过程更有效[30]. 负抽样已广泛应用于许多推荐模型，包括BPR等传统推荐模型[52]和神经模型，如NCF[30]. 最流行和最广泛使用的抽样策略是均匀抽样（也称为随机抽样）。然而，均匀抽样通常对无信息的训练实例进行抽样，这通常对更新模型的贡献有限。为了解决这个问题，最近的文献中提出了许多方法，用其他更好的采样器代替均匀采样[17,41,51,61]提高阴性样品的质量。例如[41,76]建议根据项目的受欢迎程度对负面示例进行抽样。[17,51]建议对预测分数较高的硬否定实例进行抽样。[74]提出了一种从流数据中估计项目频率的抽样偏差修正算法。[72]提出了同时使用批处理和均匀采样负值来处理隐式推荐的选择偏差。也有一些基于GAN的方法，其中采样概率将通过优化对抗目标而自适应演化[29,35,49,61]. 另一种方法是根据图的结构对负实例进行采样。例如[66]将知识图纳入负面抽样过程，以抽取高质量的负面项目。[75]根据pagerank得分对阴性节点进行采样。[34]针对基于GNN的推荐模型，提出了一种结合跳混合和正混合策略的MixGCF方法。然而，由于采样过程会动态变化，通常需要计算所有实例，因此上述方法将存在效率低下的问题。

非抽样策略将所有未观察到的数据视为阴性，同时为它们分配比阳性示例更低的权重。例如，WMF[33]给所有未观察到的条目分配一个统一的权重。在EALS中[32]和ExpoMF[42]，未观察条目的权重取决于条目的受欢迎程度，这是基于受欢迎的条目更容易被用户看到的假设，因此应将较高的权重指定为负值。已经证明，非抽样策略可以利用整个数据，并具有潜在的更好的覆盖率[9,32,42,70]，但效率低下可能是一个问题。为此，已经开发了许多方法来加速学习过程，包括基于批处理的ALS[1,32,33]和微型备份SGD方法[9,70]. 然而，这种方法只适用于具有线性预测层的推荐模型[1,10,70]和回归损失函数。非抽样方法在许多传统的推荐模型中得到了广泛的应用[32,33,42]但在神经推荐模型中应用较少。最近，Chen等人[10]提出了一种具有代表性的神经非抽样推荐模型ENMF。据我们所知，尽管在分别改进负采样和非采样方面有一些工作，但对它们之间的深入比较还不够深入。这是这项工作的主要关注点。

上述方法都是基于区分模型的，该模型明确地旨在区分积极的用户-项目交互和消极的交互。最近，有另一项研究利用自我监督学习进行内隐推荐训练[39,82]. 提供积极的用户-项目交互\（（u，i）\），其目的是为u个和我彼此相似以编码偏好信息。为了解决潜在的模型崩溃问题，这种方法通常应用两个不同的编码器网络（即在线网络和目标网络）。与区分建模方法相比，自监督学习方法更容易陷入平凡的常数解，因此需要仔细调整超参数[24,39]. 为了使我们的工作更加集中，本文中讨论的方法都是基于判别建模的。我们把探索自我监督学习作为未来的工作。

2.3其他领域的负采样

负采样也被广泛应用于机器学习的其他领域和任务，如图嵌入[73]，单词嵌入[45]、和网络嵌入[79]. 例如，Word2Vec[45]根据其词频对阴性样本进行抽样，这与推荐中的抽样过程类似。后来的网络和图形嵌入工作[25,50,58]遵循此设置。也有人观察到，分数大（硬）的负面事例对模型训练更有用[79]. 另一项关于图学习负采样的最新研究表明，负采样分布应该与其正采样分布正相关，但次线性相关[73]. 对于上述任务，也有一些基于GAN的方法[2,三,22]. 对于非采样方法[8,40]提出了学习知识图嵌入的有效非采样方法。

由于隐式推荐是一个不同的问题，抽样负面实例的可靠性很难保证。在本文中，我们主要关注推荐任务的负抽样和非抽样的比较，并将其他任务的探索留作将来的工作。

3了解负采样和非采样

在本节中，我们首先介绍了使用隐式反馈数据（隐式推荐）进行推荐的问题表述，然后重新审视了关于客观和风险的负抽样和非抽样。

3.1隐含建议

表1显示了本文中使用的关键符号。我们表示用户集U型（包括M（M）用户）和项目集我（包括N个项目）。隐式反馈数据表示为\（M\次N\）二进制矩阵是的，哪里\（y（u，i）在0,1种族中）指示用户是否u个已与项目交互我或者没有。我们使用\（\mathcal{Y}\）表示中观察到的项目集Y（Y）此外，\（{\bf I}_u\）用于表示用户的正项目集u个。给定目标用户u个，隐式推荐的任务是学习用户u个的偏好基于隐含的反馈数据并推荐可能感兴趣的项目u个.

表1。

符号	描述
\（M，N\）	用户和项目数
\（{\bf U}\）	用户集合
\（{\bf I}\）	项目集
\（{\bf Y}\）	用户-项目交互
\（{\bf p}_u\）	用户潜在因素u个
\（{\bf q}_i\）	项目潜在因素我
\（\数学｛Y｝\）	值非零的user-item对
\（{\bf I}_u\）	用户的正项目集u个
\（c（u，i）\）	入场重量\（y（u，i）\）
d日	潜在因子数

表1.符号

3.2阴性采样

带有负抽样学习策略的隐式推荐模型通常有三个重要组成部分：评分函数\（{y}\），目标函数\（\mathcal{L}\），和负采样策略\（p{ns}\）[17]. 计分功能\（{y}（{bf-p}_u，{bf-q}_i，\Theta）预测用户的偏好\（{\bf u}\中的u\）到项目\（{\bf i}\中的i\）基于u个的潜在因素\（{\bf p}_u\）和我的潜在因素\（{\bf q}_i\）。它在以前的工作中得到了广泛的研究，包括基于矩阵分解（MF）[29,52,61]和神经网络[26,27,30,63,65].

对于目标函数，贝叶斯个性化排名（BPR）[52]被广泛应用于基于否定抽样的推荐模型中，也是最具代表性的学习方法。BPR的公式如下：

\（在{\bf Y}中开始{等式}\开始{分割}（u，i，j）：在{\bf i}_u\楔形j\在{\ff i}\反斜杠{\bf-i}_u \\mathcal{L}=-\和{）

(1)

哪里\（σ（x）=frac{1}{1+e^{-x}}\）是一个激活函数（sigmoid）\（{\bf Y}\）是训练数据。否定的实例\（（u，j）\）通过特定分布进行采样\（p{ns}（j|u）\）.\（\sigma（\hat{y}（u，i）-\hat}y}，（u，j））被建模为用户u个首选项我到项目j个，当\（{y}（u，i）.最小化\（\mathcal{L}\）等于使积极的用户-项目交互得分大于消极的用户-团队交互得分。\（\ln\sigma（x）\）实际上是Heaviside函数的微分代理函数，因此BPR近似优化了排名统计AUC[41].

作为训练对的数量\（|{\bf Y}|\）通常非常大，学习算法通常基于SGD。BPR对模型参数的梯度为

\（\begin{等式}\begin{split}\frac{\partial\mathcal{L}（u，i，j）}{\parial\Theta}=（1-\sigma（\hat{y}（u，i）-\hat}y}，（u，j）））\frac}\partial（\hat{y}（v，i）-\hat}y}。\结束{拆分}\结束{方程式}\）

(2)

梯度取决于评分模型如何区分积极项目我和负面项目j个对于用户u个.\（\frac{\partial\mathcal{L}（u，i，j）}{\paratil\Theta}\）是概率，如果\（hat｛y｝（u，i）\）正确地获得比\（{y}（u，j））.

从上述梯度中，我们分析了两个采样正确示例（即对用户真正不利的示例）中的负采样的影响u个)和错误示例（即对用户有利的示例u个在测试集中）。对于采样的右负值示例j个，阳性项目我很容易与物品区分开来j个（即。，\（\sigma（\hat{y}（u，i）-\hat}y}，（u，j））\rightarrow1\）)当模型经过良好训练时\（（u，i，j）\）对模型学习的贡献很小，因为它的梯度消失了(\（\frac{\partial\mathcal{L}（u，i，j）}{\paratil\Theta}\rightarrow0\）). 当采样分布均匀时，这种问题尤其突出。在推荐系统中，项目受欢迎度通常是非均匀分布的，总体正面观察值具有尾部分布。模型很可能得分\（{y}（u，j））均匀取样项目j个小于\（{y}（u，i））因此梯度幅度也很小。因此，广泛使用的均匀采样策略通常收敛速度很慢，难以达到最佳性能。

为了避免这种情况，在以前的工作中，项目的预测分数用于抽样，例如AOBPR和BPR-DNS[49,51]. 这类方法旨在抽样更多的硬实例，即具有较高预测分数的未观察项目。然而，由于预测分数较高的项目在测试集中更有可能是实际阳性的，因此这类方法更容易出现错误示例，这将损害模型的性能和鲁棒性，因为它们在训练期间被作为负面实例进行采样。

从以上对隐式推荐训练中否定实例的分析可以看出，否定抽样的难点在于如何对分数较大的否定实例进行抽样，以提高收敛速度，避免虚假否定实例，从而保持稳健性。

3.3非采样

带有非抽样学习策略的推荐模型通常从\（\mathcal{Y}\）通过配对\（y（u，i）\in\mathcal{y}\）正面标签和所有其他未观察到的相互作用\（{\bf Y}\反斜杠\mathcal{Y}\）负面标签：

\（\begin{等式}y（u，i）=\left\lbrace\begin{array}{ll}{1，}&#x0026；{\text{if交互（用户}u，\text{item}i）\text{被观察到；}}\\{0，}&#x0026；{\text{others.}}\end{array}\right。\结束{方程式}\）

(3)

然后将推荐模型拟合到该数据中。广泛使用的基于非抽样的目标函数是加权回归函数，它为隐式矩阵中的每个交互分配训练权重：

\（\begin{方程式}\begin{split}\mathcal{L}=\sum_{u\in\mathbf{u}}\sum_{i\in\mathbf{i}}c（u，i）\left（y（u，i）-\hat{y}（u，L）\right）^{2}，\end{splic}\end方程式}\）

(4)

哪里\（c（u，i）\）表示入口重量\（y（u，i）\）.

通过上述目标函数，对模型进行了优化，以预测\（\mathcal{Y}\）这种方法的目的是施加重力正则化子来惩罚对缺失项目的预测[41]. 该方法的一个缺点是，在训练期间，所有候选排名项都作为负面实例呈现给推荐模型，这意味着具有足够表达能力的模型根本无法生成合理的排名列表，因为它只能预测0。

此外，考虑到缺失数据的数量可能比实际应用程序中的用户交互项大得多，因此更希望为缺失数据分配较低的权重，以解决类不平衡问题。非抽样方法中未观察示例的加权策略与基于抽样策略中的负抽样策略的作用类似[32,42]. 不同之处在于，对于未观测样本的加权策略，所有样本都被使用，而对于采样策略，一些样本可能永远不会在训练期间使用，这可能会对可推广性产生影响，或者可能会使模型没有针对某些类型的输入进行训练，从而降低其鲁棒性。非均匀加权的方法可以以更快的覆盖率对负实例进行建模，但由于所有用户-项目对的权重矩阵都很密集，因此通常需要更多的计算成本。虽然已经提出了一些方法来加速从整个数据中学习的过程，但现有的非采样方法仍然存在一个挑战：快速非采样学习方法仅适用于具有线性预测层的推荐模型。

4实证研究方法

为了探讨负采样和非采样在不同场景中的性能，我们比较了各种最先进的和有代表性的学习方法，用于Top-K推荐和隐式反馈数据。具体来说，我们重点分析了七种方法，根据它们是使用负抽样还是非抽样学习策略，可以将其分为两组。负采样方法包括BPR-均匀采样[52]、AOBPR[51]，BPR-DNS[78]，伊朗[61]和SRNS[17]. 非采样方法包括WMF[33]和EALS[32]. 我们将在本节中简要回顾这些方法。

4.1 BPR-均匀取样

基于BPR逐对损失函数的均匀采样[52]是一种使用最广泛的经典隐式反馈项目推荐解决方案。对未观测项目的均匀负抽样也称为随机抽样，它基于最简单的均匀建议。我们使用\（Q（j | u，i）\）表示负项目的概率j个对正对进行采样\（（u，i）\），定义为

\（\begin{等式}Q（j|u，i）=\left\lbrace\begin{array}{ll}{0，}&#x0026；{\text{ifj}\在{\bf I}_u}\\{\frac{1}{N-N_u}，}&#x0026；{\text{否则，}}\end{array}\right。\结束｛方程式｝\）

(5)

哪里\（N_u=|｛\bf I｝_u | \）表示用户数量u个的交互项目。

尽管均匀抽样已成功地应用于众多推荐应用程序和各种模型，但研究表明，如果项目数量较大，且总体项目受欢迎程度较低，则收敛速度会显著减慢。这两个属性对于大多数真实数据集都是通用的。

4.2AOBPR公司

自适应过采样BPR[51]旨在通过自适应采样硬实例来改进均匀采样策略，即具有较高预测分数的未观测项目，该算法难以区分。直觉上，当一个消极的项目j个对于正对\（（u，i）\）应该采样，越接近j个在顶部，信息量越大j个AOBPR的抽样分布定义为

\（\begin{等式}Q（j|u，i）=\left\lbrace\begin{array}{ll}{0，}&#x0026；{\text{if}\j\在{\bf I}_u}\\{\text}exp}（\frac{-\hat{r}（u，j）}{\lambda}）中，}&#x0026；{\text{否则，}}\end{array}\right。\结束{方程式}\）

(6)

哪里\（{r}（u，j））是项目的排名j个在所有项目中我使用score函数\（{y}（u，j））订购物品，以及\（\lambda\）是一个超参数，用于控制分布的偏度。

AOBPR的局限性在于：（1）需要计算所有项目的分数以确定其抽样概率，这降低了抽样的优势，并且在训练过程中耗时；（2）预测分数较高的项目在测试集中更有可能是阳性的，因此，AOBPR比均匀采样更容易受到虚假样本的影响。

4.3BPR-DNS

BPR-DNS（动态负采样）的动机[78]与AOBPR类似，AOBPR也尝试对硬实例进行自适应采样。与AOBPR不同，DNS首先随机选择一组负样本，然后使用预测得分最高的项目进行模型优化。DNS的训练过程如算法所示1.

BPR-DNS的局限性在于它也容易受到虚假样本的影响，因为预测分数较高的项目在测试集中更有可能是阳性的。与AOBPR相比，BPR-DNS的优点是它只需要计算n个每个采样项目，以及少量n个（一般不超过32）就足够了[78].

4.4爱尔兰

伊尔根[61]，一种GAN风格的负采样方法，将迷你最大游戏应用于隐式推荐等信息检索任务。具体来说，IRGAN包括两个组件：发电机G公司和鉴别器D类生成器是为了产生越来越困难的阴性样本，鉴别器是为了最小化判别目标函数\（\mathcal{J}（D，G）\）对于带有隐含反馈数据的建议，IRGAN优化了以下目标函数：

\（开始{方程}\max_{G}\min_{D}\mathcal{J}（D，G）=\sum_{u\in{bfU}}-\mathbb{电子}_{i\sim P_{\text{pos}}（\cdot\mid-u）}\log D（i\mid-u）-\mathbb{电子}_{j\sim P_{G}（\cdot\mid-u）}\log（1-D（j\mid-u）），\end{方程式}\）

(7)

哪里\（P_{\text{pos}}（\cdot\mid-u）\）是正相关分布\（P_｛G｝（\cdot\mid-u）\）是用于生成负面实例的概率分布。\（D（i中u））估计用户的概率u个到项目我当鉴别器D类和发电机G公司训练有素，G公司用于预测推荐。

尽管GAN型方法在发现信息丰富的负样本方面显示出了良好的结果，但从生成器生成负实例通常非常耗时G公司这限制了其在大规模数据集上的应用能力。

4.5SRNS公司

SRNS（简化稳健负采样）[17]是最近提出的一种负抽样方法，它基于假阴性样本（潜在阳性）在许多训练阶段通常具有较大的预测分数这一发现。SRNS通过基于内存的组件捕获阴性样本的动态采样分布。为了评估阴性样本的质量，SRNS还提出了一种基于高方差的策略。SRNS的训练过程如算法所示2.

提出了基于方差的抽样策略，通过优先选择高方差候选值来避免假阴性实例，定义为

\（开始{方程式}j=\arg\max_{k\in\mathcal{米}_{u} }P_{\mathrm{pos}}（k\mid-u，i）+\alpha_{t}\cdot\operatorname{std}\left[P_{\mathrm{pos}}

(8)

哪里\（P_{\mathrm{pos}}（k\midu，i）=\mathrm{sigmoid}（\hat{y}（u，i）-\hat}y}（u，k））,\（\operatorname{std}[P_{mathrm{pos}}（k\mid-u，i）]\）表示最近几个时期的预测方差。\（阿尔法{t}）是一个超参数，用于控制方差的重要性。

内存策略是动态更新\（\数学{米}_{u} \）同时包括更多的硬阴性样本。新的\（\mathcal{米}_{u} \）通过采样更新\（S_1）来自合并旧内存的扩展内存的实例\（\mathcal{米}_{u} \）和一组随机采样的实例。采样概率分布如下：

\（开始{方程式}Q（j|u，mathcal{米}_{u} \杯\mathcal{米}_{u} ^{\prime}）=\exp\left（\hat{y}（u，k）/\tau\right）/\sum_{k^{\prime}\in\mathcal{米}_{u} \杯子\数学{米}_{u} ^{\prime}}\exp\left（\hat{y}（u，k^{\prime}）/\tau\right）\！，\结束{方程式}\）

(9)

哪里\（\套\）是一个温度参数\（\套\）将使\（Q（j | u，\mathcal{米}_{u} ）\）多关注大核实例。

SRNS的主要训练成本来自上述引入的基于方差的抽样和基于分数的记忆更新。具体来说，它需要计算\（S_1\+\S_2\）每个阳性实例的候选人，然后取样\（S_1）基于计算的分数[17]. 根据原始论文\（S_1）和\（S_2）一般来说，这就使得SRNS比需要计算所有项目分数的方法更有效。

4.6WMF公司

与以提高负样本质量为主要目标的基于抽样的学习方法不同，非抽样学习的关键是为未观察到的用户-项目交互分配适当的权重。WMF公司[33]是一种众所周知的非采样学习方法，它为所有未观察到的用户-项目交互分配相同的统一权重：

\（\begin{等式}c（u，i）=\left\lbrace\begin{array}{ll}{c{1}}&#x0026；{\text{if}y（u，i）=1}\\{c_{0}}&#x0026；{\text{if}y（u，i）=0，}\end{array}\right。\结束｛方程式｝\）

(10)

哪里\（c_0\）和\（c1\）是需要根据不同数据集进行调整的超参数。为了简化调整过程，\（c1\）通常设置为值1，而\（c_0\）设置为小于\（c1\）解决不平衡优化问题[33]. 例如，在我们的实验中，\（c_0\）从[0.001、0.005、0.01、0.05、0.1、0.3、0.7]中选择，并将movielens-1m、pinterest和yelp2018数据集设置为0.5、0.05和0.05。通常，此参数与数据的稀疏性有关。如果数据更稀疏，那么\（c_0\）可以实现更好的性能。以前的研究[18,33,62]已经证明，与在推荐任务中对所有用户-项目交互使用相同权重相比，该策略表现出更好的性能。

4.7EALS公司

统一权重策略假设所有未观察到的用户-项目交互都具有相同级别的负面信号，这对于模拟真实场景来说太简单了。很容易理解，一个受欢迎的项目有更多的机会被用户看到，因此如果没有用户的互动，它应该具有更高的负面权重[32,42]. 具体来说，EALS[32]该方法根据项目的流行程度，使用非均匀权重分配未受阻碍的用户-项目交互：

\（\begin{等式}c（u，i）=\left\lbrace\begin{array}{ll}{c{1}}&#x0026；{\text{if}y（u，i）=1}\\{c_{i}^-}&#x0026；{\text{if}y（u，i）=0，}\end{array}\right。\结束{方程式}\）

(11)

哪里\（c_{v}^-\）定义为

\（\begin{方程式}\begin{拆分}c_{i} ^{-}=c_{0}\压裂{mi^{x}}{sum_{j=1}^{N} mj（米）^{x} }&#x0026；；\m_i=\压裂{|\mathcal{Y} _ i|}{\sum_{j=1}^{N}|\mathcal{Y} _j（_j）|}，\end｛split｝\end｛equation｝\）

(12)

哪里\（\mathcal{Y} _ i\)表示我,\（m_v\）表示项目的受欢迎程度（频率）v（v）在里面\（{\bf Y}\）,\（c_{0}\）确定未观测数据的总权重，以及x个控制受欢迎项目相对于不受欢迎项目的重要性级别。为了简化调谐过程，x个通常设置为0.5，如[32].

4.8有效非采样损耗

将非抽样学习应用于隐式推荐的困难在于昂贵的计算成本。例如，计算方程式的复杂性(4)是\（O（|{\bf U}||{\b I}|d）\）这在现实世界中通常是无法负担的\（|{\bf U}||{\b I}|\）很容易达到十亿级。已经提出了几种方法[9,32,70,77]解决非抽样学习的低效问题。具体来说，最近的研究[9,10]提出了基于双塔的推荐模型的有效损失，并证明了对于预测函数为方程的广义矩阵分解框架(13)，损失方程的梯度(4)与等式中的值完全相等(14)如果重量\（c（u，i）\）简化为\（c_i\）:

\（开始{方程式}\hat{y}{（u，i）}=\mathbf{h}^{T}\left（\mathbf{p}_{u} \odot\mathbf{q}_{i} \右）\结束{方程式}\）

(13)

\（\开始{方程式}\开始{split}\波浪线{mathcal{L}}（\Theta）&#x0026=\sum_{u\in\mathbf{u}}\sum_{i\in\mathbf{我}_{u} }\左（（c_{i}^{+}-c_{i{^{-}）\hat{y}{（u，i）}^2-2c_{i}^{{+}\hat}y}{{（u，i）{\右）\\&#x0026+\和{j=1}^d\和{k=1}^2\左（（h_{j} 小时_{k} ）\left（\sum_｛u\in\mathbf｛u｝｝p_{u，j}p_{u，k}\right）\left（\sum_{i\in\mathbf{i}}c_i^{-}q_{i，j}q_{i，k}\右）\右），\结束{split}\结束{equation}\）

(14)

哪里\（\mathbf{p} u（_u）\in\mathbb{R}^d\）和\（\mathbf{q} i（_i）\在\mathbb｛R｝^d\中）是用户的嵌入u个和项目我,\（\奥多特\）表示元件级产品，以及\（\mathbf{h}\in\mathbb{R}^d\）是预测向量。

方程的复杂性(14)是\（O（（|{\bf U}|+|{\bf I}|）d^2+|\mathcal{Y}|d），\）而方程式(4)是\（O（|{\bf U}||{\b I}|d）\）。自\（|\mathcal{Y}|\）是观察到的用户-项目交互数\（|\mathcal{Y}|\ll|{\bf U}||{\bf I}|\）在实践中，复杂性大大降低。该方法的证明可以在[9,10]. 为了避免重复，这里省略了它。

请注意，此方法不会直接计算所有项目的分数。相反，它通过一个分区和一个解耦操作重新计算所有负实例的损失，以实现加速。因此，它不能应用于上述基于抽样的方法，因为这些方法需要计算大量的项目分数。

上述有效损失也可应用于常见的矩阵分解建议模型（即。，\（\hat{y}{（u，i）}=\mathbf{p}_{u} ^T\mathbf{q}_{i} \）). 它用于训练非采样方法WMF和EALS。

5个实验

在本节中，我们进行了实验，以探索负采样和非采样算法在不同场景下的性能。我们的目标是回答以下研究问题：

•

使用Top-K推荐的标准矩阵分解方法，负采样和非采样算法的性能如何？

•

负采样和非采样方法的效率如何？

•

负采样和非采样训练算法如何促进最先进的推荐方法？

在接下来的部分中，我们首先介绍了实验设置，然后回答了上述研究问题。

5.1实验设置

5.1.1数据。

我们的实验中使用了四个真实世界和公开可用的数据集，这些数据集在以前的文献中得到了广泛使用[10,17,30,41,72]:电影人-1m,¹ Pinterest公司,²黄色2018,^三和阿里巴巴.⁴三个数据集的统计数据如表所示2。我们简要介绍了三个数据集：

表2。

数据集	#用户	#项目	#互动	密度
电影人-1m	6,940	3,706	1,000,209	4.47%
Pinterest公司	55,187	9,916	1,500,809	0.27%
黄色2018	31,668	38,048	1,561,406	0.13%
阿里巴巴	106,042	53,591	907,407	0.02%

表2评估数据集的统计细节

•

电影人-1m：这是一个广泛使用的电影分级数据集，包含1000000个从1到5的分级。由于我们专注于从内隐反馈数据中学习，因此我们遵循广泛使用的预处理方法将其转换为内隐反馈。具体来说，详细评级转换为值0或1，指示用户是否与项目交互。

•

Pinterest公司：此数据集由[23]用于图像推荐任务，并已用于评估隐式推荐任务[17,30]在之前的工作中。

•

黄色2018：该数据集取自2018年版Yelp挑战赛，当地企业如餐馆被视为项目。本文中使用的yelp2018数据集与[27,34,65].

•

阿里巴巴：该数据集来自阿里巴巴在线购物平台。的作者[73]组织选定用户的购买记录，构建二部用户-项目图。本文中使用的数据集与[34,73].

这些数据集在用户-项目交互次数、密度和项目频率分布方面有所不同。评估数据集的频率统计如图所示1.

图1。

5.1.2评估指标。

用户的个性化排名列表是根据预测分数对训练集中未交互的所有项目进行排名而生成的。为了评估性能，我们密切关注以前工作的设置[8,27,65]. 具体来说，我们随机选择每个用户80%的交互来构建训练集，并将其余的作为测试集。从训练集中，我们随机选择10%的交互作为验证集来调整超参数。

我们使用两个指标评估排名表：（1）召回和（2）标准化贴现累计收益（NDCG）。我们为用户定义生成的推荐列表u个作为\（{\bf记录}_u=\lbrace记录u^1，记录u^2，\ldots，记录u|K\rbrace），其中K（K）是建议的项目数，以及\（记录（_u）排名在我中的第个位置\（{\bf记录}_u\）根据预测得分。这套u个测试数据中的交互项定义为\（{\bf I}_u\）.

•

召回@K:回忆测试项目是否在top-K推荐列表中。其计算如下：

\（\begin{方程式}\begin{split}撤回@K&#x0026=\frac｛1｝｛|｛\bf U｝|｝\sum_U\frac｛\sum_｛i=1｝^K｛f\left（\left|\lbrace rec_U^i\rbrace\cap｛\bf i｝_U\right|\right）｝｛K｝，\ end｛split｝\ end｛equation｝\）

(15)

哪里\（f（x）\）是一个指示函数，当x个>否则为0。

•

K时的标准化折现累计增益（NDCG）：它广泛应用于信息检索和推荐任务中，通过降低职位的重要性来衡量排名的质量。从形式上讲，其计算如下：

\（\begin{方程式}\begin{拆分}DCG@K&#x0026=\压裂{1}{|{\bf U}|}\sum_U\sum_{i=1}^K\frac{2^{f\left（\left|\lbrace rec_U^i\rbrace\cap{\bf-i}_U\right|\right）}-1}{log2（i+1）}\\NDCG@K&#x0026=\压裂{DCG@K}{IDCG@K}，\结束{split}\结束{equation}\）

(16)

哪里IDCG公司是一个规范化常数，它是\(DCG@K\)来自最佳排名。

对于每个用户，我们的评估协议对除训练集中的项目外的所有项目进行排名，这比只对负面项目的随机子集进行排名更有说服力[38]. 对于每种方法，我们随机初始化模型并运行五次。然后，我们报告平均结果。此外，如果召回@20验证数据在50个时期内没有增加。

5.1.3超参数设置。

所有方法的参数都根据相应的论文进行初始化，然后仔细调整以获得最佳性能。具体来说，通过应用vanilla均匀抽样策略，我们首先使用网格搜索来寻找最佳的与抽样无关的参数，如学习率和规则。然后，对于每种方法，我们固定上述参数并搜索其余与采样相关的参数。批大小设置为512。为了公平比较，我们使用相同的嵌入大小d日对于所有方法。此设置已在以前的工作中广泛采用[10,27,30,34,65]这是为了确保基本模型具有相同的建模能力，而性能差异只是由不同的学习方法引起的。明确地，d日在我们的实验中设置为64。为了防止过度拟合，我们调整了[0.1，0.3，0.5，0.7，0.9，1]中的缺失率和[0，0.0001，0.001，0.01，0.05]中的正则化。脱落率1.0意味着使用所有参数，作为Tensorflow中的设置。默认情况下，我们将上述引入的负采样方法和非采样方法集成到传统的矩阵分解模型中，以比较性能。超参数勘探的详细信息见表三所有实验均在同一台机器上运行（Intel Xeon 8核CPU 2.4 GHz和单个NVIDIA GeForce GTX TITAN X GPU），以进行公平比较。

表3。

方法	对位。	调谐范围	电影人-1m	Pinterest公司	黄色2018	阿里巴巴
BPR-统一	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.0001, 0.001, 0.01]	0.01	0.01	0.01	0.01
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	1	1	1	1
AOBPR公司	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.0001, 0.001, 0.01]	0.01	0.01	0.01	0.01
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	1	1	1	1
	\（\lambda\）	[5, 10, 20, 50, 100, 200, 500, 1000, 2000]	1000	1000	1000	1000
BPR-DNS	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.0001, 0.001, 0.01]	0.01	0.01	0.01	0.01
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	1	1	1	1
	k个	[2, 4, 8, 16]	2	2	4	8
爱尔兰	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.01	0.01	0.01	0.01
	规则	[0, 0.0001, 0.001, 0.01]	0.01	0.01	0.01	0.01
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	0.7	0.9	0.9	0.9
	\（\套\）	[0.5, 1, 2]	1	1	1	1
SRNS公司	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.001, 0.001, 0.01, 0.05]	0.01	0.05	0.01	0.01
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	1	1	1	1
	\（\套\）	[0.5, 1, 2, 10]	10	10	10	10
	\（\阿尔法\）	[0.1, 1, 2, 5, 10, 20, 50]	5	5	5	5
	\（T_0）	[25, 50, 100]	50	50	50	50
	\（S_1）	[2, 4, 8, 16, 32]	8	16	16	16
	\（S_2/S_1）	[1, 2, 4, 8]	8	4	8	8
WMF公司	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.0001, 0.001, 0.01]	0	0	0	0
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	0.5	0.9	0.7	0.5
	\（c_0\）	[0.001, 0.005, 0.01, 0.05, 0.1, 0.3, 0.5, 0.7]	0.5	0.05	0.05	0.01
EALS公司	爱尔兰	[0.001, 0.005, 0.01, 0.02, 0.05]	0.05	0.05	0.05	0.05
	规则	[0, 0.0001, 0.001, 0.01]	0	0	0	0
	辍学	[0.1, 0.3, 0.5, 0.7, 0.9, 1.0]	0.5	0.9	0.7	0.5
	\（c_0\）	[200, 500, 1000, 2000, 4000, 5000]	1000	500	1000	500
	x个	[0.25, 0.5, 0.75]	0.5	0.5	0.5	0.5

表3.超参数探索

5.2性能比较

我们首先对上述引入的负采样和非采样学习方法进行了性能比较。方法ItemKNN[56]还添加了作为基本基准。为了进行公平比较，所有方法都集成到一个通用的矩阵分解推荐模型中（即。，\（\hat{y}{（u，i）}=\mathbf{p}_{u} ^T\mathbf{q}_{i} \）). 我们使用TensorFlow重新实现BPR-Uniform、BPR-DNS、SRNS、WMF和EALS。对于ItemKNN和AOBPR，我们使用LibRec中的实现。⁵对于IRGAN，我们使用作者发布的代码。⁶对于基于采样的方法，我们进行采样一每个积极实例的消极实例，这是以前工作中广泛使用的设置[27,30,52,61]. 第节探讨了抽样数量的影响5.4。为了评估不同的推荐长度，我们调查了顶部-K（K）性能K（K）在我们的实验中设置为[5，10，20]。不同方法的比较结果如表所示4。从表中，我们得出以下主要结论：

表4。

电影人-1m	召回@10	召回@20	召回@50	NDCG@10	NDCG@20	NDCG@50
项目KNN	0.0849	0.1325	0.2371	0.2317	0.2177	0.2312
BPR-统一	0.1535	0.2424	0.4081	0.3458	0.3418	0.3737
AOBPR公司	0.1421	0.2301	0.3917	0.3299	0.3270	0.3679
BPR-DNS	0.1524	0.2430	0.4080	0.3439	0.3408	0.3725
伊尔根	0.1533	0.2445	0.4082	0.3437	0.3422	0.3741
SRNS公司	0.1531	0.2420	0.4026	0.3478	0.3428	0.3711
WMF公司	0.1572	0.2449	0.4034	0.3584	0.3518	0.3787
EALS公司	0.1550	0.2427	0.4044	0.3527	0.3465	0.3756
Pinterest公司	召回@10	召回@20	召回@50	NDCG@10	NDCG@20	NDCG@50
项目KNN	0.0782	0.1248	0.2351	0.0665	0.0878	0.1252
BPR-统一	0.0783	0.1309	0.2462	0.0670	0.0891	0.1279
AOBPR公司	0.0821	0.1381	0.2561	0.0704	0.0937	0.1332
BPR-DNS	0.0799	0.1336	0.2495	0.0683	0.0907	0.1298
爱尔兰	0.0812	0.1399	0.2521	0.0703	0.0919	0.1301
SRNS公司	0.0893	0.1473	0.2694	0.0770	0.1013	0.1425
WMF公司	0.0833	0.1385	0.2584	0.0712	0.0942	0.1347
EALS公司	0.0853	0.1414	0.2601	0.0738	0.0972	0.1373
2018年7月2日	召回@10	召回@20	召回@50	NDCG@10	NDCG@20	NDCG@50
项目KNN	0.0307	0.0554	0.1058	0.0362	0.0451	0.0646
BPR-统一	0.0323	0.0563	0.1096	0.0370	0.0457	0.0655
AOBPR公司	0.0332	0.0568	0.1114	0.0382	0.0468	0.067
BPR-DNS公司	0.0350	0.0603	0.1170	0.0402	0.0493	0.0703
爱尔兰	0.0333	0.0578	0.1135	0.0384	0.0464	0.0678
SRNS公司	0.0351	0.0599	0.1151	0.0400	0.0491	0.0695
WMF公司	0.0365	0.0623	0.1195	0.0418	0.0512	0.0724
EALS公司	0.0382	0.0651	0.1234	0.0440	0.0538	0.0753
阿里巴巴	召回@10	召回@20	召回@50	NDCG@10时	NDCG@20时	NDCG@50
项目KNN	0.0287	0.0394	0.0643	0.0164	0.0198	0.0238
BPR-统一	0.0306	0.0463	0.0731	0.0178	0.0215	0.0278
AOBPR公司	0.0341	0.0479	0.0790	0.0193	0.0257	0.0291
BPR-DNS	0.0324	0.0488	0.0759	0.0187	0.0228	0.0283
爱尔兰	0.0312	0.0429	0.0672	0.0181	0.0206	0.0243
SRNS公司	0.0258	0.0364	0.0554	0.0149	0.0178	0.0218
WMF公司	0.0513	0.0763	0.1192	0.0289	0.0355	0.0444
EALS公司	0.0522	0.0749	0.1169	0.0295	0.0356	0.0442

表4负采样和非采样方法的性能比较

为了公平比较，所有方法都集成到一个通用的矩阵分解推荐模型中(\（\hat{y}{（u，i）}=\mathbf{p}_{u} ^T\mathbf{q}_{i} \）).

(1)

一般来说，在相同的模型架构下，均匀采样与非采样学习方法的性能相比存在差距。例如，在表中4在Pinterest、Yelp2018和Alibaba数据集上，非抽样学习方法WMF和EALS的表现（回忆和NDCG分数）明显优于BPR-Uniform(第页< 0.01). 主要原因在于负抽样的有效性。这一发现也与之前的许多工作一致[9,10,70,77]. 正如我们所介绍的，在模型经过良好训练后，该模型可以很容易地区分随机抽样的正样本和负样本，因此梯度接近于零，并且参数几乎不更新。

(2)

负采样的有效性对于个性化Top-K推荐非常重要。在表中，AOBPR、BPR-DNS、IRGAN和SRNS的性能通常优于简单均匀采样BPR。特别是，AOBPR和BPR-DNS更加强调具有较大偏好分数的硬否定项，IRGAN学习生成器根据对抗性抽样生成硬否定实例，SRNS更喜欢具有较大预测分数和高方差的否定实例。这些信息丰富的采样方法可以随着训练的进行保持较大的梯度，从而获得比均匀采样BPR更好的性能。

(3)

在所有的负抽样方法中，SRNS综合考虑了负实例的信息性和可靠性，因此总体表现较好。AOBPR和BPR-DNS利用偏好得分较大的负面项目；他们更容易出现假阴性问题，因为高分项目在测试集中也可能是阳性而不是阴性。爱尔兰队的表现不是很有竞争力。这是因为生成器与其最优值之间存在差异，并且因为GAN类型的方法对一些基本的训练设置非常敏感[48].

(4)

我们可以看到，调整良好的简单非采样方法WMF在大多数情况下比各种基于采样的方法表现更好，包括最先进的方法SRNS。之前的几项研究[9,70,77]还指出，非采样学习计算所有训练数据（包括所有未观察到的数据）的梯度。因此，它可以很容易地以更稳定的方式收敛到更好的最优值。此外，我们的经验观察表明，一些基本训练设置（例如负重\（c_0\）)对WMF的性能非常重要。例如，负值不同会显著降低模型精度。在这种情况下，由于参数设置不当，一些实际有效的性能将被低估[54]. 这可以解释为什么我们的发现与[30,47,61]其中，简单的基于抽样的方法能够产生与非抽样方法一样具有竞争力的性能。

(5)

EALS具有基于流行度的加权策略，其性能优于WMF。真实场景中的项目通常是长尾的，用户不与之交互的热门项目更有可能是负面的。观察结果与之前的工作类似[31,32]这表明，根据项目流行程度分配权重可以进一步提高基于非抽样的推荐方法的性能。

(6)

考虑到每个数据集的性能，我们可以看到，非采样方法和基于采样的方法的有效性与数据集的稀疏性有关。通常，与基于采样的方法相比，数据越稀疏，非采样方法的性能越好。例如，对于Movielens-1m、Pinterest、Yelp2018和Alibaba，WMF对BPR-Uniform的改进分别为1.7%、5.7%、11.4%和63.8%。随着数据稀疏性的降低，这些改进也会增加。这很有意义，因为从稀疏数据中采样高质量实例比从密集数据中采样更困难。

5.3效率分析

以前的许多研究只关注获得更好的结果，而忽略了计算效率[57]. 在实际系统中，培训效率也是一个需要考虑的重要因素。在本节中，我们进行了一个实验，以展示代表性负采样和非采样方法的训练效率。所有比较的方法都用Tensorflow重新实现，并在同一台机器上运行，以进行公平比较。培训时间结果如表所示5注意，这些比较模型都具有相同的网络结构，但使用不同的学习策略。我们有以下主要观察结果：

表5。

模型	电影人-1m			Pinterest公司			黄色2018			阿里巴巴
模型	S公司	我	T型	S公司	我	T型	S公司	我	T型	S公司	我	T型
BPR-统一	24秒	500	250米	21秒	500	1.75亿	26秒	500	2.16亿	12秒	1500	300米
BPR-DNS	45秒	500	3.75亿	38秒	500	3.17亿	78年代	500	11小时	87秒	1500	37小时
SRNS公司	210秒	300	18小时	480秒	300	40小时	1100万	500	92小时	370秒	500	52小时
WMF公司	1秒	300	500万	1.8秒	300	900万	6.5秒	300	3200万	10.5秒	300	5400万
EALS公司	1秒	300	500万	1.8秒	300	900万	6.5秒	300	3200万	10.5秒	300	5400万

表5.运行时间比较（秒/分钟/小时[s/m/h]）

“S”、“I”和“T”分别表示单个迭代的训练时间、收敛的迭代次数和总训练时间。WMF和EALS通过有效的非采样损耗进行训练（方程式(14)).

(1)

我们可以明显地观察到，非抽样方法WMF和EALS的总训练时间比基于抽样的方法快得多。例如，在四个数据集上，WMF和EALS只需要5分钟、9分钟、32分钟和54分钟即可实现最佳性能。这可能归因于三个原因：第一，通过利用有效的非抽样损失[10]，非抽样学习的复杂性从\（O（|{\bf U}||{\b I}|d）\）到\（O（（|{\bf U}|+|{\bf I}|）d^2+|\mathcal{Y}|d）\），避免了耗时的遍历所有项；第二，非采样方法通常需要较少的迭代才能达到最佳性能；第三，BPR-DNS和SRNS等功能强大的采样器在采样上花费了更多的时间。

(2)

虽然更强的采样器可以比均匀采样获得更好的性能，但它们通常需要更多的采样时间，尤其是在较大的数据集上。例如，在阿里巴巴数据集上，BPR-DNS和SRNS的培训时间分别为37和52小时。此外，一些采样器需要计算所有项目的预测分数，这降低了采样的优势，并且在训练过程中非常耗时。

5.4抽样数量的影响

BPR成对损失（方程式(1))是使用最广泛的基于抽样的学习策略。然而，现有的基于BPR学习的方法通常为每个积极的用户-项目对抽取一个消极的实例[6,27,52,65]. 现有研究大多忽略了负采样数的影响。在这里，我们研究了性能如何随着负样本数的增加而变化。多个负样本的BPR成对损失计算如下：

\（开始{方程式}\开始{拆分}\数学{L}=-\总和{（u，i）\在{\bf Y}}\总和{j\在{\ bf i}\反斜杠{\bf-i}_u}^{K}\ln\西格玛（\那{Y}（u、i）-\那{Y}（u，j）），结束{拆分{方程式{）

(17)

哪里\（σ（x）=frac{1}{1+e^{-x}}\）是一个sigmoid函数，\（{\bf Y}\）是培训数据，以及\（｛\bf I｝_u\）表示用户的肯定项目集u个。它重复了积极的实例\（（u，i）\）多次使其得分高于所有负面项目。

图2显示了在四个数据集上改变负样本数时BPR-Uniform的性能。为了进行比较，我们还报告了每个训练阶段的表现。我们在上显示结果召回@20本节中的指标。从图中我们可以明显地发现，负样本的数量对于训练带有BPR损失的推荐模型非常重要。一般来说，使用更多的阴性样本是有益的。例如，在图2，为每个正对采样多个负实例比仅使用一个负实例要好，甚至可以获得与Movielens-1m数据集上的非采样方法类似的结果。此外，结果表明，采样次数越多，收敛速度越快。请注意，在本节中，我们以BPR-Uniform为例来说明负采样数的影响。对于其他负采样方法，也可以观察到类似的性能[34]. 这是因为当采样更多负面项目时，硬负面样本更有可能被包括在内，并提供更有价值的梯度更新。结果表明，为每个正对抽取更多的负实例似乎是一个很有希望的设置，可以使BPR损失的推荐模型获得更高的性能。这也显示了使用非抽样学习来提高推荐系统性能的潜力。因此，我们呼吁在评估新提议的推荐模型时，对上述设置进行更多的未来考虑。

图2。

5.5进一步比较

为了回答研究问题3，我们进一步比较了最先进的推荐模型NGCF[65]和LightGCN[27]使用抽样和非抽样学习（带有效损失）策略，探索消极抽样和非取样学习如何提高推荐性能。比较模型介绍如下：

•

神经网络图协同过滤（NGCF）[65]：这是最先进的基于图形的推荐模型之一，它基于图形神经网络学习用户和项目的表示。具体来说，每个节点都获得其多跳邻居的转换表示。NGCF采用内积预测用户对商品的偏好\（\hat{y}{（u，i）}=\mathbf{p}_{u} ^T\mathbf{q}_{i} \）.

•

光图卷积网络（LightGCN）[27]：这是最先进的基于图形的推荐模型。它通过省略非线性变换和应用基于和的池来简化GCN的设计。模型预测与NGCF相同。

我们还比较了更先进的基于采样的方法，包括基于GAN的方法AdvIR和基于图形的方法MCNS和MixGCF，如下所示：

•

AdvIR公司[49]:AdvIR是一种对抗性采样器，通过添加对抗性扰动，将对抗性采样与对抗性训练相结合。

•

MCNS公司[73]:马尔可夫链蒙特卡罗负采样（MCNS）建议通过近似正分布对负片进行采样，并使用Metropolis-Hastings算法加速采样过程。

•

混合GCF[34]:MixGCF是为基于GNN的推荐模型设计的，它集成了多个负片，通过正混合和跳跃混合来合成硬负片。

为了减少实验工作量并保持比较公平，我们密切关注MixGCF工作的设置[34]. Yelp2018和Alibaba的数据集与使用的MixGCF工作完全相同，因此我们直接在MixGCF论文中使用AdvIR、MCNS和MixGCF-的结果。

表6显示了比较方法的性能。从该表中，我们可以得出以下结论：

表6。

	黄色2018		阿里巴巴
	召回@20	NDCG@20	召回@20	NDCG@20
NGCF+制服	0.0577	0.0469	0.0426	0.0197
NGCF+伊朗	0.0615	0.0502	0.0435	0.0200
NGCF+AdvIR	0.0614	0.0500	0.0440	0.0203
NGCF+MCNS	0.0625	0.0501	0.0430	0.0200
NGCF+混合GCF	0.0688	0.0566	0.0544	0.0262
NGCF+WMF	0.0638	0.0526	0.0755	0.0355
NGCF+EALS	0.0655	0.0542	0.0742	0.0348
LightGCN+制服	0.0628	0.0515	0.0584	0.0275
LightGCN+爱尔兰	0.0641	0.0527	0.0605	0.0280
LightGCN+AdvIR	0.0624	0.0510	0.0583	0.0273
LightGCN+MCNS	0.0658	0.0529	0.0632	0.0284
LightGCN+混合GCF	0.0713	0.0589	0.0763	0.0357
轻GCN+WMF	0.0627	0.0515	0.0735	0.0349
LightGCN+EALS	0.0647	0.0533	0.0747	0.0353

表6不同推荐方法在Yelp2018和阿里巴巴数据集上的表现

这些数据集与使用的MixGCF工作完全相同，因此我们直接在MixGCF论文中报告AdvIR、MCNS和MixGCF-的结果。

(1)

在基于负采样的方法中，MixGCF在两个数据集上产生了最好的性能。这是因为MixGCF是为基于GNN的推荐模型设计的，该模型通过跳混合技术来增加负面样本，以提供更丰富的模型训练梯度。

(2)

一般来说，与广泛使用的均匀抽样学习方法相比，采用非抽样学习策略可以提高推荐性能。例如，在表中6在这两个数据集上，NGCF+WMF的性能优于NGCF+Uniform，而LightGCN+WMF则优于LightGCN+Uniform。

(3)

比较表中报告的WMF和EALS结果5可以看出，NGCF+WMF和LightGCN+WMF的改进相对较小。这可以归因于两个原因。首先，基于GNN的模型在学习用户-项目交互方面具有优势；通过嵌入传播操作，协作信号以显式的方式被纳入嵌入过程。其次，由于边际效应，对于那些表达模型来说，非抽样学习的提升能力有点受限。

(4)

从表格5和6我们还发现，在大多数情况下，WMF和EALS都可以击败最先进的推荐方法NGCF+Uniform和LightGCN+Uniform。这一点非常显著，因为浅层MF框架的参数要少得多。这一结果验证了学习策略选择的重要性。事实上，最近的大量工作已经对推荐模型进行了很好的研究，而学习策略往往成为推荐性能的瓶颈。

6讨论和未来方向

在本节中，我们将讨论一些未决问题并提出几个未来的方向。

6.1推荐系统评估

正确评估推荐系统已经意识到很难，因为它严重依赖于实证结果[54]. 最近，几项关键研究发现，一些复杂模型的改进只是因为所选基线较弱或参数未适当优化[14,15,44,54]. 在本文中，我们仔细设置了各种有代表性的方法，对负抽样和非抽样学习进行了彻底的比较。虽然我们的实证结果可能不会推广到其他任务，但我们揭示了一个事实，即具有非抽样学习的简单推荐模型可以优于许多先进的基于抽样的方法，这在以前的研究中通常被忽视，因为最近在研究论文中，只使用基于抽样的基线来与新提出的技术进行比较已经变得很常见[27,65,68,69]. 这些结果还鼓励我们的社区重新审视之前提出的建议模型，并对其进行微调，以更好地调查其潜在性能。

由于难以评估推荐系统，不同的工作通常会报告不一致的结果[15,53]，这使得现有方法的性能没有得到很好的理解。然而，一篇论文的作者很难进行可靠的实验，这需要社区的努力。因此，我们认为我们的社区应该进一步开发一套基准数据集和经过良好调整的基线。

6.2负采样和非采样的可扩展性

从以前的研究中，我们可以看到，现有的神经推荐模型通常依赖于一致负抽样来支持有效的训练。然而，我们的研究结果表明，一致的负采样将导致次优性能。事实上，最近的大量工作已经对推荐模型进行了深入研究，而学习策略往往成为限制推荐性能的瓶颈。尽管一些研究建议用其他抽样方法取代均匀抽样[17,41,51,61]为了提高负样本的质量，他们通常只将建议的样本集成到简单的推荐模型中，如矩阵分解。主要原因是上述方法不能同时满足效率和有效性的要求（见表5). 例如，一些最先进的方法使用复杂的结构，如GAN[61]生成负面实例，这对模型效率提出了新的挑战。在这种情况下，这些方法很难与最先进的推荐模型（如GCN模型）相结合。如何有效地抽取信息丰富的负面事例仍然是一个重要的研究问题，值得进一步探讨。

最近，一些推荐研究也尝试将非抽样学习策略应用于模型优化。这些研究报告的结果与我们的实验一致，表明非抽样学习在推荐任务中具有优越的能力。然而，现有有效的非抽样学习方法仅适用于具有线性预测层的推荐模型，如图所示三这限制了模型设计的可扩展性和灵活性。如果这种方法能应用于非线性结构，那将是有益的。虽然具有挑战性，但提出一种通用高效的非采样学习方法是一项有前途的未来工作。

图3。

最近的一些研究指出了线性预测的积极作用[53]（1）它与行业相关，因为它更适用；（2）它简化了建模和学习过程；（3）它与其他研究任务（例如图像模型和自然语言处理，通常使用点积）有更好的一致性。一些最先进的推荐模型也采用线性预测来组合嵌入，例如NGCF[65]，LightGCN[27]和KGAT[63]. 因此，除了将非抽样扩展到非线性预测结构之外，改进非抽样推荐模型的其他有希望的方向包括（1）设计更好的用户和项目嵌入层(（f）和克在图中2)通过图学习或因果建模；（2）利用内容特征，如上下文信息、评论、社交关系和知识图，以及（3）使用多目标函数和多任务学习优化模型。

6.3多任务学习

多任务学习是对不同但相关的任务进行联合训练，以便为每个任务获得更好的模型[60]. 近年来，多任务学习被广泛应用于学习包含社会关系、知识图和用户多种行为等副信息的推荐系统[8,11,21]. 然而，尽管负抽样在以前的推荐工作中得到了广泛应用，但仍有理由认为现有的抽样方法不太适合优化多任务模型。具体来说，要生成训练批，采样方法需要为每个任务采样负面实例。这将产生比单任务学习更大的随机性，并不可避免地导致信息丢失。以往的研究发现，负抽样在多任务学习中表现不佳[7,11]. 因此，为多任务学习设计更好、更合适的采样方法将是一件有趣且有价值的事情。

6.4在现实场景中的应用

大多数真实世界的推荐系统[80]包含两个阶段：候选人生成和排名。对于包含数十亿项目和用户的超大系统，由于巨大的时间或空间复杂性，现有的负采样和非采样方法很难直接应用。在这种情况下，通常首先应用候选生成的预处理过程。例如[43]使用项目的共现来生成候选项[19]在（同现）图上应用随机游走，并且[13]描述了使用混合功能的混合方法。

在新用户、项目和交互不断涌入的实际推荐系统中，实时更新模型以更好地为用户服务非常重要。对于非采样方法，常用的在线学习策略是增量学习[32]. 提供新的用户-项目交互(\（u，i）)，增量学习仅对执行优化步骤\（{\bf p}_u\）和\（{\bf q}_i\）假设新的交互不应过多地改变总体参数，而应改变u个和我明显地。对于负采样，其优点是基于采样的模型很容易获得随新数据不断更新的参数。然而，问题是现有最先进的抽样方法无法同时满足有效性和效率的要求。正如我们所讨论的，这值得进一步探讨。

7结论

在这项工作中，我们分析了两种类型的培训策略：消极抽样和非抽样推荐隐含反馈。具体来说，我们首先回顾了负采样和非采样的目标。然后，我们通过仔细设置各种代表性方法，对负采样和非采样进行了彻底的比较。我们的实证结果表明，尽管负抽样在最近的推荐模型中得到了广泛应用，但广泛使用的均匀抽样几乎不可能显示出与非抽样学习方法相当的性能。此外，我们还发现，现有的基于抽样的方法通常不能同时满足有效性和效率的要求，这限制了它们在复杂推荐模型和在线学习场景中的应用能力。总的来说，虽然我们并不认为基于抽样的方法总是比非抽样方法弱，但我们强调，这些结果在以前的工作中通常被忽视，因为最近在研究论文中，只使用基于抽样的基线与新提出的技术进行比较已经变得很常见。我们认为，这项工作为隐性推荐中的消极抽样和非抽样学习提供了一个健全的检查，建议新提出的推荐模型应与更合适的基线进行比较，以证明其最先进的有效性。最后，我们讨论了几个值得进一步探索的开放性问题和未来的研究课题。我们希望这项工作能对那些热衷于推荐系统研究的研究人员和实践者有所帮助，并对该领域的研究工作有所启发。

脚注

https://grouplens.org/datasets/movielens/1米/.

https://pinterest.com.

^三

https://github.com/kuandeng/LightGCN/tree/master/Data/yelp2018.

⁴

https://github.com/huangtinglin/MixGCF/tree/main/data/ali.

⁵

https://github.com/guoguibing/librec网站.

⁶

https://github.com/geek-ai/irgan.

工具书类

[1]

伊曼纽尔·拜耳（Immanuel Bayer）、香楠·何（Xianganan He）、巴加夫·卡纳格尔（Bhargav Kanagal）和斯特芬·伦德尔（Steffen Rendle）。2017.从内隐反馈中学习的通用坐标下降框架。在第26届万维网国际会议记录. 1341–1350.

摘要

1简介

2相关工作

2.1项目建议

2.2模范培训推荐

2.3其他领域的负采样

3了解负采样和非采样

3.1隐含建议

3.2阴性采样

3.3非采样

4实证研究方法

4.1 BPR-均匀取样

4.2AOBPR公司

4.3BPR-DNS

4.4爱尔兰

4.5SRNS公司

4.6WMF公司

4.7EALS公司

4.8有效非采样损耗

5个实验

5.1实验设置

5.1.1数据。

5.1.2评估指标。

5.1.3超参数设置。

5.2性能比较

5.3效率分析

5.4抽样数量的影响

5.5进一步比较

6讨论和未来方向

6.1推荐系统评估

6.2负采样和非采样的可扩展性

6.3多任务学习

6.4在现实场景中的应用

7结论

脚注

工具书类

引用人

索引术语

建议

伪阴性样本感知的推荐阴性抽样

推荐中隐含反馈的广义负抽样

重要性重采样的内隐反馈学习推荐

评论

问询处

发布于

出版商

出版历史

权限

检查更新

作者标记

限定符

资金来源

贡献者

其他指标

文献计量学

文章指标

其他指标

引文

引用人

查看选项

PDF格式

电子阅读器

HTML格式格式

获取访问权限

登录选项

完全访问权限

数字

其他

分享

共享此出版物链接

在社交媒体上分享

附属公司