计算机科学>信息检索
标题: 检索和推荐的桥接语言和项目
摘要: 本文介绍了BLaIR,一系列专门用于推荐场景的预处理句子嵌入模型。 BLaIR经过训练,可以学习项目元数据和潜在自然语言上下文之间的相关性,这对于检索和推荐项目很有用。 为了预先学习BLaIR,我们收集了Amazon Reviews 2023,这是一个新的数据集,包含超过5.7亿条评论和33个类别的4800万条条目,大大超出了以前版本的范围。 我们评估了BLaIR在多个领域和任务中的泛化能力,包括一个名为复杂产品搜索的新任务,指的是在长时间复杂的自然语言上下文中检索相关项目。 利用像ChatGPT这样的大型语言模型,我们相应地构建了一个半合成的评估集Amazon-C4。 对新任务以及传统检索和推荐任务的实验结果表明,BLaIR具有较强的文本和项目表示能力。 我们的数据集、代码和检查点位于: 此https URL .