计算机科学>计算与语言
职务: 语言模型反转
摘要: 语言模型生成下一个令牌的分布; 我们可以使用此信息恢复提示令牌吗? 我们考虑了语言模型反转的问题,并表明下一个被打破的概率包含了关于前面文本的惊人数量的信息。 通常,我们可以在对用户隐藏文本的情况下恢复文本,从而激发了一种方法,用于恢复仅给定模型当前分布输出的未知提示。 我们考虑了各种模型访问场景,并展示了即使没有对词汇表中的每个令牌进行预测,我们也可以通过搜索来恢复概率向量。 在Llama-27b上,我们的反演方法重建了BLEU为$59$、标记级别F1为$78$的提示,并准确地恢复了$27\%$的提示。 复制所有实验的代码可在 此http URL .