Language Model Inversion

Morris, John X.; Zhao, Wenting; Chiu, Justin T.; Shmatikov, Vitaly; Rush, Alexander M.

计算机科学>计算与语言

arXiv:2311.13647（cs）

【于2023年11月22日提交】

职务：语言模型反转

作者：约翰·X·莫里斯,赵文婷,贾斯汀·邱,维塔利·施玛蒂科夫,亚历山大·拉什

查看PDF

摘要：语言模型生成下一个令牌的分布；我们可以使用此信息恢复提示令牌吗？我们考虑了语言模型反转的问题，并表明下一个被打破的概率包含了关于前面文本的惊人数量的信息。通常，我们可以在对用户隐藏文本的情况下恢复文本，从而激发了一种方法，用于恢复仅给定模型当前分布输出的未知提示。我们考虑了各种模型访问场景，并展示了即使没有对词汇表中的每个令牌进行预测，我们也可以通过搜索来恢复概率向量。在Llama-27b上，我们的反演方法重建了BLEU为$59$、标记级别F1为$78$的提示，并准确地恢复了$27\%$的提示。复制所有实验的代码可在此http URL.

学科：	计算与语言（cs.CL）; 机器学习（cs.LG）
引用为：	arXiv:2311.13647【cs.CL】
	（或 arXiv:2311.13647v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2311.13647

提交历史记录

发件人：John Morris[查看电子邮件]
[第1版]2023年11月22日星期三19:04:04 UTC（519 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2023-11

更改为浏览方式：

反恐精英
反恐精英。LG公司

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

职务：语言模型反转

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：语言模型反转

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目