跳到主要内容
10.1145/3589335.3651513acm会议文章/章节视图摘要出版物页面网址:www会议记录会议集合
短纸
开放式访问

GPT生成的文本检测:基准数据集和基于张量的检测方法

出版:2024年5月13日出版历史

摘要

随着ChatGPT等自然语言模型在应用程序和服务中越来越普遍,对检测其输出的健壮和准确方法的需求至关重要。在本文中,我们提出了GPT Reddit数据集(GRiD),这是一种新的生成预训练变换器(GPT)生成的文本检测数据集,旨在评估检测模型在识别ChatGPT生成的响应时的性能。该数据集由基于Reddit的上下文-提示对的各种集合组成,其中包含人工生成和ChatGPT生成的响应。我们分析了数据集的特征,包括语言多样性、上下文复杂性和响应质量。为了展示数据集的实用性,我们在其上对几种检测方法进行了基准测试,证明了它们在区分人类和ChatGPT生成的响应方面的有效性。该数据集是在ChatGPT背景下评估和推进检测技术的资源,有助于确保互联网上负责任和值得信赖的人工智能驱动的通信。最后,我们提出了一种新的基于张量的GPT文本检测方法GpTen,该方法本质上是半监督的,因为它只能访问人工生成的文本,并且性能与完全监督的基线相当。

跳过补充材料部分

补充材料

马力7122.mp4

补充视频

英里4

5.3 MB

工具书类

  1. Tom B.Brown等人,2020年。语言模型是少数快速学习者。CoRR,第abs/2005.14165卷(2020年)。showeprint[arXiv]2005年1月4165日谷歌学者谷歌学者
  2. Evan Crothers、Nathalie Japkowicz和Herna Viktor。2023.机器生成文本:威胁模型和检测方法的综合调查。arxiv:2210.07321[cs.CL]谷歌学者谷歌学者
  3. Gisel Bastidas Guacho、Sara Abdali、Neil Shah和Evangelos E.Papalexakis。2018.通过张量嵌入的基于内容的半监督错误信息检测。arxiv:1804.09088[cs.LG]谷歌学者谷歌学者
  4. 2019年,齐德·哈伊·亚希亚(Zied Haj-Yahia)、阿德里安·西格(Adrien Sieg)和莱娅·德雷利斯(Léa a Deleris)。利用专家和单词嵌入实现无监督文本分类。在计算语言学协会第57届年会的会议记录中。371--379.谷歌学者谷歌学者交叉引用交叉引用
  5. 凯伦·斯巴克·琼斯。术语特异性的统计解释及其在检索中的应用。《文献学杂志》,第28卷,第1卷(1972年),第11-21页。谷歌学者谷歌学者交叉引用交叉引用
  6. 钱丽、郝鹏、李建新、夏从英、杨仁宇、孙立超、菲利普·S·余和何丽芳。2020年,文本分类调查:从浅层学习到深层学习。CoRR,第abs/2008.00364卷(2020年)。shoveprint[arXiv]2008.00364展示版谷歌学者谷歌学者
  7. 塞巴斯蒂安·鲁德(Sebastian Ruder)、马修·彼得斯(Matthew E Peters)、斯瓦巴·斯瓦亚迪普塔(Swabha Swayamdipta)和托马斯·沃尔夫(Thomas Wolf)。2019.自然语言处理中的迁移学习。在NAACL中:教程。15--18.谷歌学者谷歌学者
  8. 赵悦、Zain Nasrullah和Zheng Li。2019b。PyOD:用于可伸缩异常检测的Python工具箱。《机器学习研究杂志》,第20、96卷(2019年),1-7。http://jmlr.org/papers/v20/19-011.html谷歌学者谷歌学者
  9. Zhenjie Zhao、Andrew Cattle、Evangelos Papalexakis和Xiaojuan Ma.2019a。通过张量分解嵌入词汇特征,用于小样本幽默识别。在2019年自然语言处理实证方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中。谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. GPT生成的文本检测:基准数据集和基于张量的检测方法

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          封面图片ACM会议
          WWW’24:ACM 2024年网络会议相关会议记录
          2024年5月
          1928页
          国际标准图书编号:9798400701726
          内政部:10.1145/3589335

          版权所有©2024所有者/作者

          本作品根据Creative Commons Attribution International 4.0许可证授权。

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2024年5月13日

          检查更新

          限定符

          • 短纸

          接受率

          总体验收率1,899属于8,196提交文件,23%
        • 文章指标

          • 下载次数(过去12个月)50
          • 下载次数(最近6周)50

          其他指标

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器