短纸

开放式访问

GPT生成的文本检测：基准数据集和基于张量的检测方法

作者：
祖拜尔·卡齐

美国加州大学河滨分校

美国加州大学河滨分校

0009-0005-2009-8388
查看个人资料

,
威廉·肖奥

加利福尼亚大学河滨分校

加利福尼亚大学河滨分校

0000-0001-5813-2266
查看个人资料

,
Evangelos E.Papalexakis公司

美国加州大学河滨分校

美国加州大学河滨分校

0000-0002-3411-8483
查看个人资料

作者信息和声明

WWW’24：ACM 2024年网络会议相关会议记录2024年5月第842-846页https://doi.org/10.1145/3589335.3651513

出版：2024年5月13日出版历史

WWW’24：2024年ACM网络会议配套论文集

第842-846页

摘要

随着ChatGPT等自然语言模型在应用程序和服务中越来越普遍，对检测其输出的健壮和准确方法的需求至关重要。在本文中，我们提出了GPT Reddit数据集（GRiD），这是一种新的生成预训练变换器（GPT）生成的文本检测数据集，旨在评估检测模型在识别ChatGPT生成的响应时的性能。该数据集由基于Reddit的上下文-提示对的各种集合组成，其中包含人工生成和ChatGPT生成的响应。我们分析了数据集的特征，包括语言多样性、上下文复杂性和响应质量。为了展示数据集的实用性，我们在其上对几种检测方法进行了基准测试，证明了它们在区分人类和ChatGPT生成的响应方面的有效性。该数据集是在ChatGPT背景下评估和推进检测技术的资源，有助于确保互联网上负责任和值得信赖的人工智能驱动的通信。最后，我们提出了一种新的基于张量的GPT文本检测方法GpTen，该方法本质上是半监督的，因为它只能访问人工生成的文本，并且性能与完全监督的基线相当。

补充材料

马力7122.mp4

补充视频

英里4

5.3 MB

下载

工具书类

Tom B.Brown等人，2020年。语言模型是少数快速学习者。CoRR，第abs/2005.14165卷（2020年）。showeprint[arXiv]2005年1月4165日谷歌学者
Evan Crothers、Nathalie Japkowicz和Herna Viktor。2023.机器生成文本：威胁模型和检测方法的综合调查。arxiv:2210.07321[cs.CL]谷歌学者
Gisel Bastidas Guacho、Sara Abdali、Neil Shah和Evangelos E.Papalexakis。2018.通过张量嵌入的基于内容的半监督错误信息检测。arxiv:1804.09088[cs.LG]谷歌学者
2019年，齐德·哈伊·亚希亚（Zied Haj-Yahia）、阿德里安·西格（Adrien Sieg）和莱娅·德雷利斯（Léa a Deleris）。利用专家和单词嵌入实现无监督文本分类。在计算语言学协会第57届年会的会议记录中。371--379.谷歌学者交叉引用
凯伦·斯巴克·琼斯。术语特异性的统计解释及其在检索中的应用。《文献学杂志》，第28卷，第1卷（1972年），第11-21页。谷歌学者交叉引用
钱丽、郝鹏、李建新、夏从英、杨仁宇、孙立超、菲利普·S·余和何丽芳。2020年，文本分类调查：从浅层学习到深层学习。CoRR，第abs/2008.00364卷（2020年）。shoveprint[arXiv]2008.00364展示版谷歌学者
塞巴斯蒂安·鲁德（Sebastian Ruder）、马修·彼得斯（Matthew E Peters）、斯瓦巴·斯瓦亚迪普塔（Swabha Swayamdipta）和托马斯·沃尔夫（Thomas Wolf）。2019.自然语言处理中的迁移学习。在NAACL中：教程。15--18.谷歌学者
赵悦、Zain Nasrullah和Zheng Li。2019b。PyOD：用于可伸缩异常检测的Python工具箱。《机器学习研究杂志》，第20、96卷（2019年），1-7。http://jmlr.org/papers/v20/19-011.html谷歌学者
Zhenjie Zhao、Andrew Cattle、Evangelos Papalexakis和Xiaojuan Ma.2019a。通过张量分解嵌入词汇特征，用于小样本幽默识别。在2019年自然语言处理实证方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中。谷歌学者交叉引用

索引术语

GPT生成的文本检测：基准数据集和基于张量的检测方法
1. 信息系统

建议

基于张量的异常检测

传统的基于光谱的方法（如PCA）在各种问题和领域中广泛应用于异常检测。然而，如果数据包括张量（多路）结构（例如时空测量），一些有意义的异常可能仍然不可见。。。
阅读更多信息
单变量时间序列的离群/异常检测：数据集收集和基准
大数据分析和知识发现
摘要
在本文中，我们提供了大量的离群值/异常检测任务，以从给定的时间序列数据集中识别异常序列。本文基于流行的UCR时间序列分类档案。除了。。。
阅读更多信息
深度神经网络未知检测能力的统一基准
摘要
深度神经网络在各种任务中都取得了卓越的性能，但它们有一个关键问题：即使对完全未知的样本也过于自信。已提出许多研究，以成功筛选出。。。
集锦
- 提出了一种未知检测任务来评估神经网络的检测能力。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
WWW’24：ACM 2024年网络会议相关会议记录
2024年5月
1928页
国际标准图书编号：9798400701726
内政部：10.1145/3589335
总主席：
大圣蔡
新加坡国立大学
,
Chong-Wah Ngo村
新加坡管理大学
,
会议主席：
罗伊·卡韦·李
新加坡科技与设计大学
,
课程主席：
拉维库玛
谷歌
,
哈迪·W·劳
新加坡管理大学
版权所有©2024所有者/作者
本作品根据Creative Commons Attribution International 4.0许可证授权。
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2024年5月13日
检查更新
作者标记
基准数据集
gpt-文本检测
分布外检测
半监督的
张量分解
限定符
- 短纸
会议

接受率
总体验收率1,899属于8,196提交文件，23%
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 50
  总下载次数
- 下载次数（过去12个月）50
- 下载次数（最近6周）50
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

GPT生成的文本检测：基准数据集和基于张量的检测方法

WWW’24：2024年ACM网络会议配套论文集

摘要

补充材料

工具书类

引用人

索引术语

建议

基于张量的异常检测

单变量时间序列的离群/异常检测：数据集收集和基准

深度神经网络未知检测能力的统一基准

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

GPT生成的文本检测：基准数据集和基于张量的检测方法

WWW’24：2024年ACM网络会议配套论文集

摘要

补充材料

工具书类

引用人

索引术语

建议

基于张量的异常检测

单变量时间序列的离群/异常检测：数据集收集和基准

深度神经网络未知检测能力的统一基准

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享