跳到主要内容
10.1145/3508398.3519358acm会议文章/章节视图摘要出版物页面鳕鱼会议记录会议集合
海报
公共访问

欺骗会留下与内容无关的风格痕迹吗?

出版:2022年4月15日 出版历史
  • 获取引文警报
  • 摘要

    最近的一项调查表明,欺骗没有一般的语言线索。由于互联网社会充斥着网络钓鱼和假新闻等欺骗性攻击,这一说法意味着我们必须为每种攻击建立单独的数据集和检测器。它还意味着,当新的骗局(例如Covid)到来时,我们必须从头开始数据收集、注释和模型构建的整个过程。在本文中,我们通过构建一个高质量的域相关欺骗数据集并研究一个模型是否能够在多种形式的欺骗上表现良好来验证这一说法。

    补充材料

    MP4文件 (CODASPY22-codasp12.mp4)
    我们收集了五组不同形式欺骗的数据集。我们手动检查了它们的数据质量问题,并以标准格式生成了清理过的版本。我们训练了单任务和多任务基线模型,并评估了它们在所有任务中的性能。我们发现,某些形式的欺骗,即产品评论和政治声明,比其他形式的欺骗更难,并且深度学习模型可以学习多种形式的欺骗而性能下降最小。

    工具书类

    [1]
    塔里克·阿林迪(Tariq Alhindi)、萨瓦斯·佩特里迪斯(Savvas Petridis)和斯玛兰达·穆雷桑(Smaranda Muresan)。2018.你的证据在哪里:通过论证模型改进事实核查。在关于事实提取和验证(发热)的第一次研讨会的会议记录中。85--90.
    [2]
    雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。2019.BERT:深度双向变形金刚语言理解预培训。程序中。2019年NAACL会议:HLT,第1卷。4171--4186.
    [3]
    T.Gröndahl和N.Asokan。2019.对手情境下的文本分析:欺骗是否留下了文体痕迹?ACM计算。Surv公司。52,3(2019年6月),36页。
    [4]
    安杰尔·埃尔南德斯·卡斯塔涅达(Angel Hernández-Castañeda)、希拉姆·卡尔沃(Hiram Calvo)、亚历山大·盖尔布赫(Alexander F.Gelbukh)和豪尔赫·加西亚·弗洛雷斯(Jorge J.García Flores)。2017.使用支持向量网络的跨域欺骗检测。软计算。21, 3 (2017), 585--595.
    [5]
    Y.Liu、M.Ott、N.Goyal、J.Du、M.Joshi、D.Chen、O.Levy、M.Lewis、L.Zettlemoyer和V.Stoyanov。2019.罗伯塔:一种稳健优化的伯特预训练方法。arXiv预印本arXiv:1907.11692(2019)。
    [6]
    Curtis G Northcutt、Anish Athalye和Jonas Mueller。2021.测试集中普遍存在的标签错误会破坏机器学习基准的稳定性。arXiv预打印arXiv:2103.14749(2021)。
    [7]
    Curtis G.Northcutt、Lu Jiang和Isaac L.Chuang。2021.自信学习:估计数据集标签的不确定性。JAIR 70(2021年),1373年至1411年。
    [8]
    罗德里戈·里尔·加西亚(Rodrigo Rill-Garcia)、路易斯·维拉塞尼奥·皮内达(Luis Villaseñor Pineda)、维罗尼卡·雷耶斯·梅扎(Verónica Reyes-Meza)和雨果·杰尔·埃斯卡兰特(Hugo Jair Escalante)。2018.从文本到语音:用于欺骗检测的多模态跨域方法。模式识别和信息取证——2018年ICPR国际研讨会、CVAUI、IWCF和MIPPSNA。164--177.
    [9]
    哈维尔·桑切斯·琼奎拉(Javier Sánchez-Junquera)、路易斯·维拉塞尼奥·皮内达(Luis Villaseñor Pineda)、曼努埃尔·蒙特斯-y-戈麦斯(Manuel Montes-y-Gómez)、保罗·罗索(Paolo Rosso)和埃夫斯塔蒂奥斯·。2020年。为跨域欺骗检测屏蔽特定于域的信息。模式识别器。莱特。135 (2020), 122--130.
    [10]
    伊恩·坦尼(Ian Tenney)、詹姆斯·韦克斯勒(James Wexler)、贾斯米恩·巴斯廷斯(Jasmijn Bastings)、托尔加·博鲁巴西(Tolga Bolukbasi)、安迪·科宁(Andy Coenen)、塞巴斯蒂安·盖尔曼(Sebastian Gehrmann)、江爱伦(Ellen Jiang)、马。2020年。语言可解释性工具:NLP模型的可扩展交互式可视化和分析。,107-118页。
    [11]
    Pawan Kumar Verma、Pratek Agrawal和Radu Prodan。2021.WELFake数据集用于文本数据中的假新闻检测。https://doi.org/10.5281/zenodo.4561253
    [12]
    Rakesh M Verma、Victor Zeng和Houtan Faridi。2019.应对安全挑战的数据质量:钓鱼、恶意软件和入侵检测数据集的案例研究。程序中。ACM SIGSAC计算机与通信安全会议。2605--2607.
    [13]
    Sokratis Vidros、Constantinos Kolias、Georgios Kambourakis和Leman Akoglu。2017.在线招聘欺诈的自动检测:特征、方法和公共数据集。未来互联网9,1(2017)。
    [14]
    Victor Zeng、Shahryar Baki、Ayman El Aassal、Rakesh Verma、Luis Felipe Teixeira De Moraes和Avisha Das。2020年。网络钓鱼的多样化数据集和可定制基准框架。程序中。第六届IWSPA(美国洛杉矶新奥尔良)(IWSPA’20)。ACM,美国纽约州纽约市,35-41。

    引用人

    查看全部
    • (2024)用于可解释的少快照欺骗检测的LLM第十届ACM安全与隐私分析国际研讨会会议记录10.1145/3643651.3659898(37-47)在线发布日期:2024年6月21日
    • (2024)独立于领域的欺骗检测:特征集、LIWC效能和合成数据挑战第十届ACM安全与隐私分析国际研讨会会议记录10.1145/3643651.3659895(59-68)在线发布日期:2024年6月21日
    • (2024)NLP中的数据质量:度量和综合分类智能数据分析进展二十二10.1007/978-3-031-58547-0_18(217-229)在线发布日期:2024年4月16日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    CODASPY’22:第十二届ACM数据和应用程序安全与隐私会议记录
    2022年4月
    392页
    国际标准图书编号:9781450392204
    内政部:10.1145/3508398
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的部分或全部数字或硬拷贝以供个人或课堂使用。必须尊重本作品第三方组件的版权。对于所有其他用途,请联系所有者/作者。

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2022年4月15日

    检查更新

    作者标记

    1. 数据集质量/清理
    2. 域相关欺骗检测

    限定符

    • 海报

    资金来源

    会议

    22年的鳕鱼
    赞助商:
    CODASPY'22:第二十届ACM数据和应用程序安全与隐私会议
    2022年4月24日至27日
    美国巴尔的摩医学博士

    接受率

    789份提交文件中的总体接受率149份,19%

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)144
    • 下载次数(最近6周)8
    反映截至2024年7月29日的下载量

    其他指标

    引文

    引用人

    查看全部
    • (2024)用于可解释的少快照欺骗检测的LLM第十届ACM安全与隐私分析国际研讨会会议记录10.1145/3643651.3659898(37-47)在线发布日期:2024年6月21日
    • (2024)独立于领域的欺骗检测:特征集、LIWC效能和合成数据挑战第十届ACM安全与隐私分析国际研讨会会议记录10.1145/3643651.3659895(59-68)在线发布日期:2024年6月21日
    • (2024)NLP中的数据质量:度量和综合分类智能数据分析进展二十二10.1007/978-3-031-58547-0_18(217-229)在线发布日期:2024年4月16日
    • (2023)打击工作场所的虚假新闻和数字欺骗:未来研究的综合回顾和开放系统理论导向框架IIM Kozhikode Society&Management Review公司10.1177/22779752231163360(227797522311633)在线发布日期:2023年3月28日
    • (2023)MFIR公司信息融合2016年10月10日/j.inffus.2023.101944100:C在线发布日期:2023年12月1日
    • (2022)域相关欺骗检测的数据质量和语言线索2022年IEEE/ACM大数据计算、应用和技术国际会议(BDCAT)10.1109/BDCAT56447.2022.00042(248-258)在线发布日期:2022年12月

    视图选项

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    份额

    份额

    共享此出版物链接

    在社交媒体上分享