BehanceCC: A ChitChat Detection Dataset For Livestreaming Video Transcripts

Viet Lai; Amir Pouran Ben Veyseh; Franck Dernoncourt; Thien Nguyen

B类ehance公司科科斯群岛：AC类打C类直播视频脚本的帽子检测数据集

越南莱,阿米尔·普兰·本·韦瑟,弗兰克·德农考特,阮志贤（Thien Nguyen）

摘要

直播视频已成为视频共享和教育目的的有效广播方法。然而，直播视频包含大量非主题内容（即高达50%），这给下游应用程序带来了显著的噪音和数据负载。本文介绍了BehanceCC，这是一个新的用于流媒体视频脚本中的非主题检测（也称为聊天检测）的人注释基准数据集。除了描述数据集的挑战外，我们对各种基线的广泛实验揭示了流媒体视频聊天检测的复杂性，并为这项任务提出了潜在的未来研究方向。该数据集将公开，以促进该领域的研究。

选集ID：: 2022.lrec-1.791年
体积：: 第十三届语言资源与评价会议记录
月份：: 六月
年份：: 2022
地址：: 法国马赛
编辑：: 尼科莱塔·卡尔佐拉里,弗雷德里克·贝切特,菲利普·布莱切,哈立德·乔克里,克里斯托弗·西埃里,蒂埃里·德克勒克,萨拉·戈吉,Hitoshi Isahara先生,本特·梅加德,约瑟夫·马里亚尼,赫莱内·马佐,简·奥迪克,Stelios Piperidis公司
地点：: LREC公司
SIG公司：
出版商：: 欧洲语言资源协会
注：
页：: 7284–7290
语言：
网址：: https://aclantology.org/2022.lrec-1.791
内政部：
比比键：
引用（ACL）：: Viet Lai、Amir Pouran Ben Veyseh、Franck Dernoncourt和Thien Nguyen。2022BehanceCC：实时流视频脚本的ChitChat检测数据集.英寸第十三届语言资源与评价会议记录，第7284–7290页，法国马赛。欧洲语言资源协会。
引用（非正式）：: BehanceCC：实时流视频脚本的ChitChat检测数据集（Lai等人，LREC 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.lrec-1.791.pdf

PDF格式引用搜索