LRW、LRS2和LRS3是从在野外视频。
600万+
800 +
5,000 +
数据集由两个版本组成,LRW和LRS2。每个版本都有自己的训练/测试划分。对于每一个,我们都提供了裁剪的人脸轨迹和相应的字幕。这两个版本之间没有重叠。
多达1000个500个不同单词的话语
来自英国电视台的1000条自然语句
TED和TEDx视频中的1000个自然句子
@诉讼中{Chung16,author=“Chung,J.~S.和Zisserman,A.”,title=“野外唇读”,booktitle=“亚洲计算机视觉会议”,year=“2016”,}
@诉讼中{Chung17,author=“Chung,J.~S.和Senior,A.,以及Vinyals,O.和Zisserman,A.”,title=“狂野中的唇读句子”,booktitle=“IEEE计算机视觉和模式识别会议”,year=“2017”,}
@诉讼{Chung17a,author=“Chung,J.~S.和Zisserman,A.”,title=“侧面唇读”,booktitle=“英国机器视觉会议”,year=“2017”,}
视听数据集可用于多种应用,包括: