带风格的语音翻译:A类聚丙烯T型ek向IWSLT公司2023年字幕和形式跟踪

帕尼娅·巴哈尔,帕特里克·威尔肯,哈维尔·伊兰佐·桑切斯,马蒂亚·迪·甘吉,叶夫根尼·马图索夫,佐尔坦·图斯克


摘要
AppTek参与了IWSLT 2023评估的字幕和形式跟踪。本文详细介绍了我们的字幕管道——语音分割、语音识别、标点预测和反向文本规范化、文本机器翻译和直接语音到文本翻译、智能行分割——以及我们如何在训练和微调中利用所提供的字幕特定数据。评估结果表明,我们的最终提交文件具有竞争力,特别是以SubER字幕质量指标衡量,比其他参与者提交的文件高出5%的绝对值。对于形式化轨道,我们参与了En-Ru和En-Pt生产模型,它们通过前缀令牌支持形式化控制。除非正式葡萄牙语外,我们在提供高质量的一般翻译的同时,还实现了近乎完美的形式级准确性。
选集ID:
2023.iwslt-1.22年
体积:
第20届国际口语翻译大会(IWSLT 2023)会议记录
月份:
七月
年份:
2023
地址:
加拿大多伦多(现场和在线)
编辑:
伊丽莎白·塞尔斯基,马塞洛·费德里科,海洋木瓜
地点:
IWSLT公司
SIG公司:
SIGSLT公司
出版商:
计算语言学协会
注:
页:
251–260
语言:
网址:
https://aclantology.org/2023.iwslt-1.22
内政部:
10.18653/v1/2023.iwslt-1.22
比比键:
引用(ACL):
帕尼娅·巴哈尔(Parnia Bahar)、帕特里克·威尔肯(Patrick Wilken)、哈维尔·伊兰佐·桑切斯(Javier Iranzo-Sánchez)、马蒂亚·迪甘吉(Mattia Di Gangi)、埃夫根尼·马图索夫(Evgeny Matusov)和佐尔。2023语言风格翻译:AppTek于2023年提交给IWSLT字幕和正式轨道.英寸第20届国际口语翻译大会(IWSLT 2023)会议记录,第251-260页,加拿大多伦多(同人和在线)。计算语言学协会。
引用(非正式):
语言风格翻译:AppTek于2023年提交给IWSLT字幕和正式轨道(Bahar等人,IWSLT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.iwslt-1.22.pdf