计算机应用››2021,第41卷››问题(3): 694-698.DOI(操作界面):10.11772/j.issn.1001-9081.2020060798

所属专题:人工智能

• 人工智能 • 上一篇   下一篇

连续手语识别中的文本纠正和补全方法

龙广玉1,陈益强1,2,邢云冰2  

  1. 1湘潭大学 计算机学院·网络空间安全学院, 湖南 湘潭 411105;
    2中国科学院 计算技术研究所, 北京 100190
  • 收稿日期:2020-06-11 修回日期:2020-10-20 出版日期:2021-03-10 发布日期:2020-12-22
  • 通讯作者:陈益强
  • 作者简介:龙广玉(1995-),女,广西宜州人,硕士研究生,共因失效会员,主要研究方向:自然语言处理、数据挖掘;陈益强(1973-),男,湖南湘潭人,研究员,博士,共因失效杰出会员,主要研究方向:泛在计算、可穿戴计算、智能人机交互;邢云冰(1982-),男,河北张家口人,高级工程师,硕士,主要研究方向:手语交互、感知计算、健康监护。
  • 基金资助:
    国家重点研发计划项目(2018YFC2002603)

连续手语识别中的文本校正与补全方法

龙光裕1,陈一强1,2,邢云兵2  

  1. 1.湘潭大学计算机科学学院和网络科学学院,湖南湘潭411105,中国;
    2.中国科学院计算技术研究所,北京100190
  • 收到:2020-06-11 修订过的:2020-10-20 在线:2021-03-10 出版:2020-12-22
  • 支持单位:
    这项工作得到了国家重点研发计划(2018YFC2002603)的部分支持。

摘要:针对基于视频的连续手语识别的文本结果存在语义模糊、语序混乱的问题,提出一种两步法将连续手语识别结果的手语文本转化为通顺、可懂的汉语文本。第一步,基于自然手语规则以及N个元语言模型N个-克)对连续手语识别的结果进行文本调序;第二步,利用汉语通用量词数据集训练双向长短期记忆(双-LSTM)网络模型,以解决手语语法无量词的问题,从而提升语句通顺度。使用绝对准确率和最长正确子序列占比作为文本调序的评价指标,实验结果显示,所提方法的文本调序结果绝对准确率为77.06%,最长正确子序列占比为86.55%,量词补全准确率为97.23%。所提的方法能够有效提升连续手语识别的文本结果的通畅度和可懂度,已成功应用于基于视频的连续手语识别,提升了听障人和健听人的无障碍交流体验。

关键词: 连续手语识别, N个元语言模型, 文本调序, 双向长短记忆网络, 量词补全

摘要:针对基于视频的连续手语识别的文本结果存在语义歧义和语序混乱的问题,提出了一种两步方法,将连续手语辨识结果的手语文本转换为流畅易懂的中文文本。在第一步中,自然手语规则和N个-gram语言模型(N个-gram)用于对连续手语识别结果进行文本排序。第二步,利用汉语通用量词数据集训练双向长短期记忆(Bi-LSTM)网络模型,解决手语语法中的无量词问题,以提高文本的流畅性。采用绝对准确度和最长正确子序列的比例作为文本排序的评价指标。实验结果表明,该方法的文本排序结果具有77.06%的绝对准确度,86.55%的最大正确子序列比例,量词完成的准确率为97.23%。该方法可以有效地提高连续手语识别文本结果的平滑度和可理解性。它已成功应用于基于视频的连续手语识别,改善了听力障碍者和正常人之间的无障碍交流体验。

关键词: 持续手语识别, N个-gram语言模型, 文本排序, 双向长短期存储器(Bi-LSTM)网络, 量词补全

中图分类号: