跳到主要内容
10.1145/985692.985759acm会议文章/章节视图摘要出版物页面芝加哥会议记录会议集合
第条

语义语音编辑

出版:2004年4月25日出版历史

摘要

编辑语音数据目前既耗时又容易出错。语音编辑器依赖声波波形表示,这迫使用户反复对潜在语音进行采样,以识别要编辑的单词和短语。相反,我们开发了一个语义编辑器,通过提供对含义的访问,减少了大量采样的需要。编辑器显示了通过对原始语音应用自动语音识别(ASR)生成的时间对齐的错误文本。用户通过视觉扫描笔录中的单词来识别重要短语。然后,他们使用标准的文字处理“剪切和粘贴”操作直接编辑抄本,这些操作提取相应的时间对齐语音。ASR错误意味着用户必须通过访问原始语音来补充他们在抄本中读到的内容。然而,即使存在笔录错误,语义表示仍然为用户提供了足够的信息来确定他们编辑和播放的内容,从而减少了大量采样的需要。实验室评估表明,即使ASR高度不准确,语义编辑也比声学编辑更有效。

工具书类

  1. Arons,B.SpeechSkimmer:一个交互式浏览录制语音的系统。美国计算机学会人机交互学报,4(1),38,1997。谷歌学者谷歌学者数字图书馆数字图书馆
  2. Bacchiani,M.、Hirschberg,J.、Rosenberg,A.、Whittaker,S.、Hindle,D.、Isenhour,P.、Jones,M.,Stark,L.和Zamchick,G.SCANMail:语音邮件域中的音频导航。程序中。2001年人类语言技术讲习班。谷歌学者谷歌学者数字图书馆数字图书馆
  3. Chalfonte,B.、Fish,R.和Kraut,R.表达丰富性。程序中。CHI91,21-261991年。谷歌学者谷歌学者数字图书馆数字图书馆
  4. Degen,L.、Mander,R.和Salomon,G.使用音频。程序中。CHI92,413-418,1992年。谷歌学者谷歌学者数字图书馆数字图书馆
  5. Goldwave数字音频编辑器。网址:http://www.goldwave.com/谷歌学者谷歌学者
  6. Hauptmann,A.和Witbrock,M.Informedia:News-on-Demand Multimedia Information Acquisition and Retrieval,In M.Maybury(Ed.),智能多媒体信息检索,AAAI出版社,213--2391997。谷歌学者谷歌学者数字图书馆数字图书馆
  7. Hindus,D.、Schmandt,C.和Horner,C.捕获、构建和表示无处不在的音频。ACM信息系统交易,1993年11月。谷歌学者谷歌学者数字图书馆数字图书馆
  8. Jones,G.、Foote,J.、Spärck Jones,K.和Young,S.《通过组合多个索引源检索口语文档》,In Proc。SIGIR,30-381996年。谷歌学者谷歌学者数字图书馆数字图书馆
  9. Kazman,R.、Al-Halimi,R.,Hunt,W.和Mantei,M.视频会议索引的四种范式。IEEE多媒体,3(1),63--731996。谷歌学者谷歌学者数字图书馆数字图书馆
  10. Schmandt,C.《智能耳朵:数字音频的图形界面》,《IEEE国际控制论与社会会议论文集》,IEEE,佐治亚州亚特兰大,1981年。谷歌学者谷歌学者
  11. Stifelman,L.、Arons,B.和Schmandt,C.有声笔记本:纸和笔与结构化语音的交互。程序中。CHI2001182--1892001。谷歌学者谷歌学者数字图书馆数字图书馆
  12. Whittaker,S.、Davies,R.、Hirschberg,J.和Muller,U.Jotmail:一个语音邮件界面,可以让你看到所说的内容。在CHI2000人机交互会议论文集,89-96。纽约:ACM出版社,2000年。谷歌学者谷歌学者数字图书馆数字图书馆
  13. Whittaker,S.、Hirschberg,J.、Amento,B.、Stark,L.、Bacchiani,M.、Isenhour,P.、Stead,L.,Zamchick G.和Rosenberg,A.SCANMail:语音邮件界面,使语音可浏览、可读和搜索。《CHI2002年会议记录》,纽约:ACM出版社,275-2822002年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. Whittaker,S.、Hirschberg,J.和Nakatani,C.H.所有谈话和所有行动:管理语音邮件信息的策略。《CHI98人机交互会议论文集》,纽约:ACM出版社,1998年。谷歌学者谷歌学者数字图书馆数字图书馆
  15. Whittaker,S.、Hirschberg,J.、Choi,J.,Hindle,D.、Pereira,F.和Singhal,A.SCAN:设计和评估用户界面以支持从语音档案检索。程序中。SIGIR99,26-33,纽约:ACM出版社,1998年。谷歌学者谷歌学者数字图书馆数字图书馆
  16. Whittaker,S.、Hyland,P.和Wiley。M.Filochat:手写便笺可以访问录制的对话。程序中。CHI94人机交互会议,271--277。纽约:ACM出版社,1994年。谷歌学者谷歌学者数字图书馆数字图书馆
  17. Wilcox,L.Chen,F.,Kimber D.和Balasubramanian,V.使用说话人识别进行语音分割。程序。1994年国际声学语音和信号处理会议。谷歌学者谷歌学者交叉引用交叉引用
  1. 语义语音编辑

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM会议
      CHI'04:SIGCHI计算机系统人为因素会议记录
      2004年4月
      742页
      国际标准图书编号:1581137028
      内政部:10.1145/985692

      版权所有©2004 ACM

      允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用,但不收取任何费用,前提是复制品的制作或分发不是为了盈利或商业利益,并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。向请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2004年4月25日

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 第条

      接受率

      总体验收率6,199属于26,314提交文件,24%

      即将召开的会议

      24岁CHI PLAY
      游戏中的计算机与人类交互年度研讨会
      2024年10月14日至17日
      坦佩雷,芬兰

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器