第条

语义语音编辑

作者：
史蒂夫·惠塔克

英国谢菲尔德谢菲尔德大学

英国谢菲尔德谢菲尔德大学
查看个人资料

,
布莱恩·阿蒙托

AT&T实验室-研究，新泽西州弗洛勒姆公园

AT&T实验室-研究，新泽西州弗洛勒姆公园
查看个人资料

作者信息和声明

CHI'04：SIGCHI计算机系统人为因素会议记录2004年4月第527-534页https://doi.org/10.1145/985692.985759

出版：2004年4月25日出版历史

CHI'04：SIGCHI计算机系统人为因素会议记录

第527-534页

摘要

编辑语音数据目前既耗时又容易出错。语音编辑器依赖声波波形表示，这迫使用户反复对潜在语音进行采样，以识别要编辑的单词和短语。相反，我们开发了一个语义编辑器，通过提供对含义的访问，减少了大量采样的需要。编辑器显示了通过对原始语音应用自动语音识别（ASR）生成的时间对齐的错误文本。用户通过视觉扫描笔录中的单词来识别重要短语。然后，他们使用标准的文字处理“剪切和粘贴”操作直接编辑抄本，这些操作提取相应的时间对齐语音。ASR错误意味着用户必须通过访问原始语音来补充他们在抄本中读到的内容。然而，即使存在笔录错误，语义表示仍然为用户提供了足够的信息来确定他们编辑和播放的内容，从而减少了大量采样的需要。实验室评估表明，即使ASR高度不准确，语义编辑也比声学编辑更有效。

工具书类

Arons，B.SpeechSkimmer：一个交互式浏览录制语音的系统。美国计算机学会人机交互学报，4（1），38，1997。谷歌学者数字图书馆
Bacchiani，M.、Hirschberg，J.、Rosenberg，A.、Whittaker，S.、Hindle，D.、Isenhour，P.、Jones，M.，Stark，L.和Zamchick，G.SCANMail:语音邮件域中的音频导航。程序中。2001年人类语言技术讲习班。谷歌学者数字图书馆
Chalfonte，B.、Fish，R.和Kraut，R.表达丰富性。程序中。CHI91，21-261991年。谷歌学者数字图书馆
Degen，L.、Mander，R.和Salomon，G.使用音频。程序中。CHI92，413-418，1992年。谷歌学者数字图书馆
Goldwave数字音频编辑器。网址：http://www.goldwave.com/谷歌学者
Hauptmann，A.和Witbrock，M.Informedia:News-on-Demand Multimedia Information Acquisition and Retrieval，In M.Maybury（Ed.），智能多媒体信息检索，AAAI出版社，213--2391997。谷歌学者数字图书馆
Hindus，D.、Schmandt，C.和Horner，C.捕获、构建和表示无处不在的音频。ACM信息系统交易，1993年11月。谷歌学者数字图书馆
Jones，G.、Foote，J.、Spärck Jones，K.和Young，S.《通过组合多个索引源检索口语文档》，In Proc。SIGIR，30-381996年。谷歌学者数字图书馆
Kazman，R.、Al-Halimi，R.，Hunt，W.和Mantei，M.视频会议索引的四种范式。IEEE多媒体，3（1），63--731996。谷歌学者数字图书馆
Schmandt，C.《智能耳朵：数字音频的图形界面》，《IEEE国际控制论与社会会议论文集》，IEEE，佐治亚州亚特兰大，1981年。谷歌学者
Stifelman，L.、Arons，B.和Schmandt，C.有声笔记本：纸和笔与结构化语音的交互。程序中。CHI2001182--1892001。谷歌学者数字图书馆
Whittaker，S.、Davies，R.、Hirschberg，J.和Muller，U.Jotmail：一个语音邮件界面，可以让你看到所说的内容。在CHI2000人机交互会议论文集，89-96。纽约：ACM出版社，2000年。谷歌学者数字图书馆
Whittaker，S.、Hirschberg，J.、Amento，B.、Stark，L.、Bacchiani，M.、Isenhour，P.、Stead，L.，Zamchick G.和Rosenberg，A.SCANMail：语音邮件界面，使语音可浏览、可读和搜索。《CHI2002年会议记录》，纽约：ACM出版社，275-2822002年。谷歌学者数字图书馆
Whittaker，S.、Hirschberg，J.和Nakatani，C.H.所有谈话和所有行动：管理语音邮件信息的策略。《CHI98人机交互会议论文集》，纽约：ACM出版社，1998年。谷歌学者数字图书馆
Whittaker，S.、Hirschberg，J.、Choi，J.，Hindle，D.、Pereira，F.和Singhal，A.SCAN：设计和评估用户界面以支持从语音档案检索。程序中。SIGIR99，26-33，纽约：ACM出版社，1998年。谷歌学者数字图书馆
Whittaker，S.、Hyland，P.和Wiley。M.Filochat：手写便笺可以访问录制的对话。程序中。CHI94人机交互会议，271--277。纽约：ACM出版社，1994年。谷歌学者数字图书馆
Wilcox，L.Chen，F.，Kimber D.和Balasubramanian，V.使用说话人识别进行语音分割。程序。1994年国际声学语音和信号处理会议。谷歌学者交叉引用

语义语音编辑
1. 以人为中心的计算

建议

基于HMM的语音识别和自适应合成系统用于发音困难者的语音输入输出通信

构音障碍是一种运动性言语障碍，导致无法控制和协调一个或多个发音器。这使得构音障碍的说话者很难说出特定的语音单元，从而产生发音不清晰、含糊不清和。。。
阅读更多信息
用于文本语音系统可懂度评估的自动语音识别
人-人和人-机交互的语言和非语言特征

语音可懂度是评价语音质量的最重要参数。本文提出了一种新的通用语音处理算法的客观可懂度评估方法。它基于自动识别方法。。。
阅读更多信息
基于正则最小方差无失真响应倒谱特征的鲁棒连续语音识别

我们研究了AURORA-4语料库中语音识别系统的低方差和鲁棒性特征。我们建议从正则化MVDR（RMVDR）谱估计中计算倒谱特征，表示为基于RMVDR的倒谱系数（RMCC）特征。A。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
CHI'04：SIGCHI计算机系统人为因素会议记录
2004年4月
742页
国际标准图书编号：1581137028
内政部：10.1145/985692
会议主席：
伊丽莎白·戴克斯特拉·埃里克森
基诺马
,
曼弗雷德·切利吉
CURE，奥地利
版权所有©2004 ACM
允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，但不收取任何费用，前提是复制品的制作或分发不是为了盈利或商业利益，并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。向请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2004年4月25日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
声学表示
语音浏览
语音编辑
语音识别
语音检索
抄本
限定符
- 第条
会议

接受率
总体验收率6,199属于26,314提交文件，24%
即将召开的会议
24岁CHI PLAY

赞助商：

西奇

游戏中的计算机与人类交互年度研讨会

2024年10月14日至17日

坦佩雷，芬兰
资金来源
其他指标
查看文章指标

文章指标
- 28
  引文总数
  查看引文
- 694
  总下载次数
- 下载次数（过去12个月）12
- 下载次数（最近6周）1
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

语义语音编辑

CHI'04：SIGCHI计算机系统人为因素会议记录

摘要

工具书类

引用人

建议

基于HMM的语音识别和自适应合成系统用于发音困难者的语音输入输出通信

用于文本语音系统可懂度评估的自动语音识别

基于正则最小方差无失真响应倒谱特征的鲁棒连续语音识别

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

语义语音编辑

CHI'04：SIGCHI计算机系统人为因素会议记录

摘要

工具书类

引用人

建议

基于HMM的语音识别和自适应合成系统用于发音困难者的语音输入输出通信

用于文本语音系统可懂度评估的自动语音识别

基于正则最小方差无失真响应倒谱特征的鲁棒连续语音识别

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享