研究论文

使用语言、视觉和行为解释自然语言指令

作者：
卢西亚娜·贝诺蒂

阿根廷科尔多瓦国立大学/阿根廷CONICET

阿根廷科尔多瓦国立大学/阿根廷CONICET
查看配置文件

，
刘泰莎

美国加利福尼亚州桑尼维尔Savioke公司

美国加利福尼亚州桑尼维尔Savioke公司
查看配置文件

，
马丁·维拉尔巴

德国波茨坦大学/阿根廷科尔多瓦国立大学

德国波茨坦大学/阿根廷科尔多瓦国立大学
查看配置文件

作者信息和声明

交互式智能系统ACM事务第4卷第3版条款编号：13第1-22页https://doi.org/10.1145/2629632

出版：2014年8月11日出版历史

交互式智能系统ACM事务

摘要

我们将自动指令解释问题定义如下。给定一条自然语言指令，我们能自动预测指令跟随者（如机器人）在环境中应该执行什么指令吗？以前的自动指令解释方法需要大量依赖域的规则编写或大量手动注释的语料库。本文提出了一种新的方法，它利用了大量未标注的、易于收集的数据，这些数据来自于在类似游戏的环境中进行交互的人类。我们的方法使用基于人工智能规划的自动标注阶段，对两种不同的标注策略进行了比较：一种基于行为信息，另一种基于可见性信息。生成的注释用作不同自动分类器的训练数据。该算法基于这样一种直觉，即解释情境指令的问题可以归结为一个分类问题，即在情境中选择可能的动作。分类是通过结合语言、视觉和行为信息来完成的。我们的实证分析表明，机器学习分类器在现有英语语料库上的准确率达到77%，在类似的德语语料库中达到74%。最后，在口译过程中加入人工反馈可以将英语语料库的表现提高到92%，将德语语料库提高到90%。

工具书类

尤夫·阿尔茨和卢克·泽特莫耶。2011.从对话中引导语义分析器。在《自然语言处理中的经验方法会议论文集》（EMNLP’11）中。计算语言学协会，宾夕法尼亚州斯特鲁兹堡，421-432。http://dl.acm.org/引文.cfm&quest;编号：2145432.2145481谷歌学者数字图书馆
卢西亚娜·贝诺蒂。2009年，Frolog：一款可调节的文字冒险游戏。计算语言学协会欧洲分会第十二届会议记录：演示会（EACL'09）。计算语言学协会，宾夕法尼亚州斯特鲁兹堡，1-4。谷歌学者数字图书馆
卢西亚娜·贝诺蒂和亚历山大·丹尼斯。2011年，从人类语料库中原型化虚拟教员。在计算语言学协会第49届年会论文集：人类语言技术：系统演示（ACL’11）。计算机语言学协会，宾夕法尼亚州斯特劳德斯堡，62-67。谷歌学者数字图书馆
卢西亚娜·贝诺蒂（Luciana Benotti）、马丁·维拉尔巴（Martin Villalba）、特莎·刘和朱利安·塞鲁蒂（Julian Cerruti）。2012.虚拟环境中基于Corpus的指令解释。计算语言学协会第50届年会论文集（第2卷：短文）。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，181-186。http://www.aclweb.org/antology/P12-2036谷歌学者数字图书馆
布莱·博内和赫克特·杰夫纳。mGPT：基于启发式搜索的概率规划器。《人工智能研究杂志》24，1933--944。谷歌学者数字图书馆
Satchuthanthavale R.K.Branavan、Harr Chen、Luke Zettlemoyer和Regina Barzilay。2009.强化学习，将指令映射到行动。在计算语言学协会第47届年会和第四届国际自然语言处理联合会议（ACL-IJNLP'09）的会议记录中。计算语言学协会，宾夕法尼亚州斯特劳兹堡，82-90。谷歌学者数字图书馆
让·卡莱塔。1996.评估分类任务的一致性：kappa统计。计算语言学22，2，249--254。谷歌学者数字图书馆
Chih-Chung Chang和Chih-Jen Lin.2011年。LIBSVM：支持向量机库。ACM智能系统与技术汇刊2，3，27:1--27:27。软件可在http://www.csie.ntu.edu.tw/&sim;cjlin/libsvm。谷歌学者数字图书馆
大卫·L·陈。2012.从模糊感知语境中学习语言。博士论文。德克萨斯大学奥斯汀分校。谷歌学者
David L.Chen、Joohyun Kim和Raymond J.Mooney。2010年，培训一名多语言体育播音员：利用感知语境学习语言。《人工智能研究杂志》37，1397--436。http://dl.acm.org/引文.cfm&quest;编号：1861751.1861761谷歌学者数字图书馆
David L.Chen和Raymond J.Mooney。2011.学习从观察中解读自然语言导航说明。第25届人工智能会议记录（AAAI'11）859-865。谷歌学者
索尼娅·切尔诺娃（Sonia Chernova）、尼克·德帕尔玛（Nick DePalma）和辛西娅·布雷泽尔（Cynthia Breazeal）。2011年。通过在线多人游戏众包真实世界的人机对话和团队合作。AI杂志32，4，100--111。谷歌学者数字图书馆
赫伯特·H·克拉克，1996年。使用语言。剑桥大学出版社。谷歌学者
科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。1995年，支持向量网络。机器学习20，3，273--297。谷歌学者数字图书馆
Heriberto Cuayáhuitl和Nina Dethlefs。2011.使用分层强化学习的空间软件对话控制。ACM语音和语言处理汇刊7，3，5:1--5:26。谷歌学者数字图书馆
Myroslava O.Dzikovska、James F.Allen和Mary D.Swift。2008.在多领域对话系统中链接语义和知识表示。逻辑与计算杂志18，3，405--430。谷歌学者数字图书馆
乔·加马、拉奎尔·塞巴斯蒂昂和佩德罗·佩雷拉·罗德里格斯。2009年，流学习算法评估问题。在第15届ACM知识发现和数据挖掘国际会议论文集（KDD'09）上。ACM，纽约州纽约市，329--338。内政部：http://dx.doi.org/10.1145/1557019.1557060谷歌学者数字图书馆
安德鲁·加格特、康斯坦蒂娜·加鲁菲、亚历山大·科勒和克里斯蒂娜·斯特里格尼茨。2010年，虚拟环境中给出指令的GIVE-2语料库。第七届国际语言资源与评价会议（LREC’10）会议记录。谷歌学者
詹姆斯·吉布森。1979.视觉感知的生态学方法。霍顿·米夫林。谷歌学者
丹·戈德瓦瑟（Dan Goldwasser）、罗伊·赖查特（Roi Reichart）、詹姆斯·克拉克（James Clarke）和丹·罗斯（Dan Roth）。2011.信心驱动的无监督语义分析。《计算语言学协会第49届年会论文集：人类语言技术》（ACL-HLT’11）。计算语言学协会，宾夕法尼亚州斯特鲁兹堡，1486-1495年。http://dl.acm.org/引文.cfm&quest;编号：2002472.2002653谷歌学者数字图书馆
彼得·戈尔尼亚克和德布·罗伊。2007.将语言理解视为过滤感知到的启示。认知科学31，2，197--231。谷歌学者
Mark Hall、Eibe Frank、Geoffrey Holmes、Bernhard Pfahringer、Peter Reutemann和Ian H.Witten。2009年，WEKA数据挖掘软件：更新。ACM数据和数据挖掘探索知识发现特别兴趣小组通讯11，1，10--18。内政部：http://dx.doi.org/10.1145/1656274.1656278谷歌学者数字图书馆
约格·霍夫曼（Jörg Hoffmann）。2003.Metric-FF规划系统：将“忽略删除列表”转换为数字状态变量。《人工智能研究杂志》20，291-341。谷歌学者数字图书馆
Bevan Keeley Jones、Mark Johnson和Sharon Goldwater。2012.使用贝叶斯树变换器进行语义分析。计算语言学协会第50届年会论文集：长篇论文（ACL’12）。计算语言学协会，宾夕法尼亚州斯特鲁兹堡，488-496。http://dl.acm.org/引文.cfm&quest;编号=2390524.2390593谷歌学者数字图书馆
托马斯·科勒（Thomas Kollar）、斯蒂芬妮·特莱克斯（Stefanie Tellex）、戴布·罗伊（Deb Roy）和尼古拉斯·罗伊。2010年，旨在理解自然语言方向。第五届ACM/IEEE人机交互国际会议论文集（HRI'10）。加利福尼亚州洛斯阿拉米托斯IEEE，259--266。谷歌学者数字图书馆
亚历山大·科勒（Alexander Koller）、拉尔夫·德彪斯曼（Ralph Debusmann）、马尔特·加布斯迪尔（Malte Gabsdil）和克里斯蒂娜·斯特里格尼茨（Kristina Striegnitz）。2004.把我的galakmid硬币放进自动售货机并踢它：计算机游戏中的计算语言学和定理证明。《逻辑、语言和信息杂志》13，2，187--206。谷歌学者数字图书馆
Alexander Koller、Kristina Striegnitz、Andrew Gargett、Donna Byron、Justine Cassell、Robert Dale、Johanna Moore和Jon Oberlander。2010年，关于在虚拟环境中生成指令的第二个挑战的报告（GIVE-2）。第六届国际自然语言生成大会（INLG'10）会议记录。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，243-250。谷歌学者数字图书馆
Tom Kwiatkowski、Luke Zettlemoyer、Sharon Goldwater和Mark Steedman。2010.通过高阶统一从逻辑形式中归纳概率CCG文法。《2010年自然语言处理实证方法会议论文集》（EMNLP’10）。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，1223-1233。http://dl.acm.org/引文.cfm&quest;id=1870658.1870777谷歌学者数字图书馆
Tessa Lau、Julian Cerruti、Guillermo Manzato、Mateo Bengualid、Jeffrey P.Bigham和Jeffrey-Nichols。2010年。Web自动化的对话界面。第23届ACM用户不完善软件和技术年度研讨会（UIST'10）论文集。ACM，纽约州纽约市，229--238。内政部：http://dx.doi.org/10.1145/1866029.1866067谷歌学者数字图书馆
Tessa Lau、Clemens Drews和Jeffrey Nichols。2009年。解释书面操作说明。《第21届国际人工智能联合会议论文集》（IJCAI'09）。摩根·考夫曼，加利福尼亚州旧金山，1433-1438。谷歌学者数字图书馆
安东·卢斯基（Anton Leuski）、卡斯滕·艾克霍夫（Carsten Eickhoff）、詹姆斯·加尼斯（James Ganis）和维克托·拉夫伦科（Victor Lavrenko）。2012.BladeMistress语料库：从虚拟世界中的对话到行动。第八届国际语言资源与评价会议（LREC’12）论文集。欧洲语言资源协会，土耳其伊斯坦布尔，4060-4067。谷歌学者
弗拉基米尔·列文斯坦（Vladimir Levenshtein）。1966.能够纠正删除、插入和反转的二进制代码。控制论与控制理论10，8707-710。谷歌学者
Percy Liang、Michael Jordan和Dan Klein。2013.学习基于依赖的合成语义。计算语言学39，2，398--446。谷歌学者数字图书馆
马特·麦克马洪（Matt MacMahon）、布莱恩·斯坦基维茨（Brian Stankiewicz）和本杰明·库珀斯（Benjamin Kuipers）。2006.言行一致：在路线指示中连接语言、知识和行动。第21届全国人工智能会议论文集——第2卷（AAAI'06）。1475--1482.谷歌学者数字图书馆
辛西娅·马图泽克（Cynthia Matuszek）、迪特尔·福克斯（Dieter Fox）和卡尔·科舍尔（Karl Koscher）。2010年。使用统计机器翻译遵循指示。第五届ACM/IEEE人机交互国际会议论文集（HRI'10）。ACM，纽约州纽约市，251-258。谷歌学者数字图书馆
Sreerama K.Murthy。1998年，根据数据自动构建决策树：一项多学科调查。数据挖掘和知识发现2，4，345--389。谷歌学者数字图书馆
达纳·瑙（Dana Nau）、马利克·加拉布（Malik Ghallab）和保罗·特拉维索（Paolo Traverso）。自动规划：理论与实践。Morgan Kaufmann，加利福尼亚州旧金山。谷歌学者数字图书馆
Masoud Nikravesh、Tomohiro Takagi、Masanori Tajima、Akiyoshi Shinmura、Ryosuke Ohgaya、Koji Taniguchi、Kazuyosi Kawahara、Kouta Fukano和Akiko Aizawa。2005.基于感知的决策处理和分析的软计算：基于Web的BISC-DSS。在信息处理和分析的软计算方面，Masoud Nikravesh、Lotfi Zadeh和Janusz Kacprzyk（编辑）。模糊性和软计算研究，第164卷。施普林格，93-188。谷歌学者
杰夫·奥金和黛勃·罗伊。2009年，从人类集体游戏中自动学习和生成社会行为。第八届自治代理和多代理系统国际会议论文集——第1卷。385--392.谷歌学者数字图书馆
杰夫·奥金和黛勃·罗伊。2007年，餐厅游戏：从成千上万的在线玩家那里学习社交行为和语言。游戏开发杂志3，1，39--60。谷歌学者
Kishore Papineni、Salim Roukos、Todd Ward和Wei-Jing Zhu。2002.BLEU：机器翻译的自动评估方法。第40届计算语言学协会年会会议记录（ACL'02）。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，311-318。内政部：http://dx.doi.org/10.115/1073083.1073135谷歌学者数字图书馆
马修·普弗。2004年，对话中澄清请求的理论和使用。博士论文。伦敦大学国王学院。http://www.dcs.qmul.ac.uk/&sim;mpurver/papers/purver04thesis.pdf。谷歌学者
维伦娜·里瑟和奥利弗·莱蒙。2010年，学习人类多模态对话策略。自然语言工程16，1，3--23。谷歌学者数字图书馆
Sharon Gower Small、Jennifer Stromer-Galley和Tomek Strzalkowski。2011年，《第二人生》中任务游戏的多模式注释。计算语言学协会第49届年会会议记录：人类语言技术第1卷（ACL-HLT’11）。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，171-179。http://dl.acm.org/引文.cfm&quest;编号：2002472.2002495谷歌学者数字图书馆
劳拉·斯托亚（Laura Stoia）、唐娜·拜伦（Donna K.Byron）、达拉·玛格达琳·肖克利（Darla Magdalene Shockley）和埃里克·福斯勒·卢西尔（Eric Fosler-Lussier）。2006年。实时导航指令的语句规划。NAACL人类语言技术会议论文集，配套卷：短篇论文（NAACL-Short'06）。计算语言学协会，宾夕法尼亚州斯特劳德斯堡，157-160。谷歌学者数字图书馆
亚当·沃格尔和丹·朱拉夫斯基。2010年。学习遵循导航方向。计算语言学协会（ACL’10）第48届年会会议记录。计算语言学协会，宾夕法尼亚州斯特鲁兹堡，806-814。谷歌学者数字图书馆
Jason D.Williams和Steve Young。2007.口语对话系统的部分可观察马尔可夫决策过程。计算机语音和语言21，2，393--422。内政部：http://dx.doi.org/10.1016/j.csl.2006.06.008谷歌学者数字图书馆
特里·温诺格拉德。1972.理解自然语言。学术出版社，纽约州纽约市。谷歌学者数字图书馆

索引术语

使用语言、视觉和行为解释自然语言指令
1. 计算方法
  1. 人工智能
    1. 自然语言处理

建议

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于
交互式智能系统ACM事务第4卷第3期
交互式系统和机器人中多模式专题
2014年10月
115页
国际标准编号：2160-6455年
EISSN公司：2160-6463
内政部：10.1145/2660857
编辑：
安东尼·詹姆逊
德国人工智能研究中心（DFKI），德国
，
日什托夫·加若斯
美国哈佛大学。
期刊目录
版权所有©2014 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。向请求权限[电子邮件保护]
赞助商
合作中
发布者
计算机协会
美国纽约州纽约市
出版历史
- 出版：2014年8月11日
- 认可的：2014年4月1日
- 修订过的：2014年3月1日
- 收到时间：2013年3月1日
发布于提斯第4卷第3期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
自然语言解释
动作识别
多模态理解
位置虚拟代理
无监督学习
视觉反馈
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 4
  引文总数
  查看引文
- 286
  总下载次数
- 下载次数（过去12个月）11
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

使用语言、视觉和行为解释自然语言指令

交互式智能系统ACM事务

摘要

工具书类

引用人

索引术语

建议

汉语自然语言处理概论

自然语言歧义消解中与语言无关的最小监督方法

解读自然语言

评论