@正在进行{ahuja-etal-2023-mega,title=“{MEGA}:生成{AI}的多语言评估”,author=“Ahuja、Kabir和迪迪、哈希塔和哈达、里沙夫和Ochieng、Millicent和Ramesh、Krithika和Jain、Prachi和Nambi、Akshay和Ganu、Tanuja和Segal、Sameer和艾哈迈德、穆罕默德和巴厘岛、卡利卡岛和Sunayana Sitaram“,editor=“Bouamor、Houda和皮诺、胡安和巴厘岛,卡利卡”,booktitle=“2023年自然语言处理实证方法会议记录”,月=12月,年=“2023”,address=“新加坡”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.emnlp-main.258",doi=“10.18653/v1/2023.emnlp-main.258”,pages=“4232--4267”,抽象=“生成性人工智能模型在许多自然语言处理任务(如语言理解、推理和语言生成)中表现出了令人印象深刻的性能。当今人工智能社区提出的一个重要问题是关于这些模型的能力和局限性,很明显,评估生成性人工智是非常具有挑战性的关于生成性LLM的研究仅限于英语,目前尚不清楚这些模型在理解和生成其他语言文本方面的能力。我们提出了生成性LLM的第一个综合基准测试-MEGA,它根据标准NLP基准评估模型,涵盖70种不同类型语言的16个NLP数据集。我们将生成性LLM(包括Chat-GPT和GPT-4)与最新(SOTA)非自回归模型在这些任务上的性能进行比较,以确定生成性模型与前一代LLM相比的性能如何。我们对跨语言和任务的模型性能进行了深入分析,并讨论了在低资源语言上提高生成性LLM性能的挑战。我们创建了一个在多语言环境下评估生成性LLM的框架,并为该领域的未来进展提供了方向。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“ahuja-etal-2023-mega”><标题信息>MEGA:生成性人工智能的多语言评估</titleInfo><name type=“personal”>卡比尔阿胡贾<角色>作者</角色></name><name type=“personal”>哈什塔迪迪<角色>作者</角色></name><name type=“personal”>里沙夫哈达<角色>作者</角色></name><name type=“personal”>Millicent公司奥琴(Ochieng)<角色>作者</角色></name><name type=“personal”>克里蒂卡拉梅什<角色>作者</角色></name><name type=“personal”>普拉奇Jain(Jain)<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Akshay</namePart><namePart type=“family”>Nambi<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Tanuja</namePart>加努<角色>作者</角色></name><name type=“personal”>萨梅尔<namePart type=“family”>分段</namePart><角色>作者</角色></name><name type=“personal”>穆罕默德艾哈迈德<角色>作者</角色></name><name type=“personal”>卡利卡语巴厘岛<角色>作者</角色></name><name type=“personal”><namePart type=“given”>苏纳亚纳Sitaram公司<角色>作者</角色></name><originInfo>2023-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2023年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>侯达布阿莫尔<角色>编辑器</角色></name><name type=“personal”>胡安皮诺<角色>编辑器</角色></name><name type=“personal”>卡利卡语巴厘岛<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>新加坡</place></originInfo>会议出版物</relatedItem>生成性人工智能模型在许多自然语言处理任务(如语言理解、推理和语言生成)中表现出了令人印象深刻的性能。当今人工智能社区提出的一个重要问题是关于这些模型的能力和局限性,很明显,评估生成性人工智能非常具有挑战性。大多数关于生成性LLM的研究都局限于英语,目前尚不清楚这些模型在理解和生成其他语言文本方面的能力。我们提出了生成性LLM的第一个综合基准测试-MEGA,它根据标准NLP基准评估模型,涵盖70种不同类型语言的16个NLP数据集。我们将生成性LLM(包括Chat-GPT和GPT-4)与最新(SOTA)非自回归模型在这些任务上的性能进行比较,以确定生成性模型与前一代LLM相比的性能如何。我们对跨语言和任务的模型性能进行了深入分析,并讨论了在低资源语言上提高生成性LLM性能的挑战。我们创建了一个在多语言环境下评估生成性LLM的框架,并为该领域的未来进展提供了方向</摘要>ahuja-etal-2023-mega10.18653/v1/2023.emnlp-main.258<位置><网址>https://aclantology.org/2023.emnlp-main.258</url></位置><部分>2023-12年<扩展单元=“page”><开始>4232</开始>4267</范围></部分></mods></mods集合>
%0会议记录%T MEGA:生成性人工智能的多语言评估%A Ahuja,卡比尔%阿迪迪,哈什塔%里沙夫·阿哈达%A Ochieng,百万分之一%克里蒂卡·A·拉梅什%贾恩,普拉奇%A Nambi,阿克西%阿加努,塔努加%萨米尔·西格尔%穆罕默德·艾哈迈德%A巴厘岛,卡利卡%苏娜亚娜·西塔拉姆%Y Bouamor,Houda公司%胡安·皮诺%Y巴厘岛,卡利卡%2023年自然语言处理实证方法会议论文集%D 2023年%12月8日%计算语言学协会%C新加坡%F ahuja-etal-2023-mega公司%X生成人工智能模型在许多自然语言处理任务(如语言理解、推理和语言生成)中表现出了令人印象深刻的性能。当今人工智能社区提出的一个重要问题是关于这些模型的能力和局限性,很明显,评估生成性人工智能非常具有挑战性。大多数关于生成性LLM的研究都局限于英语,目前尚不清楚这些模型在理解和生成其他语言文本方面的能力。我们提出了生成性LLM的第一个综合基准测试-MEGA,它根据标准NLP基准评估模型,涵盖70种不同类型语言的16个NLP数据集。我们将生成性LLM(包括Chat-GPT和GPT-4)与最新(SOTA)非自回归模型在这些任务上的性能进行比较,以确定生成性模型与前一代LLM相比的性能如何。我们对跨语言和任务的模型性能进行了深入分析,并讨论了在低资源语言上提高生成性LLM性能的挑战。我们创建了一个在多语言环境下评估生成性LLM的框架,并为该领域的未来进展提供了方向。%R10.18653/v1/2023.emnlp-main.258%U型https://aclantology.org/2023.emnlp-main.258%U型https://doi.org/10.18653/v1/2023.emnlp-main.258%电话:4232-4267
降价(非正式)
[MEGA:生成性人工智能的多语言评估](https://aclantology.org/2023.emnlp-main.258)(Ahuja等人,EMNLP 2023)
国际计算语言学协会
- 卡比尔·阿胡贾(Kabir Ahuja)、哈什塔·迪迪(Harshita Diddee)、里沙夫·哈达(Rishav Hada)、米利森特·奥钦(Millicent Ochieng)、克里蒂卡·拉梅什(Krithika Ramesh)、普拉奇·贾因(Prachi Jain)、阿克沙伊·南比(Akshay Nambi)、塔努贾努(Tanuja Ganu)、。2023MEGA:生成性人工智能的多语言评估.英寸2023年自然语言处理实证方法会议记录,第4232–4267页,新加坡。计算语言学协会。