标题 |
斯洛文尼亚语JOS语言标记语料库 |
作者 |
托马·埃尔贾维克,达尔贾·菲舍尔,西蒙·克雷克和尼娜·莱迪内克 |
摘要 |
JOS语言资源旨在促进斯洛文尼亚语言HLT和语料库语言学的发展,包括形态句法规范,定义斯洛文尼亚形态句法特征和标记集;两个带注释的语料库(jos100k和jos1M);和两个web服务(一个协调器和文本注释工具)。本文介绍了这些组件,并重点介绍了jos100k,这是一个10万字的取样平衡的斯洛文尼亚单语语料库,为三个层次的语言描述进行了手动注释。在形态句法层面上,每个词都用其形态句法描述和引理进行注释;在句法层面上,句子用依存关系进行注释;在语义层面上,语料库中所有出现的100个顶级名词都使用斯洛文尼亚语义词典sloWNet中的wordnet合成词进行注释。JOS语料库和规范具有标准化编码(文本编码倡议指南TEI P5),可从http://nl.ijs.si/jos/根据知识共享许可。 |
话题 |
语料库(创建、注释等),语法和语法,语义学 |
全文 |
斯洛文尼亚语JOS语言标记语料库 |
幻灯片 |
- |
Biptex公司 |
@会议记录{ERJAVEC10.139, author={托马·埃尔贾维克(TomaíErjavec)和达贾·菲舍尔(Darja Fišer)以及西蒙·克雷克(Simon Krek)和尼娜·莱迪内克(Nina Ledinek)}, title={JOS斯洛文尼亚语料库}, booktitle={第七届国际语言资源与评价会议(LREC’10)会议记录}, 年份={2010}, 月={may}, 日期={19-21}, 地址={马耳他瓦莱塔}, editor={尼科莱塔·卡尔佐拉里(会议主席)、哈立德·乔克里(Khalid Choukri)、本特·马加德(Bente Maegaard)、约瑟夫·马里亚尼(Joseph Mariani)、简·奥迪克(Jan Odijk)、斯特利奥斯·皮普利迪斯(Stelios Piperidis)、迈克·罗斯纳(Mike Ros, publisher={欧洲语言资源协会(ELRA)}, isbn={2-9517408-6-7}, 语言={英语} } |