论文摘要

标题 收集荷兰SMS语料库
作者 马斯克·特勒奈特(Maaske Treurniet),奥尔菲·德克莱克,亨克·范登·胡维尔内列克·奥斯蒂克
摘要 在本文中,我们展示了第一个免费提供的荷兰文本消息语料库,其中包含来自荷兰和佛兰德斯的数据。该语料库是在SoNaR项目的框架内收集的,是这个5亿单词语料库的一个可行部分。基于自愿捐款,大规模收集了约53000条短信。这些消息将以这种方式分发。在本文中,我们关注所涉及的数据收集过程,在研究媒体报道的影响后,我们发现,尤其是在报纸和社交媒体网络上的免费宣传,会带来更多贡献。所有SMS都提供了元数据信息。从语料库的构成来看,可以看出,只有少数人贡献了大量数据,三个月内共有272人贡献了语料库。参与语料库的女性人数多于男性人数,但男性提交的数据量较大。该语料库对社会语言学研究和规范化研究至关重要。
话题 语料库(创建、注释等),元数据,其他
全文 荷兰短信语料库的收集
Biptex公司 @会议记录{TREURNIET12.537,
author={Maaske Treurniet和Orphée De Clercq以及Henk van den Heuvel和Nelleke Oostdijk},
title={荷兰SMS语料库的收集},
booktitle={第八届国际语言资源与评价会议(LREC'12)会议记录},
年份={2012},
月={may},
日期={23-25},
address={土耳其伊斯坦布尔},
editor={尼科莱塔·卡尔佐拉里(会议主席)、哈立德·乔克里(Khalid Choukri)、蒂埃里·德克勒克(Thierry Declerck)、梅赫迈特·乌尔·多安(Mehmet Uur Doan)、本特·马加德(Bente Maegaard)、约瑟夫·马里亚尼(Joseph Mariani)、亚松森·莫,
publisher={欧洲语言资源协会(ELRA)},
isbn={978-2-9517408-7-7},
语言={英语}
}
技术支持埃尔达©2012 ELDA/ELRA版权所有