SweLLex是多产的瑞典语作为第二/外语(SVA)的词汇。与它的姊妹资源SVALex一样,它报告了单词(引理)在头孢丙烯(欧洲语言共同参考框架)。与SVALex一样,它包含了单字用法、多字表达式的信息,以及它们在不同级别的用法信息,这是此类资源中很少出现的。

根据SVA学习者撰写的论文语料库(SweLL语料库)对频率进行了估算,文中描述了:

Elena Volodina、IldikóPilán、Ingegerd Enström、Lorena Llozhi、Peter Lundkvist、Gunög莫妮卡·桑德尔·桑德伯格。2016膨胀崛起中:瑞典学习者语言语料库欧洲参考水平研究。2016年斯洛文尼亚LREC会议记录。

以下文章提供了有关SweLLex资源的更多详细信息:

Elena Volodina、IldikóPilán、Lorena Llozhi、Baptiste Degrese、Thomas Francois。2016SweLLex公司:第二语言学习者的产出性词汇。研讨会会议记录NLP4CALL和LA。NEALT会议记录系列/Linköping电子会议记录

如果您正在使用SweLLex,请引用本文。

特征

创造

生产性词汇
包括学习者文章中观察到的词频

条形图

CEFR水平
A1·A2·B1·B2·C1·C2

总有机碳

词汇词条
引理(单词)
词性(标签)

计算

计算的指标
level_freq·CEFR每个级别的标准化频率(每100万字)
total_freq·源语料库中的总归一化频率
nb_doc·文件频率

格式

格式为。带有8列(见上文)的CSV(制表符分隔值)文件,采用UTF-8编码。您也可以在excel表中打开它。

引理 POS标签 A1类 A2级 地下一层 地下二层 C1类 总计
比尔 NN_UTR(无故障) 430.2138 1234.2078 728.9847 422.283 363.5446 618.8567
ö边缘 VB(虚拟语言) 0 0 7.3203 24.5182 39.6516 17.2695
rättvisa公司 NN_UTR(无故障) 0 0 3.6601 25.6189 26.4344 13.6602
公斤 NN_欧盟 0 302.0833 145.1229 65.0611 13.2172 89.8907
再销售 VB(虚拟语言) 166.3009 375.2582 450.3526 298.4905 330.4297 356.362
升(g) 朝觐 0 49.315 125.922 217.3103 252.1311 156.126
萨克拉特 ABM_MWE公司 0 16.2635 81.6019 45.5033 13.2172 38.1738
直到斯基尔纳德 PPM_MWE公司 0 0 5.3395 2.409 3.6699 5.1839
SVALex中的一些条目示例

用法

搜索搜索

该资源可用于比较CEFR量表上多个单词的频率分布。在线查询界面可用,可以通过“搜索”选项卡访问。

条形图分析

该资源还可以用于分析文本中单词的复杂性,特别是确定文本中的哪些单词在给定级别上会比较困难。在线复杂性分析器可用,可以通过“分析”选项卡访问。

作者

SVALex是两个团队合作的结果:

贡献者

Brayan Delmée
标志设计

Dorian Ricci、Baptiste Degrese和Anaís Tack
原型设计

达米安·德梅耶尔
网站维护