SweLLex是多产的瑞典语作为第二/外语(SVA)的词汇。与它的姊妹资源SVALex一样,它报告了单词(引理)在头孢丙烯(欧洲语言共同参考框架)。与SVALex一样,它包含了单字用法、多字表达式的信息,以及它们在不同级别的用法信息,这是此类资源中很少出现的。
根据SVA学习者撰写的论文语料库(SweLL语料库)对频率进行了估算,文中描述了:
Elena Volodina、IldikóPilán、Ingegerd Enström、Lorena Llozhi、Peter Lundkvist、Gunög莫妮卡·桑德尔·桑德伯格。2016膨胀崛起中:瑞典学习者语言语料库欧洲参考水平研究。2016年斯洛文尼亚LREC会议记录。
以下文章提供了有关SweLLex资源的更多详细信息:
Elena Volodina、IldikóPilán、Lorena Llozhi、Baptiste Degrese、Thomas Francois。2016SweLLex公司:第二语言学习者的产出性词汇。研讨会会议记录NLP4CALL和LA。NEALT会议记录系列/Linköping电子会议记录
如果您正在使用SweLLex,请引用本文。
特征
创造
|
生产性词汇包括学习者文章中观察到的词频 |
条形图
|
CEFR水平A1·A2·B1·B2·C1·C2 |
总有机碳
|
词汇词条引理(单词) 词性(标签)
|
计算
|
计算的指标level_freq·CEFR每个级别的标准化频率(每100万字) total_freq·源语料库中的总归一化频率 nb_doc·文件频率 |
格式
格式为。带有8列(见上文)的CSV(制表符分隔值)文件,采用UTF-8编码。您也可以在excel表中打开它。
引理 |
POS标签 |
A1类 |
A2级 |
地下一层 |
地下二层 |
C1类 |
总计 |
比尔 |
NN_UTR(无故障) |
430.2138 |
1234.2078 |
728.9847 |
422.283 |
363.5446 |
618.8567 |
ö边缘 |
VB(虚拟语言) |
0 |
0 |
7.3203 |
24.5182 |
39.6516 |
17.2695 |
rättvisa公司 |
NN_UTR(无故障) |
0 |
0 |
3.6601 |
25.6189 |
26.4344 |
13.6602 |
公斤 |
NN_欧盟 |
0 |
302.0833 |
145.1229 |
65.0611 |
13.2172 |
89.8907 |
再销售 |
VB(虚拟语言) |
166.3009 |
375.2582 |
450.3526 |
298.4905 |
330.4297 |
356.362 |
升(g) |
朝觐 |
0 |
49.315 |
125.922 |
217.3103 |
252.1311 |
156.126 |
萨克拉特 |
ABM_MWE公司 |
0 |
16.2635 |
81.6019 |
45.5033 |
13.2172 |
38.1738 |
直到斯基尔纳德 |
PPM_MWE公司 |
0 |
0 |
5.3395 |
2.409 |
3.6699 |
5.1839 |
SVALex中的一些条目示例
用法
搜索搜索
该资源可用于比较CEFR量表上多个单词的频率分布。在线查询界面可用,可以通过“搜索”选项卡访问。
条形图分析
该资源还可以用于分析文本中单词的复杂性,特别是确定文本中的哪些单词在给定级别上会比较困难。安在线复杂性分析器可用,可以通过“分析”选项卡访问。
作者
SVALex是两个团队合作的结果:
贡献者
Dorian Ricci、Baptiste Degrese和Anaís Tack原型设计