FLELex是法语作为外语(FFL)的词典,它报告了CEFR(语言通用欧洲参考框架)每个级别的词(引理)的标准化频率。
这些频率是在FFL教科书和FFL简化读者的语料库中估计的。有关语料库、词频计算和规范化以及资源本身的更多详细信息,请参阅:
对于FLELex(Treetagger和CRF Tagger):
François,T.、Gala,N.、Watrin,P.和Fairon,C。FLELex:法语外国学习者分级词汇资源。在第九届国际语言资源与评价会议(LREC 2014)冰岛雷克雅未克,5月26日至31日。
对于FLELex/Beacco:
Pintard,A.和François,T.(2020年)。结合专家知识和频率信息推断单词的CEFR水平.英寸第一次工具和资源研讨会会议记录,以赋予具有REAding DIfficulties的人权力(READI)(第85-92页)。
如果你正在使用FLELex,请引用这些文章。
特征
菜单册(_B)
|
接受词汇包括教科书阅读活动中观察到的词频和简化读者 |
条形图
|
CEFR水平A1·A2·B1·B2·C1·C2 |
总有机碳
|
词汇词条引理(单词) 词性(标签)
|
计算
|
计算的指标level_freq·CEFR每个级别的标准化频率(每100万字) total_freq·源语料库中的总归一化频率 |
版本
要构建像FLELex这样的资源,需要自动对语料库进行P.O.S.标记。两个标记器不一定具有相同的特征,但这会影响生成的资源。因此,我们选择了两个具有非常不同功能的标记器,并构建了两个不同版本的FLELex:FLELex-TT和FLELex-CRF。请参阅下载第页了解有关这两个版本的更多详细信息。
格式
格式为。带有8列(见上文)的CSV(制表符分隔值)文件,采用UTF-8编码。您也可以在Excel工作表中打开它。Beacco版本包含一个附加列,该列具有从分布信息派生的CEFR级别。
引理 |
POS标签 |
A1类 |
A2类 |
地下一层 |
地下二层 |
C1类 |
指挥与控制 |
总计 |
发声 |
笔名 |
633.3 |
598.5 |
482.7 |
202.7 |
271.9 |
25.9 |
461.5 |
放弃者 |
版本 |
35.5 |
62.3 |
104.8 |
79.8 |
73.6 |
28.5 |
78.2 |
公正 |
笔名 |
3.9 |
17.3 |
79.1 |
13.2 |
106.3 |
72.9 |
48.1 |
公斤 |
笔名 |
40.3 |
29.9 |
10.2 |
0 |
1.6 |
0 |
19.8 |
逻辑 |
笔名 |
0 |
0 |
6.8 |
18.6 |
36.3 |
9.6 |
9.9 |
英语bas |
副词 |
34.9 |
28.5 |
13 |
32.8 |
1.6 |
0 |
24 |
恩克莱尔 |
副词 |
0 |
0 |
0 |
0 |
8.2 |
19.5 |
1.2 |
服务区 |
准备 |
0 |
0 |
0.361 |
0 |
0 |
0 |
0.03 |
FLELex中的一些条目示例
用法
搜索搜索
该资源可用于比较CEFR量表上多个单词的频率分布。在线查询界面可用,可以通过“搜索”选项卡访问。
条形图分析
该资源还可以用于分析文本中单词的复杂性,特别是确定文本中的哪些单词在给定级别上会比较困难。安在线复杂性分析器可用,可以通过“分析”选项卡访问。
获取应用程序下载
你可以在NLP任务中使用FLELex,也可以用于教学和语言评估目的。请注意,FLELex有两个版本:FLELex-TT和FLELex-CRF。
作者
FLELex是三个团队合作的结果:
贡献者
Anaís Tack&Baptiste Degrese公司原型设计