FLELex是法语作为外语(FFL)的词典,它报告了CEFR(语言通用欧洲参考框架)每个级别的词(引理)的标准化频率。

这些频率是在FFL教科书和FFL简化读者的语料库中估计的。有关语料库、词频计算和规范化以及资源本身的更多详细信息,请参阅:

对于FLELex(Treetagger和CRF Tagger):

François,T.、Gala,N.、Watrin,P.和Fairon,C。FLELex:法语外国学习者分级词汇资源。第九届国际语言资源与评价会议(LREC 2014)冰岛雷克雅未克,5月26日至31日。

对于FLELex/Beacco:

Pintard,A.和François,T.(2020年)。结合专家知识和频率信息推断单词的CEFR水平.英寸第一次工具和资源研讨会会议记录,以赋予具有REAding DIfficulties的人权力(READI)(第85-92页)。

如果你正在使用FLELex,请引用这些文章。

特征

菜单册(_B)

接受词汇
包括教科书阅读活动中观察到的词频和简化读者

条形图

CEFR水平
A1·A2·B1·B2·C1·C2

总有机碳

词汇词条
引理(单词)
词性(标签)

计算

计算的指标
level_freq·CEFR每个级别的标准化频率(每100万字)
total_freq·源语料库中的总归一化频率

版本

要构建像FLELex这样的资源,需要自动对语料库进行P.O.S.标记。两个标记器不一定具有相同的特征,但这会影响生成的资源。因此,我们选择了两个具有非常不同功能的标记器,并构建了两个不同版本的FLELex:FLELex-TT和FLELex-CRF。请参阅下载第页了解有关这两个版本的更多详细信息。

格式

格式为。带有8列(见上文)的CSV(制表符分隔值)文件,采用UTF-8编码。您也可以在Excel工作表中打开它。Beacco版本包含一个附加列,该列具有从分布信息派生的CEFR级别。

引理 POS标签 A1类 A2类 地下一层 地下二层 C1类 指挥与控制 总计
发声 笔名 633.3 598.5 482.7 202.7 271.9 25.9 461.5
放弃者 版本 35.5 62.3 104.8 79.8 73.6 28.5 78.2
公正 笔名 3.9 17.3 79.1 13.2 106.3 72.9 48.1
公斤 笔名 40.3 29.9 10.2 0 1.6 0 19.8
逻辑 笔名 0 0 6.8 18.6 36.3 9.6 9.9
英语bas 副词 34.9 28.5 13 32.8 1.6 0 24
恩克莱尔 副词 0 0 0 0 8.2 19.5 1.2
服务区 准备 0 0 0.361 0 0 0 0.03
FLELex中的一些条目示例

用法

搜索搜索

该资源可用于比较CEFR量表上多个单词的频率分布。在线查询界面可用,可以通过“搜索”选项卡访问。

条形图分析

该资源还可以用于分析文本中单词的复杂性,特别是确定文本中的哪些单词在给定级别上会比较困难。在线复杂性分析器可用,可以通过“分析”选项卡访问。

获取应用程序下载

你可以在NLP任务中使用FLELex,也可以用于教学和语言评估目的。请注意,FLELex有两个版本:FLELex-TT和FLELex-CRF。

作者

FLELex是三个团队合作的结果:

贡献者

Brayan Delmée
标志设计

Anaís Tack&Baptiste Degrese公司
原型设计

达米安·德梅耶尔
网站维护