霍帕到胡夫迪内赫奥尔
Sprákbanken Textär en avdelning肿瘤斯普拉克班肯.

瑞典语语族的语言学习假设:从简单到复杂

Inlogt av公司埃琳娜·沃洛蒂娜2023-12-11

作者:Elena Volodina、Yousuf Ali Mohammed、Therese Lindström Tiedemann


在我们之前的瑞典语单词族博客我们描述了形态注释资源如何用于文化方面的文本分析,即不同节日如何在第二语言语料库中表示。

今天,我们想展示一下Word系列资源(位于瑞典L2配置文件)可用于研究与学习者语言相关的几个假设,即:

  • 每个家族中较简单的单词(由最少数量的语素组成)出现的时间更早,频率更高。
  • 与上述相关:词族成员之间的关系按复杂性通过构词机制(参见Lango et al.(2021)),这反映在接受性和产出性数据中新词族项的出现顺序上。(我们简化了复杂性这里假设每个单词的词素数量越高,表示单词越“复杂”。)

为了研究这些假设,我们首先分析了两个语料库中不同单纯形根词汇的分布。单纯形根词素我们理解严格由一个词根组成的词汇,例如。达格(“天”)。通过存在不同的我们的意思是,我们只对每个单纯形根词素解释一次,在它们第一次出现的地方。例如,达格首次在A1级使用,但在所有其他级别重复使用。我们计算达格只有一次,在第一次出现时。(因此,我们不计算在内达格在以上级别的单纯形根词汇中。)

在瑞典语词族资源中,共有2298个不同的单纯形词根词汇。这些语料库分为接受语料库(2195个条目)和产出语料料库(1108个条目),共有1063个条目重叠。下图令人信服地表明,单根词在早期水平的新词汇中更具代表性,并随着熟练程度的提高而逐渐下降,尽管我们可以看到,无论是在所有单根词方面,还是在只考虑新单词时,这种影响在B1水平的接受数据中都趋于平稳。生产数据中的单纯形根通常比接受数据中的多(见图1),这可能表明它们更容易学习使用。

图表

图1。单纯形词根在两个语料库中的分布:教材和学习者论文。Y轴表示根词素的百分比:ALL=相对于该级别的所有项;NEW=相对于该级别的所有新项目。 

在A1级的学习者作文中,一半的新词汇由只有一个词根语素的词汇组成。到了C1级,这一比例下降到7%。在教材语料库中也可以看到同样的趋势:在A1水平上,33%的词汇是单根词,而到C1水平,新单根词的百分比下降到7%。生产性单工根词的C2水平有所增加,但这可能部分是由于数据量较小。

一个有趣的问题是,单纯形根词素在其各自的词族中是否倾向于位于构词法(派生词和复合词)更复杂的词条之前。也就是说,学习者是否首先熟悉单纯形词根词素达格,然后学习它的派生词(例如。达格利格“每日”,达吉斯“托儿所/幼儿园”)和场地(例如。蒙达格“星期一”,沃尔达格“春日”)。我们研究了几个词族来检验这个假设,即

  • 这个达格-家族(共享根达格“天”)
  • 这个斯普拉克-家族(共享根斯普拉克“语言”)
  • 这个莱克斯-家族(共享根莱克斯“豪华”)

为此,我们检查了每个词族的所有家族成员及其在两个学习者语料库COCTAILL(Volodina等人,2014)和SweLL-pilot(Volodiana等人,2016)中的每一级分布情况,以确定在二语学习环境中是否有任何特定的模式值得关注。我们已经尝试了不同的可视化技术,以确定哪种技术最能捕捉单词族中的不同模式。

1.内部形态复杂性达格-家庭(“日”)

图表

图2。这个达格-家庭中的接受性数据(教科书),每个级别的新项目。 

这个达格-family“day”是瑞典语词族资源中最大的词族之一,Coctaill语料库中共有101个成员,其中32个成员也出现在SweLL-pilot语料库的学习者文章中。正如假设的那样,单纯形项只包含根,达格,在其他项目之前引入,在A1水平上,与一些衍生物和化合物一起引入,即一周中的几天(勒尔达格“星期六”,弗雷达“星期五”等)和一些描述日常生活的单词,例如大肚“晚餐”,达吉斯“日托/幼儿园”,以及一天中的部分时间,eftermiddag公司“下午”。从图2中的单词云可以明显看出,词根词素达格到目前为止,“day”是达格-A1级家庭。

当的成员达格-A1level的家庭表明,该级别的中心主题是围绕日常需求和日常生活达格-A2的家庭成员建议,学习者阅读的文本侧重于两个不同的主题:社会和节日。社交词汇由以下成员代表:达格斯蒂丁“日报”,里克斯达“议会”,以及一些带有里克斯达,例如。里克斯达格斯巴蒂“议会党”,里克斯达格斯瓦尔“议会选举”与这一事实密切相关,即在这次CEFRlevel学习者应该学习更多关于周围社会的信息。节日和庆祝活动的主题由一系列单词表示,包括国家ldag*“国庆节”,allhelgonaag公司*“整个圣日”,尼尔斯达格(英语)*“新年”,最杰出的家庭成员是弗德尔塞达格“生日”。

在下一个级别中,我们可以看到达格-家庭是通过许多复杂的复合和派生模式发展起来的,一个项目中最多有五个根,例如。här-om-dag-en公司(3根;“前几天”),sön-dag-s-ever-midde-dag(5根;“星期日下午”)。有趣的是,大多数家庭成员都是名词,只有几个形容词(达格利格“每日”,gammaldags公司“老式”)、副词(达格里根“每天”,哈罗姆达根“前几天”)和专有名称,它们都指定了报纸的名称(达根·尼赫特,瑞典日报); 除了多词表达外,没有其他动词索瓦·米德加“午睡”。

另一个有趣的观察结果是,家族中最激进的扩张发生在A2和B1级别,这两个级别之后出现的新项目越来越少,C1级别只有七个新项目。这很可能是因为这个词的“主题”性质达格事实上,早先的课程已经很好地涵盖了日常生活。

2.内部形态复杂性斯普拉克-家庭(“语言”)

图表

图3。分配斯普拉克-接受数据中的家庭语言。 

也可以在språk公司-家庭,展示了62名家庭成员,其中57人出现在Coctaill语料库中(即教科书文本中)。词根词素斯普拉克在这两个语料库中,“language”首先出现在A1level,并且是该语料库家族在该级别的唯一代表(参见图3的中心)。我们可以假设它在文本中的出现对学习者有启动作用,使其有可能在更高层次上与其他词根和词缀结合。

我们在斯普拉克-跨层级的家庭发展(见图3):

  • (数字/形容词词根)+språk公司+形容词后缀-免疫球蛋白,例如。恩斯普拉基格“单语”,弗里斯普拉基格“直言不讳”,弗勒斯普拉基格“多语言”→反过来,导致了带有名词化后缀的派生模式-赫特在高级水平,例如。弗勒斯普拉基特“多语言”。
  • 复合名词,以结尾斯普拉克描述各种类型的语言,例如。塔斯普拉克“口语”,里克斯普林克“国家语言”,伊尔凯斯普拉克“专业语言”。左手元素通常是用作修饰语的名词。这似乎是这个词族中最富有成效的构词方式之一。
  • 斯普拉克在复合词中用作左手成分,修饰其他名词,例如。斯普拉库斯“语言课程”,斯普拉科法米尔吉“语言家族”,斯帕克政策“语言政治”。这种构词方式效率很高,使词族大大扩展到C1级,见图3。

教材中观察到的大致趋势与捷克语和其他语言的构词网络分析相呼应,图4根据Lango等人(2021)显示了其中一种趋势。虽然Lango等人(2021年)旨在进行一般语言描述和分析,但我们在学习者语言中看到了类似的模式。然而,假设更复杂的模式遵循更简单的模式,则需要对比我们这里提供的数量多得多的词族进行更彻底的检查,将这些词族相互关联,并与形态族相关联,即广义上的族,其中词汇项以共享词缀或词根为中心,并列出语素和其他语言变量的频率。

图表

图4。捷克语的构词网络。兰戈等人(2021年)的重印本。 

总而言之,以上对斯普拉克-family证明了一个明显的例子,即很少有构词模式产生几个新的词汇项。值得注意的是,大多数斯普拉克-家庭成员很少使用,很少有例外,例如弗勒斯普拉基格“多语言”,hemspråk公司“母语”,参见“传统语言”和特肯斯普拉克“手语”,所有这些都出现在C1级。核心项目本身,斯普拉克,不仅在首次出现的水平上,在所有水平上都占主导地位;这可能很容易通过课程定位来解释。

3.内部形态复杂性莱克斯-家庭(“奢侈品”)

我们研究过的大多数家庭似乎都遵循了上述路线,即先引入简单的单词,再引入复杂的单词。然而,在检验一个假设时,重要的一步是找到可能引发新见解的反例。莱克斯家族的“奢侈”就是一个反例。它只包含5个成员,分布在表1所示的数据中。

图表

表1。这个莱克斯-家庭(“奢侈”)。 

遵循“简单优先”的原则,更直观的介绍顺序是:

莱克斯lyxa、lyxig、lyxliv、lyxvara

然而,我们可以看到单词在莱克斯-家庭是反直觉的:复合物利克斯瓦拉“奢侈品”出现在单纯形根项之前莱克斯“奢侈品”及其衍生产品lyxig公司“豪华”和利克萨“放纵自己,享受奢华”。人们想到了几个解释,除了一个显而易见的解释,即自然语言具有特殊性,并且不倾向于遵守规则:

这个第一个与“是什么让项目变得容易”的推理有关。到目前为止,我们的操作假设是,最简单的形态结构是简单项目的主要特征。当然,这是对现实的简化看法。为了使这一点复杂化,语义可能是“简单性方程”的另一个组成部分,在这种情况下,需要考虑单词的具体性和抽象性之间的二分法莱克斯-家庭。所有莱克斯-B2级的项目具有抽象意义,而B1级的项目lyxvara是具体的。从认知的角度来看,获得具体项目可能更容易(利克斯瓦拉)未来的研究应该调查二语词汇习得与抽象性和具体性之间的关系。

这个第二可能的解释是第二个家庭的启动效应利克斯瓦拉属于,即变量-家庭。如果我们检查如何瓦拉教材(Coctaill)中使用了“product,item”,我们将看到多达B1引入了十(10)个家族成员,如表2所示,除根本身外,所有家族成员都是化合物(瓦拉,'产品,项目')。购物似乎是B1级文本的中心主题之一,因为引入了各种类型的产品。包含词根的六项中有五项的构词模式非常相似变量B1级:“描述产品类型的修饰语+瓦拉’;利克斯瓦拉属于此模式,并成为莱克斯-家人介绍给语言学习者。可以说统计上递归的正字法块的启动效应(在本例中为“修饰语”+瓦拉'),在重复出现之后,它开始将自己区分为单独的语素:即。瓦拉作为一个独立的项目,不同于一系列修饰语,并逐渐,莱克斯也被认为是一个独立的词汇项。

图表

表2。摘录自var(a)-家庭。在生产数据中,名词瓦拉(“产品,项目”)首次出现在B2级别,因此不在本表范围内。 

有趣的是,即使在变量-家族,我们看到在A1级别引入的第一个项目不是根项目瓦拉,但化合物瓦鲁胡斯“商店”(字面意思是“带货物的房屋/建筑物”),见表2。检查溶血性尿毒综合症-我们有充分的理由相信,这将导致另一个探索,成为一个“永无止境的故事”。此外,文本的主题焦点会影响在哪个层次引入哪些项目,这是排序语言教育的一个可预测的结果:学习者首先需要学习如何自我介绍并关注他们的即时需求,逐渐提高他们对周围世界和不再以学习者为中心的话题的关注。这个溶血性尿毒综合症-家庭和变量-家庭是两个明确的例子,说明了中心话题如何随着学习者需求的熟练程度而变化,正如我们在CEFR水平can-do语句中所看到的那样(COE,2020)。

最后,假设有很好的理由解释为什么大多数词族资源不包括复合词:复合词添加了一些难以解释的因素,例如与“其他”族的接触及其影响,并且由于词族通常与频带相关,由于复合词可以组合高频和低频词族,因此将其包含在总频率计数中会比较复杂。如果我们忽略莱克斯-家族中,其他两个例子中的模式是“单纯形优先”,家族中的所有单词都与其中形态上最简单的单词联系在一起(见表1,B2level)。在形态学的认知研究中,对复合词存在争议,一些研究认为复合词是作为全词单位进行处理的,而另一些研究表明,在使用整个复合词之前使用构成语素有助于在心理上使用该词,见Leminen等人(2019年)的研究综述。无论如何,从词族分析中删除复合词的建议对瑞典语来说是不可行的,因为复合词是最广泛传播的构词机制(参见Svensson,2022),许多新词根最初是从复合词中学习的,比如var(a)瓦鲁胡斯莱克斯利克斯瓦拉事实上,即使是由复合词组成的专有名词也已被认可,以帮助瑞典二语学习者学习新词根,例如火炬来自地名的“方形”Opaltorget公司(Löfdahl,Tingsell&Wenner,2015)。瑞典专有名词通常包含词根,学习者只有在地名中遇到词根之后,才能将词根作为单独的词根词汇(Lindström Tiedemann,2023)。

总之,我们追踪了单词的学习顺序莱克斯如下:

  • 溶血性尿毒综合症(A1)→瓦鲁胡斯(A1)→瓦拉(A2)→利克斯瓦拉(B1)→莱克斯(B2)

*节日全helgonagen尼奥尔斯达根通常以确定的形式出现,但词典往往以不确定的形式列出(新奥尔斯达克州阿勒赫拉戈纳格)(参见示例。网址:https://svenska.se)我们的资源也是如此。

**参见可加工性差异(Binder等人,2005)和识别差异(Fliessbach等人,2006)。一些研究表明,孩子们一开始倾向于主要知道具体单词,随后抽象词汇急剧增加(Ponari、Norbury和Vigliocco,2018)

这个博客是基于沃洛蒂娜、穆罕默德和林德斯特伦·蒂德曼(2022)的。


工具书类

  • Binder,J.R.、Westbury,C.F.、McKiernan,K.A.、Possing,E.T.和Medler,D.A.(2005)。处理具体和抽象概念的独特大脑系统。认知神经科学杂志,17(6), 905–917.
  • 欧洲委员会。(2020). 欧洲语言共同参考框架:学习、教学、评估:配套卷。欧洲委员会出版。
  • Fliessbach,K.、Weis,S.、Klaver,P.、Elger,C.E.和Weber,B.(2006年)。单词具体性对识别记忆的影响。NeuroImage(佛罗里达州奥兰多),32(3), 1413–1421.
  • Lango、Mateusz、Zhe abokrtskě、Zdenଔk和Ševíková、Magda。(2021). 单词形成网络的半自动构建。语言资源与评估,55(1), 3-32.
  • Leminen、Alina、Smolka、Eva、Dunabeitia、Jon A.和Pliatsikas、Christos。(2019). 大脑中的形态处理:好(屈折)、坏(衍生)和丑(合成)。科尔特斯,116, 4-44.
  • Lindström Tiedemann,特蕾斯。(2023). Egennamn、morfologi och和raspráksinlärning[=专有名词、形态学和第二语言习得]。在:VäinöSyrjälä,Terhi Ainiala,Pamela Gustavsson(编辑)Namn och gränser:Rapport från den sbuttonde nordiska namnforskarkongressen den 2021年6月8日至11日乌普萨拉。第223-250页。
  • Löfdahl、Maria、Tingsell、Sofia和Wenner、Lena。(2015). Lexikon,onomasticon och flerspråkighet[=词汇、onomasticon和多语]。在:E.Aldrin、L.Gustafsson、M.Löfdahl和L.Wenner(编辑)创新者i namn och namnmönster。第153-167页。
  • 安德斯·斯文森。(2022). Tre av fyra nyordär subsentiv[=四个新词中有三个是名词]。斯普拉克蒂宁根2022年1月2日.
  • Ponari,M.、Norbury,C.F.和Vigliocco,G.(2018年)。抽象概念的获得受到情感效价的影响。发展科学,21(2)第1-12页。
  • Elena Volodina、Yousuf Ali Mohammed和Therese Lindström Tiedemann。(2022). Lyxig spráklig födelsedags来自瑞典语词族。在沃洛迪纳、丹内尔、贝迪切夫斯基、福斯伯格和维克(编辑),生活与学习——庆祝拉尔斯·鲍林,第153-160页。在CC BY 4.0下可用
  • 沃洛蒂娜、埃琳娜、皮兰、伊尔迪科、罗德文·艾德、斯蒂安和海达尔森,汉内斯。(2014). 你得到的是你所注释的:一个有教学注释的瑞典语作为第二语言的教材语料库。计算机辅助语言学习NLP第三次研讨会论文集。NEALT会议记录系列22/Linköping电子会议记录107: 128–144.
  • 沃洛迪纳、埃琳娜、皮兰、伊尔迪科、恩斯特罗姆、英格格德、洛芝、洛雷纳、隆克维斯特、彼得、桑德伯格、冈洛格和桑德尔,莫妮卡。(2016). 增长中的膨胀:用于欧洲参考水平研究的瑞典学习者语言语料库。2016年斯洛文尼亚LREC会议记录.