霍帕到胡夫迪内赫奥尔

L2基础设施-膨胀

谈到二级基础设施,有三大挑战:数据的可用性、协调的需要以及处理二级数据的方法的可用性。这在很大程度上取决于以下因素:

(1) 二语学习者数据(如论文)收集起来并不简单,因为它无法在线下载,因此需要与教师/评估员保持良好联系,并通过他们与学习者或其家长保持良好联系。这些学生或家长必须被说服签署使用许可证。这些数据本质上是敏感的,通常包含需要匿名的个人详细信息。

(2) 迄今为止,对学习者数据的研究已在不同领域展开,包括语言学、计算语言学和第二语言习得,以一种相当不协调的方式,从不同的角度,以不同的目的和方法,到目前为止,各领域内部或之间几乎没有对话或协调。收集二语学习者数据(如论文、练习日志和口头记录)的分散个人努力受到项目目的的驱动,这影响了学习者元数据、许可证、数据格式、数据库和搜索工具的类型。因此,从一个项目收集的数据往往无法与另一个项目中收集的数据进行比较或补充。有时,许可证类型甚至可能导致数据被禁止在新项目中使用。

(3) 二级数据的自动注释是有问题的,因为存在与标准瑞典语的过多偏差。现有的用于文本处理的计算语言学方法是在考虑到规范语言的情况下发展起来的,不能以目前的形式应用于第二语言文本。然而,手动注释学习者数据是一项非常耗时的工作。为了迎合第二语言文本中的语法和拼写错误,并使第二语言数据的注释更具时效性,计算语言学方法需要适应中介语带来的挑战,例如Hawkins and Buttery(2010),Rosen et al.(2014)。

更多信息

有关更多详细信息和出版物,请参阅此处的膨胀页面英语和中瑞典的