霍帕到胡夫迪内赫奥尔

硕士论文提案

以下语言技术课程硕士论文的主题都针对相同的目标问题即,处理瑞典语作为第二语言(其他语言也可能相关,尽管无法保证我们能够帮助处理数据)。因此,可以使用各种算法或方法。自从收集和注释新数据以来,第二语言瑞典语领域正在蓬勃发展,我们欢迎您的参与并在各个方面提供帮助。共享任务、众包实验、假名“onfly”等都在当前议程上。

联系人:Elena Volodina。volodina@svenska。古。服务>

此页面会不时更新以添加/删除主题,因此请不时查看。

主题-2024年春季学期

  • 瑞典语的错误类特定语法检查。(Elena Volodina,Arianna Masciolini)使用来自SweLL语料库的学习者文章作为训练数据,您将开发机器学习模型来纠正一种或多种特定类型的语法错误,并将结果与可用通用模型的结果进行比较。长期目标是看几个特定于错误类别的模型是否可以有效地组合,以及这样做是否比通用模型具有优势,特别是在结果的控制和可预测性方面。
  • 语法错误纠正中的偏见与公平(Elena Volodina、Ricardo Muñoz Sánchez)深度学习模式倾向于编码类人偏见,如性别歧视和种族主义。然后,将这些模型置于对人们生活有实际影响的高风险情况下。一个这样的例子是用于第二语言学习和评估的工具。在本主题中,我们无法检查语法错误更正系统中存在哪些偏差,以及它们对系统的影响程度。然后我们将研究如何减少这些偏见对学生的影响。如果您想阅读更多关于NLP中偏见和公平的主题或其他类似主题,请查看本页.
  • 瑞典造词模式词汇的自动分析(Elena Volodina和SBX的其他人)给出大约16000个手动分析前缀、后缀、词根等的词汇项,你将尝试自动分析看不见的词汇,以确定构词模式。可能会有变化(对建议主题的其他解释)。数据集:CoDeRooMor(更多信息可通过瑞典L2配置文件获得)
  • 瑞典学习者语言的合成错误数据集(Elena Volodina和SBX的其他人)基于可用的瑞典语错误注释学习者数据(SweLL-gold),建立了一个用于生成合成错误数据集的管道。数据集:膨胀黄金;瑞典L1语料库
  • 瑞典学习者语言共享任务(Elena Volodina等人)重点是为共享任务准备数据、评估算法和基线(将讨论任务主题,例如错误更正、自动论文评分、L1识别等)。可用数据:500篇SweLL-gold论文对包括错误在内的多个方面进行了手动注释。所有论文都与大量个人元数据(例如母语、年龄、教育程度等)和文本相关元数据(流派、主题等)相关联。

主题-2023年春季学期

  • 瑞典造词模式词汇的自动分析(Elena Volodina,Sasha Berdicevskis)给出大约16000个手动分析前缀、后缀、词根等的词汇项,你将尝试自动分析无形词汇的造词模式。变化(对建议主题的其他解释也是可能的。数据集:CoDeRooMor(更多信息可通过瑞典L2配置文件获得)
  • 第二语言复杂性分析(Elena Volodina,Sasha Berdicevskis)根据SweLL-pilot和SweLL-gold语料库以及瑞典L2档案资源,你将研究语言复杂性的各个方面(例如词汇、形态、语法),可能包括将论文自动分类为熟练程度。
  • 瑞典学习者语言的合成错误数据集(Elena Volodina,Sasha Berdicevskis)根据可用的瑞典语错误注释学习者数据(SweLL-gold),建立一个用于生成合成错误数据集的管道。数据集:膨胀黄金;瑞典语L1语料库
  • 瑞典学习者语言共享任务(Elena Volodina等人)重点是为共享任务准备数据和评估算法(将讨论任务的主题,例如自动论文评分、L1识别、纠错等)。可用数据:500篇SweLL-gold论文对包括错误在内的多个方面进行了手动注释。所有论文都与大量个人元数据(例如母语、年龄、教育程度等)和文本相关元数据(流派、主题等)相关联。
  • 瑞典学习者论文的自动规范化(Elena Volodina等人)重点是检测需要纠正的字符串。500篇手工规范化的SweLL-gold论文可用于实验。
  • GDPR时代的假名化(Elena Volodina等人)自动检测、标记和假名化语言学习者编写的非结构化文本中的个人信息。对于瑞典人,大约有600篇人工假名论文可用。对于英语来说,基于规则的方法是一个开始,可以利用众包收集更多假名数据。

[演示文稿幻灯片]

 

较旧的主题(但仍相关)

1.按主题进行文本分类

目标:测试/比较基于为主题标记的教科书文本的文本分类/主题建模方法。

背景主题模型是一种统计模型,用于发现文档集合中出现的抽象“主题”。本项目中测试主题建模方法的主要目的是确定性能最佳的方法,该方法最终可用于根据学习者的偏好主题选择文本。这些模型最终可能嵌入勒尔卡这是一个在Sprákbanken开发的用于将瑞典语作为第二语言学习的应用程序。

最近,我们编译了COCTAILL公司这是一个学习瑞典语作为第二语言的教材语料库,每个文本都标有一个主题(或一组主题)。这个语料库将形成主题建模实验的训练/测试数据。


问题描述这项工作的目的包括:

  • 研究主题建模的文献
  • 测试/比较COCTAILL语料库中(部分?)主题的文本分类/主题建模的几种建议方法(共28个主题,用于5个熟练程度)
  • 将开发的算法应用于一些现实生活中的文本(例如来自Korp或来自web的文本),以评估其性能。

推荐技能:Python(可能是R)
主管:Elena Volodina,可能来自Sprákbanken的其他人

 

2.克服多选词汇练习中选择分心词的语义挑战

目标:找出一种方法,确保多项选择活动中的分心词在句子/练习项目的上下文中是真实的(即不能代替正确答案)。这主要针对瑞典语,但其他语言也可能是候选语言。


背景:训练词汇知识的多种选择项目是一种有充分记录的练习形式。然而,当涉及到这种练习类型的自动生成时,选择真正合适的干扰因素成为一个复杂的问题。例如,如果学习者想训练“医疗服务和SOS”主题领域的词汇,可以生成相同主题领域的答案选项,如下所示:

父母买不起必要的_________。

选择:钳子,医学,片剂,血液,医院,护士(正确答案为粗体)

可以使用上述示例中的多个备选方案来填补空白(即钳子、药物、药片)。然而,重要的是,能够在句子上下文中选择无法取代正确答案的分心词,无论是从语义上还是搭配上来看,例如在上述情况下,建议选择:医学、血液、医院、护士、急诊室


问题描述:因此,本工作的目的是:

  • 研究关于分心词选择、词汇语义和语境建模的文献
  • 实现/测试一些用于语义敏感分心词选择的方法
  • 将选择算法嵌入勒尔卡作为web服务
  • 对用户(语言学习者、教师、语言学家等)进行评估/测试


推荐技能:Python,对词汇语义感兴趣


主管:Elena Volodina,可能来自Sprákbanken/FLOV的其他人

 

3.根据达到的熟练程度对学习者论文进行分类

目标:开发一种算法(web服务),用于根据瑞典学习者达到的熟练程度对其论文进行自动分类。


背景:建议的方法是使用机器学习进行论文分类。面临的挑战是确定既能了解第二语言习得(SLA)研究又能为手头任务提供信息的特征。

根据欧洲共同参考框架,将根据熟练程度进行分类(欧洲经济论坛),涵盖6个学习者级别:A1(初学者)、A2、B1、B2、C1、C2(近母语)。目前,我们有B1、B2和C1级论文的电子语料库。A2的论文是手写的,尚未数字化和注释(如果有人选择这个主题,这可能会在项目中及时完成)。


问题描述:本项目的步骤包括:

  • 背景阅读:二语习得、CEFR、文章分级和学习者文章分级。参见瑞典作文评分的一个例子(不是等级,而是等级,即(Väl/Icke)Godkänd:http://www.ling.suse/english/nlp/tools/automated-essay-scoring
  • 最佳分类的测试方法
  • 学习者论文分类web服务的实现
  • (可能)实施勒尔卡-基于用户界面,可以测试新文章
  • (潜在的)与老师和新论文一起评估结果


推荐技能:Python,jQuery,对机器学习感兴趣


主管:Elena Volodina,可能来自Sprákbanken/FLOV的其他人

 

4.为瑞典语开发适应性诊断词汇/语法测试

目标:根据第二语言习得(SLA)研究和COCTAILL语料库中的频率统计数据,对瑞典语词汇和/或语法进行自适应诊断测试。


背景:当前开发的应用程序勒尔卡,www.spraakbanken.guse/larka,用于计算机辅助瑞典语二语学习。Lärka根据Korp提供的语料库生成了一些练习。正在尝试将生成的练习与CEFR熟练程度量表对齐(http://www.coe.int/t/dg4/languagetic/Source/Framework_en.pdf). 然而,当实际用户开始使用练习生成器时,他们可能不知道自己的水平。因此,为那些可能需要的人提供某种放置/诊断测试很重要(而且用户友好)。

现有词汇诊断测试的一些示例如下:


问题描述:这项工作的目的如下:

  • 研究与CEFR相关的不同语言技能和能力的诊断测试文献;
  • 了解瑞典人基于CEFR的测试的其他“参与者”,尤其是在安置/诊断方面;因此,为CEFR中提到的一种或(更好)一系列语言技能和能力的安置测试建议一种格式
  • 以可以嵌入Lärka平台的web服务的形式实现建议的测试(+最终为此开发用户界面模块)。例如,在这里,看到可以提供免费答案并进行评分的格式会很有趣
  • 评估/测试用户(语言学习者、教师、语言学家等)


推荐技能:Python,对词汇语义感兴趣


主管:Elena Volodina,可能来自Sprákbanken的其他人

 

5.瑞典语学习者的搭配

目标:生成一个对瑞典语学习者来说很重要的搭配、短语动词、固定短语和习语列表,并与熟练程度相联系,以用于Lärka。潜在的——根据排列好的多词词组列表开发词组。


背景:当前开发的应用程序勒尔卡,www.spraakbanken.guse/larka,用于计算机辅助瑞典语二语学习。Lärka根据Korp提供的语料库生成了许多练习,其中一个练习侧重于词汇。有人曾多次提到,我们应该在练习生成器中包含多单词表达式。这也符合欧洲经济论坛不同熟练程度的“can-do”语句(http://www.coe.intt/dg4/language/Source/Framework_en.pdf). 然而,确定课程中应包含的项目是一项非常重要的任务,更不确定如何将所选项目分配给不同的熟练程度。


问题描述:这项工作的目的如下:

  • 研究有关搭配等的一般文献,尤其是二语语境中的文献,特别注意CEFR指南;概述其他应用程序和(在线)词典/词典中使用的训练搭配等实践
  • 生成搭配列表,(主要)通过自动分析COCTAILL公司-用于教授瑞典语的教材文本语料库。研究COCTAILL之外可用的不同材料,例如Anna Hallström写的书、Saldo和Lexin中的多词表达也可能被证明是有益的,然而,挑战在于确定这些项目应引入的层次。要获得一些灵感,请看英语词汇简介:http://vocabulary.englishprofile.org/staticfiles/about.html(用户:英语个人资料,密码:词汇表)
  • (可能)在Lärka中将一种或多种建议的练习格式实现为web服务+用户界面
  • 评估/测试用户(语言学习者、教师、语言学家等)


推荐的技能:Python,对词汇语义和第二语言习得感兴趣


主管:Elena Volodina,可能来自Sprákbanken/FLOV的其他人