语料库搜索方法

文化和语言

科学与信息技术

欢迎来到语料库搜索方法研讨会。

车间

日期

2024年4月23日

时间

10:15 - 12:00

位置

哥德堡大学Renströmsgatan 6号J233室

组织者

Sprákbanken文本

会谈

什佩拉·阿哈尔·霍尔特斯洛文尼亚卢布尔雅那大学

标题：带有注释语言更正的语料库的专业索引

摘要：在本演示文稿中，我们介绍了一种新的带有注释语言更正的语料库（例如，学习者语料库和发展语料库）专用协调器。通过各种搜索场景，我们将展示该工具的功能，强调用户如何轻松搜索和检查学习者和更正文本的特征。协调器是对Svala注释系统和这些语料库新提出的XMLTEI指南的补充，弥补了数据注释和分析之间的差距。热烈欢迎！

约翰内斯·格拉恩瑞士苏黎世大学

标题：LCP——LiRI语料库平台

摘要：在过去的三年里，我们一直在开发一种用于查询不同类型语料库的新技术。我们发现，尽管有很多专用工具是免费可用的（CWB、ANNIS、NoSketchEngine等），但它们都不适合有效地用于大型语料库（>1b标记）或多模态数据（音频、视频、图像）。此外，这些工具支持的查询语言在表达能力方面有所不同。

我们的语料库平台LCP旨在满足相关领域语言学家和研究人员的不同需求。它的模块化结构允许在共享基础设施之上创建自定义用户界面，同时允许用户导入具有定制结构的语料库。

优素福·阿里·穆罕默德，瑞典斯普林克班肯文本

标题：条纹--用于更聪明的文本可视化

摘要：Strix是Sprákbanken text目前开发的文本可视化工具。该工具为研究人员、教师、学生和其他从事文本数据工作的人员提供了将整个文档（或文本）以及文本级、句子级和单词级注释可视化的机会。当前版本的Strix具有简单的搜索功能（单词或短语）和基于元数据属性的过滤选项。语料库级别和每个文档级别的统计数据使分析和理解数据中的内容变得容易。用户可以通过Mink在Strix中导入和分析自己的数据集合，也可以获得类似文档的集合。长期目标是在Strix中拥有目前在Korp中可用的所有开放存取数据。

彼得·荣格洛夫，瑞典斯普林克班肯文本

……与查尔默斯理工大学的Nick Smallbone、Sprákbanken Text和Niklas Deworetzki合作

标题：面向具有精确语义的语料库代数

摘要：数字人文学科的研究人员经常使用文本语料库，对多达数十亿单词的文本集进行注释。为了在这些语料库中找到模式，他们需要能够处理复杂查询和大量文本的搜索工具。但是，由于查询优化效果不佳，现有工具在复杂查询上无法很好地执行。查询优化很难，因为现有的查询语言是临时的，没有明确的语义。

我们将为语料库查询语言创建一个原则基础：一个行为良好的语言、精确的语义和清晰的代数属性，可以用于查询优化。我们将利用这一点开发实用的算法来高效搜索超大文本语料库。

受关系代数的启发，我们提出了一个具有精确语义的语料库代数。查询被编译成语料库代数，然后使用代数法则转换成更有效的形式并执行。

在该项目中，我们将解决以下研究问题：

1.什么是适合语料库代数的查询语言？
2.哪些查询操作符具有良好的语义？
3.我们可以使用什么法则来优化语料库代数表达式？
4.哪些搜索索引有用，如何将其纳入语料库代数？

我们生成的算法将找到使用可用搜索索引的最佳查询计划。因此，我们预计复杂的查询将在几秒钟内运行，而今天只需几分钟。这将开辟数字人文学科的新研究领域。

由四位发言者组成的语料库搜索方法小组

主持人：Elena Volodina

上次修改时间

2024年4月15日