霍帕到胡夫迪内赫奥尔

语料库搜索方法——Sprákbanken Text的小型工作室

Inlogt av公司埃琳娜·沃洛蒂娜2024-05-21

1.车间概述

2024年4月23日Sprákbanken文本汉密菲组织了一个有很多人参加的小型车间语料库搜索方法研讨会致力于从不同角度展示语料库搜索的新观点:技术性、面向用户、可视化。四位受邀专家作了介绍,分别是斯洛文尼亚的什佩拉·阿哈尔·霍尔特、瑞士的约翰内斯·格拉恩和瑞典的优素福·阿里·穆罕默德和彼得·荣格勒夫。

观众。

图1:迷你车间的观众。

Špela的演讲向观众介绍了一个为斯洛文尼亚教师设计的工具,该工具支持在特定语料库中进行与教学相关的搜索。该工具拥有许多非常吸引人的功能,允许并行地表示学习者编写的内容:原始版本及其更正,并可以在其中任何一个中定义搜索。

斯佩拉。

图2:Špela Arhar Holdt正在做演讲。

Johannes概述了苏黎世大学最近实施的基础设施组件的总体情况,重点是一个特定的语料库搜索平台LCP,即LiRI语料库平台。该平台的优势在于,它允许以多种模式搜索多个语料库,并支持以新的查询语言进行查询,即不支持作为该领域当前标准的CQL(语料库查询语言)。Johannes演示了几次搜索并概述了未来的场景。

约翰内斯。

图3:约翰内斯·格雷恩正在做演讲。

萨米尔。

图4:Yousuf Ali Mohammed正在谈论Strix,这是Språkbanken Text的文档级语料库搜索工具。

Yousuf Ali Mohammed(萨米尔)介绍了当前版本的Strix,用于在文档级别进行搜索,展示了各种新的可视化技术,例如用于探索单词突出度和特定文本的主题性的单词雨,以及统计数据的可视化

 

2.我们能从中得到什么?

四篇演讲中概述的关于语料库搜索的多种观点表明,该领域存在各种开放性问题。

斯波克班肯文本的主管马库斯·福斯伯格说,在这种情况下,根本问题是一方面,我们希望能够同时、有选择性地搜索多少(注释丰富的)数据另一方面。它应该是来自一个域的数百万个令牌还是来自不同域的数十亿(或更多)个令牌?我们总是希望在整个数据集中进行搜索,还是希望能够在搜索之前选择数据的各种子集?在这种情况下,这些跨领域语料库应该有多同质和可比?这需要进一步讨论我们的工具定义的相当有问题的概念语料库。

Markus说,一些演示的搜索界面确实很好,例如,由Špela和Johannes提供的搜索界面,但一个潜在的缺点是它们被调优为特定的数据集合。对许多语料库的泛化需要一种折衷方案,例如,支持使语料库可互操作的公共信息类别。这也可能意味着放弃每个特定语料库的一些特殊性。问题是我们应该如何优先考虑。我们是应该像今天这样继续允许在Korp的许多语料库中进行广泛搜索,还是选择更专业化?或者我们可以两者兼而有之吗?

这暗示了需要采取用户视角–我们了解用户及其需求吗?从他们的角度来看,什么是假设的理想工具?Špela Arhar Holdt相信“理想的语料库搜索工具是一种“理想”地支持用户执行特定任务的方法。对于某些任务,访问不同类型的语料库、高级搜索功能和各种数据可视化选项至关重要。然而,在许多情况下,搜索过程的简单性和用户界面的清晰性比丰富的功能更重要。例如,我介绍的协和词的主要受众是中小学教师。在我们的案例中,理想的工具可以满足他们的典型需求,而不会让他们负担过重的功能。其他两个工具提供了更广泛的选项,旨在尽可能多地适应不同的搜索场景。这对于需要一种能够适应各种(也)不可预见的研究需求的工具的研究人员来说尤其有用。"

这个观点——一个语料库的一个工具——强调了另一个问题,即我们在重复上做“相同”的实现,这在许多方面是无效的。什佩拉认为,“在某种程度上,我们,重新发明轮子作为语料库可视化的协调器和其他方法,几十年来在我们的社区中一直很常见。这些工具背后的基本概念大体相似。“她提出了另一个问题,即我们很少遇到高质量、用户友好且在开放许可下可用的现有解决方案; 通常,其中一个方面是缺乏的。

语料库搜索所需的功能之一是在文档级别进行搜索的可能性。这一领域的研究较少,最佳实践尚未建立,这就是为什么我们应该花更多的精力尝试不同的方法并加以改进。这就是萨米尔(优素福)与斯特里克斯合作的地方。用萨米尔的话来说,这方面最突出的问题是:(1)语义搜索——仍需进行大量研究;(2)可视化方法——仍需大量实验。萨米尔认为,创新、跳出框框思考和应用LLM是前进的道路。

如果我们继续在大型语料库中搜索(如Korp和Strix),更快的方法变得至关重要用Peter Ljunglöf的话来说,从语料库工作台提供的标准中进行抽象并尝试其他方法是实现预期结果所必需的。为什么不创建一个新的标准并完全取代语料库工作台(如果必要的话)。。。这基本上就是他和他的同事们正在努力的。

最后,用Špela的话来说,“也许缺少一个完美的工具并不意味着我们不能创建一个,尤其是使用更广泛的国际合作"?

3.开放性问题

当涉及到语料库搜索时,我们仍有大量问题需要考虑,其中一些问题总结如下,提醒我们所有对此领域感兴趣的人:

1理想的搜索工具(用户体验和技术实现):

a) 这样一个理想的工具应该针对特定的语料库及其个人特征进行裁剪,还是应该允许同时搜索许多不同的语料库?

b) 我们倾向于在重复时重新创建一个“相同”的实现吗?这样有效吗?

c) 应该是什么妥协?

2.谁是用户? 我们对他们的问题/问题了解多少?从他们的角度来看,你还有什么没有解决的问题吗?

3.什么是共同点语料库搜索界面的工作?是否有整合的机会?

4.该领域的现行标准是语料库工作台.

a) 语料库工作台有多重要?(以及原因)

b) 它的优点和缺点是什么?

c) 语料库工作台在某些方面有限制吗?(例如,来自其他格式的转换、信息丢失、对令牌的依赖等)

d) 坚持下去的可能动机是什么?(例如,关于数据的大小和搜索的有效性)

5.是否需要新标准语料库搜索?基于人工智能的搜索方法是否有一席之地?我们可以吗?我们应该吗?

6.目前,大多数语料库搜索工具侧重于标记级别的注释。但许多搜索者对较大的文本块、整个文档、文本语义或上下文.

a) 开发文档搜索方法有多重要?

b) 语义搜索有多重要?

c) 使用语料库工作台可以进行这种类型的搜索吗?

7对齐和可视化.

a) 令牌级别的搜索结果通过KWIC(上下文中的关键字)可视化。如何可视化文档搜索的结果?

b) 语义搜索的结果应该如何可视化?

8.总结:哪一个方法未来我们应该提倡语料库搜索吗? 

4.扬声器简介

什佩拉·阿哈尔·霍尔特是卢布尔雅那大学语言资源与技术中心(CJVT)的研究助理。她的专长在于语料库语言学,包括开发公开的语言资源,以及为现代斯洛文尼亚人建立高效的机器和用户辅助词典编纂过程。她与人合著了CLARIN.SI的50多个语言资源,并担任各种词汇资源的联合编辑,包括《现代斯洛文尼亚语同义词表》、《现代斯洛文语搭配词典》和《斯洛文尼亚词法词典》。她对为语言学习设计的资源和工具特别感兴趣。有关更多信息,请访问什佩拉的主页.

约翰内斯·格拉恩建立了苏黎世大学语言研究基础设施LiRI的语言技术部门。他与团队一起设计并实现了LCP,即LiRI语料库平台,这是一个模块化系统,用于搜索从常规文本语料库到多模式语料库的不同类型的语料库。LCP的核心是一个PostgreSQL数据库,它优化了各个语料库的数据和索引的表示,以及一个公共后端,将语料库查询转换为与各个语料集模式匹配的SQL语料库。有关更多信息,请访问Johannes在LiRI的旧主页

优素福·阿里·穆罕默德(萨米尔)他是瑞典Sprákbanken Text的研究工程师,主要工作在Strix平台上,试验文档搜索和可视化的新方法。他以前在这个项目中工作过L2配置文件作为系统开发人员。有关更多信息,请访问萨米尔的网页.

彼得·荣格洛夫是计算语言学的研究员和讲师。他把时间花在了瑞典的斯波克班肯和计算机科学与工程系之间。他的主要兴趣是语言技术,即如何让计算机理解人类语言。目前,他主要追求两条道路——语法形式主义和定量文本分析。Peter对语法形式主义的兴趣非常广泛,可以总结为以下问题:“语法如何不仅用于指定和编码语言语法,还用于对其他信息进行编码?”。他对文本分析的兴趣在于如何将其用于理解社会语言现象。在上查看更多信息Peter的网页.

Elena Volodina的照片。