文件Open Access徽标

一种跨语言的历史文献检索方法

作者 贾普·坎普斯, 马里恩·库伦, 弗兰斯·阿德里安斯, 马尔滕·德·里杰克



PDF格式
缩略图PDF

文件

DagSemProc.06491.3.pdf
  • 文件大小:110 kB
  • 2页

文件标识符

作者详细信息

贾普·坎普斯
马里恩·库伦
弗兰斯·阿德里安斯
马尔滕·德·里杰克

引用为获取BibTex

贾普·坎普斯(Jaap Kamps)、马里恩·库伦(Marijn Koolen)、弗兰斯·阿德里安斯(Frans Adriaans)和马尔滕·德·里杰克(Maarten de Rijke)。历史文献检索的跨语言方法。在数字历史语料库中-架构、注释和检索。达格斯图尔研讨会论文集,第6491卷,第1-2页,达格斯图-莱布尼兹·泽特鲁姆宫(2007)
https://doi.org/10.4230/DagSemProc.06491.3

摘要

我们的文化遗产保存在图书馆、档案馆和博物馆是由几个世纪前写的文件组成的。DigiCULT等大规模数字化计划非专业用户可通过数字方式获得的文档图书馆和垂直搜索引擎。对于用户,查询历史文档集合可能是令人失望的经历。自然语言随着时间发展而变化在发音和拼写方面,引入了新单词不断地,而旧单词可能会从日常使用中消失。对于由于这些原因,涉及现代词汇的查询可能不太用于检索包含许多历史术语的文档。虽然阅读300年前的文档可能不会有问题因为单词仍然可以识别,词汇的变化拼写会使使用搜索引擎查找变得困难相关文件。为了说明这一点,请考虑以下示例我们收集了17世纪荷兰法律文本。寻找关于律师任务的信息(现代荷兰语:{it advocat})这些文本,现代拼写不会引导你找到文档包含17世纪荷兰语拼写变体{it advocat}。由于直到19世纪,17世纪才引入拼写规则世纪荷兰语拼写不一致。主要基于发音,单词通常拼写成几个不同的变体,这给标准检索引擎带来了问题。因此,我们将历史文档检索(HDR)定义为检索相关历史文献的现代查询。我们的方法这个问题是将历史语言和现代语言视为不同语言,并使用跨语言信息检索(CLIR)将一种语言翻译成另一种语言的技术。
关键词
  • 历史文件
  • 信息检索
  • 拼写变化
  • 拼写现代化
  • 17世纪荷兰语

韵律学

问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件