DHQ:数字人文季刊
2018
第12卷第2期

数字空间中的手稿研究:现状领域和新的前进道路

马修·托马斯米勒 <mtmiller _ at_ umd_dot _ edu>马里兰州大学罗山波斯语研究所大学公园
约书亚·韦斯特加德 <韦斯特加德>,马里兰大学图书馆公园

摘要

在过去十年中,工具和平台取得了巨大进步可用于手稿的数字研究。然而,仍有许多工作要做为了解决广泛的教学、编目、,保存、学术(个人和合作)和公民科学以用户友好的方式进行(众包)工作流和用例。本研究(1) 总结了数十位技术专家、手稿专家和通过调查数据和研讨会焦点小组获得的策展人;(2) 提供了评估当前状态的“现场状态”报告可用工具及其局限性;(3)概述了帮助的原则指导未来发展。作者特别强调了生成工具相关数据,促进智能“交易”技术专家、学者、图书馆员和馆长之间的“区域”,利用具有活跃用户社区的代码库,并重新概念化工具创造是一种人文主义智力劳动的协作形式。

一、简介

2016年11月4日,罗山大学波斯语研究所马里兰州(UMD)大学公园举办了“手稿数字时代研讨会”,由塔夫茨大学的英仙座项目,UMD的艺术与人文协同中心,UMD学院语言、文学和文化(SLLC)和肯特州立大学学校图书情报学。为期两天的研讨会源自关注现有的数字基础设施和手稿工具研究未能解决广泛的工作流、用例和该领域学者和馆长的研究和教学需求。一些这些问题源于技术壁垒。例如,许多最好的当前可用的解决方案需要一定程度的技术知识绝大多数学者和策展人都不具备,甚至有一些解决方案需要开发人员时间来正确设置(这是一个进一步的财务障碍阻碍了许多小型机构对这些工具的使用)。其他然而,问题是特定语言问题的结果(例如,贫困显示非拉丁文字和从右向左的语言)和以及功能和工作流的原子化。
组织者为研讨会制定了四个主要目标:
  1. 评估工具、服务和基础设施的当前状态数字版本和注释的创建和保存手稿、图像和相关数据对象;
  2. 确定这些工具、服务和最能满足我们各自需求的基础设施项目可以重用并链接在一起;
  3. 以确定其重用的任何明显障碍以及它们提供的功能;
  4. 创建“贸易区”[1]促进研究人员、技术人员和图书馆员之间的对话大学、美术馆、图书馆、档案馆和博物馆(GLAM)环境关于他们理想中希望在集成图像工作区。
基于杰出学者群体的见解,参与这两天活动的馆长、图书管理员和技术人员车间[2],这项工作首先将对该领域的现状和然后起草原则,以帮助指导未来的发展努力。

二、。问题和需求

概述

虽然数字技术的发展取得了巨大进步用于显示和研究过去图像数据的工具和平台十年来,仍然没有一个端到端的解决方案能够满足学者、馆长、图书馆员和学生。[3]这并不是对现有工具和平台。这是事实的结果数量惊人的不同用例,每一个都需要不同的功能和工作流。用户还与各种各样的不同规模的藏品和语言传统并不尽如人意由当前工具和平台支持。
这导致特定于特定收集或执行离散任务(例如,显示、编目、,转录)-或者,在一些比较成熟的工具中设置离散任务-针对用户。工具和中列出的平台表1只是一些手稿学者报告的更流行的工具和平台在他们的研究中使用。
工具/平台 类型
氧气 桌面软件应用程序
数据库 桌面软件应用程序
PDF专家 桌面软件应用程序
XMLMind公司 桌面软件应用程序
北岛 软件平台
IIIF(国际图像互操作性框架) API规范
米拉多 Web应用程序
奥梅卡 Web应用程序(托管或本地安装)
电子ktobe 在线数据集/收集
OPenn公司 在线数据集/收集
梵蒂冈图书馆平台 在线数据集/收集
藏书目录 在线数据集/收集
Perdita项目 在线数据集/收集
兄弟手稿 在线数据集/收集
DEx:戏剧摘录数据库 在线数据集/收集
Shelley-Godwin档案 在线数据集/收集
布莱克档案馆 在线数据集/收集
CELM:英国文学手稿目录 在线数据集/收集
卡梅纳 在线数据集/收集
英国文学手稿在线 在线数据集/收集和工具
加利卡(法国国家图书馆) 在线数据集/收集和工具
新约虚拟手稿室 在线数据集/收集和工具
科普特旧约虚拟手稿室 在线数据集/收集和工具
vHMML(虚拟HMML) 在线数据集/收集和工具
科普特文字室 在线数据集/收集和工具
餐前小吃 在线平台、存储库和工具
Transkribus公司 在线平台和可安装工具
Papyri.info公司 在线平台、数据集/收集和工具
英仙座 在线平台和工具
表1
参与调查的学者使用的工具/平台
所有这些平台和工具都有一定的优点,可以完成某些任务好。然而,最终,他们的内容、功能和工作流太频繁地竖井/原子化,因此用户必须学习许多不同的工具和平台或具备必要的技术技能将它们链接在一起或导出并操作其数据后期分析。这个指出了用户最大的问题之一:没有当前的工具或平台复制学术、策展或教学工作流在单一、集成的数字空间中。因此,他们并不总是时间以与其他更广泛采用的数字技术相同的方式节省开支是。

学者、馆长、图书馆员和技术人员的要求

在研讨会之前,我们向Digital的同事分发了一份调查人文、经典、中东/伊斯兰研究和图书馆学通过与每个社区关联的流行listserv创建社区。[4]二十七受访者完成了整个调查。诚然,这不是一个科学或综合调查,但其结果具有指导意义研讨会上的许多与会者也表示赞同。挖掘前研究学者、馆长和技术人员的具体要求,从这项调查中,我们得出了一些基本的见解。
首先,用户正在处理的手稿集的大小差异很大。如图所示图1,的我们调查的受访者被相对平均地分为以下几类小型(<100 ms)、中型(100-999 ms)和大型(>1000mss)用户。鉴于用户范围-来自有兴趣研究十几份手稿的学者为拥有数千人的大型机构的图书馆员和策展人做的一项工作数字手稿-然而,它应该作为一个警告那些希望为不同客户开发通用、端到端解决方案的公司手稿研究、展示和管理的形式,每种形式都有自己的用例和必要的工作流。
图1
回答关于被访者工作的手稿集。
其次,用户觉得他们个人没有技术专长或接触安装和运行工具所需的技术人员,或平台。近83%的调查对象表示,他们更喜欢不需要他们搜索的在线、完全托管的网站大学技术人员的协助,以便安装然后跑步。这是对未来发展努力的重要考虑,尤其是那些旨在培养一个用户。
除了这些一般性的观察之外,还有大量其他具体的从调查回复和研讨会中得出的见解。下面是调查参与者和研讨会与会者(我们选择不发布调查回复出于隐私考虑的逐字记录)。我们将这些回应分为学者、馆长/图书馆员和技术人员的要求纯粹是启发式。
图2
关于受访者是否有在其母校获得技术人员或服务可以安装和运行这些工具,也可以选择使用在线站点他或她的机构不必维持。

学者要求:

  • 一个工具/工作区,汇集了以前的学术评论特定文本和作者的手稿;
  • 利用编目员和不同领域的内容专家(例如,手稿专家、,考据学者、艺术历史学家)。正如我们在研讨会,“没有人能做到单独”;
  • 协作学术工作流(例如,功能和在数字空间中实现学术研讨会模型的工作流多个学者共同研究一份手稿)和类似的公民科学、知识采购或众包的工作流主动性;
  • 用于学生和“公民”的教学工作流科学家;
  • 能够从多个数字访问手稿图像存储库并在其上使用数字工具(即客户端应用模型);
  • 文本和图像数据的集成-如图所示图3,超过65%受访者表示,他们需要能够同时处理这两个问题他们工作中的手稿文本和图像数据;
图3
关于手稿是否文本、图像或两者都是受访者的主要关注点工作。
  • 能够注释文本和图像数据。注释的能力72%的人将这两种类型的数据作为要求报告受访者(请参阅图4);
图4
回答关于什么样的注释的调查问题11支持受访者的工作需要。
  • 关于如何设置和使用新的数字工具和工作空间;
  • 创建联合项目的体制机制和支持与数字图书馆员和技术人员合作;
  • 通用网关(因为有太多单独的数字具有无法连接的存储库的手稿集合普遍搜索),多个相似文本的链接存储库,以及有关它们之间差异的信息副本;
  • 创建和发布数字学术期刊的工具和工作流作品的版本(例如,数字评论版、多文本版本),包括同行审查机制;
  • 更好的非拉丁语脚本/从右向左的语言支持;
  • 支持多媒体档案;
  • 地理标记(例如,用于建筑图像)使地点的历时变化可视化,建筑物等。;
  • 将录音与地理空间联系起来;
  • 能够并肩工作,使用相同的多个版本手稿-超过85%的调查报告的要求被调查者(图5)-和能力注释文本变体并比较和分类大型集合将手稿分为手稿系列。
图5
关于受访者是否使用同一文本的多个手稿工作。

馆长和图书馆员的要求:

  • 编目工作流(针对单独编目器和协作编目器编目项目);
  • 用户友好共享;
  • 纳入保护报告;
  • 更多关注书籍对象和结构的实质性(例如,绑定),包括整个对象上的元数据;
  • 允许受限用户访问的机制(尽管许多收藏正在转向开放存取模式,并非所有的收藏都是愿意让图像完全开放访问:在调查结果中相当多的少数人(37%)仍然报告说,他们需要限制由于许可/版权原因访问其图像或文本数据-参见图6);
图6
关于受访者是否需要限制访问其手稿的图像或文本内容出于许可/版权原因。
  • 当地团队可以使用的工具(尤其是在贫困或冲突中区域),计算量轻且符合标准(因此帮助促进与更广泛的学术团体的合作);
  • 处理单个多个手稿的标准法典;
  • 离散密码的数字统一;
  • 从其所在国移走的物品的数字遣返起源;
  • 扩展了纸张类型、墨水颜色、,皮革类型;
  • 包含保存元数据;
  • 更好地支持处理替代方案(即非传统方案手稿)图像数据,如结婚证书、视听材质、纺织品和3D对象。

技术人员要求:

  • 互操作性;
  • 符合标准;
  • 手稿数据的永久标识符和永久引用-a超过92%的调查对象表示,关键需求是他们的工作所需的(参见7);
图7
关于是否允许引用手稿数据(文本或图像)对受访者的工作。
  • 命名实体识别;
  • 能够显示文档和已知元数据;
  • 能够添加和更正现有元数据;
  • 在线发布文本的稳定版本号(即。,版本控制);
  • 版本控制(即通过时间);
  • 通过标签或git提交散列引用;
  • 支持多方向阅读;
  • 工具/平台在低带宽位置的可用性;
  • 拒绝数字存储库竖井模型;
  • 内置的受控词汇表编目/元数据;
  • 能够以多种标准格式导出数据,尤其是TEIXML;
  • 在线托管解决方案(首选)或可下载的现成解决方案程序,因为大多数用户报告他们没有必要的具备设置工具/平台的技术知识,他们不具备技术专家为他们提供支持(参见图2).

工具特定问题

在过去的十年里,人们投入了大量的努力来构建数字手稿展示和研究的基础设施和工具。工具和我们审查的平台代表了目前该领域的一些最佳平台。然而,仍有一些用户需求没有得到满足。
我们从一开始就认识到研讨会的设计考虑到了自己的用例,并为对于许多人来说,通用和重用很可能不是明确的范围,甚至其中任何一个。我们用于评估的目标和指南(详见附录II)旨在帮助我们提出一些关键特征,帮助我们更好地理解每个工具的潜力作为进一步工作的起点,我们尝试回答每个工具的以下问题:
  1. 它是什么用例和工作流旨在支持?
  2. 它还有哪些其他用例和工作流能够支持的?
  3. 能否通过将其与其他功能组合来填补功能上的空白工具?
  4. 是否可以通过使用新的发展?
  5. 要有效地使用它,需要什么技能?
  6. 需要什么技能才能用新的功能?
  7. 它在多大程度上支持数据管理最佳实践?
我们在研讨会上的评论(以以下摘要形式转载)没有综合;它侧重于每种产品的主要用途和特点工具,在我们能够在非常有限的时间内识别它们的程度上提供给我们。在为研讨会做准备时,我们拥有每种工具预先安装在研讨会参与者随后使用的虚拟环境中共同评估工具。重要的是要注意,准备不可能对每个工具进行完全优化配置,因此结果对于识别一些重要特征和差距以及在确定下一步应该发生的事情的优先级时被视为起点,未被视为完全知情的分析或对这些工具和平台的判断。虽然有些工具我们分析有一个文档化良好的代码库,在本研究中我们没有彻底检查每个平台的代码和文档。未来研究需要在这方面调查这些平台,考虑到特定的工作流和用例,以评估每个工作流和用例的可扩展性并讨论发展战略和必要的下一步行动。
写字间专为手稿图像的注释和转录任务。保存和策展不在其预期用例中。它支持导入图像通过外部引用的IIIF清单[2017年IIIF]. 它使用用于描述手稿的自定义元数据字段,其元数据是有限的到文本-即,实际的手稿细节,如装订,不是包括。不支持元数据的固化。用户界面是专为学术和教学工作流设计。协同功能已经到位,但还没有完全充实。代码依赖于Meteor javascript框架[2017年气象]而不是为了其他目的重用而开发的。这两个都是因素对代码库的长期可持续性有影响。在我们调查的所有工具中,Scriptorium的用户界面拥有最多吸引小组中的学者。用户界面设计是候选重用,即使底层代码本身可能不是。
奥梅卡是最成熟、最受支持的我们看到的平台,有一个庞大的开源开发人员社区为代码库提供插件和增强功能。这也是最通用。它主要用于展示和发布数字材料的适度收藏。支持实时协作或教学工作流程不是平台固有的,尽管可能存在成为插件来提供一些这种功能。Omeka确实提供了卓越的服务支持元数据标准,使用都柏林提供内置模板核心,但允许轻松扩展其他受控词汇表。还具有良好的数据管理支持,能够为您提供自己的永久标识符(任何格式,包括句柄、URN、DOI、,等等),不限制您使用特定于数据库的节点标识符。现有的IIIF插件没有很好地集成,但当前由多伦多大学牵头,努力为IIIF提供新的支持[多伦多大学2017]专注于处理手稿。多伦多工作支持通过IIIF Manifest URL和treat导入图像这些图像上的IIIF注释作为Omeka收藏中的项目。目前不支持广泛处理手稿文本,在图像上的注释之外,需要为许多用例。使用PHP和Javascript作为主要编程语言,以及可用于的文档和支持级别开发人员将其作为扩展和重用的有力候选。应该是这样的然而,注意到Omeka并不打算长期保存数据。Omeka也可以通过订阅模型位于欧米茄网.机会对于在托管版本中受限的项目特定定制,然而,这取决于所选择的计划。
盖蒂学者工作区是一组扩展到Drupal内容管理系统[Drupal 2017]其中旨在为艺术史学家提供一个研究环境。它将工具添加到Drupal用于创建书目、对图像进行分组和比较,以及撰写笔录、论文和注释。它对协作,基于Drupal的基于角色的权限,但没有教学工作流。支持的标准包括都柏林核心分类法,但不支持IIIF。数字出版是明确的排除在应用程序范围之外,尽管它确实支持导出JSON、XML或CSV格式的数据,然后可用于创建静态通过Getty Publication的静态web资源从数据中创建网站发电机。通过利用底层的灵活性和可配置性Drupal与Getty工具一起,可以创建一个遵循良好数据引用实践的复杂数字出版物(例如为数据项分配外部持久标识符,以及为用户提供引文指导),但工具集本身没有提供有关如何执行此操作的任何指导。例如,在我们的探索中,我们无法准确确定工具集合的方式配置并用于制作演示站点“彼得罗·梅里尼的诗篇目录,1681年。”[盖蒂研究所2016]定制需要PHP编程技能用于特定用例的工具集。有良好的用户文档提供了工作区功能的安装和使用,以及Docker映像易于安装和运行,因此它确实有一些潜力以便重新使用。例如,我们可以设想构建主题预设数据管理、组织和最终发布的默认值。已经有其他现有插件提供IIIF支持Drupal,因此这些可能会添加到Getty工作区安装以完善映像支持。Omeka可能是Drupal,服务于如此广泛的多学科用户群,有大量可用的插件,从非常通用的到非常具体,但这也可能是技术含量较低的一个缺点用户,因为利用它们可能需要大量编程专业知识。资源,如Drupal用于人文主义者[Drupal 2017]在这里可能会很有用。
vHMML(虚拟HMML)是一个虚拟阅览室和编目专为希尔博物馆和手稿设计的环境图书馆,带有显示参考资料、图像和其他信息的模块数字资源。它支持编目工作流和元数据标准这是特定于其核心用例的。支持IIIF查看图像和注释,通过Mirador查看器和OpenSeaDragon库。这个核心应用程序本身是用Java编写的,并使用MySQL数据库,并使用Elastic Search进行索引搜索。它使用w3id.org为其上发布的资源提供稳定的链接不包括对协作学术或教学工作流的支持。该代码虽然在开源GitHub存储库中可用,但不是目前打算合作维护或开发。它是,然而,可用于分叉和重新调整用途,以及使用的技术相当标准。查看着眼于重用的代码将是特定于vHMML的工作流、数据格式和用例与代码的设计。如果把它们融入到设计中,很可能不值得尝试重用,但如果普遍这样做,可能会可能。
集体访问是一个基于web的套件提供管理、描述和发现复杂的物理和数字藏品。它设计为前端可供公众使用的收藏管理系统展览。档案馆和博物馆是该系统的目标用户,尤其是那些需要同时支持实体收藏和数字收藏的人。创建和发布藏品目录和展览是其核心用途案例。很明显,档案管理员和图书管理员是主要目标工具的消费者,它不是为这样做的临时用户设计的不了解元数据和编目活动。确实如此支持在中预配置的各种元数据标准安装,如Dublin Core、EAD(编码档案描述)、VRA核心(Visual Resources Association元数据标准)和CDWA-Lite(艺术作品描述的类别)。元数据方案是也可以通过用户界面(UI)轻松扩展。该系统提供控制不同元数据元素对最终用户的公开。A类一系列受控词汇,如LCSH(国会图书馆主题标题)和盖蒂词汇表已经集成到系统中。为保险估价、,位置跟踪和来源。每个更改的大量日志对象/集合也可以通过UI访问。集体访问到来具有一系列用于批量导入、导出和编辑的内置工作流。中不支持实时协作或教学工作流平台;然而,可能有一些插件可以提供这些功能功能。该平台还提供了粒度级别的搜索,如物品、收藏品、活动和展览。集体访问可以使用不同的观众访问媒体。其默认媒体查看器可以允许以PDF格式访问静态图像、音频、视频和多页文档格式。它有一个内置的注释工具,用于单个图像和音频/视频但不适用于多页文档。在我们的研讨会上开发团队正在模块化查看器并添加支持IIIF图像服务器和多页文档查看器,例如Mirador和Universal Viewer[Digirati 2017年]. 代码是用PHP编写,并且有可用的用户和开发人员文档在项目wiki上,以及由Collective Access开发团队。将PHP用作主要编程语言,以及可用文档和支持的级别对于开发人员来说,它是扩展和重用的有力候选。Collective Access也可以作为托管在线平台,通过订阅模型位于collectiveaccess.org与Omeka一起,这是唯一的我们看到的工具选项都是通过这个模型公开提供的。重点关注物理收集和编目用例,以及界面的复杂性使我们得出了一个初步结论:不太可能用于以手稿为中心的用例的重用。然而,有兴趣管理其实体的档案管理员可以使用通过单一平台进行数字收藏。
米拉多是客户端javascript图像查看器根据IIIF标准设计。它可以作为嵌入式库运行在HTML页面中,并且设计为集成到更大的应用程序中。它被用于上面讨论的许多平台。有技术文档可用,但使用和部署它确实需要最少的掌握Javascript和HTML。它显然是重用的候选者。当与IIIF图像服务器和注释服务器结合时,它可以为图像显示和注释提供了一个完整的环境,但它确实不旨在涵盖任何其他用例(例如转录或编目)。表2-3提供以下内容的摘要平台的比较。
平台/
工具
主要功能 养护和保存工作流 支持外部IIIF清单 元数据扩展性 协作工作空间功能 代码库和开发框架
写字间 手稿的注释和转录 是的 不;独特模式 是的 JavaScript;Meteor框架
奥梅卡牌手表 数字藏品的展示和出版 一些功能 正在开发中 很好 PHP和JavaScript
盖蒂学者工作区 艺术史学家的研究环境 否(但存在Drupal插件) 仅限都柏林核心区 是的 作为Drupal的扩展开发;PHP程序
vHMML(虚拟HMML) 虚拟阅览室与编目环境 是的 不;独特模式 Java语言
集体访问 物理和数字收集管理 一些功能 正在开发中 很好 PHP程序
米拉多 客户端图像查看器 是的 不适用 不适用 JavaScript脚本
表2
平台概要比较(第1部分)
平台/
工具
从事手稿工作的用户体验 文件质量 开放源代码 发展共同体 可扩展性 手稿注释支持
写字间 很好 可怜的 小型团队;仅限于项目 不适用 是的
奥梅卡 不适用 很好 是的 大型活跃社区 是的
盖蒂学者工作区 有限 很好 是的 小型团队;未激活 是的 是(实现了一些功能)
vHMML(虚拟HMML) 不适用 可怜的 是的 小型团队;仅限于项目 有点吧 是的
集体访问 有限 很好 是的 活跃的社区 是的 仅适用于单个图像
米拉多 不适用 很好 是的 活跃社区 是的 是的
表3
平台概要比较(第二部分)

三、 现场观察结果和建议

支持数字手稿研究和出版工作已经到位。虽然我们可能仍然缺乏一些标准化围绕高度特定的元数据、标准,如图像的IIIF、TEI(文本编码倡议)用于文本,都柏林核心用于元数据,以及新批准的W3C Web注释数据模型[W3C 2017年]覆盖绝大多数需要。虽然开源开发可以免费使用工具和服务,例如GitHub和各种云基础设施,已经删除了一些基础设施障碍,减少了发展和学术和教学工作流程的部署、深度和多样性技术变革速度快,软件开发不足专业知识是仍然需要克服的挑战。一种尺寸——全部数字手稿研究的解决方案仍然难以想象,但模块化基础设施,允许以不同方式组合工具是有可能的,并显示出很大的潜力。
以下是我们对未来的总结性见解和建议发展努力。

洞察力

  1. 需要解决的工作流程多种多样。
    • 教学需要不同的工作流程,编目、保存、个人学术,协作学术和公民科学(众包)工作。因此,一些工具可能使用共享的基础平台(例如,Omeka或Drupal)并添加不同的工作流基本平台的模块或插件。这种方法更容易重用和重新调整现有的用途平台。
  2. 该工具的代码基础和社区参与程度是对可持续性和扩张至关重要。
    • 代码库显著影响未来的可用性工具。例如,高质量的代码库减少了招募新贡献者的总成本。
    • 活跃的用户和开发人员社区对于维持工具。值得研究最佳实践在这一点上。
    • 遵循开发最佳实践,例如生产全面的单元测试和开发人员文档对重用至关重要。
  3. 没有面向学者和研究手稿的学生。
    • 没有端到端的解决方案无显影剂。
    • 该领域仍然缺乏基本的基础设施、指导和针对个别学者和小型企业的可持续解决方案管理和保存手稿图像的机构和数据。
  4. 迭代是不可避免的。
    • 没有一个工具或平台会成为灵丹妙药,所以我们需要考虑迭代发展与合作发展现有工具和平台。
  5. 工具/平台创建是一种协作形式的智能劳动力。
    • 我们需要吸引学者、馆长和图书管理员与技术专家一起创建新工具和平台并致力于重新定义这种协作作为一种智力劳动形式的工作现有招聘中的大学管理,晋升和任期审查流程。

建议

  1. 数据管理和工具创建应单独处理项目。
    • 我们需要独立于它在特定工具中的表现形式。例如,高分辨率图像可以存储并保存在图像中旨在促进协作的存储库工具手稿工作可以使用IIIF表现无需存储和保存原始图像图像。
    • 我们需要计划实现持久识别和引文,以便有明确的联系点并使用比工具更耐用的API。
    • 数据必须易于导出和转换。
  2. 我们需要创建更多的“贸易区”[Galison 1997年]技术专家、图书馆员、,馆长和手稿学者。
    • 我们需要建立社区和空间(即“贸易区”)由技术专家、图书馆员和学者组成发展促进合作的“中介语”。在我们与用户的研讨会圆桌会议期间例如,很明显,有多种类型的用户想要但无法在中找到的功能现有的解决方案,甚至没有考虑过之前。此类平台的开发人员将从中受益通过了解贸易区的需求目标用户群体,从而提高整体平台的设计和功能。
  3. 我们需要更好地记录我们的工具的工作流和用例都是为了地址。
    • 需要确定工作流和理想用例,并记录每个工具(在车间中变得清晰即使是该领域的专家也不总是能够轻松确定旨在支持的特定工具)。有良好文档记录的工作流并且用例可以扩展和重新调整工具的用途更容易的。
  4. 避免从头开始。
    • 由于没有满足广泛范围的平台对于需求和工作流程,可能会考虑从头开始构建平台。我们认为最好是抵制这种诱惑。存在许多平台(例如。,Omeka和Drupal),可作为基础基础设施用于开发工具。设计师和开发人员可以使用并添加模块和插件来扩展其服务于特定工作流和使用的功能案例。
这些见解和建议来自于学者、策展人和技术专家调查数字工具的状态可用于手稿研究和管理。通过这样的“贸易区”,我们可以实现更好的发展了解这些社区的不同新兴需求提高他们对数字基础设施和现有和新兴技术。这种尝试可以减少冗余加强技术融合。我们希望这些观察结果和建议鼓励这些社区之间进一步合作并促进旨在共同创建共享可扩展的基础设施。

附录一:调查信息

调查问题
  • 问题1-如果你目前正在研究手稿,你是否使用任何数字工具还是平台?
  • 问题2-如果你目前正在学习手稿,但没有使用任何数字工具或平台,为什么不使用任何现有工具和平台?
  • 问题3-如果你目前在学习手稿时确实使用了平台或工具,你用哪一种?
  • 问题4-你为什么使用问题中提到的平台以上?
  • 问题5-您认为哪些工具或平台是该领域中最好的目前?
  • 问题6-这些工具或平台的哪些特性和功能最重要对你来说很重要吗?
  • 问题7-这些工具和平台的哪些特性和功能将你希望看到改进,以及如何改进?
  • 问题8-你希望在手稿中看到什么特性或功能您当前在任何现有工具中都看不到的工作区平台?
  • 问题9-手稿集的大致大小是多少你通常以学者或馆长的身份与之合作?
    • 小于100
    • 大于100但小于500
    • 大于500但小于1000
    • 大于1000,但小于5000
    • 5000多
  • 问题10-以下哪些选项是您的主要关注点数字化工作?
    • 手稿图像
    • 文本本身
    • 两者都有
  • 问题11-您需要支持注释吗?
    • 图像注释
    • 文本注释
    • 两者都有
  • 问题12-你在处理同一文本的多个手稿吗?
  • 问题13-是否允许引用您的手稿数据(文本或图像)对你来说很重要吗?
  • 问题14-您是否需要限制对以下内容的图像或文本内容的访问许可/版权原因?
  • 问题15-是否有特定的文件格式(例如TEI XML)用于存储您的研究成果?请提供文件格式。
  • Q17-您在母校是否有技术人员或服务可以为您安装和运行这些工具,或者您更喜欢使用您的机构不必维护的在线网站?
    • 我更喜欢我的家庭机构安装和运行工具
    • 我喜欢使用我所在机构没有的在线网站保持
调查分发给以下学术列表服务商:
  • 阿拉伯文学学者(阿拉伯文学学者_at_utlists_dot_utexas_dot_edu)
  • Adabiyat(Adabiyat_at_lists_dot_uchicago_dot_edu)
  • 伊斯兰AAR(islamar_at_lists_dot_psu_dot_edu)
  • 数字古典主义者(digitalclassistist_at_jiscmail_dot_ac_dot_uk)
  • 法语DH(DH_at_groupes_dot_renater_dot_fr)
  • 数字人文夏季研究所(Institute_at_lists_dot_uvic_dot_ca)
  • 都柏林核心元数据数据倡议-文化遗产工作组(DC-Cultural-TG_at_jiscmail_dot_ac_dot_uk)
  • 伊朗研究协会(listserv_at_societyforiraianstudies_dot_org)

附录二:工具评估目标

我们研讨会的基本目标是评估一系列可供使用的平台在数字手稿研究中。用例多种多样,我们的平台被选中进行审查的每个人都有不同的目标和核心选民。

主要目标

研讨会技术部分的主要目标是对每个工具或平台的以下问题的回答:
  1. 它是什么用例和工作流旨在支持?
  2. 它还有哪些其他用例和工作流能够支持的?
  3. 能否通过将其与其他功能组合来填补功能上的空白工具?
  4. 是否可以通过使用新的发展?
  5. 要有效地使用它,需要什么技能?
  6. 需要哪些技能才能用新技能进行扩展功能?
  7. 它在多大程度上支持数据管理最佳实践?(考虑诸如资源的持久标识、版本控制、,数据导入/导出、数据转换、标准数据格式、,本体等)
以下是一些建议的问题,用于深入调查每个这些主题。这些只是一个起点。鼓励参与者探讨其他问题和主题适用于它们的用例。
用例和工作流
  1. 它支持以下哪些高级用例数字手稿内容:
    • a.创建
    • b.治疗
    • c.出版
    • d.保存
    • e.合作
    • f.教育学
    • g.分析
    • h.其他
  2. 它支持以下哪种内容类型:
    • a.元数据
    • b.文本
    • c.图像
    • d.注释
    • e.其他
数据管理
  • 永久标识符
    1. 它是否为您的数据提供稳定的标识符物体?
    2. 什么类型?(URL、DOI、句柄、ARK、数据库标识符等)
    3. 它们是全局唯一的还是仅对工具/平台?
    4. 它提供了什么方法来制作这些标识符在上下文外持久和可解析工具/平台?
    5. 它们的粒度级别是什么?(对象,对象的片段、对象上的注释等)
    6. 除此之外,您能否为数据对象提供自己的PID或代替平台分配的人员?
    7. 它支持标识符的版本控制吗?
其他数据管理主题
  1. 对什么是数据对象有任何限制吗?
  2. 它是否提供了一种提供形式化、机器可操作的方法数据对象的描述?
  3. 它是否支持数据的版本控制?
  4. 你能导出数据吗?
  5. 它是否提供了访问其数据的API?
  6. 它支持哪些数据类型格式?
  7. 您可以添加/定义自己的数据类型和格式吗?
  8. 它为发布链接的数据提供了什么支持数据?
  9. 它为摄取或引用外部内容提供了什么支持链接的数据源?
  10. 您可以将数据分组到集合中吗?
  11. 您可以拥有不同数据类型的多个集合吗?
  12. 您可以定义集合中项目之间的关系吗?
  13. 它提供了什么编目功能?
元数据
  1. 它是否支持OAI/PMH?
    • a.用于出口?
    • b.摄入/收获?
  2. 它支持哪些元数据词汇表?
    • a.你能定义或提供自己的词汇吗?
文本
  1. 它支持什么文本格式?
    • a.纯文本、HTML、HOCR、标记、XML、PDF等。?
  2. 有上传文本内容的接口吗?
    • a.从文件系统?
    • b.从URL?
    • c.是否支持批处理模式?
  3. 它是否支持将文本链接到其他对象(图像、,外部站点、注释等)?
图像
  1. 它支持哪些图像格式?
    • a.JPG、PNG、TIFF等。
  2. 它支持IIIF API端点吗?
  3. 有上传图像的接口吗?
    • a.从文件系统?
    • b.从URL?
    • c.是否支持批处理模式?
    • d.是否支持3D可视化功能?
  4. 它是否支持将图像链接到其他对象(文本、,外部站点、注释等)?
注释
  1. 你能创建注释吗?
    • a.在文本上?
    • b.在图像上?
    • c.在pdf上?
    • d.其他?
  2. 注释是如何存储的?
    • a.他们是否分配了与他们的项目不同的标识符是否连接到?
协作
  1. 它支持共享对象上的协作吗?
  2. 它是否支持实时协作(多个用户在同一时间同一对象)?
  3. 它提供用户模型吗?
  4. 提供了哪些身份验证选项?
    • a.OAuth2和社会身份提供者?
    • b.希伯莱?
    • c.用户名/密码?
    • d.其他?
  5. 它支持组功能吗?
  6. 它支持用户角色吗?
    • a.粒度级别?
      • 单个对象?
      • 应用范围?
      • 项目?
可扩展性
  1. 它支持新功能的插件吗?
  2. 它是否提供了如何扩展的文档?
  3. 它是否为应用程序集成提供API?
  4. 扩展它需要什么编程语言?
    • a.扩展需要什么技能水平?
  5. 它是否支持用于演示的自定义主题/样式表?
  6. 它支持移动设备吗?
  7. 是否有活跃的开发人员社区?
  8. 代码是否记录在案?
可用性
  1. 使用起来有多容易?
  2. 是否有用户帮助/文档?
  3. 有教程吗?

笔记

[1] 关于概念和“交易”的重要性区域”,请参见:[Galison 1997年]. 盖利森提出了一种通过发展新的共享文化和语言。他认为不同的亚文化可以在在没有全球协议的情况下,通过开发小组共享并用于交流的中介语。
[2] 除了本书的作者外,以下是出席会议的还有:约翰·亚伯拉罕(约翰·霍普金斯大学)、阿尔贝托·坎帕尼奥洛(国会图书馆)、休·凯利斯(杜克大学)大学/数字拉丁图书馆),Elijah Cooke(Roshan Institute for马里兰大学波斯语研究),Hirad Dinavari(图书馆国会),Doug Emery(勋伯格手稿研究所,宾夕法尼亚大学)、Mahmood Gharavi(哥伦比亚大学)、Ahmet T。卡拉穆斯塔法(马里兰州大学罗山波斯语研究所),Fatemeh Keshavarz(罗山大学波斯语研究所马里兰州),Ida Meftahi(罗山波斯研究所,大学马里兰州)、Patrick Murray-John(乔治梅森大学/奥梅卡分校)、Mark Patton(约翰·霍普金斯大学)、西蒙·雷蒂格(弗里尔美术馆和亚瑟·M·。萨克勒画廊),拉斐尔·维利安蒂(马里兰州理工学院马里兰大学人文学院)、琼·威克斯(国会图书馆)、,Jeffrey Witt(马里兰州洛约拉大学)。Daniel Gullo、Chad LaVigne、,希尔博物馆和手稿图书馆的威廉·斯特劳布也加入了我们将在周五下午讨论vHMML阅览室。
[3] 从今往后,当我们想要统称为“学者、馆长、图书馆员和学生“我们将使用术语“用户”。我们将只使用更具体的术语是“学者”“策展人”“图书管理员”或“学生”这类更广泛的“用户”类别。
[4] 对于完整调查问题列表,见附录I。

引用的作品

Digirati 2017年迪吉拉蒂。“UV”2017年3月29日查阅,http://universalviewer.io/.
Drupal 2017年德鲁帕尔。“Drupal(德鲁巴)人文主义者。”2017年3月29日查阅。http://drupal.forhumanists.org/.
2017年Drupal协会Drupal公司协会。“Drupal”,2017年3月29日查阅。https://www.drupal.org/
Galison 1997年彼得·盖利森。形象与逻辑:微观物理学的物质文化芝加哥:芝加哥大学出版社,1997年。
盖蒂研究所2016盖蒂研究协会,“彼得罗·梅里尼的诗歌目录,1681.“2017年3月29日查阅。http://www.getty.edu/research/mellini网站/.
2017年IIIFIIIF,“国际图像互操作性框架。”2017年3月29日查阅。网址:http://iiif.io/.
2017年气象流星。构建Javascript应用程序的最快方法。”2017年3月29日查阅。https://www.流星网/.
多伦多大学2017多伦多大学。“手稿研究的数字工具。”访问2017年3月29日。https://digitaltoolsmss.library.utoronto.ca网站/.
W3C 2017年W3C公司。“Web批注数据模型。”2017年3月29日查阅。https://www.w3.org/TR/annotation-model网站/