The NIDDK Central Repository at 8 years—Ambition, Revision, Use and Impact

Charles F. Turner; Huaqin Pan; Gregg W. Silk; Mary-Anne Ardini; Vesselina Bakalov; Stephanie Bryant; Susanna Cantor; Kung-yen Chang; Michael DeLatte; Paul Eggers; Laxminarayana Ganapathi; Sujatha Lakshmikanthan; Joshua Levy; Sheping Li; Joseph Pratt; Norma Pugh; Ying Qin; Rebekah Rasooly; Helen Ray; Jean E. Richardson; Amanda Flynn Riley; Susan M. Rogers; Charlotte Scheper; Sylvia Tan; Stacie White; Philip C. Cooley

doi:10.1093/database/bar043

数据库（牛津）。2011; 2011年：bar043。

2011年9月29日在线发布。 doi（操作界面）：10.1093/数据库/bar043

PMCID公司：PMC3243603型

PMID：21959867

NIDDK中央存储库8年的雄心、修订、使用和影响

查尔斯·特纳,^1,^2,^† 潘华勤,^1,^† 格雷格·西尔克,^三，^† 玛丽安·阿尔迪尼,¹ 维塞利娜·巴卡洛夫,¹ 斯蒂芬妮·布莱恩特,¹ 苏珊娜·坎托,¹ 龚延昌,⁴ 迈克尔·德莱特,¹ 保罗·埃格斯,⁵ Laxminarayana Ganapathi公司,¹ 苏加塔·拉克什米坎坦,¹ 约书亚·利维,¹ 李社平（Sheping Li）,¹ 约瑟夫·普拉特,¹ 诺玛·普格,¹ 应钦,¹ 丽贝卡·拉苏利,⁵ 海伦·雷,¹ 让·理查德森,¹ 阿曼达·弗林·莱利,¹ 苏珊·罗杰斯,¹ 夏洛特·谢珀,¹ Sylvia Tan（西尔维娅·谭）,¹ Stacie白色,¹和菲利普·库利^1,^*^†

查尔斯·特纳

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据查尔斯·特纳

潘华勤

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据潘华勤

格雷格·西尔克

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据格雷格·西尔克

玛丽安·阿尔迪尼

¹RTI国际，邮政信箱12194，北卡罗来纳州三角研究公园，邮编27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据玛丽安·阿尔迪尼

维塞利娜·巴卡洛夫

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，北卡罗来纳州罗利市，邮编27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据维塞利娜·巴卡洛夫

斯蒂芬妮·布莱恩特

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，北卡罗来纳州罗利市，邮编27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据斯蒂芬妮·布莱恩特

苏珊娜·坎托

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据苏珊娜·坎托

龚延昌

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据龚延昌

迈克尔·德莱特

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据迈克尔·德莱特

保罗·埃格斯

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），29892

查找文章依据保罗·埃格斯

Laxminarayana Ganapathi公司

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据Laxminarayana Ganapathi公司

苏加塔·拉克什米坎坦

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，北卡罗来纳州罗利市，邮编27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据苏加塔·拉克什米坎坦

约书亚·利维

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，北卡罗来纳州罗利市，邮编27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据约书亚·利维

李社平（Sheping Li）

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据李社平（Sheping Li）

约瑟夫·普拉特

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据约瑟夫·普拉特

诺玛·普格

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据诺玛·普格

应钦

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），29892

查找文章依据应钦

丽贝卡·拉苏利

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据丽贝卡·拉苏利

海伦·雷

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，北卡罗来纳州罗利市纳尔逊霍尔，邮编27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据海伦·雷

让·理查德森

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，北卡罗来纳州罗利市，邮编27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据让·理查德森

阿曼达·弗林·莱利

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据阿曼达·弗林·莱利

苏珊·罗杰斯

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据苏珊·罗杰斯

夏洛特·谢珀

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据夏洛特·谢珀

Sylvia Tan（西尔维娅·谭）

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据Sylvia Tan（西尔维娅·谭）

Stacie白色

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约市立大学（皇后学院和研究生中心），纽约州法拉盛11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据Stacie白色

菲利普·库利

¹RTI International，邮政信箱12194，Research Triangle Park，NC 27709，²纽约城市大学（皇后学院和研究生中心），Flushing，NY 11367，^三北卡罗来纳州立大学普尔管理学院，Nelson Hall，Raleigh，NC 27695，⁴北卡罗来纳州立大学生物信息学研究中心，罗利，NC 27695，以及⁵美国马里兰州贝塞斯达国家糖尿病、消化和肾脏疾病研究所（NIDDK），邮编29892

查找文章依据菲利普·库利

作者信息文章注释版权和许可信息 PMC免责声明

摘要

国家糖尿病、消化和肾脏疾病研究所（NIDDK）中央知识库将NIDDK资助研究的数据和生物样本提供给更广泛的科学界。因此，它有助于：在没有新数据或生物样本收集的情况下测试新假设；汇集多个研究的数据，以提高统计能力；以及利用知识库精心策划的表型数据进行信息丰富的遗传分析。本文使用一个更简单的模型描述了Repository的初始数据库计划及其修订。所吸取的教训包括在数据库设计的复杂性与实施的时间和金钱成本之间进行权衡；将同意书纳入基本设计的重要性；将生物样本ID与蒙面的存放数据集中使用的主题ID；以及在分发之前测试完整性数据集的标准化程序的重要性。该知识库目前正在跟踪111项正在进行的NIDDK资助的研究，其中许多研究包括基因型数据，它保存了超过500万份25种类型的生物样本，包括血清、血浆、粪便、尿液、DNA、红细胞、浅黄色皮毛和组织。知识库资源支持了一系列生化、临床、统计和遗传学研究（188项外部临床数据请求和31项生物样本请求已获批准或待定）。遗传研究包括GWAS、验证研究、提高GWAS统计能力的方法开发以及遗传研究新统计方法的测试。我们预计，存储库资源对生物医学研究的未来影响将通过以下方式得到加强：（i）在其他可搜索数据库和生物库目录中交叉列出存储库生物样本；（ii）正在部署新的应用程序以查询存储库的内容；以及（iii）在研究研究和不同存储库使用的词汇中加强程序、数据收集策略、问卷等的协调。

数据库URL: http://www.niddkrepository.org网站

背景

2003年，美国国立卫生研究院的国家糖尿病、消化和肾脏疾病研究所建立了数据、生物样本和基因库，通过向更广泛的科学界提供数据和生物样本来增加当前和以前资助的NIDDK研究的影响（见网址：www.niddkrepository.org). 这些存储库统称为“NIDDK中央存储库”，使未参与原始研究的科学家能够在没有新数据或生物样本收集的情况下测试新假设，并且该存储库提供了跨多个研究汇集数据的机会，以提高统计分析的能力。此外，NIDDK资助的大多数研究收集遗传生物样本，一些研究进行高通量基因分型，使其他科学家能够使用Repository资源，使用精心管理的表型数据进行信息丰富的遗传分析。

在本文中，我们描述了：存储库的雄心勃勃的初始设计；随后对该设计进行简化，以更好地适应用户的需求和可用资源的限制；存储库的当前状态；向研究人员提供的数据和生物样本；以及将知识库资源用于生物医学研究的示例。最后，我们描述了我们在知识库演变过程中学到的一些关键经验教训，以及我们目前正在对知识库进行的生物信息学增强。

2002年雄心勃勃的数据库提案

我们设想NIDDK数据仓库将是一个由私有域中的主数据库组成的大型系统（如所示附件1作为NIDDK数据存储库），并支持公共域中的数据库（如所示附件1作为NIDDK Web数据库）。在这两个域中创建数据库被认为是为授权项目和公共用户提供安全性和可访问性所必需的。

在单独的窗口中打开

附件1。

NIDDK数据存储库的初始计划。

私人领域的主要数据库计划包括项目管理（控制）数据库和个人研究数据库。控制数据库（Control_DB）旨在提供表格和视图（存储的查询），以帮助管理项目功能、跟踪和管理研究数据库，并为报告提供信息。研究数据库（study_DB）旨在拥有包含研究数据、代码簿和信息的表和视图，这些信息将有助于数据库管理、跟踪研究人员请求并提供数据以响应研究人员请求。

支持数据库旨在包括支持公共网站所需的任何数据库。预计主数据库（NIDDK_Web_DB）将具有表格和视图，支持网站向研究人员通报可用研究、管理研究人员访问私人页面、支持托管用户论坛和支持研究人员数据请求的功能。将创建额外的研究数据库（study_Pub_DB），以包含代码簿、文档列表、用户请求日志等的研究特定表。这些数据库将用于提供研究特定信息，并促进基于可用字段的研究人员数据请求方法。

设计的修订

我们最初的计划雄心勃勃，复杂而昂贵。在授予构建知识库和支持数据库工具的合同后，我们进行了一项需求分析，该分析考虑了NIDDK和科学界的利益和需求。该分析得出的结论是，我们提出的方法不合适，原因有很多，其中最重要的是开发成本和使Repository联机的滞后时间。对所有存储库利益相关者（即NIDDK、贡献数据的研究中心、提供数据的主体和数据消费者）的观点进行的正式审查确定了开发和维护我们设想规模的大型存储库的以下核心要求。

支持通信功能的公共网站，包括通知用户：如何识别存储库的内容、如何获取存储库产品、如何向存储库贡献产品以及如何访问存储库人员。
数据和样本请求者的筛选过程，以控制对存储库资源的访问。因此，如果用户有兴趣获得Repository产品，他们有义务提供一份研究计划，确定如何使用产品，该计划将由NIDDK审查、批准或不批准。
可用数据、生物样本和支持文档的层次结构视图。这一层次结构从研究概述开始，确定其目的、结果和设计特征；研究操作的详细说明（方案和MOOP）；以及如何捕获数据的具体细节（数据收集表）。
一种提供研究变量子集信息（从而提供数据）的机制，因为潜在用户对这些变量的百分比不太感兴趣。
严格的程序确保对存储库分发的数据进行完整性、准确性和符合HIPAA法规的检查。

存储库的简单设计

为了满足这些要求，我们修订了存储库的设计和实施计划，包括：

每项研究文件的标准模板，包括：（i）研究的一般说明，（ii）操作和协议手册（用于收集临床数据和样本的程序说明），（iii）收集临床数据时使用的所有数据采集表，（iv）数据描述（包括变量分布的汇总统计和SAS变量描述，以及（v）与研究出版物的链接。
将数据和生物样本放置在不同的物理位置和文档中的受限域中。数据（与数据描述相反）驻留在存储库的数据存档部分，只有存储库员工才能访问。这些数据仅分发给批准的研究人员。这意味着将减少涉及未经批准的数据访问的安全问题，因为这些数据将位于存储库防火墙之后。文档也是数据存档的一部分，但与存档不同，它可以从网站的公共组件中查看。
开发一系列半自动化应用程序，允许用户在线提交数据和样本请求。随着时间的推移，这些流程进行了修改，以支持更高级别的自动化。
数据管理过程，提供标准目录布局，用于将数据组织到数据档案中，并添加文档以提高可用性。
开发预发布数据检查程序，从研究中选择已发布的同行评审手稿，并使用存储在存储库中的数据独立复制表格和统计分析。此过程有助于确保存储库分发的数据的完整性。

随着时间的推移，存储库中的研究数量不断增加，我们认识到对搜索存储库内容和检索相关文档的有效方法的额外要求。2011年期间，正在推出用于此目的的新工具。（在本文的后面部分中，我们将介绍这些工具。）

2011年知识库的主要组成部分

目前，NIDDK中央存储库有五个主要组件：

NIDDK赞助研究的临床数据和文件档案；
生物样本集合和相关数据库，用于识别从NIDDK资助的正在进行和完成的研究中收集的样本，并将其与相关表型数据相关联；
一个Web门户，使知识库中的特定研究信息易于查看，并接受生物样本和数据的电子请求；和
来自全基因组关联研究（GWAS）和测序研究的基因分型数据集合，位于国家生物技术信息中心（NCBI）的基因型和表型数据库（dbGaP）；参见http://www.ncbi.nlm.nih.gov/sites/entrez？db=gap).
用于管理研究数据和标本的发布和使用的研究和现场特定同意书库。

存储库状态

研究

截至2011年3月9日，知识库正在跟踪111项NIDDK资助的研究。从这些研究中，知识库为临床、生物化学、统计和遗传学研究提供了资源，尤其是在糖尿病、肾病、肝病和炎症性肠病领域。目前，知识库提供了29项已完成的NIDDK资助研究的临床数据，其中15项目前提供了生物样本，其中7项具有可用的基因型数据。表1提供了这些研究的描述、每项研究的可用标本以及登记的受试者数量。由于每项研究的临床数据类型都有很大的差异，因此在本文中对其进行总结是不可行的。只需说一句，临床数据的收集是庞大的、多样的，并且经过精心策划。作为本次收集的研究的一个例子，我们注意到DCCT-EDIC研究继续跟踪1983年招募的1型糖尿病患者队列。临床数据包括定期对视网膜病变、肾病、神经病变和心血管状态以及代谢和脂质状况进行广泛测量的体检结果。（DCCT-EDIC提供的生物样本包括DNA、血浆、RNA、血清、尿液和外周血单个核细胞[PBMC]。）。（样品可能包括同一独特样品的多个等分样品。）

表1。

目前提供NIDDK中央资料库临床数据的研究

首字母缩写	书房	条件	研究类型	生物样本	可用基因型	样本大小
A2所有	成人活体供肝移植	肝病、终末期肝病、肾病	回顾性记录审查	DNA、血清、组织、全血		819
AASK公司	非裔美国人肾脏病和高血压研究	肾脏疾病、高血压	临床试验	浅黄色皮毛、血清、尿液		2802名筛选人员，1094名随机化人员
美国电话号码	急性肾功能衰竭试验网络	肾病，终末期肾病	临床试验			1124
巴赫	波士顿地区社区健康研究	尿动力学症状、失禁、间质性膀胱炎、慢性盆腔疼痛、前列腺炎、性腺功能低下、性功能障碍	流行病学调查			5506
BE-DRI公司	行为促进药物减少失禁	失禁	临床试验			筛选4043，随机307
客户尽职调查	综合透析研究	肾病，透析	前瞻性队列研究	PBMC、血浆、血清		1677
CPCRN公司	慢性前列腺炎协作研究网络队列研究	前列腺炎，慢性盆腔疼痛	前瞻性队列研究			488
CPCRN RCT#1	慢性前列腺炎协作研究网络临床试验	前列腺炎，慢性盆腔疼痛	临床试验			272
CRISP公司	PKD放射成像研究联合会	肾病，PKD	前瞻性队列研究	DNA、血浆、血清、尿液、全血	是的	241
DPP公司	糖尿病预防计划	2型糖尿病，糖耐量受损	临床试验	DNA，血浆		3819
DPT-1型	1型糖尿病预防试验	1型糖尿病，	临床试验	DNA、血浆、血清		711
电子数据中心	糖尿病干预与并发症的流行病学研究	1型糖尿病、冠心病、肾病、神经病变、视网膜病变	DCCT参与者的纵向随访	DNA、血浆、血清、尿液	是的	2008年活跃的1297人^一
DCCT公司	1型糖尿病控制和并发症试验	1型糖尿病、冠心病、肾病、神经病变、视网膜病变	临床试验	DNA、血浆、PBMC、RNA、血清		1441
发现	肾病和糖尿病的家庭调查	2型糖尿病、肾病	（i）基于家族的连锁分析，以及（ii）利用混合连锁不平衡（MALD）作图进行遗传病例对照研究	DNA、血清、尿液、全血	是的	9031个，包括用于连锁分析的家族二分体和三分体
GoKind公司	糖尿病肾脏遗传学	1型糖尿病、肾病	遗传病例-对照研究	DNA、血浆、血清、尿液	是的	3079个，包括单曲和三重奏
HALT-C型	丙型肝炎抗病毒长期治疗肝硬化	丙型肝炎、肝病、肝硬化	临床试验	组织	是的	1145
HEMO公司	血液透析研究	肾病，透析	临床试验	血清		1846
中型散货箱	炎症性肠病遗传学	炎症性肠病	遗传病例-对照研究	DNA、血清、全血	是的	4761例，包括病例、对照组和三人组^b
ICCTG RCT#1	间质性膀胱炎临床试验#1	间质性膀胱炎，慢性盆腔疼痛	临床试验（初步研究）	尿液		121
ICCTG RCT#2	间质性膀胱炎临床试验#2	间质性膀胱炎，慢性盆腔疼痛	临床试验	尿液		265例随机
国际开发银行	间质性膀胱炎队列研究	间质性膀胱炎，慢性骨盆疼痛		组织
有限公司	肝移植数据库	肝病，终末期肝病	前瞻性队列研究			916
贷款D2	肝移植数据库随访	肝病，终末期肝病	前瞻性队列研究			916名LTD患者中的728名幸存者
MDRD公司	肾脏疾病的饮食调整	肾脏疾病	两项临床试验	浅黄色皮毛、血浆、血清、尿液		585和255
MTOPS公司	前列腺症状的药物治疗	良性前列腺增生，前列腺增大	临床试验	血清		3047
NANS公司	全国止痛药肾病研究	肾病、终末期肾病	病例对照研究	^c（c）		240例ESRD病例206例对照
妹妹	应激性尿失禁外科治疗疗效试验	尿失禁，压力性尿失禁	临床试验			655
T1DGC公司	1型糖尿病遗传学联合会	1型糖尿病	遗传病例-对照研究	DNA、血浆、血清	是的	14 350人，包括同胞兄弟和三人组
维拉赫普-C	慢性丙型肝炎抗病毒治疗的病毒耐药性	丙型肝炎、肝病	临床试验	DNA、PBMC、血浆、RNA、血清		401

在单独的窗口中打开

^一资料来源：www2.bsc.gwu.edu/bsc/oneproj.php？pkey=10（2011年7月18日，上次访问日期）。

^b截至2007年11月；资料来源：www.niddkrepository.org/niddk/jsp/public/IBD/IBDMetadata.jsp（2011年7月18日，最后一次访问日期）。

^c（c）207例EDRD受试者和26例正常人的肾脏可进行数字化CT扫描。

存储库中所有可用临床数据集的完整目录可以在https://www.niddkrepository.org/niddk/jsp/public/dataset.jsp

生物样本

该知识库包含来自我们拥有临床数据集的研究和尚未保存临床数据集研究的生物样本。因此，Repository生物样本的数量和范围远远大于表1.英寸表2，我们提供了一份来自知识库的不同类型生物标本的列表，以及对每种类型标本做出贡献的研究。它将从表2知识库提供了20多种不同类型的生物样品，储存了500多万份样品。最常见的生物样本是血清、血浆、尿液、DNA和浅黄色皮毛，再加上由青少年糖尿病环境决定因素（TEDDY）研究收集的470000多份粪便样本。

表2。

目前储存在NIDDK数据库中的生物样本^一

放标本处^b	研究^c（c）	试样数量
胆汁	BARC、PALF	156
血液	CLiC、CRISP II、DAC、FHN、FSGS/FONT_FONT、FSGS_FONT_II、FSGS-FONT_FSGS、HALT PKD II、HALT CKD I、HBRN、PALF、RIVUR_CUTIE、RIV UR_RIVUR、SIGT、TrialNet_TN07口服胰岛素	24 252
血液、外周血涂片	特迪	6924
软毛大衣	AASK_MAIN、AASK_PILOT、CRIC、FAVORIT、MDRD、SIGT、TEDDY	80 936
细胞组DNA	T1DGC公司	17 013
细胞	维拉赫普-C	74
DNA	DPP、DPT1_Denver、DCCT-EDIC、FIND、IBD、TrialNet、TrialNet_TN01 NH、TrilNet_TN02 MMF/DZB	131 535
提取的mRNA	特迪	528
成纤维细胞，皮肤	帕尔夫	165
冷冻血浆	美国原子能机构联合会	9226
头发	对于儿童	399
剪指甲	CKiD、TEDDY	5512
鼻咽拭子	特迪	32 748
外周血单个核细胞（PBMC）	CDS、CITC_CIT-02、CITC-CIT-03、CITC/CIT-04、CITC_CIT-0501、CITC.CIT-07、CITC_CIT-99、TEDDY、TrialNet、TrialNetwork_TN01 NH、TrilNet_TN02 MMF/DZB、TrialNet_TN04 T细胞分析验证、TrialNet_TN05抗CD20、TrialNet_TN07口服胰岛素、TrialName_TN08 GAD新发、TrialNew_TN09 CTLA4-Ig、Trial净值_TN12代谢控制、Virahep-C	50 577
等离子	AALF-AALI、AALF-AAF、AASK_COHORT、ASSESS-AKI、BARC、CDS、CITC_CIT-02、CITC-CIT-03、CITC/CIT-04、CITC_CIT-0501、CITC.CIT-06、CITC_IT-07、CITC_CIT-99、CKiD、CLiC、CRIC、CRISP II、CRISP-I、DAC、DILIN_Prospective、DILIN_Retrospectical、DPP、DPT1_Seattle、FAVORIT、FBEC、FHN、FSGS/FONT_FONT_FONT、FSGS/FONT_FONT II、FSGS/FONT_FSGS、GoKind、GpCRC、HALT PKD II、，HALT PKD I、HBRN、HFMC、LABS、MDRD、NASH、NASH_NAFLD_A_DB2、NASH_NAFLD_DB、NASH-NAFLD_P_DB2，NASH_PIVENS、NASH_TONIC、PALF、PEDS-C、RIVUR_RIVUR、SIGT、SyNCH PK、SyNCH、T1DGC、TEDDY、Teen-LABS、TrialNet、TrialNet_TN01 NH、TrilNet_TN02 MMF/DZB、TrialNetwork_TN05 antiCD20、TrialNet_TN07口服胰岛素、TrialNat_TN08 GAN D新发，TrialNet_TN09 CTLA4-Ig，TrialNet_TN12代谢控制、TrialNet-TN14抗IL-1β、Virahep-C	1 455 363
红细胞	最喜欢的，西格特，泰迪	95 669
核糖核酸	CITC_CIT-02、CITC_CTIT-03、CITC-CIT-04、CITC.CIT-0501、CITC/CIT-07、CITCCIT-99、TrialNet_TN01 NH、TrialNet_TN02 MMF/DZB、Virahep-C	9536
唾液	特迪	3994
血清	A2ALL、AALF-AALI、AALF_AALF、AASK_COHORT、AASK_MAIN、AASK_PILOT、ASSESS-AKI、BARC、CAMUS、CDS、CITC_CIT-02、CITC-CIT-03、CITC/CIT-04、CITC_CIT-0501、CITC.CIT-06、CITC_IT-07、CITC_CIT-99、CKiD、CLiC、CRIC、CRISP II、CRISPI、DAC、DILIN_Prospective、DPT1_Seattle、DPT1_Florida、DPT1_Boston、FAVORIT、FHN、FSGS/FONT FONT、FSGS/FONT_FONT II、，FSGS/FONT_FSGS、GoKind、GpCRC、HALT PKD II、HALT PKD I、HBRN、HEMO、HFMC、IBD、LABS、MDRD、MTOPS、NASH、NASH_NAFLD_A_DB2、NASH-NAFLD_DB、NASH_NAFLD_P_DB2，NASH_NAVLD_P_DDB2、NASH_PIVENS、NASH_TONIC、PALF、PEDS-C、RIVUR_CUTIE、RIVUR_RIVUR、SyNCH、T1DGC、TEDDY、Teen-LABS、TrialNet_TN01 NH、TrialNet_TN02 MMF/DZB、TrialNet_TN09 CTLA4-Ig、，TrialNet_TN14 Anti-IL-1 Beta，Virahep-C	2 132 215
大便	特迪	470 863
大便（PBS清洗）	特迪	1770
组织	A2ALL、AALF-AALI、AALF_AALF、BARC、CLiC、DILIN_Prospective、HBRN、HFMC、ICDB、NASH、NASH_NAFLD_A_DB2、NASH_NAFLD_DB、NASH-NAFLD_P_DB2，NASH_NAVLD_P_DDB2、NASH_PIVENS、PALF	55 785
尿液	AALF-AALI、AALF-AAIF、AASK_COHORT、AASK_MAIN、AASK_PILOT、ASSESS-AKI、BARC、CKiD、CLiC、CRISP II、DILIN_Prospective、DCCT-EDIC、FAVORIT、FSGS/FONT_FONT、FSGS_FONT II、FSGS/FONT_FSGS、GoKind、ICCRN_ICCRN RCT#2、ICCRN_ICCTG RCT#1、LABS、MDRD、MaGIC、PALF、RICE、RIVUR_CUTIE、RIVUR_RIVIVE UR、SyNCH PK、SyNCH、青少年实验室、UITN_TOMUS、UITN_ValUE、CRIC、，CRISP I、MDRD、HALT PKD I、HALT CKD II、AALF-AALF、PALF、HALT PAKD I、HART PKD II、CRISP II、MDRD，CRIC、CRISI、HALT PKD I和HALT PKD-II	432 315
全血DNA	T1DGC公司	326
全基因组扩增DNA	T1DGC公司	1436
总计		5 019 951

在单独的窗口中打开

^一一些研究的生物样本现在可以共享；其他的将在未来可用。有关可用日期，请参阅www.niddkrepository.org/niddkdocs/resources/Sample_Availability_Dates.pdf.

^b表中不包括试样，如果N个 < 以及一些不确定状态的样本类型。

^c（c）研究包括:A2ALL，成人活体供肝移植；成人急性肝衰竭研究组；AASK，非裔美国人肾脏疾病和高血压研究；急性肾损伤的ASSESS-AKI、ASsessment、序列评价及后遗症；胆道闭锁研究联合会；CAMUS，治疗泌尿系统症状的补充和替代医学；CDS，综合透析研究；CITC，临床胰岛移植联合会，亚组研究；肾脏疾病队列研究；肝内胆汁淤积症遗传原因的纵向研究；慢性肾功能不全队列研究；CRISP，PKD放射成像研究联合会，1&2；透析接入联盟；DCCT-EDIC、糖尿病控制和并发症试验及糖尿病干预和并发症流行病学随访研究；DILIN，DILIN 1：与药物相关的特发性肝损伤，前瞻性和回顾性；糖尿病预防计划；DPT-1，糖尿病预防试验-1型，特定地点；FAVORIT，叶酸在移植试验中降低血管结局；

FBEC，家族性Barrett食管；频繁血液透析网络；FSGS/FONT，局灶性节段性肾小球硬化症，亚研究；GoKind，糖尿病肾脏遗传学；GpCRC，胃轻瘫登记处；HALT PKD，多囊肾病治疗网络，1&2；乙型肝炎研究网络；HEMO，血液透析研究；HFMC，血液透析瘘管成熟联盟；炎症性肠病遗传学；ICCRN RCT 1和2，间质性膀胱炎临床研究网络，试验1和2；ICDB，间质性膀胱炎队列研究；肥胖症手术的纵向评估；MaGIC，马里兰州间性膀胱炎遗传学研究；MDRD，肾脏疾病饮食调整；前列腺症状的药物治疗；NASH，非酒精性脂肪性肝炎临床研究网络，亚组研究；儿童急性肝功能衰竭；PEDS-C，聚乙二醇化干扰素+/-利巴韦林治疗HCV儿童；RICE，RAND间质性膀胱炎流行病学研究，子研究；膀胱输尿管反流儿童的随机干预；

SIGT，筛查糖耐量受损；Synch，丙型肝炎和NASH的水飞蓟素试验，亚组研究；T1DGC，1型糖尿病遗传学联合会；TEDDY，1型糖尿病环境诱因识别联盟；青少年实验室，青少年精神病学：评估健康益处和风险；TrialNet、TrialNet、子研究；UITN，尿失禁治疗网络，亚组研究；Virahep-C，慢性丙型肝炎抗病毒治疗的病毒耐药性。

存储库的使用

自2004年以来，知识库网站(http://www.niddkrepository.org网站)向公众提供了NIDDK中央数据库中所有研究的详细信息，包括研究总结、方案、操作手册、数据收集表和出版物列表、可用数据集和生物样本。此外，该网站允许调查人员以电子方式申请访问数据和生物样本。尽管知识库网站提供了一个高效且易于访问的门户，用于获取有关存档研究的信息，但知识库工作人员和统计学家经常在正式请求数据或生物样本之前向科学家提供更多信息。例如，一位研究人员可能会给《知识库》发一封电子邮件说：“我了解到，肾脏疾病饮食调整（MDRD）研究中的一部分患者患有多囊肾病（PKD）。如何获取MDRD数据库中PKD患者数量的相关信息？”知识库已响应了许多此类详细信息请求。2008年至2010年间，通过存储库网站上的“询问存储库”链接，平均每年收到28个此类请求。通过NIDDK电话帮助热线、存储库网站的“联系我们”页面以及直接发送给存储库员工的电子邮件收到了其他请求。

截至2011年3月9日，共有188份存档数据集的外部请求和31份生物样本的外部请求已获批准或待决。随着知识库在相关科学界的知名度不断提高，请求数量也在不断增加。在知识库运营的前两年（2003-04年），没有批准的数据集或生物样本请求；到2010年，申请数量已增至每年31个。

作为表3显示，不同研究的数据集和生物样本的受欢迎程度有很大差异。最常见的数据集包括1型和2型糖尿病的研究。DCCT/EDIC在受欢迎程度方面排名第一，在这项具有里程碑意义的1型糖尿病研究中，有42项数据和生物样本请求获得批准或待批准。针对2型糖尿病的糖尿病预防计划排名第二，共有21项已批准或待定的数据集申请。来自1型糖尿病遗传学联合会（T1DGC；20项请求）和糖尿病肾脏遗传学（GoKinD；13项请求）的数据集和生物样本分别排名第三和第七。此外，1型糖尿病预防试验（DPT-1）排名第九（10项请求）。这些糖尿病研究占了已批准的知识库数据集和生物样本请求的近一半（219项中的106项）。

表3。

NIDDK数据仓库中已批准和待处理的数据集和生物样本请求的频率（截至2011年3月9日）

排名	首字母缩写	研究题目	数据请求	样本请求	总计
1	直流ct/直流电	1型糖尿病控制与并发症试验及糖尿病干预流行病学和并发症随访	36	6	42
2	DPP公司	糖尿病预防计划	21	0	21
三	T1DGC公司	1型糖尿病遗传学联合会	18	2	20
4	MDRD公司	肾脏疾病的饮食调整	18	1	19
5	VIRAHEP-C公司	慢性丙型肝炎抗病毒治疗的病毒耐药性	9	5	14
6	HEMO公司	血液透析研究	11	三	14
7	GoKinD公司	糖尿病肾脏遗传学	10	三	13
8	CRISP公司	多囊肾病放射成像研究联合会	10	三	13
9	DPT-1型	1型糖尿病预防试验	8	2	10
10	原子吸收光谱法	非裔美国人肾脏病和高血压研究	9	0	9
11	MTOPS公司	前列腺症状的药物治疗	8	0	8
12	国际开发银行	间质性膀胱炎数据库	6	1	7
13	有限公司	肝移植数据库	6	0	6
14	美国电话号码	急性肾功能衰竭试验网络	5	0	5
15	IBDGC公司	炎症性肠病遗传学联合会	4	0	4
16	HALT-C型	丙型肝炎抗病毒长期治疗肝硬化	三	0	三
17	LTD跟进	肝移植数据库随访	2	0	2
18	NANS公司	全国止痛药肾病研究	2	0	2
19	AALF公司	成人急性肝衰竭试验^一	0	2	2
20	对于儿童	儿童肾脏疾病前瞻性队列研究	0	2	2
21	巴赫	波士顿地区社区健康研究	1	0	1
22	探查	患有胆汁淤积症的婴儿前瞻性数据库	0	1	1
23	妹妹	应激性尿失禁外科治疗疗效试验	1	0	1
已批准和待定请求总数			188	31	219

在单独的窗口中打开

2011年3月9日NIDDK中央知识库网站上的表格。中的数字表1仅反映批准的外部或未决请求，不包括NIDDK辅助研究请求或研究联合体成员的内部请求。

^一本研究的网站使用缩写词“ALF”。我们使用AALF和PALF来区分成人和儿童试验。

肾脏疾病的研究是第二大类数据集和生物样本。其中包括MDRD研究（19项请求）；非裔美国人肾脏疾病和高血压研究（AASK；九项请求）；血液透析研究（HEMO；14项要求）；PKD放射成像研究联合会（CRISP；13项请求）；急性肾功能衰竭试验网络（ATN；五项请求）；以及国家镇痛肾病研究（NANS；两项请求）。对肝脏疾病和移植的研究是接下来最需要的数据集和生物样本(表3).

除了外部研究人员的上述请求外，知识库还支持参与原始研究组或与希望使用存档生物样本解决原始研究资助范围以外的研究问题的研究人员进行辅助研究。截至2011年3月9日，已有113项请求获得批准或待决，要求为此类辅助研究提供生物样本。

共享不可再生资源

而数字数据集可以复制无限大，存储在存储库中的一些生物样本是不可再生的。这带来了独特的挑战。2010年1月，NIDDK发布了一份项目公告（PAR-10-090），“旨在促进NIDDK中央储存库生物样本的公平和适当分配。”要求获取不可再生生物样本的研究人员需要咨询知识库，以确定是否有足够数量的样本可用，以及生物样本的拟议使用是否符合研究中使用的知情同意书。然后，从知识库寻求不可再生生物样本的研究人员需要提交一份申请，描述“申请的背景和理由；具体目标清单；关于拟议研究的详细信息；有关所需样本数量和类型的详细信息，以及存储库中确认样本可用的文档；样品管理计划；后续计划的描述。”请求者还需要“解释拟议的研究将如何利用大量相关表型数据。”

成本

维护数据和生物样本存储库并不便宜，但与原始数据收集成本相比，其成本微不足道。从2003年到2013年，NIDDK将为NIDDK存储库总共花费约7300万美元(1). 存档生物样本（2800万美元）和遗传样本（3300万美元，成本最高），而数据存档成本较低（1200万美元）。获取生物样品的成本从每管约0.70美元到7美元不等，而生产DNA或细胞系和DNA的成本从约70美元到800美元不等。在储存库中保存这些样本的成本为每年每管约0.01美元的生物样本成本和每年每细胞株10至16美元的成本。

然而，原始数据收集的成本要高得多。例如，DCCT-EDIC自成立以来已耗资2亿多美元，而遗传样本和永生细胞系、生物样本和多个数据集的存档和分发成本不到300万美元。

对未来使用的期望

建立NIDDK中央知识库是为了通过向更广泛的科学界提供有价值的数据和标本来提高NIDDK资助的研究的科学产量。目前，该知识库正被越来越多的研究人员使用，它还为最初的研究团队提供了宝贵的档案服务。我们预计，NIDDK中央知识库的使用不仅应随着科学界对其资源的认识不断提高，而且还应随着能够有效利用该资源的研究的RFA的发布而增加。因此，例如，NIDDK在2009年请求拨款申请，以组成一个多中心联盟，“发现或验证定义明确的人类慢性肾脏疾病（CKD）的生物标记物（RFA-DK-08-015）。”候选生物标记物的发现和测试需要来自疾病状态特征明确的受试者的生物样本（组织、细胞或体液）。正如RFA指出的那样，NIDDK中央数据库可以提供此类研究所需的资源。

知识库对生物医学研究的影响示例

知识库资源支持了一系列生化、临床、统计和遗传学研究。遗传学研究包括GWAS、验证研究、孟德尔病遗传模式研究、基因型-表型相关性研究、提高GWAS统计能力的方法开发以及遗传研究新统计方法的测试。研究人员响应了2006年NIDDK的申请请求（RFA-DK-06-005），要求“使用EDIC或GoKinD（或两者）的样本进行大规模研究和创新分析设计的应用”确定导致糖尿病并发症易感性或耐药性的基因，甚至特定的基因变异。

除了利用现有生物样本促进新的遗传和生物化学研究外，知识库还为非原始研究团队成员的科学家提供了重要的临床研究机会。他们可以从知识库中请求数据集，以探索新的和扩展先前的临床研究。这种“二次分析”服务于许多重要的科学目的(2)包括确保有效使用需要大量资金和精力投入的研究所产生的临床数据，促进原始研究者分析的复制和扩展，以及为原始研究中未包含的假设的廉价测试提供现成资源。后者的好处可能特别有价值，因为它可以使研究取得进展，而无需立即收集新的数据。这样的使用还可以提供试点结果，从而激发新的研究，或者可以阻止研究人员继续进行未来毫无希望的研究。通过降低进入研究领域的成本，存档数据的二次分析对于初级科学家和其他没有资源进行初级数据收集的人来说特别有价值。

NIH要求数据共享(三). 知识库通过为研究人员提供一个工具来访问经过管理和维护良好的档案数据集和生物样本，并通过帮助请求者了解这些数据和样本，来支持这一任务。下面我们提供了一些使用知识库资源的生物医学研究示例。

统计再分析

Kilpatrick及其同事使用存储库中存档的EDIC数据和在建立存储库之前向公众提供的DCCT数据，发表了九篇文章，复制并探讨了原始DCCT/EDIC研究人员报告的可能工作扩展(4–12). 这些研究人员得出的结论包括：

血糖易变性当考虑到平均血糖时，（天内和天之间）不能预测1型糖尿病患者视网膜病变或肾病的发展(7,8,11). 然而，糖化血红蛋白的长期波动可能导致这些风险(8).
除糖化血红蛋白外，平均血糖和日内血糖变异性与低血糖风险相关(12).
平均血糖比糖化血红蛋白更好地预测心血管风险(5).
平均血糖水平与糖化血红蛋白之间的关系不是恒定的。在DCCT研究中，在任何给定水平的糖化血红蛋白水平下，常规治疗条件下的受试者的平均血糖水平始终高于强化治疗患者(9).
DCCT基线时较高的胰岛素抵抗水平（估计葡萄糖处置率；eGDR）预示着视网膜病变、肾病和心血管并发症的风险增加(10).

我们注意到，在没有对这些结论的相对优点作出判断的情况下，Kilpatrick及其同事的二次分析提供了数据共享的一些预期好处的示例，存档数据在其他因素中的可用性意味着，在[临床生物化学]领域进行有意义的研究并不总是需要大量赠款申请的成功（13；第28页）。Kilpatrick及其同事在2009年之前发表的DCCT/EDIC文章中没有一篇报告有外部资金。第二，这些对档案数据的新分析引发了富有成效的（有时甚至是激烈的）科学辩论(11,14–20)以及重新检查原始统计分析(21).

生化分析

NIDDK中央资料库的生物样本已用于各种生化研究，包括脂质组学、代谢组学和化学酶分析的研究。丁和同事(22)例如，使用NIDDK中央储备库的生物样本，应用准确的质量和时间（AMT）标记方法，对在糖耐量受损筛查（SIGT）项目中获得的血浆、红细胞和淋巴细胞样本进行脂质组学分析(www.med.emory.edu/research/GCRC/SIGT网站). Ding及其同事的研究得出结论，AMT标签方法能够在不同样本类型中创建脂质图谱，并检测“脂质丰度的定性和定量差异”

遗传学研究

南希·考克斯（Nancy Cox）、安德烈·克罗列夫斯基（Andrzej Krolewski）和安德鲁·帕特森（Andrew Paterson）在2006年的RFA下获得了资助，并发表了广泛的研究结果。利用DCCT/EDIC和GoKinD临床和遗传数据，他们进行了一系列GWAS。例如，他们有，

使用DCCT/EDIC样本发现SORCS1附近的一个主要位点，该位点与常规治疗条件下的糖化血红蛋白和平均血糖水平相关(23);
发现DCCT/EDIC受试者（1型糖尿病患者）SOD1的多种变异与微量白蛋白尿和严重肾病有关(24);
在UBASH3A和BACH2中发现两个与1型糖尿病相关的新基因座(25);
在GoKinD研究队列中，820名1型糖尿病受试者和885名对照受试者以及1304名DCCT/EDIC受试者中，发现ELMO1基因座可预测1型糖尿病患者对糖尿病肾病的易感性(26,27);
在小鼠和人类中发现两个与糖尿病肾病相关的基因座(28); 和
与2型糖尿病的已发表结果相反，发现糖尿病肾病与“D18S880微卫星和CNDP2-CNDP1区域的其他多态性”之间没有关联(29).

提高统计能力

知识库为组合样本以提高统计能力以及开发和测试新的统计方法提供了机会。巴雷特及其同事(30)例如，结合了之前发表的两项1型糖尿病全基因组关联分析，这两项分析涉及来自NIDDK GoKinD研究的1601例患者；国家心理健康研究所（NIMH）研究的1704个对照(31); 以及来自威康信托案例控制联盟（WTCCC）研究的5272个案例和控制(32)以及来自NIDDK T1DGC研究的7982例病例和对照。结合这些研究提供了改进的统计能力，使作者能够在排除先前报告的关联性后，识别出40多个与1型糖尿病相关的基因座，以及27个新识别的区域。

随着知识库的发展吸取的教训

在存储库运行的8年中，我们吸取了许多经验教训。我们提供以下四个重要经验教训，可能对其他从事类似工作的人有益。这些教训包括：过于雄心勃勃和复杂的数据库设计的愚蠢，定期提醒协调中心需要谨慎地维护和归档链接文件，提前计划将研究数据与指定如何使用这些数据的同意文件联系起来的好处，以及执行良好的数据集完整性检查的价值。

野心和复杂性

在Repository成立的头几个月，我们的初始计划显然过于雄心勃勃、复杂且成本高昂。在关系数据库中维护存档数据（分布的数据）以进行灵活处理既昂贵又不必要。如果需要这种程度的灵活性，可以通过维护从存档研究数据中导出的元数据数据库来轻松且（相对）廉价地处理。

链接文件

临床研究通常使用一组受试者ID进行内部研究，作为隐私预防措施，在将数据存入存储库时创建“屏蔽”ID。虽然数据协调中心（DCC）维护“链接文件”，以识别哪些研究生物样本ID属于哪些研究对象ID，但共享数据需要一个额外的链接文件，允许这些生物样本ID链接到“屏蔽”ID。在存储库运行的早期，我们发现一些研究DCC在将数据和生物样本存档到存储库时，没有将此类链接文件包含在研究文档中。Repository PI和工作人员开展了一项活动，提醒现有和新的生物标本保存者，关键是需要将准确和维护良好的链接文件与其生物标本一起保存。

同意文件数据库

研究同意书文档的生成方法使其难以自动化。通常，它们可能因研究、临床地点、研究亚群和时间间隔而异，并且不同的限制可能适用于数据或生物样本的不同用途（例如，仅用于糖尿病研究）。尽管如此，这些同意文件对知识库的运营至关重要，因为它们规定了发布研究数据和生物样本的条件。

在知识库规划中，对每项研究的受试者同意书数据库的需要没有给予足够的重视。在知识库运作之初，样本收集机构和NIDDK资助办公室都有同意书，但知识库工作人员无法直接访问这些同意书。为了对数据和样本分发负责，知识库开始要求NIDDK提供纸质同意书副本。然而，存储和检索10000多页纸质同意书存在问题。知识库最终创建了一个独立的数据库，用于存储、上传和检索每项研究的受试者同意书。该同意书数据库包括每个同意书的具体研究和现场信息、疾病状态和其他可搜索的关键数据，以及纸质同意书的PDF格式。该数据库允许存储库工作人员和NIDDK资助办公室安全访问同意书，有助于确保仅共享“批准共享”和批准用于特定“类型”研究的样本和数据。

开发同意书数据库需要持续努力在正常的存储库操作期间按研究和收集地点对每份书面同意书进行分离、扫描和指定文件名，然后将每份同意书的相关数据输入数据库，包括：；批准和有效期、疾病状态、共享例外，以及“仅批准用于特定研究”和“未批准用于遗传研究”限制。这几乎不是最佳解决方案。如果对此类同意数据库的需求有更好的预期，我们会在授予知识库合同后立即对同意数据库的信息和设计要求进行全面审查。然后，将与数据和生物样本数据库一起开发“同意书数据库”。由此产生的同意书数据库将位于主数据库中并可访问旁边的并链接到示例数据的相邻样本数据。

数据集完整性检查

作为对NIDDK数据存储库中存档数据集完整性的部分检查，在数据发布之前，我们进行了一组表格和统计分析，以验证已发布的研究结果可以使用我们的存档数据集进行复制。这些数据集完整性检查的目的是确保NIDDK知识库分发的数据集是研究数据的真实副本。这些分析帮助我们避免了严重的问题，例如，缺失大量病例的数据集的分布，以及包括拒绝同意原始研究团队以外数据分布的受试者子样本的数据集分布。

未来的存储库增强功能

我们预计，存储库中存档的研究对疾病研究的未来影响将通过以下方式得到加强：（i）在其他可搜索数据库中交叉列出存储库生物样本；（ii）推出一套查询存储库内容的应用程序；以及（iii）随着时间的推移，在研究研究和不同存储库使用的词汇表中，程序、数据收集策略、问卷等的协调性不断增强（例如，参见P开发的用于协调的DataSHaPER工具^三G网络；看见网址：www.datashaper.org/).

资源交叉列表

为了使存储库资源对广泛的用户社区可见，我们的可用生物样本列在其他生物库的目录中。目前，我们在美国国立卫生院罕见疾病研究办公室（RD-HUB）列出了五种疾病的六种样本类型的大约50万个生物样本。四项肾脏疾病研究（共6855名受试者）的生物样本列于P^三G肾脏生物银行和一项糖尿病研究（3075名受试者）的生物样本列于P^三G糖尿病生物银行。这些合作生物库的生物样本资源也在知识库网站的“相关网站”下交叉列出（参见www.niddkrepository.org/niddk/jsp/public/websites.jsp). 知识库计划扩大我们的努力，在广泛的生物库目录中交叉研究生物样本。

我们还正在将知识库注册为通用生物知识库模型（CBM）网络中的生物库（参见：cabing.nci.nih.gov/workspaces/TBPT/CBM文件/). 这将允许使用NCI样本资源定位器（SRL）访问NIDDK中央存储库，该服务允许研究人员为其研究定位人类生物样本（组织、血清、DNA/RNA、其他样本）。

查询工具

我们在最初的提案中认识到需要足够的工具来搜索NIDDK知识库不断扩展的内容。Repository诞生之初的设计简化需要不同的搜索工具套件和更多的时间来了解用户的需求并开发所需的工具。档案馆早期的研究积累缓慢，也降低了对此类工具需求的紧迫性。下面我们简要介绍了我们的初步计划和目前正在推出的搜索工具。

2002年计划

我们最初计划在多个研究数据库中的特定字段之间建立交叉引用关系，并创建翻译表，将类似字段值标准化为单个代码和描述。这些翻译表应该与研究表分开，可以使用数据字典和/或代码书创建。下表是计划翻译表的示例：

tbl类别-一般类别感兴趣区域
tblStandardText通用类别下特定于标准文本的标准文本
tblTranslation-在tblStandardData和研究表中的特定字段之间创建关系

这些翻译表将使所有研究数据库中类似领域的搜索请求中使用的标准标准化。这种方法也将消除了解研究中类似领域同义词的需要。在可能的情况下，我们预计在研究数据库的任何数据请求之前，将确定不同数据库中语义等效的字段。我们希望对存储库中所有完成的数据库进行审查，以确定与现有关系匹配的字段。随着翻译表的增长，我们预计搜索界面的搜索和交叉引用能力将增加。

当我们选择简化存储库设计时，放弃了这一计划的搜索策略（请参阅“设计修订”部分）。

当前查询工具

为了为当前存储库提供搜索功能，我们正在推出一套称为公共查询工具（PQT）的应用程序。为了为用户提供更大的灵活性和增强搜索功能，我们开发了一系列可公开访问的查询工具，其主要目的是解决“NIDDK中央数据存储库（CDR）中有什么？”。PQT为CDR内容的公众观众/用户提供了一个易于使用的界面，支持多种用户兴趣（例如，哪些研究有I型糖尿病家族史数据和/或包含至少150名50岁以上的非洲裔美国人）。PQT包括四种不同的搜索引擎工具。

第一个工具是关键字元数据搜索工具，它允许用户从下拉菜单中选择关键字，以确定具有这些特定功能的研究。关键词是从研究特定的元数据示例中获得的，其中包括诊断和研究类型。该工具搜索元数据以定义链接到关键字的研究。不熟悉的用户可以快速识别具有各种有用属性的研究。使用该工具不需要特定的研究知识，该工具目前可在网站上获得。

第二个工具是基于本体的关键字搜索引擎，它使用的研究变量被确定为具有科学重要性。为了支持这一点和下面的其他工具，已经从数据档案中提取了科学感兴趣的变量（到一个管理数据库中），并且可以通过工具访问这些变量。就本体工具而言，它旨在搜索用户提供的“自由文本”关键字，与基本搜索工具使用的“下拉”控件中的结构化文本相比。用户提供的关键字将链接到映射到管理数据库的本体。关键词将使用映射来识别显示关键词隐含特征的研究。

第三个工具-图书变量引擎将允许用户突出显示研究和已包含在精选数据库中的重要变量。可以“单击”列表中包含的每个变量，以生成变量描述和相关频率集。

第四个工具——交叉表工具——将允许用户在指定的研究内和研究之间获得交叉表。例如，这种交叉表将允许用户识别有35名或更多非裔美国人受试者在肝移植中存活至少5年的研究；或者学习请求研究数据之前一项给定的研究是否有至少50名年龄在40至60岁之间的受试者空腹血糖或140mg/dl或更高。

我们的工具旨在代表三个方面：

一种研究视角，确定确定研究目的、主要发现和主要设计元素的具体特征。这些要素将包括设计要素和/或治疗特征，以现有研究为起点，为新研究的设计提供见解。
疾病领域视角确定了跨各种临床来源的数据，这些临床来源提供了特定疾病领域中具有不同协议的单个患者的统一视图。该用户有兴趣查看由不同方案管理的关于相同疾病类型的研究。从这个角度出发，将多个研究的数据进行关联和汇总（如果可能），以重新检查与疾病和该疾病治疗相关的潜在和未发现属性。他的观点所代表的数据将确定严重疾病的特征。这些变量可能包括血清肌酐水平（针对肾脏疾病领域）、疾病混杂因素（例如血压和年龄、饮食和生活方式）以及特定疾病领域内多项研究的主要疾病相关结果。从该用户的角度来看，将多个研究与疾病领域中的公共数据元素联系起来的潜力是一个重要特征。
一种通用数据元素视角，使用具有广泛属性的数据，从一组通用度量标准（即年龄、性别、诊断是否存在基因型数据？是否有病史？）比较所有类型的临床研究。这一级别将包括NCI通用生物资源库模型（CBM）定义的数据元素。CBM中有30个变量(cabig.nci.nih.gov/工作区/TBPT/CBM/). 我们将在知识库中包含每个NIDDK研究的所有30个变量。所有CBM变量将与癌症生物医学信息网格（caBIG）中包含的一组标准本体统一（参见caBIG.nci.nih.gov/workspaces/VCDE）。

加强协调

虽然好的查询工具非常有用，但在研究设计阶段，使用一套通用标准是无可替代的，该标准将标准词汇和命名纳入设计过程。潜在有用的编码系统包括：

用于诊断报告、调查仪器、实验室测试和临床测量的逻辑观察标识符名称和代码（LOINC）（LOINC.org/）和
医学临床术语系统命名法（SNOMED）用于为生物体、解剖部位、标本、诊断和症状分配代码(www.nlm.nih.gov/research/umls/Snomed/Snomed_main.html).

然而，大多数遗产研究并没有将这些标准纳入其设计中。目前正在进行大量努力，使生物医学研究的程序和术语标准化，特别注意将为二次分析提供数据和生物样本的研究。汇集数据的能力在很大程度上取决于用于获取和存储数据和生物样本的研究方法的等效性。跨研究发现公共数据元素的能力反过来取决于标准词汇的使用或自动化同义词库的开发，该词库允许识别潜在的等效测量值或样本。标准化程序和术语将带来重要好处，但标准化可变测量将是一项需要大量时间和资源才能完成的重大工作。然而，这种协调工作对于增加NIDDK中央数据库和其他数据和生物库的使用并实现其全部科学价值至关重要。其他人目前的努力包括P^三G数据安全(33)，凤凰城(34,35)和缅甸中央银行(cabig.nci.nih.gov/工作区/TBPT/CBM/).

结论

NIDDK中央知识库的建立是为了通过向更广泛的科学界提供这些材料来增加宝贵数据和生物样本的影响。现有证据表明，知识库正在开始履行这一承诺。开发新的生物信息学工具来查询知识库内数据或生物样本的可用性，再加上知识库声誉的不断扩大和正在进行的协调工作，应该会增加对这一宝贵资源的使用。

基金

国家糖尿病、消化和肾脏疾病研究所；国家卫生研究院，卫生与公共服务部，根据合同（HHSN:267200800015C号;,267200800016C号; 和267200800018C号;). 开放存取费用资金：HHSN267200800016C.

利益冲突。未声明。

致谢

本文利用了以下内容中的材料：（i）RTI国际的NIDDK中央知识库初始授予合同技术建议书（RFP NIH-NIDDK-02-04）和持续融资合同技术建议书；（ii）2009年2月提交的RTI合同修改建议书；（iii）存储库网站当前和以前版本上发布的存储库内容和程序的描述(www.niddkrepository.org/niddk/jsp/public/dataset.jsp)以及（iv）Rasooly、Eggers等人关于知识库的演讲(1)在国际生物和环境资源学会2011年的会议上。除本注释外，我们不确定摘录或引用这些来源的文本。

工具书类

1Rasooly RS、Eggers PS、Akolkar B、Karp R。NIDDK中央存储库：NIH糖尿病、内分泌、消化、肝脏、肾脏和泌尿生殖疾病研究资源。（国际生物和环境储存库学会2011年年会上的发言摘要。）生物保护生物银行。2011;9:1. [谷歌学者]

2Fienberg SE、Martin ME、Straf ML等人。共享研究数据。华盛顿特区：国家学院出版社；1985[谷歌学者]

三。美国国立卫生研究院。NIH关于共享研究数据的最终声明。通知：NOT-OD-03-032，发布日期：2003年2月26日。grants.nih.gov/grants/guide/notice-files/NOT-OD-03-032.html（2010年3月2日，上次访问日期）[谷歌学者]

4Kilpatrick ES、Rigby AS、Atkin SL。糖尿病控制和并发症试验中绝经前女性与男性的平均血糖和糖化血红蛋白之间的关系。迪亚贝特。医学。2008;25:112–113.[公共医学][谷歌学者]

5Kilpatrick ES、Rigby AS、Atkin SL。平均血糖与糖化血红蛋白在预测1型糖尿病患者心血管疾病中的比较。糖尿病。2008;51:365–371.[公共医学][谷歌学者]

6Kilpatrick ES、Rigby AS、Atkin SL。糖尿病控制和并发症试验：不断给予的礼物。Nat.Rev.内分泌。2009;5:537–545.[公共医学][谷歌学者]

7Kilpatrick ES、Rigby AS、Atkin SL。血糖变异性对1型糖尿病微血管并发症长期风险的影响。糖尿病护理。2009;32:1901–1903. [PMC免费文章][公共医学][谷歌学者]

8Kilpatrick ES，Rigby AS，Atkin SL.1型糖尿病中A1C变异性和微血管并发症风险：来自糖尿病控制和并发症试验的数据。糖尿病护理。2008;31:2198–2202. [PMC免费文章][公共医学][谷歌学者]

9Kilpatrick ES、Rigby AS、Atkin SL。平均血糖和糖化血红蛋白之间关系的可变性：对血糖控制评估的影响。临床。化学。2007;53:897–901.[公共医学][谷歌学者]

10Kilpatrick ES、Rigby AS、Atkin SL。1型糖尿病的胰岛素抵抗、代谢综合征和并发症风险：糖尿病控制和并发症试验中的“双糖尿病”。糖尿病护理。2007;30:707–712.[公共医学][谷歌学者]

11Kilpatrick ES、Rigby AS、Atkin SL。血糖变异性对1型糖尿病微血管并发症风险的影响。糖尿病护理。2006;29:1486–1490.[公共医学][谷歌学者]

12Kilpatrick ES、Rigby AS、Goode K等。1型糖尿病患者平均血糖和血糖变异性与多发低血糖风险的关系。糖尿病。2007;50:2553–2561.[公共医学][谷歌学者]

13.Kilpatrick ES，《搭便车人临床生物化学研究指南》。临床。生物化学。版次。2010;31:25–28. [PMC免费文章][公共医学][谷歌学者]

14Bolli英国。血糖变异性和并发症。糖尿病护理。2006;29:1707–1709.[公共医学][谷歌学者]

15.Hirsch IB，Brownlee M.血糖变异性对1型糖尿病微血管并发症风险的影响。糖尿病护理。2007;30:186–187.作者回复188-189。[公共医学][谷歌学者]

16Monnier L、Colette C、Leiter L等。血糖变异性对1型糖尿病微血管并发症风险的影响。糖尿病护理。2007;30:185–186.作者回复187-188。[公共医学][谷歌学者]

17儿童糖尿病研究网络研究小组。血糖变异性对1型糖尿病微血管并发症风险的影响。糖尿病护理。2007;30185; 作者回复187-189。[谷歌学者]

18Service FJ，O'Brien PC。血糖变异性对1型糖尿病微血管并发症风险的影响。糖尿病护理。2007;30186; 作者回复187-188。[公共医学][谷歌学者]

19Kilpatrick ES、Rigby AS、Atkin SL。1型糖尿病中血糖变异性对微血管并发症风险的影响。糖尿病护理。2007;30:2.[公共医学][谷歌学者]

20Bolli GB、Gerstein HC、Rosenstock J.血糖变异性对1型糖尿病微血管并发症风险的影响。[致编辑的信]糖尿病护理。2007;30:1. [谷歌学者]

21Lachin JM、Genuth S、Nathan DM等。糖尿病控制和并发症试验中血糖暴露对微血管并发症风险的影响——回顾。糖尿病。2008;57:995–1001.[公共医学][谷歌学者]

22.丁杰，索伦森CM，杰特利N，等。精确质量和时间标记方法在人体血脂研究中的应用。J.色谱法。B分析。Technol公司。生物识别。生命科学。2008;871:243–252. [PMC免费文章][公共医学][谷歌学者]

23Paterson AD、Waggott D、Boright AP等。一项全基因组关联研究确定了一个新的1型糖尿病血糖控制主基因座，该基因座通过糖化血红蛋白和血糖进行测量。糖尿病。2010;59:539–549. [PMC免费文章][公共医学][谷歌学者]

24Al-Kateb H、Boright AP、Mirea L等。多重超氧化物歧化酶1/剪接因子丝氨酸丙氨酸15变异体与糖尿病肾病的发展和进展相关：糖尿病控制和并发症试验/糖尿病干预和并发症流行病学遗传学研究。糖尿病。2008;57:218–228. [PMC免费文章][公共医学][谷歌学者]

25Grant SF、Qu HQ、Bradfield JP等。全基因组关联数据的后续分析确定了1型糖尿病的新基因座。糖尿病。2009;58:290–295. [PMC免费文章][公共医学][谷歌学者]

26Pezzolesi MG、Katavetin P、Kure M等。GoKinD收集中ELMO1基因关联的确认支持其作为糖尿病肾病易感基因的作用。糖尿病。2009;58:2698–2702. [PMC免费文章][公共医学][谷歌学者]

27.Pezzolesi MG、Poznik GD、Mychaleckyj JC等。1型糖尿病肾病易感基因的全基因组关联扫描。糖尿病。2009;58:1403–1410. [PMC免费文章][公共医学][谷歌学者]

28Tsaih SW，Pezzolesi MG，Yuan R，等。老龄小鼠蛋白尿的遗传分析以及与全基因组关联扫描中发现的人类糖尿病肾病基因座的一致性。肾脏Int。2010;77:201–210. [PMC免费文章][公共医学][谷歌学者]

29Wanic K、Placha G、Dunn J等。肌肽酶基因（CNDP1和CNDP2）多态性作为1型糖尿病糖尿病肾病病因的排除：大型病例对照和随访研究的结果。糖尿病。2008;57:2547–2551. [PMC免费文章][公共医学][谷歌学者]

30Barrett JC、Clayton DG、Concannon P等。全基因组关联研究和荟萃分析发现，超过40个基因座影响1型糖尿病的风险。自然遗传学。2009;41:703–707. [PMC免费文章][公共医学][谷歌学者]

31Mueller PW、Rogus JJ、Cleary PA等。糖尿病肾脏遗传学（GoKinD）研究：可用于确定1型糖尿病糖尿病肾病遗传易感性因素的遗传学集合。《美国肾脏学会杂志》。2006;17:1782–1790. [PMC免费文章][公共医学][谷歌学者]

32威康信托案例控制联盟。对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]

33Fortier I、Burton PR、Robson PJ等，《质量、数量与和谐：整合生物临床研究数据的DataSHaPER方法》。国际流行病学杂志。2010;39:1383–1393. [PMC免费文章][公共医学][谷歌学者]

34Stover PJ、Harlan WR、Hammond JA等。PhenX：跨学科遗传学研究工具包。货币。操作。利皮多尔。2010;21:136–140. [PMC免费文章][公共医学][谷歌学者]

35Hamilton CM、Strader LC、Pratt JG等。PhenX工具包：从您的测量中获取最大价值。美国流行病学杂志。2011;174:253–260. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库：《生物数据库与治疗杂志》由提供牛津大学出版社