DAnTE: a statistical tool for quantitative analysis of -omics data

Polpitiya, Ashoka D.; Qian, Wei-Jun; Jaitly, Navdeep; Petyuk, Vladislav A.; Adkins, Joshua N.; Camp, David G.; Anderson, Gordon A.; Smith, Richard D.

doi:10.1093/bioinformatics/btn217

摘要

总结：数据分析工具扩展（DAnTE）是一种统计工具，旨在解决与定量自下而上的鸟枪蛋白质组学数据相关的挑战。该工具也已用于微阵列数据，并且可以轻松扩展到其他高通量数据类型。DAnTE具有选定的归一化方法、缺失值插补算法、肽对蛋白汇总方法、广泛的绘图函数阵列和综合假设测试方案，可以处理不平衡数据和随机效应。图形用户界面（GUI）的设计非常直观和用户友好。

可利用性：DAnTE可在以下网址免费下载：http://omics.pnl.gov/软件/

联系人： rds@pnl.gov或蛋白质组学@pnl.gov

补充信息：有关如何执行一系列分析步骤的说明的示例数据集，请访问http://omics.pnl.gov/软件/

1简介

尽管有许多工具可用于高通量微阵列数据处理（绅士等人。,2004; 赛义德等人。,2003)基于LC-MS的定量自下而上蛋白质组学测量数据（即无标签方法、稳定同位素标记方法、光谱计数方法以及精确质量和时间标记方法）与这些工具设计解决的问题不同。与蛋白质组学数据相关的主要问题之一通常是缺失值的程度，这主要是由于接近检测阈值的物种数量较多，导致数据集不平衡。此外，蛋白质组学数据涉及另一个级别的分组或“汇总”信息，以将肽映射到蛋白质。肽丰度通常用于推断相应的蛋白质丰度。

为了解决蛋白质组学数据的常见问题，数据分析工具扩展（DanTE）易于扩展。虽然目标应用是高通量蛋白质组学，但DAnTE也已成功用于微阵列数据分析，并且可以很容易地应用于具有类似特征的其他形式的高通量“组学”数据（例如代谢组学数据）。DAnTE用户界面的屏幕截图如所示图1.

图1。

DAnTE的代表性截图。（A）左侧的数据网格和导航面板；（B）对数转换数据的箱线图；（C）显示可能异常数据集的一组数据的相关热图；（D）肽对蛋白汇总来自RRollup方法（从上到下的面板：原始数据；缩放数据；去除离群值后，中间曲线显示为粗黑线）。

新标签中打开下载幻灯片

DAnTE的代表性截图。(A类)左侧的数据网格和导航面板；(B类)对数转换数据的箱线图；(C类)显示可能的异常数据集的一组数据的相关性热图；(D类)肽对蛋白汇总来自RRollup方法（从上到下的面板：原始数据；缩放数据；去除离群值后，中间曲线显示为粗黑线）。

2说明

2.1依赖性

DAnTE的图形用户界面（GUI）使用C#语言实现，核心算法在开源R统计环境中实现（R开发核心团队，2008). DAnTE在.NET 2.0框架内的Microsoft WindowsXP平台上运行。R和C#/之间的连接。NET环境是通过使用开源R（D）COM服务器应用程序（Baier和Neuwirth，2007). 这种独特的环境选择使DAnTE成为一种非常用户友好的软件工具，尽管它无法集成到流行的Bioconductor中（绅士等人。,2004)项目。

2.2应用特点

2.2.1数据加载

DAnTE的输入数据可以是存储表格数据的任何文件，包括平面文件（CSV或tab分隔的文本文件）和Microsoft Excel文件。数据加载机制的一个独特特征是，它保留了肽对蛋白映射信息，供以后绘制属于特定蛋白质的肽以及肽对蛋白汇总方法中使用。此外，DAnTE还可以处理SEQUEST（工程等人。,1994)结果并创建光谱计数表。

2.2.2因子定义

在实验设计中，因子用于捕捉固定和随机效应。例如，生物条件是一个固定的影响因素，而用于分离样品的液相色谱（LC）柱列表可以被视为随机效应。这些信息对DAnTE的归一化、插补和假设检验方法至关重要。可以在加载数据后声明因子，也可以从平面文件加载因子。

2.2.3调查地块

DAnTE中可以绘制各种统计图，包括直方图、方框图、相关图和MA（或R-I：比率强度）图。这些曲线图有助于用户评估研究数据集内的再现性，并选出有问题的数据集，以便将其排除在进一步分析之外。

2.2.4数据规范化

由于标准化可以说是下游数据分析中最重要的一步，DAnTE采用了几种标准化方法，这些方法已经成功地测试了两种蛋白质组数据（Callister等人。,2006)和微阵列基因组数据（Quackenbush，2002; 斯迈思等人。,2003). 其中包括稳健线性回归方法、洛斯方法和分位数归一化方法。此外，还可以使用基于中值绝对偏差（MAD）和中心趋势调整方法的全球强度调整。

2.2.5缺失值插补

在高通量蛋白质组学中，由于缺失值而导致的数据集不完整是常见的。由于输入这些值是一个备受争议的话题（Troyanskaya等人。,2001)DAnTE提供了几种简单的方法，以及一些可供选择的高级算法。简单的方法允许用户使用数据集平均值/中值或预先选择的常量填充缺失的值。高级方法包括基于用户定义因子的行平均值填充、K最近邻插补（KNNimpute）和基于奇异值分解的插补（SVDimpute）。

2.2.6肽-蛋白质汇总

在大多数蛋白质组学方法中，肽测量值被汇总到相应的蛋白质丰度。理想情况下，来自单个蛋白质的所有肽应具有类似的丰度，表现为类似的信号强度；然而，在现实中，许多因素，如消化效率、电喷雾电离效率等，都会影响肽的鉴定和丰度或信号强度。在DAnTE中可用的RRollup方法中，来源于同一蛋白质的肽首先根据选定的参考肽进行缩放，以使生物条件下的所有肽谱达到相同水平，然后取平均值以获得蛋白质丰度。在标度过程中，选择观察结果最多的肽作为参考肽，并将其在数据集中的总丰度用作决胜点。在ZRollup方法中，缩放方法类似于z（z）-首先对来源于单个蛋白质的肽进行评分（除了使用中位数而不是生物条件下肽谱的平均值），然后对缩放后的肽进行平均，以获得相对蛋白质丰度。在RRollup和Zrollup方法中，使用Grubb的离群值检验（Grubbs，1969). 在第三种QRollup方法中，根据用户选择的丰度截止值选择肽，并将蛋白质丰度计算为这些选定肽的平均值。

2.2.7分析算法

DAnTE提供了几个特征鲜明的算法来进一步探索数据中的模式。传统的主成分分析（Jolliffe，2002)并且相关的分数和负荷图可以作为一种无监督的方法来发现数据中的主要变化。相反，偏最小二乘法（Wold等人。,1984)DAnTE中的可用信息可用作判别程序，其中分组信息是使用因子分配的。层次结构和k个-means在特征/样本上的聚类方法也可用作热图绘制功能的一部分。

2.2.8假设检验

使用边际平方和（Fox，1997)和混合车型（Pinheiro和Bates，2000)包含在DAnTE中。用户还可以在多元方差分析（ANOVA）中测试因素之间的交互作用。这个q个-值也与第页-值以控制多次测试中的错误发现率（Storey，2002). 此外，DAnTE可以通过使用Shapiro–Wilks检验来检查数据是否符合正态分布，并在正态假设不成立时采用两种非参数假设检验（Wilcoxon秩和检验和Kruskal–Wallis检验）。

3总结

DAnTE是一个完整的下游分析工具，它集成了大量用于大规模自下而上蛋白质组学数据的算法。该工具具有交互式GUI界面，并利用R统计环境的强大功能；它的独特之处在于它能够处理不完整的数据，并将肽合成蛋白质。尽管DAnTE是专门用于分析蛋白质组学数据的，但它在基因组微阵列数据上表现同样出色。

致谢

作者感谢Joel Pounds、Susan Varnum和Kim Hixson的许多建议和广泛测试；以及Thomas O.Metz为早期方法开发提供数据和支持。

基金：本研究的一部分得到了国家普通医学科学研究所（NIGMS，大规模合作研究拨款U54 GM-62119-02）、NIH国家研究资源中心（RR18522）、太平洋西北国家实验室（PNNL）实验室指导研究与开发（LDRD）计划（W.-J.Q.）的支持和国家过敏症和传染病研究所NIH/DHHS（通过机构间协议Y1-AI-4894-01）。工作在PNNL的环境分子科学实验室进行，该实验室是由美国能源部（DOE）生物和环境研究办公室赞助的国家科学用户设施。PNNL由巴特尔根据合同DE-AC05-76RLO-1830为DOE运营。

利益冲突：未声明。

参考文献

拜尔

T型

,

Neuwirth公司

E类

. ,

2007

（上次访问日期2008年5月23日）

R（D）COM服务器V2.01。可在网址：http://sunsite.univie.ac.at/rcom/

考利斯特

SJ公司

等

消除与质谱和无标记蛋白质组学相关的系统偏差的标准化方法

,

蛋白质组研究杂志。

,

2006

，卷。

5

（第

277

-

286

)

工程

JK公司

等

蛋白质数据库中肽串联质谱数据与氨基酸序列的关联方法

,

《美国社会质谱学杂志》。

,

1994

，卷。

5

（第

976

-

989

)

福克斯

J型

.

应用回归分析、线性模型和相关方法

,

1997

加利福尼亚州千橡树

Sage出版物

谷歌学者

绅士

钢筋混凝土

等

生物导体：计算生物学和生物信息学的开放软件开发

,

基因组生物学。

,

2004

，卷。

5

第页。

80兰特

格拉布斯

F类

.

检测样品中异常观察值的程序

,

技术计量学

,

1969

，卷。

11

（第

1

-

21

)

谷歌学者

交叉参考

书目数据库

约利夫

信息技术

. ,

主成分分析

,

2002

纽约

施普林格

皮涅罗

JC公司

,

贝茨

DM公司

. ,

S和S-PLUS中的混合效应模型

,

2000

纽约

施普林格

Quackenbush公司

J型

.

微阵列数据规范化和转换

,

自然遗传学。

,

2002

，卷。

32

（第

496

-

501

)

（补充）

R开发核心团队

R：统计计算语言和环境

,

2008

奥地利维也纳

R统计计算基金会

可在网址：http://www.R-project.org.

谷歌学者

赛义德

人工智能

等

TM4：用于微阵列数据管理和分析的免费开源系统

,

生物技术

,

2003

，体积。

34

（第

374

-

378

)

斯迈思

GK公司

等

cDNA微阵列数据分析中的统计问题

,

方法分子生物学。

,

2003

，卷。

224

（第

111

-

136

)

故事

JD公司

.

错误发现率的直接方法

,

J.R.统计社会服务。B Stat.方法。

,

2002

，卷。

64

（第

479

-

498

)

谷歌学者

交叉参考

书目数据库

特洛伊扬斯卡娅

O（运行）

等

DNA微阵列的缺失值估计方法

,

生物信息学

,

2001

，卷。

17

（第

520

-

525

)

沃尔德

S公司

等

通过主成分和pls-类模式和定量预测关系对数据表进行建模

,

阿拉鲁西斯

,

1984

，卷。

12

（第

477

-

485

)

谷歌学者

OpenURL占位符文本

书目数据库

作者笔记

副主编：John Quackenbush

下载所有幻灯片

月份：	总浏览次数：
2016年11月	4
2016年12月	5
2017年1月	13
2017年2月	16
2017年3月	31
2017年4月	33
2017年5月	21
2017年6月	22
2017年7月	21
2017年8月	26
2017年9月	21
2017年10月	36
2017年11月	19
2017年12月	60
2018年1月	63
2018年2月	53
2018年3月	86
2018年4月	58
2018年5月	82
2018年6月	61
2018年7月	62
2018年8月	52
2018年9月	58
2018年10月	65
2018年11月	64
2018年12月	64
2019年1月	29
2019年2月	63
2019年3月	78
2019年4月	83
2019年5月	89
2019年6月	57
2019年7月	92
2019年8月	67
2019年9月	57
2019年10月	103
2019年11月	55
2019年12月	48
2020年1月	63
2020年2月	65
2020年3月	59
2020年4月	65
2020年5月	36
2020年6月	44
2020年7月	37
2020年8月	45
2020年9月	90
2020年10月	66
2020年11月	79
2020年12月	63
2021年1月	59
2021年2月	83
2021年3月	108
2021年4月	87
2021年5月	83
2021年6月	46
2021年7月	69
2021年8月	63
2021年9月	64
2021年10月	72
2021年11月	57
2021年12月	65
2022年1月	65
2022年2月	87
2022年3月	83
2022年4月	101
2022年5月	82
2022年6月	101
2022年7月	67
2022年8月	74
2022年9月	45
2022年10月	75
2022年11月	53
2022年12月	74
2023年1月	51
2023年2月	55
2023年3月	68
2023年4月	50
2023年5月	62
2023年6月	34
2023年7月	40
2023年8月	30
2023年9月	76
2023年10月	42
2023年11月	56
2023年12月	66
2024年1月	64
2024年2月	45
2024年3月	77
2024年4月	63

文章内容

DAnTE：用于组学数据定量分析的统计工具

摘要

1简介

2说明

2.1依赖性

2.2应用特点

2.2.1数据加载

2.2.2因子定义

2.2.3调查地块

2.2.4数据规范化

2.2.5缺失值插补

2.2.6肽-蛋白质汇总

2.2.7分析算法

2.2.8假设检验

3总结

致谢

参考文献

作者笔记

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

DAnTE：用于组学数据定量分析的统计工具

摘要

1简介

2说明

2.1依赖性

2.2应用特点

2.2.1数据加载

2.2.2因子定义

2.2.3调查地块

2.2.4数据规范化

2.2.5缺失值插补

2.2.6肽-蛋白质汇总

2.2.7分析算法

2.2.8假设检验

3总结

致谢

参考文献

作者笔记

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用