跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因分子研究。作者手稿;PMC 2009年6月29日发布。
以最终编辑形式发布为:
2008年4月15日在线发布。 数字对象标识:10.4238/vol7-2gmr426
预防性维修识别码:PMC2703009型
美国国立卫生研究院:美国国立卫生研究院95316
PMID:18551400

通过光谱计数和特征选择识别蛋白质表达水平的差异

摘要

光谱计数是一种定量预消化蛋白质混合物中相对蛋白质浓度的策略,通过液相色谱和串联质谱在线分析。在这项工作中,我们对光谱计数数据使用了归一化和统计(特征选择)方法的组合,以验证在比较复杂的蛋白质混合物时,我们是否能够确定哪些蛋白质和多少蛋白质是差异表达的。这些组合是在真实但可控的实验中评估的(将蛋白质标记物掺入不同浓度的酵母裂解物中以模拟差异),因此这些实验是可验证的。采用了以下归一化方法:总信号、Z归一化、混合归一化和对数预处理。特征选择方法有:Golub指数、Student t检验、基于支持向量机模型(SVM-F)中使用的权重的策略和支持向量机递归特征消除。结果表明,Z归一化与SVM-F相结合可以正确识别出在不同浓度的酵母裂解液中添加了哪些蛋白质标记物以及添加了多少蛋白质标记物。我们使用的软件位于http://pcarvalho.com/patternlab.

关键词:MudPIT、特征选择、SVM、光谱计数、特征排名

1.简介

蛋白质组学的目标是区分系统的不同状态,以识别蛋白质表达的差异(Jessani等人,2005年)。第一种策略使用双向凝胶电泳(2-DGE)根据蛋白质的分子量和等电点比较蛋白质的迁移。2002年,出现了比较不同州生物样品的替代方法。对质谱板表面分离的浓缩蛋白质进行质谱(MS)分析。通过将从SELDI-TOF MS(表面增强激光解吸电离-飞行时间质谱仪)中获得的肽质量与电荷(m/z)值与肽丰度相关联,Petricoin等人利用从对照对象和卵巢癌患者血清的SELDI-to MS中获得的SELDI-TOF数据集进行机器学习。第二步,将未知光谱分类为患者或对照受试者类别(Petricoin等人,2002年;Unlu等人,1997年)。此后,各种特征选择/分类方法被描述为用于此目的,包括遗传算法(掸邦S.C.和库西亚克A 2004),Fisher标准分数(Kolakowska和Malina 2005),波束搜索(Badr和Oommen 2006;Carlson等人,2006年),分支和绑定(Polisetty等人,2006年)皮尔逊相关系数(Mattie等人,2006年)、和支持向量机递归特征消除(Carvalho等人,2007年).

当分析更复杂的样品时,需要高灵敏度,这导致使用液相色谱结合电喷雾质谱(LC-MS)分析消化后的蛋白质混合物。消除依赖数据的串联质谱分析过程可以提高离子的检测,因为仪器获取串联质谱的时间更少,并且MS和MS/MS交替扫描的缺乏提高了比较分析的能力。Becker等人使用LC-MS系统的离子色谱图来确定样品之间的差异,包括复杂混合物,如消化血清,分析中存在合理的差异(Wang等人,2003年)。Wiener等人使用重复LC-MS分析来开发具有统计意义的肽差异显示(Wiener等人,2004年)。这些方法将比较和识别过程分为首先识别色谱和离子差异,然后识别导致差异的肽。为了减少样品之间的比较误差和模糊性,色谱峰对齐越来越多地被使用(Bylund等人,2002年;Wong等人,2005年;Katajamaa等人,2006年;Katajamaa和Oresic 2005年;Zhang等人,2005年;Maynard等人,2004年;Wiener等人,2004年).

通过使用每个蛋白质的串联质谱数或“光谱计数”作为混合物中蛋白质丰度的替代物,Liu等人证明,“光谱计数“与混合物中两个数量级以上的蛋白质丰度线性相关(Liu等人,2004年)。由于LC/LC方法的复杂性以及质谱和串联质谱的交替采集,色谱比对比LC-MS要复杂得多,因此数据通常是从串联质谱和已鉴定蛋白质的角度进行分析的。使用LC/LC/MS/MS分析比较样品的两个问题是光谱计数数据的归一化和样品之间差异的识别。

在这项工作中,我们分析了如何使用光谱计数数据,通过精心选择的单变量和多变量统计/模式识别方法,精确定位以不同浓度添加到复杂蛋白质混合物(酵母裂解物)中的蛋白质标记。采用了不同的归一化/特征选择方法组合,并通过两种方法确定了在我们的数据集上表现最佳的组合。第一组通过统计分数对每种蛋白质进行排名,根据加标标记预计排名最高。第二种方法依赖于支持向量机(SVM)leave-one-out(LOO)交叉验证和Vapnik-Chervonenkis(VC)置信度;简单地说,这些量词允许估计分类器对看不见的样本进行分类的程度(Vapnik VN 1995年).

2.实验

2.1从添加蛋白质的酵母裂解液中获取MudPIT光谱计数

将四等分的400μg可溶性酵母总细胞裂解液与含有磷酸化酶b、血清白蛋白、卵清蛋白、溶菌酶、碳酸酐酶和胰蛋白酶抑制剂的Bio-Rad SDS-PAGE低范围重量标准液混合,其相对含量分别为最终混合物总重量的25%、2.5%、1.25%和0.25%。在相同条件下,用内切蛋白酶Lys-C和胰蛋白酶依次消化每个样品(Washburn等人,2001年)。将约70μg消化后的肽混合物加载到双相(强阳离子交换/反相)毛细管柱上,并用含有5%乙腈、0.1%甲酸的缓冲液在DDI水中稀释进行清洗。二维液相色谱(LC/LC)分离和串联质谱(MS/MS)条件如Washburn等人所述(Washburn等人,2001年)。当流动相组成为95%H时,双相柱尖端的流速为300nL/min2O、 5%乙腈和0.1%甲酸。离子阱质谱仪Finnigan LCQ Deca(Thermo Electron,Woburn,MA)被设置为数据相关采集模式,动态排除打开。一次MS测量扫描后,进行四次MS/MS扫描。每等分消化的酵母细胞裂解液分析3次。使用修改后的Pep_Prob公司算法(萨迪戈夫和耶茨,2003年)根据结合酵母和人类蛋白质序列的数据库,结果由DTASelect进行后处理(Tabb等人,2002年)。将加标标记和一些常见蛋白质污染物(例如角蛋白)的序列添加到数据库中。

2.2 3种测试条件的生成

这项工作中的所有计算都是使用蛋白质组学的PatternLab进行的,可在http://pcarvalho.com/patternlab学术用途;它的源代码也可以根据要求提供。

首先,PatternLab生成了一个索引文件,列出了所有MudPIT分析中确定的所有蛋白质(特征)。该索引为每个特征指定一个唯一的蛋白质索引编号(PIN)。其次,将DTASelect文件中的所有实验数据合并到单个稀疏矩阵中;这种格式更适合于特征选择。该矩阵的每一行与一个MudPIT分析相关,并给出该分析中每个PIN的光谱计数。因此,例如,行“1:3 2:5 3:6”指定PIN 1、2和3的光谱计数值分别为3、5和6的分析;所有其他PIN的值均为0。本研究生成的稀疏矩阵有15行,从15次MudPIT运行中获得,在酵母裂解液中添加了不同百分比的蛋白质标记(4次运行中添加了标记,代表总蛋白质含量的25%,4次运行时添加了2.5%,3次运行时使用1.25%,4次使用0.25%)。我们注意到,每行有大约1200个PIN,在所有15行中总共检测到2181个PIN,这表明许多蛋白质并没有在所有运行中被识别。

然后使用该矩阵生成三个测试数据集,每个数据集都与其他所有数据集相同,除了每行前面引入的类标签。在第一个测试集(TSet1)中,来自25%蛋白质峰值的行标记为+1(阳性),所有其他行标记为-1(阴性)。在第二个测试集(TSet2)中,25%和2.5%矩阵行标记为+1,其余标记为-1。在第三个(TSet3)中,0.25%峰值产生的行标记为-1,其他行标记为+1。此类类别标记的目的是为我们创建3个测试条件,以便我们稍后比较每个测试数据集中的阳性和阴性标记行,并验证是否可以精确定位具有不同浓度的加标蛋白质。图1总结了我们的方法。

保存图片、插图等的外部文件。对象名为nihms-95316-f0001.jpg

在15个酵母总细胞裂解物样品中以不同浓度添加蛋白质标记物。通过MudPIT(1.2)分析每个裂解产物,并通过Pep_Prob公司(1.3)并由DTASelect进行后处理。然后生成三个不同的测试集。使用归一化/特征选择方法的组合来搜索每个测试集中不同浓度的峰值蛋白标记(1.4)。

3.计算

3.1本工作中评估的归一化方法

在本研究中,我们评估了以下归一化策略:总信号(TS)、Z归一化(Z)、TS和Z(TS)的混合归一化Z) 和日志预处理。

3.1.1通过总谱计数归一化(总信号或TS)

联合国安全理事会是与PIN相关的光谱计数在行内j.行的总光谱计数j

TSC公司j=Σ联合国安全理事会.
(1)

行的TS归一化j通过执行以下操作获得

联合国安全理事会联合国安全理事会TSC公司j
(2)

为所有人.

3.1.2 Z归一化

Z归一化在微阵列研究中被广泛采用(Cheadle等人,2003年)。对于PIN,设μ做中庸的人联合国安全理事会总的来说j和类似的σ标准偏差。通过执行以下操作实现规范化

联合国安全理事会联合国安全理事会μσ
(3)

为所有人j。结果的平均值联合国安全理事会总的来说j则为零,标准偏差为1。我们注意到Z在每个矩阵列上执行,而TS在每个矩阵行上执行。

3.1.3混合归一化(TSZ)条

这是通过TS和Z获得的。

3.1.4日志预处理

在上述归一化步骤之前,将光谱计数数据的对数作为预处理步骤进行评估:

联合国安全理事会 在(联合国安全理事会).
(4)

我们的目标是相对于“高度丰富”的PIN增加具有低频谱计数的PIN的信号。

3.2本工作中评估的特征选择/排序方法

在本研究中,我们评估了Golub相关系数(GI)、Student t检验(一种我们称之为前向SVM(SVM-F)的方法)和SVM递归特征消除(SVM-RFE)。所有计算均使用PatternLab进行。

3.2.1 Golub指数(GI)

对于PIN,Golub指数(Golub等人,1999年)由定义

GI公司=μ+μσ++σ,
(5)

哪里μ+,μ,σ+、和σ是列中数据的平均值和标准偏差限制为正(+)或负(−)类。正值越大GI公司PIN与正值的相关性越强,而负值越小GI公司与负类的相关性越强。对于我们的功能排名目标,我们只需要取绝对值。

3.2.2学生t检验

学生t检验的分数由下式给出

T型=μ+μ(n个+1)++(n个1)n个++n个2(1n个++1n个),
(6)

其中每个n个是限制在列中的样本数到正(+)或负(−)类,并且每个是相应的方差。对于我们的功能排名目标,我们只需要取绝对值。

3.2.3支持向量机(SVM)

支持向量机是一种基于统计学习理论和结构风险最小化原理的有监督学习方法(Vapnik 1995年)。SVM已成功应用于许多生物信息学应用,包括蛋白质折叠的预测(Saha和Raghava 2006),siRNA功能(Teramoto等人,2005年)、rRNA、DNA和DNA结合蛋白(Yu等人,2006年)以及个性化遗传标记面板的预测(Carvalho等人,2006年)。SVM模型使用数据中信息最丰富的模式(所谓的支持向量)进行评估,并且能够通过在相应数据之间找到最大裕度的最优超平面来分离两类。

简单地说,在线性可分的情况下,SVM方法包括查找向量w个在特征空间和标量中b条这样超平面〈w个,x个〉 +b条可用于确定输入向量的类别+或−x个(如果〈w个,x个+b条≥0或〈w个,x个〉 +b条<0)。在训练阶段,模型在经验风险和自身复杂性(与其泛化能力有关)之间的折衷由一个惩罚参数控制C、,正常数。我们让读者参考Vapnik的书,了解SVM方法的更多细节,包括如何获得w个b条来自训练数据集(Vapnik VN 1995年)。为了进行SVM建模,PatternLab使用了SVM(约阿希姆T 1999).

3.2.4 SVM-F

对整个训练集的SVM模型进行SVM-F特征排序。如果w个是特征空间中的对应向量w个是的坐标w个与PIN对应的我,然后SVM-F按以下非递增顺序对特征进行排序w个2显然,排名最低的PIN对超平面的影响最小。SVM-F的输出由排序和并列的PIN及其排名分数组成。

3.2.5 SVM-RFE

SVM-RFE包括在一系列SVM模型上递归应用SVM-F。第一个对应于整个训练集;对于k个>1、k个第个SVM模型对应于删除所有涉及排名最低PIN的条目后以前使用的训练集(根据SVM-F)。然后在连续的低维空间上建立SVM模型。当达到所需维度或满足其他标准时,终止发生。由于一次删除一个功能,因此也可以建立重要性排名。

3.3归一化和特征排序组合方法的评估

所述方法的组合用于验证在比较标记物添加不同浓度的混合物时,是否可以精确定位添加的蛋白质。在理想情况下,这四个峰值蛋白质应达到最高特征等级。表I和表II列出了不同方法组合和浓度比较的加标蛋白质的等级。我们使用C类=100,支持向量机训练,跟随Guyon等。(Guyon等人,2002年)。表格还显示了在每种情况下,用于评估每种方法的惩罚分数(Pscore)。这个分数加一是四个标记的总和排名以10为底的对数。显然,理想的等级产生的(最小)Pscore为0。图2绘制了归一化和特征排序策略的每个组合的性能。

保存图片、插图等的外部文件。对象名为nihms-95316-f0002.jpg

当比较不同的加标浓度(图例)、有(B)和没有(A)Log预处理时,为归一化/特征选择方法的每个组合计算的Pscores的总和。较低的条表示性能更好。酒吧高度限制为4。我们记得Pscore是通过获取Log来计算的10秩和减去1。请注意,SVM-F在进行和不进行日志预处理时都会获得至少一个满分。UD代表“未规范化”的数据。

3.4归一化方法的评估

通过仅使用加标蛋白质的光谱计数,SVM模型也通过改变C类对于所有规范化方法,参数从2到100,步长为2。这个C类记录了达到最小LOO错误或VC置信度的。在这两种情况下,还记录了LOO误差、VC置信度和模型的支持向量数(表三)。我们注意到,LOO误差和VC置信度分别是衡量模型经验风险(数据集中的误差)的方法,以及当模型应用于新数据集时,该风险可能会增加多少(泛化能力)。

LOO技术包括从训练集中删除一个示例,用剩余的训练数据计算决策函数,然后在删除的示例上进行测试。以这种方式,测试训练数据的所有示例,并测量错误占训练示例总数的比例。

该模型的VC信心来源于统计学习理论(Vapnik VN 1995年)并由给出

风险资本信心=小时(自然对数(21小时)+1)自然对数(η4),
(6)

小时是模型特征空间的VC维,是训练样本数,1-η是当模型中出现新数据集时,VC置信度确实是经验风险的最大附加误差的概率。我们使用η=0.05。我们记得,给定一个SVM模型,VC维是类之间的分隔边距和包含所有输入向量的超球面的最小半径的函数。

3.5预测添加了多少蛋白质

特征排名可以与预测有多少特征重要的方法相结合。在这里,预测特征的数量等同于估计有多少蛋白质被加标。我们使用的所有功能排序方法都会输出一个两列列表,其中第一列中的功能(PIN)按其排名排序,第二列中的每个PIN的方法得分。通过在输出列表中定位在得分值差异最大的两个连续行来估计峰值蛋白质的数量。然后通过计算分数高于或等于此差距上限的特征数量来计算特征数量。

4.结果和讨论

4.1特征选择/排序方法评估

有效的特征排序标准应该选择最有助于学习机“分离”数据的能力的特征,降低模式识别成本,并使模型不太容易过拟合。翻译研究通常具有有限的样本数量和高维性(许多特征),这使得特征选择和泛化能力的评估势在必行。通过在酵母裂解物中添加蛋白质并对其进行检测,我们证明了利用光谱计数和SVM识别差异并在蛋白质组图谱中进行分类的潜力。

在我们手中,对于酵母MudPIT光谱计数数据集,无论有无Log预处理,Z归一化,以及使用“非标准化”数据进行Log预处理器,然后使用SVM-F,都取得了完美的分数,精确定位了10以上所有配置的所有加标蛋白质2测试了动态范围。这些结果如表I、II和图2.

总的来说,最大的困难是在TSet1中定位尖峰标记。我们假设这源于特征选择方法和所用实验程序的局限性。从机器学习的角度来看,根据Cover和Van Campenhout的观点,没有非穷举的顺序特征选择过程可以保证找到最佳特征子集或列出错误概率的排序(T.M.Cover和J.M.Van Campenhout 1977年)。我们不使用穷举的特征搜索,因为子集可能性的数量随着特征的数量呈指数级增长;即使对于数量适中的特征,这种方法也很快变得不可行。并非每个MudPIT分析都能鉴定出含量较低的蛋白质,因此偏向于获取更丰富的肽离子。因此,较少的蛋白质被较少的肽识别出来,它们的识别有时会被较多蛋白质中的肽抑制。Liu等人解决了复杂混合物中MudPIT识别蛋白质的随机性问题(Liu等人,2004年)。来自TSet1的行显示,在这些运行期间(~800)识别出的PIN较少,与其他运行的~1200个PIN相比。这种缺少PIN的情况可能导致SVM-RFE朝着“不希望的方向”发展,同时递归地消除了这些功能。在RFE计算期间,在缩小至~600特征之前,法向量的权重(w个)在最重要的特征中,仍然包括尖峰蛋白。

虽然我们已经成功地鉴定出了尖峰蛋白,但我们相信我们的方法可以进化为变种,这种变种可能对不同性质的数据集表现得更好。我们使用的方法是确定性的,从这个意义上说,它们很快缩小到可能只有局部最优解的范围。在高维特征空间中寻求全局最优仍然是模式识别的一个挑战。分布式计算,加上可以有效地清理特征空间的算法(遗传算法(掸邦S.C.和库西亚克A 2004;Link等人,1999年),群(Guo等人,2004年)等),为挖掘比我们处理的数据集更复杂的数据集的蛋白质组学提供了希望。

4.2关于数据集“可分性”的标准化方法评估

考虑到不止一种方法能够选择加标的蛋白质,哪种方法最好?由于每一类中存在不同浓度的加标标记,并且光谱计数与蛋白质丰度相关,因此应该存在能够分离仅包含加标蛋白质的光谱计数信息的输入载体的线性函数。为了进一步评估模型的泛化能力,我们使用了VC置信度。

Z和Log预处理数据都允许SVM-F正确选择加标蛋白质,并对所有加标配置产生0%的LOO错误(表三)。VC置信度表明,由Z归一化的TSet1和TSet2比TSet3具有更大的容量,因此,较低的浓度使Z预处理更加困难。另一方面,Log预处理数据在较低浓度下分离得更好,可能是因为Log函数的性质使较低值优于较大值。

在我们的结果中,应用于“非规范化”数据的特征选择方法取得了良好的Pscore。我们假设发生这种情况是因为数据集在某种意义上是相似的,背景蛋白是技术复制品(因此很容易复制)。如果酵母蛋白具有更多的可变性,那么归一化方法可能会变得至关重要。这方面还需要进一步的工作。

4.3预测峰值蛋白质的数量

总的来说,根据我们的基准策略,Z归一化和SVM-F是获得酵母MudPIT数据集完美分数的方法。第3.5节中描述的用于预测加标标记数量的方法应用于Z/SVM-F结果,它正确地将加标标记的数量确定为4,用于所有三种加标标记分离可能性(TSet1到3)。

5.结论

在这项研究中,我们着手解决光谱计数数据是否可以归一化,然后使用模式识别技术进行分类的问题。上述结果表明,将Z和SVM-F应用于酵母MudPIT光谱计数数据集是发现此类数据差异的有效方法。所述方法也能够正确识别裂解液中添加了多少标记。预计所提出的方法在其他类似数据采集的实验中会表现出令人满意的性能。

由于基于质谱的蛋白质组学仍在发展中,并且光谱计数的有效性可能因实验装置而异,包括质谱类型和数据相关分析配置,因此鉴定可靠的标记蛋白质并非易事。在这里,标准化和特征选择策略的组合在受控(刺入)但现实的(酵母裂解物)实验中得到了验证,因此这是可验证的。我们的结果表明,即使在“简单”的场景中,峰值浓度可以被视为相对较高,数据仍然可以在基础良好的特征选择方法上发挥作用。这是由于数据集的高维性、稀疏性和缺乏已知的先验概率分布。对于更复杂的情况,与绝对浓度相比,搜索到的标记可能以极低的浓度出现。降低复杂性的现有策略之一是分离亚蛋白质组;然而,这些分离在很多时候并不容易进行,而对蛋白质含量的干扰仅为最低,并且仍然是一个挑战。

我们还证明了评估蛋白质组学研究的计算策略的重要性,以验证在处理复杂数据集时得出结论之前,哪种策略最适合手头的实验。如我们的结果所示,SVM-RFE在我们的酵母光谱计数数据集上的应用可能会导致错误的结论。这表明模式识别方法可以在不同性质的数据集上执行不同的操作,强化了没有“一个适合所有人”的方法的思想。

6.确认

这项工作得到了美国国立卫生研究院(P41 RR11823-10、5R01 MH067880和U19 AI063603-02)、CNPq、CAPES、FAPERJ BBP拨款和Genesis分子生物学实验室的资助。作者感谢刘洪斌博士分享MudPIT数据(Liu等人,2004年).

7.参考清单

  • Badr G,Oommen BJ。使用尝试和基于AI的启发式搜索策略优化句法模式识别。IEEE传输系统。人类网络。B网络。2006;36:611–622.[公共医学][谷歌学者]
  • Bylund D、Danielsson R、Malmquist G、Markides KE。作为液相色谱-质谱数据PARAFAC建模的预处理工具,通过翘曲和动态编程进行色谱对齐。J色谱法。答:。2002;961:237–244.[公共医学][谷歌学者]
  • Carlson JM、Chakravarty A、Gross RH。BEAM:一种用于识别基因组中顺调控元素的光束搜索算法。J计算。生物。2006;13:686–701.[公共医学][谷歌学者]
  • 卡瓦略PC、卡瓦略MGC、Degrave W、Lilla S、De Nucci G、Fonseca R、Spector N、Musacchio J、Domont GB。质谱获得的差异蛋白表达模式有助于霍奇金病的诊断。《出口杂志》。昂科尔。2007年;6:137–145。[公共医学][谷歌学者]
  • Carvalho PC、Freitas SS、Lima AB、Barros M、Bittencourt I、Degrave W、Cordovil I、Fonseca R、Carvalho MGC、Moura Neto RS、Cabello PH。以高血压为研究模型,通过缓存解决方案进行个性化诊断。遗传学。摩尔Res。2006;5:856–867.[公共医学][谷歌学者]
  • Cheadle C,Vawter MP,Freed WJ,Becker KG。使用Z得分转换分析微阵列数据。分子诊断杂志。2003年;5:73–81. [PMC免费文章][公共医学][谷歌学者]
  • Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR、Caligiuri MA、Bloomfield CD、Lander ES。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学。1999;286:531–537。[公共医学][谷歌学者]
  • 郭CX,胡JS,叶B,曹YJ。用于混合变量设计优化的Swarm智能。J浙江。科学大学。2004;5:851–860.[公共医学][谷歌学者]
  • Guyon I、Weston J、Barnhill S、Vapnik V.使用支持向量机进行癌症分类的基因选择。马赫学习。2002;46:389–422. [谷歌学者]
  • Jessani N、Niessen S、Wei BQ、Nicolau M、Humphrey M、Ji Y、Han W、Noh DY、Yates JR、III、Jeffrey SS、Cravatt BF。初级人类标本高含量功能蛋白质组学的流线型平台。自然方法。2005;2:691–697。[公共医学][谷歌学者]
  • 约阿希姆·T·。使大规模SVM学习实用化。核方法的进展-支持向量学习。MIT-Press;1999[谷歌学者]
  • Katajamaa M,Miettinen J,Oresic M.MZmine:基于质谱的分子图谱数据处理和可视化工具箱。生物信息学。2006;22:634–636.[公共医学][谷歌学者]
  • Katajamaa M,Oresic M.LC/MS剖面数据差异分析的处理方法。BMC生物信息学。2005;6:179. [PMC免费文章][公共医学][谷歌学者]
  • Kolakowska A,Malina W.Fisher序列分类器。IEEE传输系统。人类网络。B网络。2005;35:988–998.[公共医学][谷歌学者]
  • Link AJ、Eng J、Schieltz DM、Carmack E、Mize GJ、Morris DR、Garvik BM、Yates JR.、III蛋白质复合物的质谱直接分析。国家生物技术。1999;17:676–682.[公共医学][谷歌学者]
  • Liu H,Sadygov RG,Yates JR.,III鸟枪蛋白质组学中随机取样和相对蛋白质丰度估计的模型。分析。化学。2004;76:4193–4201.[公共医学][谷歌学者]
  • Mattie MD、Benz CC、Bowers J、Sensinger K、Wong L、Scott GK、Fedele V、Ginzinger DG、Getts RC、Haqq CM。优化的高通量microRNA表达谱为临床前列腺癌和乳腺癌活检提供了新的生物标记物评估。摩尔癌症。2006;5:24。 [PMC免费文章][公共医学][谷歌学者]
  • Maynard DM,Masuda J,Yang X,Kowalak JA,Markey SP.使用多维液相色谱-质谱系统表征复杂肽混合物:酿酒酵母作为模型系统。J色谱法。B分析。Technol公司。生物识别。生命科学。2004;810:69–76。[公共医学][谷歌学者]
  • Petricoin EF、Ardekani AM、Hitt BA、Levine PJ、Fusaro VA、Steinberg SM、Mills GB、Simone C、Fishman DA、Kohn EC、Liotta LA。血清蛋白质组模式用于识别卵巢癌。柳叶刀。2002;359:572–577.[公共医学][谷歌学者]
  • Polisetty PK、Voit EO、Gatzke EP。使用全局优化方法识别代谢系统参数。理论。生物医学模型。2006;:4. [PMC免费文章][公共医学][谷歌学者]
  • Sadygov RG,Yates JR.,III使用串联质谱数据和蛋白质序列数据库进行蛋白质鉴定和验证的超几何概率模型。分析。化学。2003年;75:3792–3798.[公共医学][谷歌学者]
  • Saha S,Raghava GP.VICMpred:一种基于SVM的方法,用于使用氨基酸模式和组成预测革兰氏阴性菌的功能蛋白。基因组蛋白质组学。生物信息学。2006;4:42–47. [PMC免费文章][公共医学][谷歌学者]
  • Shan SC,Kusiak A.基于数据挖掘和遗传算法的基因/SNP选择。医学中的人工智能。2004;31:183–196。[公共医学][谷歌学者]
  • Cover TM,Van Campenhout JM。关于度量选择问题中可能的顺序。1977:657–661. [谷歌学者]
  • Tabb DL、McDonald WH、Yates JR.、III DTA选择和对比:组装和比较鸟枪蛋白质组学蛋白质鉴定的工具。蛋白质组学杂志。物件。2002;1:21-26。 [PMC免费文章][公共医学][谷歌学者]
  • Teramoto R,Aoki M,Kimura T,Kanaoka M。使用广义字符串核和支持向量机预测siRNA功能。FEBS信函。2005;579:2878–2882.[公共医学][谷歌学者]
  • Unlu M、Morgan ME、Minden JS。差异凝胶电泳:一种检测蛋白质提取物变化的单凝胶方法。电泳。1997;18:2071–2077。[公共医学][谷歌学者]
  • Vapnik越南。统计学习理论的本质。Springer-Verlag;纽约公司:1995年。[谷歌学者]
  • Wang W,Zhou H,Lin H,Roy S,Shaler TA,Hill LR,Norton S,Kumar P,Anderle M,Becker CH。无同位素标记或加标物的质谱法定量蛋白质和代谢物。分析。化学。2003年;75:4818–4826.[公共医学][谷歌学者]
  • Washburn MP,Wolters D,Yates JR.,III采用多维蛋白质鉴定技术对酵母蛋白质组进行大规模分析。国家生物技术。2001;19:242–247.[公共医学][谷歌学者]
  • Wiener MC、Sachs JR、Deyanova EG、Yates JR、III差示质谱法:一种无标签LC-MS方法,用于发现复杂肽和蛋白质混合物中的显著差异。分析。化学。2004;76:6085–6096.[公共医学][谷歌学者]
  • Wong JW,Cagney G,Cartwright HM.SpecAlign——质谱数据集的处理和校准。生物信息学。2005;21:2088–2090.[公共医学][谷歌学者]
  • Yu X,Cao J,Cai Y,Shi T,Li Y.用支持向量机从一级结构预测rRNA-、RNA-和DNA-结合蛋白。J Theor博士。生物。2006;240:175–184。[公共医学][谷歌学者]
  • Zhang X、Asara JM、Adamec J、Ouzzani M、Elmagarmid AK。基于液相色谱-质谱的蛋白质组学中的数据预处理。生物信息学。2005;21:4054–4059.[公共医学][谷歌学者]