跳到主要内容
10.1145/2739482.2768509acm会议文章/章节视图摘要出版物页面灰泥会议记录会议集合
研究论文

基于符号回归的MS Amanda肽识别评分系统

出版:2015年7月11日 出版历史
  • 获取引文提醒
  • 摘要

    肽搜索引擎是能够从生物样品的质谱中识别肽(即短蛋白或部分蛋白)的算法。这些识别算法报告给定光谱的最佳匹配肽和代表匹配质量的分数;通常,该分数越高,相应比赛的可靠性越高。为了估计搜索引擎的特异性和敏感性,为识别算法提供了目标序列集,以及随机创建的或实数序列的加扰版本的所谓诱饵序列;诱饵序列应分配低分,而目标序列应分配高分。
    本文提出了一种基于符号回归(使用遗传编程)的方法,该方法有助于区分目标匹配和诱饵匹配。根据为匹配序列计算的特征,并使用原始序列集(目标或诱饵)上的信息,我们学习计算更新分数的数学模型。作为白盒建模方法的替代方法,我们还使用黑盒建模方法,即随机森林。
    正如我们在本文的实证部分所示,这种方法会导致分数增加可靠识别样本的数量,这些样本最初是使用MS Amanda识别算法对高分辨率和低分辨率质谱进行评分的。

    工具书类

    [1]
    Michael Affenzeller、Stephan Winkler、Stefan Wagner和Andreas Beham。遗传算法和遗传程序设计——现代概念和实际应用。查普曼和霍尔/CRC,2009年。
    [2]
    托马斯·安吉尔(Thomas E.Angel)、乌玛·阿里亚尔(Uma K.Aryal)、肖娜·亨格尔(Shawna M.Hengel)、艾琳·贝克(Erin S.Baker)、瑞恩·凯利(Ryan T.Kelly)、埃罗尔·罗宾逊(Errol W。基于质谱的蛋白质组学:现有能力和未来方向。化学学会评论,41(10):3912-39282012年5月。
    [3]
    沃尔夫冈·班扎夫(Wolfgang Banzhaf)和克里斯蒂安·拉萨尔茨克(Christian W.G.Lasarczyk)。算法化学的遗传编程。在U.O'Reilly、T.Yu、R.Riolo和B.Worzel,《遗传编程理论与实践II》编辑,第175-190页。安娜堡,2004年。
    [4]
    利奥·布雷曼(Leo Breiman)。随机森林。机器学习,45(1):5--322001。
    [5]
    尤尔根·考克斯(Jürgen Cox)、纳丁·纽豪泽(Nadin Neuhauser)、安妮特·米查尔斯基(Annette Michalski)、理查德·谢尔特马(Richard A.Scheltema)、杰斯珀·奥尔森(Jesper V.Olsen)和马蒂亚斯·曼。Andromeda:集成到maxquant环境中的肽搜索引擎。蛋白质组研究杂志,10:1794-18052011年。
    [6]
    维克多莉亚·多弗、彼得·皮克勒、托马斯·斯特伦泽尔、约翰内斯·斯塔德曼、托马斯·陶斯、斯蒂芬·温克勒和卡尔·梅希特勒。MS Amanda,一种针对高精度串联质谱优化的通用识别算法。蛋白质组研究杂志,13:3679-36842014。
    [7]
    Joshua E.Elias和Steven P.Gygi。提高大规模蛋白质质谱鉴定信心的目标经济搜索策略。自然方法,4(3):207--14,2007年3月。
    [8]
    Jimmy K.Eng、Ashley L.McCormack和John R.Yates III。一种将肽的串联质谱数据与蛋白质数据库中的氨基酸序列相关联的方法。美国质谱学会杂志,5(11):976-9891994。
    [9]
    卢卡斯·卡尔(Lukas Käll)、杰西·坎特伯雷(Jesse D.Canterbury)、杰森·韦斯顿(Jason Weston)、威廉·斯塔福德·诺布尔(William Stafford Noble)和迈克尔·麦克斯(Michael J.MacCoss)。从鸟枪蛋白质组学数据集进行肽鉴定的半监督学习。自然方法,4(11):923--9252007。
    [10]
    托马斯·科彻(Thomas Köcher)、彼得·皮克勒(Peter Pichler)、雷姆科·斯瓦特(Remco Swart)和卡尔·梅希特勒(Karl Mechtler)。使用超长梯度,通过单级纳米LC-MS/MS分析全细胞提取物中的蛋白质混合物。自然协议,7(5):882--902012年5月。
    [11]
    Michael Kommenda、Gabriel Kronberger、Stefan Wagner、Stephan Winkler和Michael Affenzeller。关于启发式实验室中基于树的遗传编程的体系结构和实现。《第14届遗传和进化计算年会指南会议录》,GECCO’12,第101-108页,美国纽约州纽约市,2012年。ACM公司。
    [12]
    约翰·科扎(John R.Koza)。遗传程序设计:关于通过自然选择进行计算机程序设计。麻省理工学院出版社,1992年。
    [13]
    罗杰·E·摩尔、玛丽·K·杨和特里·D·李。Qscore:一种评估SEQUEST数据库搜索结果的算法。美国质谱学会杂志,13(4):378--862002年4月。
    [14]
    David N.Perkins、Darryl J.C.Pappin、David M.Creasy和John S.Cottrell。通过使用质谱数据搜索序列数据库进行基于概率的蛋白质鉴定。电泳,20:3551--35671999。
    [15]
    马克·西格尔(Mark R.Segal)。机器学习基准和随机森林回归。生物信息学和分子生物统计学中心,2004年。
    [16]
    Jamie Shotton、Tae-Kyun Kim和Bjorn Stenger。增强和随机化森林以实现视觉识别。在ICCV 2009和2009中。
    [17]
    UniProt联盟。2013年Universal Protein Resource(UniProt)活动最新情况。《核酸研究》,41:D43-D47,2013年。
    [18]
    马克·瓦代尔(Marc Vaudel)、哈拉尔德·巴恩斯(Harald Barsnes)、弗罗德·贝尔文(Frode S.Berven)、阿尔伯特·西克曼(Albert Sickmann)和伦纳特·马滕斯(Lennart Martens)。SearchGUI:一个开放源码的图形用户界面,用于同步OMSSA和X!串联搜索。蛋白质组学,11(5):996--92011年3月。
    [19]
    马克·瓦代尔(Marc Vaudel)、朱莉娅·博克哈特(Julia M.Burkhart)、雷内·普·扎赫迪(RenéP.Zahedi)、埃斯特因·奥夫兰(Eystein Oveland)、弗罗德·贝尔文(Frode S.Berven)、阿尔伯特·西克曼(Albert Sickmann。PeptideShaker能够重新分析MS衍生的蛋白质组数据集。《自然生物技术》,33(1):22-242015年1月。
    [20]
    斯特凡·瓦格纳(Stefan Wagner)、加布里埃尔·克伦伯格(Gabriel Kronberger)、安德烈亚斯·贝哈姆(Andreas Beham)、迈克尔·科曼达(Michael Kommenda)、安德列亚斯·谢班普福鲁(Andreas-Scheibenpflug)、埃里克·皮策(Erik Pitzer)、斯特凡·沃诺芬(Stefan-Vonolfen)、莫妮卡。启发式实验室优化环境的架构和设计。《计算智能的高级方法与应用》,《智能工程与信息学专题》,6:197-2612013。
    [21]
    斯蒂芬·温克勒(Stephan M.Winkler)。进化系统识别-现代概念和实际应用。林茨约翰内斯·开普勒大学形式模型与验证研究所博士论文,2008年。

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    GECCO Companion’15:2015年遗传和进化计算年会的Companion出版物会议记录
    2015年7月
    1568页
    国际标准图书编号:9781450334884
    内政部:10.1145/2739482
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2015年7月11日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 肽鉴定
    2. 蛋白质组学
    3. 符号回归

    限定符

    • 研究文章

    资金来源

    • FWF公司
    • FFG公司

    会议

    2015年GECCO
    赞助商:
    GECCO’15:遗传和进化计算会议
    2015年7月11日至15日
    西班牙马德里

    接受率

    4410份提交文件中的总接受率为1669份,占38%

    即将召开的会议

    GECCO’24
    遗传和进化计算会议
    2024年7月14日至18日
    墨尔本,维多利亚州,澳大利亚

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 0
      引文总数
    • 70
      总下载次数
    • 下载次数(过去12个月)1
    • 下载次数(最近6周)0

    其他指标

    引文

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享