×

并非所有手指都是一样的:使用共形多实例内核在区分设置中处理可变长度序列。 (英语) Zbl 1443.92144号

Schwartz,Russell(编辑)等人,第17届生物信息学算法国际研讨会,2017年WABI,美国马萨诸塞州波士顿,2017年8月21日至23日。诉讼程序。Wadern:达格斯图尔宫——莱布尼茨Zentrum für Informatik。LIPIcs–莱布尼茨国际程序。通知。88,第16条,第14页(2017年)。
摘要:用于比较基因组序列的大多数字符串核通常与使用单个序列中特征的(绝对)位置信息有关。这在使用此类字符串内核比较可变长度序列时带来了限制。例如,通过基于3C的实验对染色质相互作用进行分析,得到可变长度的基因组序列(限制性片段)。在这里,序列中信号的准确位置发生可能不如分析启动子序列那样重要,启动子序列通常具有转录起始位点作为参考。已经证明,现有的位置感知字符串内核对后一种情况很有用。
在这项工作中,我们提出了一种新的序列比较方法,该方法比大多数现有方法具有更大的位置自由度,可以在比较可变长度序列时识别可能分散的特征集,并且可以处理上述两种情况。我们的方法CoMIK不仅确定了对分类有用的特征,而且还确定了它们在可变长度序列中的位置,三个二进制分类实验的结果证明了这一点,并辅以最近引入的可视化技术。此外,我们还表明,对于多个多实例核的复杂设置,我们能够有效地检索和解释权重向量。
关于整个系列,请参见[Zbl 1372.68022号].

MSC公司:

92D20型 蛋白质序列、DNA序列
92-08 生物问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 弗朗西斯·巴赫、格特·兰克里特和迈克尔·乔丹。多核学习、二次曲线对偶和SMO算法。《第二十届国际机器学习会议论文集》,ICML'04,第6页,美国纽约州纽约市,2004年。ACM公司。doi:10.1145/1015330.1015424。
[2] 马修·布拉斯科(Matthew B.Blaschko)和托马斯·霍夫曼(Thomas Hofmann)。共形多实例内核。在2006年学习比较示例研讨会上。
[3] Bernhard E.Boser、Isabelle M.Guyon和Vladimir N.Vapnik。一种最优边缘分类器的训练算法。第五届计算学习理论年度研讨会论文集,COLT’92,第144-152页,美国纽约州纽约市,1992年。ACM公司。doi:10。1145/130385.130401.
[4] 詹妮弗·巴特勒和詹姆斯·卡多纳加。RNA聚合酶II核心启动子:基因表达调控的关键成分。{基因与发育},16(20):2583-2592002。doi:10.1101/gad.1026202。
[5] Douglass R.Cutting、David R.Karger、Jan O.Pedersen和John W.Tukey。分散/聚集:浏览大型文档集的一种基于集群的方法。第十五届国际ACM SIGIR研究与开发会议论文集,SIGIR’92,318-329页,美国纽约州纽约市,1992年。ACM公司。doi:10.1145/133160.133214。
[6] Thomas G.Dietterich、Richard H.Lathrop、Tomas Lozano Perez和Arris Pharmaceutical。用轴平行矩形求解多点问题。人工智能,89:31-71997·Zbl 1042.68650号
[7] 查尔斯·埃尔坎。成本敏感学习的基础。第17届国际人工智能联合会议论文集第2卷,IJCAI'01,973-978页,美国加利福尼亚州旧金山,2001年。摩根考夫曼出版公司。
[8] 托马斯·加特纳(Thomas Gärtner)、彼得·弗拉奇(Peter A.Flach)、亚当·科瓦尔奇克(Adam Kowalczyk)和亚历克斯·斯莫拉(Alex J.Smola)。多功能内核。在{it Proc.19th International Conf.on Machine Learning},179-186页,Massachu setts,2002年。摩根·考夫曼。
[9] C.Leslie、E.Eskin和W.S.Noble。光谱核:用于SVM蛋白质分类的字符串核。《太平洋生物计算研讨会论文集》,第7卷,第566-575页,2002年。
[10] 克里斯蒂娜·莱斯利(Christina S.Leslie)、埃利亚扎·埃斯金(Eleazar Eskin)、阿迪尔·科恩(Adiel Cohen)、杰森·韦斯顿(Jason Weston)和威廉·斯塔福德·诺贝尔(William Stafford Noble)。不匹配的字符串核用于区分蛋白质分类。{生物信息学},20(4):467-4762004。doi:10.1093/bioinformatics/btg431。
[11] 托马斯·林纳和彼得·梅尼克。基于oli-gomer距离的远程同源性检测。{\it生物信息学},22(18):2224-22312006年9月。doi:10.1093/生物信息学/btl376。
[12] Shai Lubliner、Ifat Regev、Maya Lotan-Pompan、Sarit Edelheit、Adina Weinberger和Eran Segal。酵母核心启动子序列是表达水平的主要决定因素。{基因组研究},25(7):1008-10172015。
[13] Peter Meinike、Maike Tech、Burkhard Morgenstern和Rainer Merkl。生物序列数据挖掘的寡核苷酸内核:原核生物翻译起始位点的案例研究。{\it-BMC生物信息学},5(1):1692004。doi:10.1186/1471-2105-5-169。
[14] 萨维什·尼库姆和尼科·菲弗。基于遗传序列的长期色素相互作用预测表明,短串联重复序列在基因组组织中具有潜在作用。{\it BMC生物信息学},18(1):2182017。doi:10.1186/s12859-017-1624-x。
[15] G.Rätsch、S.Sonnenburg和B.Schölkopf。RASE:线虫选择性剪接外显子的识别。{生物信息学},21(补充1):i369-i3772005。doi:10.1093/生物信息学/bti1053。
[16] Gunnar Rätsch和Sören Sonnenburg。秀丽隐杆线虫剪接位点的准确预测。麻省理工学院计算分子生物学新闻系列,第277-298页。麻省理工学院出版社,马萨诸塞州剑桥,2004年。
[17] :14
[18] Hiroto Saigo、Jean-Philippe Vert、Nobuhisa Ueda和Tatsuya Akutsu。使用字符串对齐核进行蛋白质同源性检测。{\it生物信息学},20(11):1682-16892004年7月。doi:10.1093/bioinformatics/bth141。
[19] 阿马蒂亚·桑亚尔(Amartya Sanyal)、布莱恩·拉朱伊(Bryan R.Lajoie)、高拉夫·贾恩(Gaurav Jain)和约伯·德克尔(Job Dekker)。基因启动子的长程相互作用景观。{\it Nature},489(7414):109-1132012年9月.doi:10.1038/nature11279。
[20] Sebastian J.Schultheiss、Wolfgang Busch、Jan U.Lohmann、Oliver Kohlbacher和Gunnar Rätsch。Kirmes:基于核的常染色序列中调节模块的识别。{\it生物信息学},25(16):2126-21332009。doi:10.1093/bioinformatics/btp278。
[21] 约翰·肖·泰勒和尼洛·克里斯蒂亚尼尼。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。