文件Zbl 1474.62395-zbMATH打开

阿娜·海伦娜·塔瓦雷斯;雅各布·雷梅克斯;彼得·卢梭。;保拉·布里托;维拉阿弗雷克索

利用分布的峰值和趋势对人类DNA中的基因组词进行聚类。（英语） Zbl 1474.62395号

高级数据分析。分类。，ADAC公司 14，第1期，第57-76页（2020年）.

摘要：在这项工作中，我们通过研究人类DNA中的字间滞后分布来寻找基因组词簇。由于这些直方图具有特殊的尖峰性质，因此提出了一种聚类过程，首先将每个分布分解为基线分布和峰值分布。使用离群值ro-blast拟合方法估计基线分布（“趋势”），并用去趋势数据的稀疏向量捕获峰值结构。一项模拟研究证明了聚类过程在分组具有相似峰值行为和/或基线特征的分布时的有效性。该程序用于研究人类基因组中长度为3和5的基因组词的分布模式之间的相似性。这些实验证明了新方法在识别具有相似距离模式的单词方面的潜力。

MSC公司：

62页第10页	统计学在生物学和医学中的应用；元分析
62H30型	分类和区分；聚类分析（统计方面）
92D20型	蛋白质序列，DNA序列

关键词：

分类;模式识别;稳健性;单词距离

软件：

剪影;TCLUST公司;标准贯入度

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

OA许可证

参考文献：

[1]	Abramowitz M，Stegun IA（1964）《数学函数手册：带公式、图表和数学表格》，第55卷。Courier公司·Zbl 0171.38503号
[2]	Afreixo，V。；罗德里格斯，Jm；Bastos，Ca，《人类基因组中单链异常词对称性的分析：新措施》，生物统计学，16，2，209-221（2014）
[3]	巴基克语，Vb；Seah，Sh，Dragon gene start finder：一种用于查找基因转录单位起始位置的高级系统，Genome Res，13，8，1923-1929（2003）
[4]	Balakrishnan，N。；Mv Koutras，《使用应用程序运行和扫描》（2011年），纽约：威利
[5]	C.伯格。；美国坎贝尔；Karlin，S.，DNA序列中短寡核苷酸的过度和不足表达，美国国家科学院院刊，89，41358-1362（1992）
[6]	Caliánski，T。；Harabasz，J.，《用于聚类分析的树枝晶方法》，《公共统计理论方法》，3，1，1-27（1974）·Zbl 0273.62010
[7]	联合会，Ihgs，人类基因组的初始测序和分析，《自然》，409，6822，860（2001）
[8]	Cuesta-Albertos，Ja；Gordaliza，A。；Matrán，C.，Trimmed k均值：量化器鲁棒化的尝试，Ann Stat，25，2553-576（1997）·Zbl 0878.62045号
[9]	美国迪顿；Bird，A.，CpG岛与转录调控，Genes Dev，25，10，1010-1022（2011）
[10]	弗里茨，H。；路易斯安那州加西亚-埃斯库德罗；Mayo-Iscar，A.，《tclust:聚类分析修剪方法的R包》，J Stat Softw，47，12，1-26（2012）
[11]	Fu JC（1996）与多阶段试验序列相关的运行和模式分布理论。统计Sin 957-974·Zbl 0857.60068号
[12]	傅，Jc；Lou，Ww，运行和模式分布理论及其应用：有限马尔可夫链嵌入方法（2003），新加坡：世界科学出版社，新加坡·Zbl 1030.60063号
[13]	路易斯安那州加西亚-埃斯库德罗；Gordaliza，A。；马特兰，C。；Mayo-Iscar，A.，稳健聚类分析的一般修正方法，《Ann Stat》，36，1324-1345（2008）·Zbl 1360.62328号
[14]	Gardiner-Garden，M。；Frommer，M.，脊椎动物基因组中的CpG岛，分子生物学杂志，196，2，261-282（1987）
[15]	盖拉，L。；罗伯斯，V。；比尔扎，C。；Larrañaga，P.，使用异常值和噪声的聚类质量指数的比较，Intell Data Anal，16，4，703-715（2012）
[16]	Hennig，C.，溶解点和隔离稳健性：一般聚类分析方法的稳健性标准，J Multivar Ana，99，6，1154-1176（2008）·Zbl 1141.62052号
[17]	休伯特，L。；Arabie，P.，比较分区，J Classif，2，1，193-218（1985）
[18]	休伯特，Lj；Levin，Jr，《自由回忆中评估分类聚类的通用统计框架》，《心理公牛》，83，6，1072（1976）
[19]	哈辛托，Fv；Esteller，M.，《人类癌症表观遗传沉默释放的突变体途径》，《突变发生》，22，4247-253（2007）
[20]	考夫曼，L。；Rousseeuw，Pj，《在数据中发现群体》（1990），纽约：威利，纽约·Zbl 1345.62009号
[21]	梁，我的；沼泽，Gm；Speed，Tp，疱疹病毒基因组中短DNA单词的过度和不足表达，计算生物学杂志，3，3，345-360（1996）
[22]	Liu Y，Li Z，Xiong H，Gao X，Wu J（2010）《内部聚类验证措施的理解》。2010年IEEE第十届数据挖掘国际会议（ICDM），IEEE，第911-916页
[23]	Lothaire，M.，《单词的应用组合学》（2005），剑桥：剑桥大学出版社，剑桥·Zbl 1133.68067号
[24]	Macisaac，Kd；Fraenkel，E.，《发现调控DNA序列模体的实用策略》，《公共科学图书馆·计算生物学》，第2、4、e36页（2006年）
[25]	Marino-Ramrez，L。；浪涌，Jl；Gc Kanga；Landsman，D.，人类启动子序列中过度表达单词的统计分析，Nucl Acids Res，32，3，949-958（2004）
[26]	明尼苏达州米利根；Cooper，Mc，《确定数据集中簇数的程序检查》，《心理测量学》，50，2，159-179（1985）
[27]	明尼苏达州米利根；Cooper，Mc，层次聚类分析外部标准的可比性研究，Multivar Behav Res，21，4，441-458（1986）
[28]	Nakamoto，T.，《蛋白质合成起始机制的进化和普遍性》，《基因》，432，1，1-6（2009）
[29]	Nuel，G.，马尔可夫链上模式统计的数值解，Stat Appl Genet Mol Biol，5，1，1-5（2006）·Zbl 1166.62324号
[30]	Percus，Jk，基因组分析数学（2002），剑桥：剑桥大学出版社，剑桥
[31]	Régnier，M.，单词出现概率的统一方法，离散应用数学，104，1-3259-280（2000）·Zbl 0987.92017号
[32]	雷内特，G。；Schbath，S。；Waterman，Ms，单词的概率和统计特性：综述，计算机生物学杂志，7，1-2，1-46（2000）
[33]	罗宾，S。；Daudin，Jj，单词出现在随机字母序列中的精确分布，《应用概率杂志》，36，1，179-193（1999）·Zbl 0945.60008号
[34]	罗宾，S。；Daudin，Jj，一组单词任意出现之间距离的精确分布，Ann Inst Stat Math，53，4，895-905（2001）·Zbl 1006.60012号
[35]	罗宾，S。；道丁，Jj；理查德·H。；Sagot，Mf；Schbath，S.，随机序列中结构化模体的发生概率，计算机生物学杂志，9，6，761-773（2002）
[36]	罗宾，S。；鲁道夫，F。；Schbath，S.，《DNA、单词和模型：例外单词的统计》（2005），剑桥：剑桥大学出版社，剑桥·Zbl 1185.92047号
[37]	Rousseeuw，Pj，最小二乘回归，美国统计协会杂志，79，871-880（1984）·Zbl 0547.62046号
[38]	Rousseeuw，Pj，Silhouettes:聚类分析解释和验证的图形辅助，《计算应用数学杂志》，20，53-65（1987）·Zbl 0636.62059号
[39]	Saxonov，S。；Berg，P。；Brutlag，Dl，人类基因组中CpG二核苷酸的全基因组分析区分了两类不同的启动子，Proc Natl Acad Sci，103，5，1412-1417（2006）
[40]	斯特凡诺夫，V。；Pakes，Ag，模式形成中的显式分布结果，Ann Appl Probab，7666-678（1997）·Zbl 0893.60005号
[41]	Stefanov，Vt，《关于一些等待时间问题》，J Appl Probab，37，3，756-764（2000）·Zbl 0969.60021号
[42]	Stefanov，Vt，由一般离散和连续时间模型生成的字符串中模式出现之间的站点间距离：算法方法，J Appl Probab，40，4，881-892（2003）·Zbl 1054.60022号
[43]	斯坦利，D。；马里兰州布鲁斯科；Hubert，L.，调整后的随机指数的方差，心理方法，21，2，261（2016）
[44]	Tavares AH、Afreixo V、Rodrigues JM、Bastos CAC（2015）人类基因组中寡核苷酸距离分布的对称性。In:ICPRAM（2），第256-263页
[45]	Tavares AH，Afreixo V，Rodrigues JM，Bastos CAC，Pinho AJ，Ferreira PJSG，Brito P（2016）异常基因组词的检测：物种之间的比较。摘自：第22届国际计算统计会议（COMPSTAT）会议记录，第255-264页·Zbl 1462.62047号
[46]	塔瓦雷斯，艾哈迈德；Aj Pinho；席尔瓦，Rm；罗德里格斯，Jmos；巴斯托斯，Cac；费雷拉（Ferreira，Pjsg）；Afreixo，V.，基于对称词之间距离分布的DNA词分析，科学代表，7，1，728（2017）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

利用分布的峰值和趋势对人类DNA中的基因组词进行聚类。（英语） Zbl 1474.62395号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

利用分布的峰值和趋势对人类DNA中的基因组词进行聚类。 （英语） Zbl 1474.62395号

MSC公司：

关键词：

软件：

参考文献：

利用分布的峰值和趋势对人类DNA中的基因组词进行聚类。（英语） Zbl 1474.62395号