跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2011年1月18日;6(1):e14468。
doi:10.1371/journal.pone.0014468。

QAPgrid:一种基于QAP的两级大规模数据分析和可视化方法

附属公司

QAPgrid:一种基于QAP的两级大规模数据分析和可视化方法

马里奥·伊诺斯特罗扎·蓬塔等。 公共科学图书馆一号. .

摘要

背景:大量数据的可视化是一项具有计算挑战性的任务,通常会带来有价值的新见解。组合优化的新算法和新模型有很大的应用潜力。数据集通常包含“隐藏的规律”,一种联合的识别和可视化方法应该揭示这些结构,并以有助于分析的方式呈现它们。虽然存在多种方法,包括使用非线性优化算法的方法,但即使只处理几百个对象,也存在严重的限制。

方法/主要发现:我们提出了一种新的数据可视化方法(QAPgrid),该方法揭示了可以计算相似性度量的对象的大型数据集中的相似性和差异性模式。对象被指定给二维空间中基本方格网上的位置。我们使用二次分配问题(QAP)作为数学模型,为网格上的位置分配对象提供目标函数。我们使用模因算法(一种强大的元启发式算法)来处理这个NP-hard组合优化问题的大型实例,并展示了它在实际数据集可视化方面的性能。

结论/意义:总的来说,结果表明QAPgrid算法能够生成表示数据集中对象之间关系的布局。此外,它还表示输入算法的簇之间的关系。我们在84种印欧语言的实例中应用了QAPgrid,产生了接近最优的布局。接下来,我们制作了一个470所世界大学的布局,该布局与《上海交通大学世界大学学术排名》中编制的世界大学学术排行所使用的分数高度相关,无需对属性进行特别加权。最后,我们基于基因本体的酿酒酵母研究充分证明了我们的方法作为功能基因组学的新替代工具的可扩展性和准确性。

PubMed免责声明

利益冲突声明

竞争利益:提交人声明,不存在相互竞争的利益。

数字

图1
图1。参数的影响它控制用户定义的强制约束,以保留相邻关系。
图(A)显示了公共领域软件yEd使用84个印欧语言数据集上的最小生成树(MST)实现的力定向算法生成的布局。MST是一个邻近图,我们的目标是生成保留大多数邻接关系(MST中的边)的布局。图(B)至(F)显示了由不同的公式图像以下为:公式图像(B) ,公式图像(C) ,公式图像(D) ,公式图像(E) 、和公式图像(F) ●●●●。凯尔特语用黄色表示,罗曼斯语用浅棕色表示,希腊-亚美尼亚语用灰色表示,波罗的海语用白色表示,日耳曼语用浅蓝色表示,斯拉夫语用红色表示,印地安语用紫色表示。
图2
图2。因素的影响在3-NN图的网格布局中。
在这种情况下,我们使用了3-最近邻图作为邻近图,其邻接关系需要保留。这些图片显示了网格布局过程中3个最近邻图信息的集成。当算法使用系数公式图像(B) ,但在使用时不会公式图像(A) ●●●●。在(B)中,希腊-亚美尼亚语(灰色)构成了一个独立的子图,凯尔特语(黄色)也是如此。同样在(B)中,日耳曼语(浅蓝色)现在自然地分为北日耳曼语族和西日耳曼族,而印度语族和伊朗语族现在被分开。
图3
图3。QAPgrid对印欧语言的结果。
该图显示:(A)仅考虑语言之间的距离的布局,(B)合并MSTkNN聚类算法的结果,(C)合并(k = 10) -NN图和(D)结合MSTkNN聚类算法的结果和每个簇上的MST。
图4
图4。使用Cytoscape的强制定向布局。
该图显示了在生物信息学中使用的流行软件包上的力定向布局算法的结果。图(A)使用了10个最近邻图(应该与图3C进行比较),(B)显示了使用MST时的结果(可以与图3B进行比较)。在(A)中,布局不清晰,只显示了部分图形结构。在(B)中,表示了MST的结构,但簇相对于彼此的位置不受簇间相似性的指导,因此最终布局忽略了重要关系。这些语言的颜色编码有助于我们说明QAPgrid允许我们保留集群之间的重要相似性。
图5
图5。QAPgrid发现的24个簇的布局使用MSTkNN算法在上海交通大学世界大学学术排名数据集上的结果作为额外输入。
由于我们计算了每对集群的相似度,然后优化了每个集群的布局位置,我们的布局反映了世界排名最高的470所大学的学术标准。最后的安排显示,左侧是一组独特的最佳大学(集群8),其中包括上海交通大学排名前10的大学。我们还注意到,它们的排名方法和布局中的最终位置之间存在相关性,如颜色编码方案所强调的。这一点值得强调,因为我们的方法完全是数据驱动的,不受每个属性的特殊权重的影响,从而产生排名。我们注意到一些高绩效大学(如巴黎大学05、巴黎大学07、巴黎大学09、维也纳大学、Technion等)尽管如此,在上海交通大学排名中排名较低的其他大学与第0组中的其他大学(该组似乎由其他成员领导,如伦敦帝国理工学院、伦敦大学学院、京都大学和多伦多大学)有许多相似的特点。位于集群7中的昆士兰大学是上海交通大学学术排名中唯一一所排名靠前的大学。这是一个由38所高产院校组成的团队,其中包括清华大学和台湾国立大学等同行大学,其中两所似乎在奖项类别中得分不高,这显然是“跳转”到高绩效集群(例如,集群0)的强烈要求。为了更好地理解这些结果,我们建议读者使用图6中每个大学集群的聚合绩效概况来检查这些集群。
图6
图6。使用与图5相同的布局汇总每个集群中大学的绩效概况。
该图显示了MSTkNN发现的每个集群的概况,并清楚地显示了QAPgrid在本研究的连续三年中定位具有类似概况的集群的能力。显示了每年的校友、奖项、HiCi、NS、SCI和集群组成部分的大小的分数。对于每个类别,我们还包括一个表示第一和第三个四分位数的框。最好的大学位于图左边缘的集群中。我们欣赏不同的“途径”,以实现学术卓越。一些机构(如集群21)在SCI成绩方面表现出色,但在校友、奖项和HiCi排名方面仍然落后。由于对该图的布局和分析,我们认识到集群6中大学群的强大影响力(包括杜克大学、波士顿大学、麦吉尔大学等)以及其他可能因上海交通大学排名方案中的权重方案而处于不利地位的大学(如第12集群中的东北大学),其在该集群中与大阪大学和东京理工学院同属一类。我们建议读者参考综合在线补充材料,以调查各个大学的位置(文件S2)。
图7
图7。QAPgrid发现的12个集群的布局使用MSTkNN算法在上海交通大学世界大学学术排名数据集上的结果作为额外输入,删除了校友和奖项类别。
图8
图8。使用与图7相同的布局汇总每个集群中大学的绩效概况。
图9
图9。QAPgrid对79个艾森酵母样本数据集的最终布局。
根据样品所属的实验获得布局后,对样品进行着色。我们可以看到,样本位置与它们所属的实验有很好的相关性,但其中一些明显的例外,因为它们是初始/早期状态。有关结果,请参阅图10和表2。
图10
图10。2467个基因上79个样本表达的传统热图表示。
每组样本根据使用参考文献中描述的模因算法排序的实验进行分离。很明显,这些样本的表达与标签相同的组中的其他样本有很大不同。
图11
图11。酵母样品簇的最终布局。
Eisen酵母数据集的79个样本使用相同的着色方案。这些簇是使用MSTkNN算法生成的。
图12
图12。Eisen酵母数据集2467个基因探针的网格布局。
重点介绍了三种生物过程:糖酵解,蛋白质合成蛋白质降解总的来说,这些基因主要是根据其生物功能定位的,即使它们被分配到不同的簇(即。蛋白质合成蛋白质降解). 正如预期的那样,有时共享GO术语注释的基因探针位于不同的簇中,但由于QAPgrid的全局优化特性,这些簇在最终布局中往往很接近。
图13
图13。Eisen酵母数据集2467个基因探针的网格布局。
在本图以及图14和图15中,我们突出显示了一个GO术语,该术语在统计上与单个特定集群具有独特的关联性。通过这种方式,我们强调了与每个集群相关的独特生物注释。
图14
图14。Eisen酵母数据集2467个基因探针的网格布局。
如图13和图15所示,我们强调了与每个集群相关的独特生物注释。
图15
图15。Eisen酵母数据集2467个基因探针的网格布局。
如图13和图14所示,我们用GO项标记每个集群,GO项与单个特定集群具有唯一且统计上良好的关联性。我们请读者参阅补充材料(文件S4),了解每个簇的注释。

类似文章

引用人

工具书类

    1. Li W,Kurata H。一种用于自动绘制生化网络的网格布局算法。生物信息学。2005;21:2036–2042.-公共医学
    1. Abbiw Jackson R、Golden BL、Raghavan S、Wasil EA。用于数据可视化的分治式局部搜索启发式算法。计算机和手术室。2006年;33:3070–3087.
    1. Shannon P、Markiel A、Ozier O、Baliga N、Wang J等。细胞景观:生物分子相互作用网络集成模型的软件环境。基因组研究。2003;13:2498–2504.-项目管理咨询公司-公共医学
    1. Kohler J、Baumbach J、Taubert J、Specht M、Skusa A等。ONDEX实验结果的基于图形的分析和可视化。生物信息学。2006年;22:1383–1390.-公共医学
    1. yWorks GmbH.yEd–Java™图形编辑器。公司网站。2004年推出:http://www.yworks.com/en/index.html.

出版物类型