类似软件
2010年,Gehlenborg等。(6)综述了系统生物学中用于“组学”数据的最新可视化工具。他们首先指出,所有这些工具都由相同的主要视觉隐喻控制:以节点链接图显示的图形。他们的综述本质上是对节点链接图在生物学中的应用的综述。他们继续确定两大类部分重叠的可视化工具——路径工具和网络工具。路径工具显示一个图形,表示状态随时间的变化;网络工具显示的图形不一定包含状态更改信息。
CLMS可以提供蛋白质内构象变化的数据,因此状态变化是该数据的一个方面。然而,我们将通过专注于不代表状态变化的网络工具来缩小我们在这里的关注范围。格伦堡等。提出了与三种主要类型的高通量实验相对应的网络工具的第二分类。这些类别包括:用于研究蛋白质相互作用的工具、用于研究基因表达谱的工具和用于研究代谢谱的工具。他们列出了27个专门用于研究蛋白质相互作用网络的软件包,该列表自2010年以来一直在增长。在这27个人中,他们推荐两个细胞扫描(7)和大脑(8).
CytoScape可能是生物学中最流行的网络可视化工具。CytoScape软件提供了一个插件架构,允许扩展和定制。例如,可以添加新的节点布局算法。Cerebral是一个CytoScape插件,它使用额外的注释信息,特别是亚细胞位置,来指导节点的布局。其目的是生成更接近于“传统”信号通路/系统图的相互作用网络图,其中细胞外蛋白和膜受体位于页面顶部,向下穿过细胞质中的适配器蛋白,核蛋白和路径调控基因位于底部。
在生物学中,节点链接图通常使用节点来表示整个分子(4). Gehlenborg中关于蛋白质-蛋白质相互作用工具的大部分讨论等。2010年的综述侧重于根据分子组成的高阶结构(络合物和络合物群)来排列代表分子的节点。与此相关的是显示层次图的方法,其中表示单个分子的节点可以折叠成表示更高阶分组的单个元节点。这种软件的一个例子是Visant(9).
在讨论组学数据网络可视化的未来方向时,Gehlenborg等。重点介绍了大型网络的改进导航方法、基于web的工具的趋势以及数据格式标准化的需要。PSI-MI标准(10)强调了交互数据的标准化。然而,在他们的综述中没有讨论过将分子级节点分解成更小的部分。
将整个生物分子表示为节点的另一种方法是使用不同的节点来表示不同的残基,并且有工具可以做到这一点。它经常出现在来自蛋白质数据库(PDB)的残基相互作用网络(RIN)分析工具中(11)模型。RINalyzer公司(12)就是这样一个工具的例子。它用于分析构象变化(例如,突变导致的构象变化),或在观察长程残基关系(信息通过结构的路径,例如变构效应)。RINalyzer使用三维PDB模型指导二维网络图中节点的布局。尽管晶体结构或模型在CLMS数据的背景下是有趣的,但对于大多数蛋白质,我们不持有这样的数据,事实上大约三分之一的序列空间是非结构化的。RINalyzer目前无法导入其他类型的数据,如交联。同样,RINalyzer是作为CytoScape插件实现的。与RINalyzer大致相当的是RING(13)它还从PDB文件生成RIN,并通过CytoScape插件将其可视化。RING缺乏RINalyzer使用PDB模型指导CytoScape中节点布局的能力。我们发现值得一提的第三个RIN工具是ResMap(14). ResMap不是一个CytoScape插件,而是一个独立的应用程序,它沿着代表蛋白质序列(或其部分)的轴显示相互作用的残基。然而,ResMap仅允许可视化PDB模型的任意两个子单元之间的交互(即,它只能显示两个轴),因此受到了限制。
这些RIN工具与我们可视化CLMS数据的需求最为相似,因为CLMS数据提供的是一个相互作用残基网络。抛开将CLMS数据导入现有RIN工具的实际问题不谈,这些工具仍然不能满足我们对这些数据可视化的需求。为了理解原因,有必要更详细地研究节点布局问题。
节点布局
我们注意到,CLMS数据的一个典型生物用例正在从许多单独确定的交联中得出关于域级特征的结论。CLMS实验的剩余距离约束形成了一个无向图,并且有许多可用的二维网络可视化工具可以用于显示这种图。然而,可视化有特定的要求,可以看到蛋白质序列中的连锁残基簇,从而解释域级特征的位置。
如图所示,其中显示了相同CLMS数据的六个节点链接表示。为了简单起见,我们只使用这个数据集中的蛋白质间交联,忽略了自链接(链接回同一类型的蛋白质)。数据来自陈等。(1)研究了RNA聚合酶II-TFIIF复合物的结构。对他们的结论至关重要的是,CLMS证明了Tfg1和Tgf2之间的二聚结构域的位置。
相同CLMS数据的六个不同节点链路图。数据来自Chen等人。(1),一个,是该论文的摘录,旨在展示CLMS证据如何支持Tfg1和Tfg2之间的二聚化结构域的定位。B–F,显示使用D3生成的可选节点连接图(仅蛋白质间连接)(20).B类,显示了节点链接图在生物学中的典型用法,其中节点表示整个分子(线宽用于表示链接的数量)。C类,使用不同的节点表示链接的残基,这是RIN工具(如RINalyzer)的典型特征(12). 在缺乏其他信息指导布局的情况下,C类,使用强制定向布局。D类,试图通过将节点排列在圆形周围来给布局带来一些秩序。电子,同样使用圆形布局,但这一次节点在周长上的位置是由链接残基在蛋白质序列中的位置决定的。F类,显示HivePlot(16)其中类别(轴)代表三种蛋白质中的每一种,沿着轴的距离由序列中的残基位置决定。一个,电子和F类成功地将单个交叉链接与域级功能联系起来:B类,C类、和D类不要。为了实现这种关联,有必要使用连接残基在整个蛋白质序列中的位置来指导节点的位置。
A是陈等纸张。其目的是以图形方式描述这些区域位置的证据。这是一种节点连接图,它将蛋白质序列表示为带编号的条,将交联表示为沿着这些条的点结束的线。然而,还有许多其他可能的节点排列方式,其中一些将实现类似于一个.
B类以生物学中最常见的方式显示了TFIIF的CLMS数据,节点代表整个分子。不出所料,它完全无法描述蛋白质序列中二聚体结构域的位置,因为缺少残余水平信息。然而,有交叉研究确实以这种方式可视化了其结果(2,15). 出于某些目的,在这个抽象级别上可视化数据是合适的。CLMS数据面临的一个特殊挑战是存在两个层次的信息关联残基和关联蛋白,因为两者都可能是图中的节点。
将整个生物分子表示为节点的另一种方法是使用不同的节点来表示不同的残基,如RINalyzer和RING中所示。C类以这种样式显示了我们的示例TFIIF CLMS数据。每个链接残基是一个单独的节点,但没有用于指导节点布局的PDB模型(如RINalyzer所使用的)。这无助于指示蛋白质序列中二聚体结构域的位置。这种方法不能很好地工作的部分原因是,源于当前交联数据的残基网络的连接密度远低于源于PDB数据的网络。
一般来说,C类由于节点在无意义的坐标空间中的任意定位而失败(16). 除了缩放问题外,这是节点链接图中另一个众所周知的问题,节点的位置极大地影响了数据的感知方式(4). 节点的位置C类可以进行更改,以达到与一个,通知我们域的位置。要做到这一点,用于定位节点的函数必须考虑它们在整个蛋白质序列上下文中表示的链接残基。要查看此信息,请比较D类和电子。两者都将链接的剩余节点排列在一个圆上,但仅电子是关于蛋白质序列中连接的位置的信息。定位节点时,电子考虑它们在整个蛋白质序列中的位置,而D类没有。
F类显示HivePlot(16)TFIIF数据。它符合在安排节点时使用整个蛋白质序列中链接残基的位置的标准。因此,它成功地将CLMS证据与蛋白质内二聚结构域的位置联系起来。在HivePlot中,轴是节点的类别;在里面F类这些类别代表数据中包含的三种蛋白质,沿着每个轴的位置的排序函数基于序列中的残基位置。当有三个以上的类别(即三个以上轴,或者在我们的具体例子中,三个以上蛋白质)时,HivePlot工作得不太好。
像ResMap那样,沿着代表蛋白质序列的轴排列链接残基(尽管ResMap仅限于显示两个亚基之间的相互作用),是我们发现对CLMS数据有用的可视化模式。一个,陈的摘录et(等)al.(1),可以被认为是HivePlot(如上所述构造),但轴会四处移动和旋转。
xiNET的优点
在这里,我们介绍了xiNET,它是一个自动工具,用于生成节点链接图的“编号栏”样式的交互版本(参见一个). 例如,这种编号的条形布局经常在CLMS论文中使用(1,17,18,19). 这并不是可视化此数据的唯一方法,它可以显示许多交叉链接如何支持域级功能的位置。还有其他方法,其中一些可以实现为CytoScape插件。然而,编号条方法在视觉上很简洁,不需要为每个链接的剩余节点使用不同的符号,并且允许轴的相对定位具有灵活性。这些图表使用这种灵活性来强调紧密相连的区域。
通过显示整个蛋白质序列上下文中的链接残基,xiNET解决了使用CLMS数据时的一个重要生物学用途。然而,除此之外,xiNET还有其他功能,可以帮助提高科学理解。
xiNET表示不明确的交叉链接。例如,如果已识别的交联肽属于搜索空间中的多个蛋白质,则可能会出现关于链接位点的模糊。这种模棱两可的链接可能包含潜在的重要结构信息,但如果没有明确表示,可能会造成混淆或误导。
xiNET还代表并区分了所有交联产品类型。除了交联肽外,交联反应还产生连接剂修饰的肽和内部连接的肽。所有三种产品类型都包含结构信息。连接蛋白修饰肽的位置(“蛋白质涂布”)显示了蛋白质的哪些区域是溶剂可及的。如果预期区域中缺少连接物修饰肽,则表明表面被遮挡。内部连接的肽提供了进一步的残基距离限制,然而,这些连接的结构重要性不同于交联肽,因此应在可视化中加以区分。已知内部连接的肽来自分子内交联。大多数两种肽都来自同一蛋白质的交联肽可以是分子内或分子间的。然而,有一部分交联肽在蛋白质序列中重叠,这些肽被称为分子间肽。xiNET还区分了这些链接——只能从同源多聚体衍生的自链接。
CLMS论文中数字条表示法流行的另一个原因是,它允许在其他剩余分辨率序列信息(如域)的上下文中显示链接。xiNET自动检索此类注释(或者可以手动指定)并将其合并到图表中。这些进一步的上下文信息有助于假设生成。
我们注意到,节点表示整个分子的节点链接图也是CLMS数据的常见网络表示,并且这种抽象级别可能适用于某些目的。xiNET允许将这两种形式混合在一起:数据可以折叠到蛋白质级别(一个节点代表整个蛋白质),也可以展开以显示沿着编号条的链接残基。这允许用户选择以或多或少的细节显示网络的哪些部分。
所有这些前面的功能都在结果部分中进行了演示。最后,xiNET促进了CLMS数据的通信。它通过基于网络、易于共享交互式图形以及提供可用于创建出版物质量图形的矢量图形输出来实现这一点。这种增强的交流本身可以帮助促进科学理解。
实施
xiNET是用JavaScript编写的,并在网页中操作可缩放向量图形(SVG)元素。嵌入在网页中的交互式地图可以很容易地共享。SVG输出可以在常见的矢量绘图包(如Inkscape或Illustrator)中编辑。
我们使用了D3.js(20)作为一个实用程序库,用于满足常见的可视化需求,例如颜色方案。xiNET代码具有面向对象的设计,以下对象类型构成了模型:Match(表示匹配的频谱);残基链接(一对残基之间所有匹配的聚合);蛋白质链(两种蛋白质之间所有残基链的聚合);和蛋白质。
提供了xiNET工作流的概述。交联图的输入数据集为:交联数据;蛋白质序列数据;以及注释数据(可选)。如果UniProtKB,则可以省略序列数据(21)登录号用作蛋白质标识符,在这种情况下,将使用UniProt提供的网络服务自动检索蛋白质序列1。如果使用UniProtKB登录号,则还将从此web服务和SuperFamily检索注释数据(22)分布式注释系统(23)服务器2一旦数据被加载到xiNET中,就可以交互式地探索CLMS网络,并且可以导出矢量图形以用于图形。
xiNET工作流概述。三个数据集构成xiNET映射的输入:交叉链接数据(必需);蛋白质序列数据(如果使用UniProtKB登录号,则可以省略);和注释数据(可选,如果UniProtKB登录号用于蛋白质标识符,则会自动下载)。可以通过网络共享交互式地图或将其导出为矢量图形来传播结果,矢量图形可以编辑以用于出版物。
通过将数据上传到我们的网站或下载软件并在本地运行,可以将数据加载到xiNET中。下面的结果部分中包含的案例研究中给出了这两种用法的分步示例。当在本地使用时,xiNET不会通过网络传输用户的任何数据。因此,将xiNET集成到其工作流中的实验室可以保留对所有使用的数据以及是否或何时公开数据的控制。
要将xiNET用作web服务,需要将数据文件上载到http://crosslinkviewer.org/upload.html,(此处给出了文件格式的完整说明和详细信息)。用户被重定向到显示其数据的唯一URL。然后,共享交互式图形就像共享URL一样简单。
CLMS数据的xiNET输入文件格式是逗号分隔值(CSV)文件。我们将xiNET使用的特定CSV格式称为“CLMS-CSV”http://crosslinkviewer.org/upload.html#CLMS-CSV公司。它遵循数据表的结构,通常在交联纸附带的补充信息中找到,例如参见(1,2,19). 它也类似于Xlink:DB的制表符分隔的输入格式(24)和XQuest的输出格式(25). CSV文件是当前的事实上的CLMS数据的标准和不同的文件格式可以很容易地相互转换。然而,所有这些和类似工具的符合标准的输入和输出将是PSI-MI(10)我们正在努力使用这种输入。
xiNET被设计为允许将其用作一个组件,实验室可以通过将其直接链接到自己的CLMS数据库,将其集成到工作流程中。本质上,可以通过迭代数据库结果并生成对名为“addProtein”和“addMatch”的JavaScript函数的调用,将数据加载到xiNET中