摘要

基因集分析(GSA)在组学数据的功能解释和下游假设生成中占据主导地位。尽管GSA能够将数千个测量值总结为语义上可解释的成分,但它通常会产生数百个显著丰富的基因。然而,还缺乏对GSA结果的总结和有效可视化,以促进假设生成。虽然一些Web服务器提供了基因集可视化工具,但仍然需要能够有效总结和指导GSA结果探索的工具。为了实现多功能性,网络服务器接受基因列表作为输入,然而,没有一个服务器为新兴数据类型(如单细胞和空间组学)提供端到端的解决方案。这里,我们呈现vissE。Cloud是一个用于端到端基因集分析的Web服务器,提供基因集总结和高度交互式可视化。vissE(视觉E)。Cloud使用我们早期R包vissE中的算法,通过识别生物主题来总结GSA结果。我们通过允许分析基因列表以及分析原始单细胞和空间组学数据(包括CosMx和Xenium数据)来保持多功能性,从而制作vissE。云计算是第一个提供端到端的子蜂窝局部空间数据基因集分析的Web服务器。分层结构的结果允许在基因、基因集和簇级别快速交互调查结果。vissE(视觉E)。云在以下位置免费提供https://www.vissE.Cloud网站.

vissE概述。云
图形摘要

vissE概述。

简介

高通量分子技术,如RNA-seq、单细胞RNA-seq-空间转录组学和蛋白质组学,为建模和理解生物系统的复杂性开辟了新的途径。然而,这种授权取决于对大型高维数据的适当分析和解释。已经开发了许多统计和计算方法来解决基于某些统计的基因/蛋白质优先排序的挑战(1–3); 然而,这些列表在生物学上并不容易解释。基因集分析(GSA)方法已被开发用于解决生物学解释问题(4). 这些方法使用现有的功能知识库,如基因本体(5,6)《京都基因和基因组百科全书》(KEGG)(7)和反应体途径(8)通常表示为一组基因,通过评估优先基因的富集程度来推断生物功能。

尽管GSA可以将数千个测量值总结为语义上可解释的组件,但它仍然给实验研究人员带来了两大挑战。首先,GSA常常导致数百个显著富集的基因,主要是由于知识库内部和之间的冗余(9–11). 由于并非所有这些假设都能被测试,实验研究人员面临着优先选择子集以进一步跟进的决定,但仍缺乏有助于通过不同假设进行导航的工具。其次,将GSA应用于新技术,如单细胞和空间组学,需要专门的分析方法来解释这些数据的独特特征(12–15). 由于计算和软件工程的要求,以可扩展的方式将这种快速发展的方法部署到基于web的应用程序仍然具有挑战性。

现有流行的GSA web服务器试图部分解决结果汇总和广泛适用性问题(表1) (16–25). 例如,WebGestalt(18),g:分析器(22)和Enrichr(19)然而,提供基因集可视化工具,以指导的方式总结和探索结果的工具仍然缺乏。此外,网络服务器提供了一组有限的方法,通常只提供过表达分析(ORA)和基因集富集分析(GSEA)(26). 为了实现分析的多功能性,他们需要基因列表或排序基因列表作为输入。然而,它们并没有为新兴数据类型(如单细胞和空间组学)提供端到端的解决方案。

表1。

基因集分析web服务器的功能比较。填充框表示web服务器满足特定功能,而空白框表示缺少该功能。彩色条标记分析的不同方面,例如支持不同的输入类型、可用的基因集数据库以及基因集分析结果的表示和可视化

图解的
图解的
表1。

基因集分析web服务器的功能比较。填充框表示web服务器满足特定功能,而空白框表示缺少该功能。彩色条标记分析的不同方面,例如支持不同的输入类型、可用的基因集数据库以及基因集分析结果的表示和可视化

图解的
图解的

我们之前已经在我们的R/生物导体包vissE中解决了GSA结果总结的问题(27),我们在其中识别具有共同生物学主题的基因集簇。为了进一步增强具有有限编码经验的生物学家/科学家的能力,并通过交互式可视化增强结果解释,我们提供了vissE。云。vissE(视觉E)。云提供端到端的基因集分析,并提供浏览器内的基因集总结和高度交互式可视化。vissE.cloud建立在作业排队体系结构、基于R的分析核心和单页应用程序前端的基础上,为运行计算密集型工作流提供了一个健壮且易于扩展的解决方案,同时为新的经济技术提供了快速发展的方法的简化部署。vissE(视觉E)。与许多现有Web服务器不同,云支持ORA和GSEA方法。我们通过允许对基因列表进行分析来保持多功能性,但除此之外,我们还支持对原始数据中的单细胞和空间组学数据进行分析,包括预处理、因子分析和因子解释。我们易于扩展的设计允许将工作流部署到最新的亚细胞空间分子技术,如CosMx(28)和Xenium(29),制作vissE。云计算是第一个网络服务器,可以对亚蜂窝本地化数据进行端到端的基因集分析。GSA结果的层次结构,再加上高度交互的可视化,使生物学家能够在多个级别/尺度上对结果进行快速交互调查,包括基因、基因集和簇级别,同时允许在所有三个级别上无缝连接。到目前为止,该框架能够对生物系统进行整体解释,这是直观的、易于访问的,并且是任何生物学家/科学家都可以使用的交互方式。vissE(视觉E)。云在上免费提供https://www.vissE.Cloud网站.

材料和方法

vissE.cloud工作流概述

vissE。Clould工作流由三个主要步骤组成(图1):(i)输入数据处理,(ii)确定丰富的基因集和(iii)确定生物主题/簇。我们在下面简要描述了每个步骤,并通过网站参考了帮助页面上提供的完整方法。

vissE的总体工作流程。云。
图1。

vissE的总体工作流程。云。

输入数据处理

为了保持多功能性,vissE。Cloud接受广泛的输入,允许将工作流与批量转录组学、蛋白质组学、单细胞和空间转录组学数据的差异分析集成。

对于批量转录组学,用户可以从两个输入选项中进行选择:(i)感兴趣的基因列表,例如在差异分析中发现的重要基因;(ii)基因及其相关统计数据,通常为对数变化或P(P)-值。vissE(视觉E)。Cloud支持七种不同的基因ID类型,包括UniProt,然后将其映射到相应的基因集。为了便于蛋白质组学分析,vissE。Cloud可以处理通常由蛋白质组学搜索工具(如MaxQuant)生成的蛋白质组(30)和DIA-NN(31).

对于单细胞和空间转录组学,vissE。Cloud接受原始文件作为输入,并提供端到端的因子分析和解释工作流。原始数据的预处理遵循协调单细胞分析(OSCA)工作流程(12),其中去除了质量差的细胞和低可变基因,并对数据进行了成分偏差归一化(32),然后使用scran R包提取高变异基因的特征(33). 对于来自CosMx和氙技术的基于面板的亚细胞空间分子数据集,预处理遵循(34). 使用标准面板中的尖峰探针进行细胞级质量控制。最后,使用主成分分析(PCA)或非负矩阵分解(NMF)对经对数转换的预处理数据进行因子分析,并使用scater R包中实现的方法(35). 用户可以从vissE完全控制预处理参数。云接口。

富集基因的鉴定

vissE(视觉E)。Cloud编译分子特征数据库中的基因集(MSigDB v7.5)(26,36)其中包括31508个基因,分为9个类别和23个子类别。这本综合性的生物知识简编被组织成基因集,适用于广泛的应用,包括功能丰富、规则体分析和细胞类型注释。用户可以根据感兴趣的生物假设选择(子)集合的子集。

确定富集基因的方法取决于用户输入数据。在clusterProfiler中实现的ORA(37)用于从基因列表中识别富集的基因集。或者,在提供基因相关统计数据的情况下,使用fgsea R包对基因进行排序并执行GSEA(38). 在这两种情况下,用户都可以设置P(P)-值阈值,或按大小筛选基因集。在因子分析中,每个因子的基因载量被用作基因权重,随后使用singscore R包对基因集进行评分(39,40).

确定生物主题/集群

生物主题识别的核心分析是使用vissE R/Bioconductor软件包中开发的算法进行的(27). 根据GSA分析的结果,vissE首先通过使用调整后的随机指数(ARI)或其他用户定义的相似性度量计算基因集相似性来生成基因集网络。成对相似性表示一对基因组共享或共同拥有的基因数量。然后使用基于随机游程的图聚类算法识别基因集簇,也称为“生物主题”(41). 这些基因集簇是根据基因集簇大小和每个簇中基因集统计的平均值进行排序的。具体来说,等级统计的乘积(42)使用这两个指标进行计算,从而优先考虑具有多个基因集和高度显著基因集的基因集簇(27).

通过对基因集名称进行词频分析,将每个基因集名称视为一个文档,使用自然语言处理为每个簇生成语义。计算基因集簇内所有单词的词频反转文档频率(TF-IDF)。然后将这些结果表示为单词云,TF-IDF分数决定单词的大小。为了将基因集簇与其成员基因联系起来,基因级统计数据被投影到蛋白质相互作用网络上(43)和用于生成基因统计散点图。Bhuva等人(27).

结果

Web服务器设计和体系结构

vissE的总体架构。云如图所示2客户端使用高响应的ReactJS实现。当用户提交分析作业时,他们会被分配一个人类可读的作业ID,该ID可以很容易地与合作者共享或添加书签。python-Flask后端将所有作业参数传递到基于Redis的作业队列,在那里,这些参数被发送到在隔离的R环境中执行分析的“worker”进程。然后将完成的作业结果格式化为JSON,并传递回客户端进行渲染和可视化。为了实现关注点分离和顺利部署,每个服务器组件都被容器化,整个设置使用docker-compose容器编排进行部署。这种模块化结构可将模块部署在多个计算实例上,确保了单细胞和空间转录组数据集计算密集型分析的未来可扩展性。目前,对此类数据的端到端分析需要5到30分钟,提供了快速的周转时间。

vissE的模块化服务器架构。云。
图2。

vissE的模块化服务器架构。云。

交互式结果可视化

视觉E。Cloud使用用户可以从侧面板访问的三个主要视图显示分析结果(图3A级——C):(i)GSA概述和汇总统计面板,其中包括映射基因和测试基因集数量的详细信息(图3A级),(ii)图的全球基因集网络视图,以及确定的簇、相关的词云和基因/蛋白质统计图(图第3页)和(iii)集群库视图,其中使用单词云对已识别的集群进行语义表示(图3C公司). 另一个详细的集群视图(图三维)用户可以根据感兴趣的假设选择特定主题/簇进行探索。结果具有层次结构,允许用户无缝跨越基因、基因集和簇级别。我们在下面分别描述了这些视图。

vissE中的可视化视图面板。云。(A)GSA概述和摘要统计视图。(B) 全球基因集网络视图。(C) 群集库视图。(D) 集群详细视图。
图3。

vissE中的可视化视图面板。云。 (A类)GSA概述和摘要统计信息视图。(B)全球基因集网络视图。(C)群集库视图。()集群详细视图。

GSA概述和汇总统计

在此视图中,将显示与基因、基因集和簇相关的重要GSA摘要统计信息,以便用户验证和识别GSA步骤中可能发生的任何问题。例如,vissE。Cloud显示了在使用的数据库中映射到基因集的基因数量,以及随后对GSA结果的贡献。这些信息可以揭示不匹配的基因标识符,作为有用的质量控制步骤。在基因集水平上,它们的大小和类别的分布可以揭示潜在的分析偏差。此外,这些结果还可以说明主题识别的可行性:如果重要基因的数量非常少(在10年代),则可能没有必要进行任何进一步的结果总结,并且可能不会比经典的GSA分析揭示更多信息。总之,这些汇总统计数据可以指导用户了解其数据的总体已知功能信息内容以及执行的GSA分析的状态。

全球基因集网络视图

在这里,用户可以通过将所有重要基因之间的关系视为一个基因集网络来整体调查GSA结果,从而可能发现整个实验中一致但以前未知的模式。可以使用不同的基因集统计和注释,例如(子)类别、错误发现率(FDR)、基因集大小、富集分数和节点度(表示基因集连接性的统计),以交互方式注释节点的颜色和大小。用户可以更改颜色方案,从47个不同的调色板中进行选择以用于可视化。为了增强用户体验,可以为分类、顺序和发散数据类型指定站点范围的首选调色板。此外,此视图还提供了集群之间基于网络的敏捷导航。通过将鼠标悬停在基因集(节点)上与网络交互,可以突出显示基因集簇,显示相应的单词云,并显示从已知蛋白质相互作用网络推断的基因级统计数据和基因-基因交互作用(43).

群集库视图

由于基因簇是由许多基因簇组成的,因此vissE。Cloud在语义上将它们描述为单词Cloud,以便于用户探索。“WordCloud Gallery”面板以交互方式逐步呈现单词云,作为连续的提要,甚至可以优化数百个集群的可视化。单词clouds表示的生物术语增加了用户对感兴趣的生物系统的领域知识,将已识别的术语与生物学联系起来。因此,词云提供的相对松散的语义定义可以与专家领域知识相结合,从而得出更完整的语义解释。“WordCloud Gallery”面板让用户可以进入vissE提供的更详细的集群探索视图。云。

群集详细信息视图

这种观点允许对基因集簇的组成和语义进行彻底的研究。关注选定的集群vissE。Cloud显示四个面板,其中包含三个层次结构级别的信息。这些面板是:(i)聚类级词云描述,(ii)基因集级相似网络,(iii)基因级统计散点图和(iv)聚类中基因的蛋白质相互作用(PPI)网络。总的来说,将这种多层次信息作为一个相互关联的视图来呈现,可以大大增强对所研究生物系统背景下结果的解释。

因子汇总视图(单细胞和空间转录组学)

使用PCA对单细胞和空间转录组学数据进行因子分析的结果显示在“因子摘要”视图中。此视图以单词云面板的形式显示顶级因子,显示每个因子的四个基因集簇。这个词云面板视图与相应的降维图相结合,将选定的感兴趣因素可视化。对于单细胞转录组数据,统一流形近似和投影(UMAP)(44),t-随机邻域嵌入(t-SNE)(45)PCA预测可以可视化。在这些因子可视化中,数据点(细胞/位点)可以通过以下数据注释之一用用户定义的调色板着色:(i)前5个主成分(PC),(ii)UMAP的前两个维度,(iii)t-SNE的前两维度,或(iv)质量控制统计数据,如库大小,线粒体转录物百分比和检测到的基因总数。对于视觉数据,额外的“组织”维度允许在空间数据中每个点的组织位置的上下文中可视化数据。如果组织学图像(例如苏木精和伊红(H&e)染色图像)可用于Visium数据,则可以使用此视图上传这些图像,并用作组织图的底图。选择一个因子后,用户可以访问上述所有视图,以探索和描述因子所代表的生物功能。

讨论

为了从“组学数据”中产生生物学假设,研究人员应该关注少数几个重要基因还是整体趋势和特征?确定生物信息学分析的适当规模和范围这一难题一直是一个挑战性的问题,阻碍了研究人员充分发挥高维和高分辨率分子数据的潜力。一方面,基因功能取决于分子背景和相互作用,如果假设仅仅是从几个重要基因发展而来,那么这些往往被忽略。另一方面,选择代表观察到的趋势的不同基因子集也很重要,以生成更具体的可测试假设(例如,使用扰动模型)。

vissE中给出的解决方案。云计算使研究人员能够在生物主题或基因集簇所代表的非常广泛的趋势和基因水平上的狭义背景之间进行切换。通过高度互动的可视化,研究人员可以使用自上而下和自下而上的方法生成假设。在自顶向下的方法中,用户从感兴趣的生物主题开始,调查其成员基因和基因的变化。或者,用户可以从感兴趣的基因开始,探索它们的表达如何影响观察到的总体趋势。

通过基于R框架的分析核心确保vissE。云仍然是多功能的,并且与新开发的方法并驾齐驱。支持不同的输入类型,包括蛋白质组学、单细胞和空间数据vissE。云提供了对需要高技术专业知识的方法的无代码访问。通过将后端服务器与作业排队服务耦合,并通过容器编排解决体系结构复杂性,解决了在执行基于R的长时间运行分析的同时保持交互性的软件工程难题。这种模块化的架构设计不仅能够为新兴数据类型推出新的方法和算法,还可以用于部署vissE范围以外的广泛的基于R的生物信息学管线。云。

这种无代码访问和通过云的直观交互界面将使vissE得到广泛应用。研究人员,甚至那些生物信息学经验有限的用户使用云计算。快速部署新方法和算法的能力将使GSA结果和可视化的高质量研究成为可能。

数据可用性

web服务器的分析核心(包括示例数据)在GitHub上以R包的形式提供,网址为https://github.com/ahmohamed/vissE服务器Rpkg在Zenodohttps://doi.org/10.5281/zenodo.7841244。可根据要求提供完整体系结构的docker-compose设置。

致谢

我们感谢殖民基金会健康老龄化中心的各位成员在vissE的开发和测试期间进行了有益的讨论。云。

基金

ARDC Nectar Research Cloud,一个由NCRIS资助的澳大利亚研究数据共享(ARDC)支持的澳大利亚合作研究平台;A.M.由殖民基金会作为殖民基金会健康老龄化中心的一部分提供研究资助;D.D.B.和M.J.D.得到了维多利亚癌症委员会管理的补助金计划以及澳大利亚狮子儿童癌症基金会的研究拨款的支持;医学博士由生物信息学贝蒂·斯迈思百年奖学金、治疗脑癌基金会和国家乳腺癌基金会资助[CBCNBCF-19-009];W.E.H.I.感谢维多利亚政府运营基础设施项目的支持。开放存取费用的资金:自由裁量实验室预算。

利益冲突声明。未声明。

参考文献

1

年。
,
A.T.公司。
,
斯迈思
G.K.(通用)。
从读到基因再到通路:使用Rsubread和edgeR准类似物管道对RNA-Seq实验的差异表达分析
.
F1000分辨率
.
2016
;
5
:
1438
.

2

朗费尔德
第页。
,
霍瓦思
美国。
WGCNA:加权相关网络分析的R包
.
BMC生物信息。
2008
;
9
:
559
.

三。

里奇
机械工程师。
,
菲普森
B。
,
D。
,
年。
,
法学
C.W.公司。
,
西。
,
斯迈思
G.K.(通用)。
limma为RNA测序和微阵列研究提供差异表达分析
.
核酸研究。
2015
;
43
:
e47(电子47)
.

4

卡特里
第页。
,
西罗塔
M。
,
巴特
A.J.公司。
路径分析十年:当前方法和突出挑战
.
公共科学图书馆计算。生物。
2012
;
8
:
e1002375号
.

5

阿什伯恩
M。
,
首席执行官。
,
布莱克
J.A.公司。
,
博茨坦
D。
,
巴特勒
H。
,
樱桃
J.M.公司。
,
戴维斯
A.P.公司。
,
多林斯基
K。
,
德怀特
S.S.公司。
,
Eppig公司
J.T.公司。
等。
基因本体:生物学统一的工具。基因本体联盟
.
自然遗传学。
2000
;
25
:
25
——
29
.

6

基因本体论
C、。
基因本体资源:丰富GOld地雷
.
核能。酸类研究。
2021
;
49
:
第325天
——
D334号
.

7

卡内希萨
M。
,
转到
美国。
KEGG:基因和基因组京都百科全书
.
核酸研究。
2000
;
28
:
27
——
30
.

8

吉莱斯皮
M。
,
贾萨尔
B。
,
斯蒂芬
R。
,
米拉西克语
M。
,
罗特费尔斯
K。
,
塞夫·里贝罗
答:。
,
格里斯
J。
,
塞维利亚
C、。
,
马修斯
L。
,
C、。
等。
反应途径知识库2022
.
核酸研究。
2022
;
50
:
D687型
——
D692型
.

9

尤因
E.公司。
,
Picola平面
N。
,
贾戈迪奇
M。
,
戈梅兹·卡布雷罗
GeneSetCluster:一个总结和集成基因集分析结果的工具
.
BMC生物信息。
2020
;
21
:
443
.

10

美利可牌手表
D。
,
伊塞林
R。
,
施蒂克
O。
,
埃米利
答:。
,
贝德
总直径。
富集图:一种基于网络的基因富集可视化和解释方法
.
公共科学图书馆一号
.
2010
;
5
:
e13984(电子13984)
.

11

苏佩克
F、。
,
博斯尼亚克
M。
,
斯库卡
N。
,
斯穆克
T。
REVIGO总结并可视化了基因本体术语的长列表
.
公共科学图书馆一号
.
2011
;
6
:
e21800美元
.

12

阿梅兹基塔
注册会计师。
,
A.T.L.公司。
,
贝希特
E.公司。
,
凯里
V.J.公司。
,
卡普
法律公告。
,
盖斯林格
L。
,
马里尼
F、。
,
阿尔布雷赫特街
K。
,
里索
D。
,
索内松
C、。
等。
利用生物导体进行单细胞分析
.
自然方法
.
2020
;
17
:
137
——
145
.

13

艾巴尔
美国。
,
冈萨雷斯-布拉斯
中央银行。
,
莫尔曼
T。
,
Huynh-Thu公司
V.A.公司。
,
伊姆里科娃
H。
,
Hulselmans公司
G.公司。
,
兰博
F、。
,
海军陆战队
J.C.公司。
,
Geurts公司
第页。
,
阿尔茨
J。
等。
SCENIC:单细胞调控网络推断和聚类
.
自然方法
.
2017
;
14
:
1083
——
1086
.

14

弗兰基尼
M。
,
佩莱基亚
美国。
,
维西多
G.公司。
,
甘巴德菌属
G.公司。
单细胞基因集富集分析和转移学习用于scRNA-seq数据的功能注释
.
NAR基因组。生物信息。
2023
;
5
:
lqad024号机组
.

15

Pont公司
F、。
,
托索利尼
M。
,
福尼
J.J.公司。
单细胞特征浏览器,用于跨scRNA-seq数据集全面可视化单细胞特征
.
核酸研究。
2019
;
47
:
e133(电子133)
.

16

黄达
西。
,
谢尔曼
B.T.公司。
,
莱姆皮基
注册会计师。
利用DAVID生物信息学资源对大基因列表进行系统和综合分析
.
《国家协议》。
2009
;
4
:
44
——
57
.

17

黄达
西。
,
谢尔曼
B.T.公司。
,
莱姆皮基
注册会计师。
生物信息学富集工具:大型基因列表综合功能分析的途径
.
核酸研究。
2009
;
37
:
1
——
13
.

18

年。
,
J。
,
杰尼格
E.J.公司。
,
Z.公司。
,
B。
WebGestalt 2019:基因集分析工具包,带有改进的UI和API
.
核酸研究。
2019
;
47
:
W199号
——
W205型
.

19

库列绍夫
M.V.公司。
,
琼斯
M.R.公司。
,
鲁亚尔
公元
,
费尔南德斯
abbr.国家处方集
,
问:。
,
Z.公司。
,
科普列夫
美国。
,
詹金斯
S.L.公司。
,
贾戈尼克
K.M.公司。
,
拉赫曼
答:。
等。
Enrichr:一个全面的基因集富集分析网络服务器2016年更新
.
核酸研究。
2016
;
44
:
第90周
——
第97周
.

20

惯性矩
H。
,
穆鲁加努扬
答:。
,
十、。
,
埃伯特
D。
,
米尔斯
C、。
,
十、。
,
托马斯
P.D.公司。
使用PANTHER分类系统进行大规模基因组和基因功能分析的方案更新(v.14.0)
.
《国家协议》。
2019
;
14
:
703
——
721
.

21

年。
,
B。
,
佩奇
L。
,
M。
,
科达巴赫什
A.H.公司。
,
塔纳塞克
O。
,
本纳
C、。
,
钱达
S.K.公司。
Metascape为系统级数据集的分析提供了面向生物学家的资源
.
国家公社。
2019
;
10
:
1523
.

22

劳德韦勒
美国。
,
科尔伯格
L。
,
库兹明
一、。
,
阿拉克
T。
,
阿德勒
第页。
,
彼得森
H。
,
维洛
J。
g: profiler:用于功能富集分析和基因列表转换的web服务器(2019年更新)
.
核酸研究。
2019
;
47
:
第191页
——
W198号
.

23

J。
,
巴德斯
例如。
,
阿罗诺
B.J.公司。
,
杰加
美国政府。
用于基因列表富集分析和候选基因优先排序的ToppGene套件
.
有核的。酸类研究。
2009
;
37
:
W305型
——
W311型
.

24

尤西夫
答:。
,
干旱
N。
,
罗伊
J。
,
狭河道
M。
,
冈萨卢斯
K.C.公司。
NASQAR:用于高通量测序数据分析和可视化的基于web的平台
.
BMC生物信息。
2020
;
21
:
267
.

25

郭士纳
N。
,
科尔
T。
,
伦霍夫
K。
,
埃克哈特
L。
,
施耐德
L。
,
施托克尔
D。
,
巴克斯
C、。
,
米斯
E.公司。
,
凯勒
答:。
,
伦霍夫
高压。
GeneTrail:高通量配置文件分析框架
.
前面。Mol.Biosci公司。
2021
;
8
:
716544
.

26

Subramanian语
答:。
,
塔马约
第页。
,
穆萨
V.K.公司。
,
穆克吉
美国。
,
埃伯特
B.L.公司。
,
吉列
文学硕士。
,
保洛维奇
答:。
,
波梅罗伊
S.L.公司。
,
格鲁布
T.R.公司。
,
着陆器
E.S.公司。
等。
基因集富集分析:基于知识的全基因组表达谱解释方法
.
程序。国家。阿卡德。科学。美国。
2005
;
102
:
15545
——
15550
.

27

布瓦
D.D.公司。
,
棕褐色
C.W.公司。
,
线路接口单元
N。
,
惠特菲尔德
H.J.公司。
,
帕帕克里斯托斯
N。
,
美国。
,
哈尔班达
M。
,
默罕默德
答:。
,
戴维斯
医学博士。
2022)vissE:一种通用工具,用于从功能富集分析中识别和可视化高阶分子表型
.
bioRxiv doi:
2022年3月7日,预印本:未经同行审查
https://doi.org/2022.2003.2006.483195.

28

美国。
,
巴特
R。
,
棕色
C、。
,
棕色
E.A.公司。
,
布尔
D.L.公司。
,
Chantranuvatana公司
K。
,
达纳赫
第页。
,
Dunaway公司
D。
,
驻军
钢筋混凝土。
,
盖斯
G.公司。
等。
利用空间分子成像技术以亚细胞分辨率对固定组织中RNA和蛋白质进行高分辨率成像
.
自然生物技术。
2022
;
40
:
1794
——
1806
.

29

詹妮斯克
答:。
,
谢兰斯基
R。
,
戈茨乔
公元
,
瓦格纳
F、。
,
鲁奥
M。
,
贝利亚科夫
G.公司。
,
奥利维拉
平均离岸日。
,
科尔韦
答:。
,
阿布苏德
J。
,
莫里森
首席执行官。
等。
利用FFPE组织的单细胞、空间和原位综合分析高分辨率绘制乳腺癌肿瘤微环境图
.
2022
;
bioRxiv doi:
2022年10月7日,预印本:未经同行审查
https://doi.org/2022.2010.2006.510405.

30

蒂亚诺娃
美国。
,
特姆
T。
,
考克斯
J。
基于质谱的鸟枪蛋白质组学MaxQuant计算平台
.
《国家协议》。
2016
;
11
:
2301
——
2319
.

31

杰米契夫
五、。
,
梅斯纳
中央银行。
,
韦纳迪斯
S.I.公司。
,
莉莉
韩国。
,
拉塞尔
M。
DIA-NN:神经网络和干扰校正使蛋白质组能够在高通量下进行深度覆盖
.
自然方法
.
2020
;
17
:
41
——
44
.

32

A.T.公司。
,
巴赫
K。
,
马里奥尼
J.C.公司。
跨细胞汇集以使多个零计数的单细胞RNA测序数据正常化
.
基因组生物学。
2016
;
17
:
75
.

33

A.T.公司。
,
麦卡锡
D.J.公司。
,
马里奥尼
J.C.公司。
使用Bioconductor对单细胞RNA-seq数据进行低级分析的分步工作流程
.
F1000分辨率
.
2016
;
5
:
2122
.

34

布瓦
D.D.公司。
,
棕褐色
C.W.公司。
,
马赛(Marceaux)
C、。
,
J。
,
哈尔班达
M。
,
十、。
,
线路接口单元
N。
,
费海尔
K。
,
普特里
G.公司。
,
阿塞林-拉巴特
M.-L.公司。
等。
空间转录组学数据中的库大小混淆了生物学
.
2023
;
bioRxiv doi:
2023年3月15日,预印本:未经同行评审
https://doi.org/2023.2003.2015.532733.

35

麦卡锡
D.J.公司。
,
坎贝尔
K.R.公司。
,
A.T.公司。
,
威尔斯
Q.F.公司。
Scater:R中单细胞RNA-seq数据的预处理、质量控制、规范化和可视化
.
生物信息学
.
2017
;
33
:
1179
——
1186
.

36

利伯松
答:。
,
比格尔
C、。
,
托瓦尔兹多蒂尔
H。
,
甘迪
M。
,
梅西洛夫
J.P.公司。
,
塔马约
第页。
分子特征数据库(MSigDB)标志性基因集集合
.
细胞系统。
2015
;
1
:
417
——
425
.

37

T。
,
E.公司。
,
美国。
,
M。
,
第页。
,
Z.公司。
,
T。
,
L。
,
西。
,
詹(音译)
L。
等。
2021)clusterProfiler 4.0:解释经济数据的通用浓缩工具
.
创新(Camb)
.
2
:
100141
.

38

科洛特基维奇
G.公司。
,
苏霍夫
五、。
,
塞尔古西切夫
答:。
快速基因集富集分析
.
2019
;
bioRxiv doi:
2016年6月20日,预印本:未经同行评审
https://doi.org/10.1101/060012.

39

布瓦
D.D.公司。
,
Cursons公司
J。
,
戴维斯
医学博士。
用于归一化和单样本评分的稳定基因表达
.
核能。酸类研究。
2020
;
48
:
第113页
.

40

福鲁特人
M。
,
布瓦
D.D.公司。
,
R。
,
霍兰
K。
,
Cursons公司
J。
,
戴维斯
医学博士。
分子表型的单样本评分
.
BMC生物信息。
2018
;
19
:
404
.

41

Pons公司
第页。
,
拉塔皮
M。
计算机与信息科学2005:第20届国际研讨会
.
2005
;
土耳其伊斯坦布尔
施普林格
284
——
293
.

42

F、。
,
百年灵
R。
微阵列实验中检测差异表达基因的meta分析方法比较
.
生物信息学
.
2008
;
24
:
374
——
382
.

43

果园
美国。
,
阿马里
M。
,
阿兰达
B。
,
布雷扎
L。
,
布里甘蒂
L。
,
肉鸡-肉鸡
F、。
,
坎贝尔
不适用。
,
查瓦利
G.公司。
,
C、。
,
德尔托罗
N。
等。
MIntAct项目——IntAct作为11个分子相互作用数据库的共同管理平台
.
核酸研究。
2014
;
42
:
D358号
——
D363号
.

44

麦克因斯
L。
,
希利
J。
,
梅尔维尔
J。
统一流形逼近和投影降维
.
2018
;
bioRxiv doi:
2020年9月18日,预印本:未经同行审查
https://doi.org/10.48550/arXiv.1802.03426.

45

范德马滕
L。
,
Hisnton公司
G.公司。
使用t-SNE可视化数据
.
J.马赫。学习。物件。
2008
;
9
:
2579
——
2605
.

作者注释

作者希望大家知道,在他们看来,前两位作者应被视为联合第一作者。

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。