×

具有零膨胀泊松模型和一致性聚合的鲁棒贝叶斯张量因子分解。 arXiv:2308.08060

预打印,arXiv:2308.08060[stat.ML](2023)。
摘要:张量因子分解(TF)是高效表示和分析多维数据的强大工具。然而,当应用于零膨胀计数数据(如单细胞RNA测序(scRNA-seq)数据)时,基于最大似然估计的经典TF方法表现不佳。此外,TF固有的随机性导致因子在重复运行中发生变化,使得结果的解释和再现性具有挑战性。本文介绍了零膨胀泊松张量因式分解(ZIFPTF),这是一种新的高维计数数据因式分解方法。为了应对随机性的挑战,我们引入了一致性零膨胀泊松张量因子分解(C-ZIFPTF),它将ZIFPTF与基于一致性的元分析相结合。我们在合成的零膨胀计数数据以及合成和真实的scRNA-seq数据上评估了我们提出的ZIF和C-ZIF。在零膨胀数据的重建精度方面,ZITFF始终优于基线矩阵和张量因子分解方法。当多余零的概率很高时,ZITFF可以获得高达2.4倍的精度。此外,C-ZIFPTF显著提高了因子分解的一致性和准确性。当对合成和真实的scRNA-seq数据进行测试时,ZIF和C-ZIF始终能够恢复已知的和具有生物学意义的基因表达程序。

理学硕士:

92Bxx个 一般数学生物学
2015年1月62日 贝叶斯推断
68倍 计算机科学
68泰克 人工智能
11亿欧元 二级以上学位形式
11第05页 Waring的问题和变体
第12天15 与平方和相关的字段(形式上为实数字段、毕达哥拉斯字段等)
14N10号 代数几何中的枚举问题(组合问题)
BibTeX公司 引用
全文: arXiv公司
arXiv数据来自arXiv OAI-PMH API.如果你发现了错误,请直接向arXiv报告.