如何处理apeglm中的等位基因失衡
1
0
进入编辑模式
@eugeeugenio-15908号
最后一次见到是3天前
英国

我正试图对一些来自人类个体群体的ATAC-seq数据进行等位基因不平衡分析。因此,每个SNP都会有一些杂合个体和一些纯合个体。在这种情况下,我的表格包含了杂合个体的计数,但纯合个体的NA值。

我试着跟随apeglm的小插曲,计数的建模比率部分以执行β-二项式拟合,但如果我提供带有NA值的表格,它将失败,并出现以下错误:

seq_len(sum(非零))中出错:参数必须强制为非负整数追溯:1.系统时间({.for(i in 1:niter){.param<-cbind(theta.hat,cts).fit.mle<-apeglm(Y=ase.cts,x=x,log.lik=空,.param=参数,no.srink=真,log.link=假,.method=“betabinCR”)θhat<-bbEstDisp(成功=ase.cts,大小=cts,.x=x,beta=fit.mle$map,minDisp=0.01,maxDisp=5000).     }. })2.apeglm(Y=ase.cts,x=x,log.lik=NULL,param=param,no.srink=TRUE,.log.link=FALSE,method=“betabinCR”)#位于文件的第7-8行3.betabinApp例程(Y,x,weights,offset,param,prior.control,方法、结果、界限、优化方法)4.sapply(seq_len(总和(非零)),函数(i){β宾Fn(initC,x=x,y=YNZ[,i],size=sizeNZ[,i],θ=θ[i],权重=权重NZ[,i],σ=σ,S=S,no收缩=no收缩,收缩=收缩,cnst=0).})5.重叠(X=X,FUN=FUN,…)

分析这些数据的正确程序是什么?我需要用一些东西填写NA值吗?

我想知道是否有任何代码/教程来运行这种分析,包括p值的估计?

阿佩格尔姆•394个视图
添加评论
0
进入编辑模式

迈克尔·洛夫你能帮我吗?谢谢!

1
进入编辑模式
@米克洛夫
最后一次见到是3天前
美国

当您缺少计数时,可以将比率设置为1/1,然后将该矩阵单元的权重设置为1e-6。

如果清楚,请告诉我,否则我可以发布代码。

0
进入编辑模式

我认为它的编码是正确的,但现在它需要永远运行。它已经运行了2天,但还没有完成。这正常吗?

cts的大小为:矩阵:90049 x 54 dbl型

这是第一个位的代码,它被固定在那里:

#填充NA重量<-ifelse(即na(ase.cts),1e-6,1)ase.cts[是.na(ase.cts)]<-1cts[即na(cts)]<-2theta.hat<-100#离散度的粗略初始估计X=矩阵(rep(1,ncol(cts))硝石<-3系统.时间({for(i in 1:niter){参数<-cbind(theta.hat,cts)fit.mle<-apeglm(Y=ase.cts,x=x,log.lik=NULL,param=param,no.srink=TRUE,log.link=FALSE,method=“betabinCR”,weights=weights)theta.hat<-bbEstDisp(成功=ase.cts,大小=cts,x=x,beta=fit.mle$map,minDisp=1,maxDisp=500,weights=weights)}})
0
进入编辑模式

apeglm是用C++编写的,因此在vignette中3000 x 8矩阵需要不到3秒的时间。

尝试前100个左右的特性,只需循环一次迭代(fit.mle然后theta.hat更新),然后看看需要多长时间。

你也可以做更多的预过滤。90k的功能是什么?

0
进入编辑模式

嗨,我已经尝试在1000个样本上运行它,3次迭代大约需要30秒。2000个样本需要1.5分钟。我添加了一些打印语句,它基本上从未完成bbEstDisp步骤,即使是第一个循环。CPU使用率仍为100%,内存约为1.2 gb。

90k特征是所有SNP在至少3名患者中具有足够的覆盖率(10次读取)。你认为如果我对每条染色体进行计算,离散度估计仍然有效吗?

0
进入编辑模式

所以我看了一下bbEestDisp的源代码,我觉得apeglm中权重的含义与bbEstDisp不同。这似乎是在拟合每行的θ,但它是在乘以整个结果的权重矩阵,而不是每行的权重。也许这就是它呈指数增长的原因?

我尝试将bbEstDisp的权重设置为1,这似乎很好,但从统计角度来看,这是正确的吗(apeglm的权重不适用于bbEstDisp)?

这是1号染色体的结果在此处输入图像描述

0
进入编辑模式

我同意,我认为在贝塔二项式GLM的这一步中没有测试权重(在本文中,我们没有包括权重,这是为了支持一些实验而添加的附加值)。

我试着在这里解决这个问题,你能吗安装_工具():

https://github.com/azhu513/apeglm/commit/0abaccbfaad42996f4dad3cb5fba89597428e7ac

0
进入编辑模式

是的,这似乎奏效。具有等位基因不平衡的显著SNP数量略有下降,但我想这是意料之中的,因为所有填写的数据都有1/1计数,所以没有离散?

最后一个问题是,我是否正确理解我可以使用最终的S值,就好像它们是FDR校正的p值一样?

1
进入编辑模式

是的,是的。

感谢您发布bug!补丁应该正在开发中,并很快发布apeglm。

0
进入编辑模式

谢谢你的帮助!

登录在添加答案之前。

流量:过去一小时访问了517个用户

使用本网站即表示接受我们的用户协议和隐私政策.

2.3.6版