DNA混合物

DNA混合物的统计分析带有人工制品

通过特蕾丝·格雷弗森

教程

下面我们演示一些功能属于DNA混合物.为了更彻底演练,请参见中的示例分析使用DNAmixes软件包的案例分析中的详细讨论格雷弗森(2014).

手册页面包含所有功能的详细说明并简要介绍了统计模型。进一步可以找到模型及其参数的详细信息在里面科威尔等(2015).

建立DNA混合物模型

数据(MC15)
MC15(MC15)$标记 == “TH01”,]
##标记等位基因高度K1 K2 K3##35 TH01 7.0 727 1 0##36 TH01 8.0 625 1 0##37螺纹01 9.0 0 2 0##38 TH01 9.3 165 0 2

等位基因频率也在数据帧,这个包含变量标记,等位基因,以及频率。此数据集中的等位基因范围决定了模型中使用的等位基因范围。

US-Caucasian等位基因频率包括在包裹:

数据(美国加利福尼亚州)
高加索$标记 == “TH01”,]
##标记等位基因频率##22 TH01 5.0 0.001659967##23 TH01 6.0 0.231785364##24 TH01 7.0 0.190396192##25 TH01 8.0 0.084438311##26 TH01 9.0 0.114237715##27 TH01 9.3 0.367542649##28 TH01 10.0 0.008279834##1月29日11.0 0.001659967

例如,让我们为单个DNA混合物创建一个模型MC15.检方的假设可能是K1、K2和K3与未知贡献器U1一起贡献给跟踪是k=4个贡献者。我们将检测阈值C设置为50射频单元。

数据(SGMplus染料)
混合Hp <- DNA混合物(列表(MC15), k个 = 4, K(K) = c(c)(“K1”, “K2”, “K3”), C类 = 列表(50),
                    数据库 =美国加利福尼亚州, 染料 = 列表(SGMplus染料)

我们可以通过以下方式绘制峰值高度

     情节(混合Hp, 电子节目单 = 真的, 染料 = 列表(c(c)(“蓝色”, “绿色”, “黑色”)))
观察到的峰值高度

估算模型参数

例如,可以通过最大值估计参数可能性。这里我们使用参数第页作为用于优化的初始值。

     第页 <- 混合器(ρ = 列表(30), 埃塔 = 列表(34), xi(西) = 列表(0.08),
                 φ = 列表(c(c)(第1页 = 0.71, K3公司 = 0.09, K2(K2) = 0.19, 1号机组=0.01)))
     mlHp(毫升马力) <- mixML(混合ML)(混合Hp, 部分 =p)
     mlHp(毫升马力)$最大似然比
##rho eta xi phi公司。U1φ。K1φ。K2φ。K3公司##1 34.24 26.67 0.0737 0.008459 0.8205 0.04734 0.1237

依靠渐近正态性,我们可以计算估计如下。

变量15Hp <- varEst公司(混合Hp,mlHp$mle、,
                  非营利机构 = 列表(ρ = 1, 埃塔 = 1, xi(西) = 1, φ = 1))
总结(变量15Hp)
##估算标准误差##第134237675页7.13108##等等1 26.668456 5.61843##xi.1 0.073699 0.01441##φ。U1.1 0.008459 0.01853##φ。K1.1 0.820501 0.02015##φ。K2.1 0.047343 0.01361##φ。K3.1 0.123698 0.01532

似然函数和似然比

要计算似然比,我们首先需要公式化替代假设。在这种情况下,我们用K3代替未知贡献者。

混合Hd <- DNA混合物(列表(MC15), k个 = 4, K(K) = c(c)(“K1”, “K2”),
                      C类 = 列表(50),
                      数据库 =美国加利福尼亚州)
第页 <- 混合器(ρ = 列表(30), 埃塔 = 列表(34), xi(西) = 列表(0.08),
            φ = 列表(c(c)(第1页 = 0.71, 1号机组 = 0.09, K2(K2) = 0.19, U2乐队=0.01)))
mlHd(毫升小时) <- mixML(混合ML)(混合Hd, 部分 =p)
百万赫兹$最大似然比
##rho eta xi phi公司。U1φ。U2φ。K1φ。K2(K2)## 1   25.54   35.8   0.07192   0.08115   0.08114   0.7983   0.0394

没有用于计算可能性的指定函数比率。然而,我们可以很容易地计算出证据的权重K3,即似然比的log10。

每个假设下的(自然)对数似然为
mlHp(毫升马力)$喜欢 ##K1&K2&K3&U1
##[1]-271.8021
mlHd(毫升小时)$喜欢 ##K1&K2&U1&U2
## [1] -297.7915

取其差值,我们得到对数似然比。就这样了除以log(10)得到logLR(以log10为刻度):

(mlHp$喜欢 - mlHd(毫升小时)$(例如)/日志(10)
## [1] 11.28704

混合反卷积

如果一个提议的假设包括未知的贡献者,它可能是与调查这些基因型的可能分配有关个人。

因此,考虑标记TH01和单个U1。我们找到了后验概率大于的所有基因型pmin(pmin)=0.008给定观察到的峰值高度。

设置峰值信息(混合Hp,mlHp$最大似然比)              ##观察到的峰高条件
mp(最大功率) <- 地图.基因型(混合Hp, pmin(pmin) = 0.008,  ##找到最佳的基因型
                    标记 = “TH01”)
总结(百万英镑)
## ##TH01:##U1.1 U1.2探头##1 9.3北美0.247461## 2    7      9.3    0.154065## 3    9.3    9.3    0.138326##4 7北美0.136296##5北美0.108608## 6    8      9.3    0.067610##7 8纳0.059862## 8    7      7      0.042352## 9    7      8      0.037264## 10   8      8      0.008155## ##总概率:1

这个不适用表示缺失的等位基因;个人辍学的可能性很高,这并不奇怪考虑到相应的估计混合比例非常低。进一步检查表明,所有其他预测的等位基因事实,被已知的贡献者掩盖。

质疑混合物的解释

重要的是要证明考虑中的任何模型都可以也适当地解释了数据。统计框架属于DNA混合物能够解决此类问题。

模拟峰值高度

将观测到的峰高与它们在特定模型下的分布与一组模拟峰值高度。

     ##将观察到的峰高与模型下模拟的峰高进行比较
     模拟人生 <- r峰值高度(混合Hp,mlHp$mle、, 国家统计局 = 100, 距离 = “有条件”)
     旧款 <- 标准(mfrow公司 = c(c)(2,5), 三月 = c(c)(2,2,2,0))
     箱线图(mixHp,模拟)
模拟峰值高度的箱线图
     标准(旧款)

事实上,我们还可以使用这个准确的分布而不是依赖模拟;请参阅以了解实例格拉弗森(2014)格雷弗森和劳里岑(2014)

分位数图

分位数-分位数图是评估是否观测到的峰高遵循其假定分布。如果分布是充分的,点应该沿着对角线。

qq峰值(混合Hp, 部分 =mlHp$mle、, 距离 = “有条件”)
分位数-分位数图

前次监测图

可使用前置监测器评估模型以正确预测特殊等位基因。对于EPG中的每个位置,我们依次进行比较模型是否预测峰值,以及峰值是否已经出现观察。

我们注意向上跳跃,当模型预测与观察到的相反。监视器(圆圈)超过95%或99%的上限表明预测错误发生的频率高于预期。

     公共关系 <- 前次得分(混合Hp, 部分 =mlHp$最大似然比)
     情节(公关, 主要的 = “K1、K2、K3和一个未知”)
Hp频率监测器
     公共关系 <- 前次得分(混合Hd, 部分 =mlHd$最大似然比)
     情节(公关, 主要的 = “K1、K2和两个未知数”)
Hd的前置监测器

在这两个图中,前一个监视器都保持在上部界限,表明EPG中有无峰值根据以下任一假设进行了充分解释对价。

高级示例

DNA混合物提供了对广域网的方便访问统计上有趣的量的范围。

例如,我们评估并绘制了假设下个体K3贡献的DNA比例捐赠者为K1、K2、K3和未知捐赠者。

proflik公司 <- 功能(x个){
    mixML(混合ML)(混合Hp,mlHp$mle、,
          约束 = 功能(第页)第页[[1, “φ”]][[“K3”]],
          val值 =x)$喜欢
}
proflik公司 <- 矢量化(专业)

曲线(proflik公司(x)-mlHp(毫升马力)$比如, 0.01, 0.2, n个=19,
      xlab公司 = 表达(φ[K3]), 伊拉布 = “配置文件可能性”)
混合比例的剖面可能性

剖面可能性清楚地表明,数据支持K3的非零贡献。