首先,我们需要一些定义。 表 1 总结了 米 对一组 米 基因。
表1一组基因的m假设检验的可能结果。 行表示总体的真实状态,列是基于数据的决策规则的结果。 我们有罗斯福= 电压/电阻 和FNR= T型/ ( m-右 ),电源= S/m(平方米) 1 和类型1错误= 伏/米 0 为了简单起见,为了评估样本大小,我们选择了我们的规则,以便基因的数量称为显著( R(右) )与群体中非空基因的数量相同( 米 1 ). 这意味着1-power=FDR,type I error=FNR。 因此,可以方便地将FDR解释为每个基因的功率减去一,FNR也是如此。
以下是两类不成对情况的计算细节(下面我们指出了其他数据类型所需的更改)。 让 x个
ij公司
是基因的表达 我 在样品中 j个 ; C类
j个
是的索引集 n个
j个
组中的样本 j个 ,用于 j个 =1或2。 两样本非配对t统计量为
d日
我
=
x个
¯
我
2
−
x个
¯
我
1
秒
我
(
1
)
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= 第0页第8页第2页第2页第9页 @
哪里
秒
我
=
[
(
1
/
n个
1
+
1
/
n个
2
)
{
∑
j个
∈
C类
1
(
x个
我
j个
−
x个
¯
我
1
)
2
+
∑
j个
∈
C类
2
(
x个
我
j个
−
x个
¯
我
2
)
2
}
/
(
n个
1
+
n个
2
−
2
)
]
1
/
2
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0dc8meaabacacacacaacaGaaeqabababaqababeGadaakeaaacqaqaqaacgZb WCdaWgaaWcbaGaemyAaKgabeaakiabg2da9iabcUfaBjabcIcaOiabigdaXiabc+caViabd6gaUnaaBaaalaaacqaXaqmaeqaaOGaey4kaSIaeGymae Jaei4la8IaemOBa42aaSbaaSqaaiabikdaYaqabaGccqGGPaqkcqGG7bWEdaaeqbqaaiabcIcaOiabdIha4naaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeyOeIafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeGymaedabaakiabcMcaPmaaCaaaleqabaGaeGOmaidaaOGaey4kaSYaaaaaaaacqGGOaaakaWG4baeEdaWgaaWCbaGaemyAlaKMaemOAa OgabeaakiabgkHiTiqbdIha4zaaraWaaSbaaSqaaibdMgaPjabikdaYaqabaGccqGGPaqkdaahaaWcbeqaaia公司 bickdaYaaakiabc2ha9jabc+caViabcIcaOiabd6gaUnaaBaaalaaacqaXaqmaeqaaOGaey4kaSIaemOBa42aaSbaaSqaaiabikdaYaqabaGccqGHsislcqaIYaGmcqGGQPaqkcqGGDbqxdaaaaWcbeqaaiabadaXiabc+ caViabikdaYaaaaeaacqWGQbGAcqGHiiIZcqWGdbWqdaWgaaadbaGaeGOmaidabeaaaSqab0GaeyyeIuoaaSqaaiabdQgaQjabgIGiolabdoeadnaaBaaameaacqaXaqmaeqaaaWcbeqdcqGHris5aaaaa@76C3 @
注意,这是SAM方法中使用的基因得分; 关于交换常数,请参阅下面的备注。 如果 σ
我
基因的组内标准差是真的吗 我 (假设每组相同),然后 秒
我
2 估计
无功功率,无功功率
(
x个
¯
我
2
−
x个
¯
我
1
)
=
σ
我
2
(
1
/
n个
1
+
1
/
n个
2
)
数学类型@MTEF @5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=v r0dc8meaabacacacacaacaGaaeqabababaqababeGadaakeacyGG2bGD cqGGHbqycqGGYbGCcqGGOaakcuWG4baEgaqeamaaBaaaleaacqWGPbqAcqaIYaGmaeqaaOGaeyOeI0IafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeG ymaedabeaakiabcMcaPiabg2da9GGaciab=n8aZnaaDaaaleaacqWGPbqAaeacqaIYaGmaaGccqGGOaakcqaXaqmcqGGVaWlcqWGUbGBdaWgaaWcbaGaeGymaedabaakiabgUcaRiabigdaXiabc+ caViabd6gaUnaaBAalaacqaIYaGmaekaaOGaeiykaKcaaa@4C49 @
因此 δ 第2组中每个样本的一个基因单位导致得分平均增加 d日
我
属于
δ
/
(
σ
我
1
/
n个
1
+
1
/
n个
2
)
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= vr0dc8meaabaqaciacaGaaeqababaqababeGaaaakaaiiGacqWF0oazcqGGGVaWlcqGGOaakcqWfdpWCdaWgaaWcbaGaemyAaKgabeaakmaaaabaGaeGymaeJaei4la8IaemOBa42aaSbaaSbaaqaaiabigdaXaqabaGccqGHRaWkcqaIXaqmcqGGVawlcqWGUbGBdaWgaa WcbaGAeGOmaidabeaaaaaaaaaaQaaaQaEGmaidabaaaaaaEQaaaOGaeiykakaKcaa@3DF @
(我们假设第1组和第2组中的样本比例保持不变,因为我们改变了样本大小)。
从一些试点数据开始,这建议采用以下程序来评估样本量:
1
估计分数的零分布和每个基因的标准偏差 σ
我
,通过随机排列类标签并重新计算排列数据的基因得分。
2
对于 k个 (真正改变的基因数量)从(比如)10个到 米 /2,执行以下操作:
采样一组 米 分数排列分布的分数
添加
δ
/
(
σ
^
我
1
/
n个
1
+
1
/
n个
2
)
数学类型@MTEF @5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=wr0dc8meaabacacacacaacaGaaeqabababaqababeGaaaiiiiGacqWF 0oazcqGGVaWlcqGGOaakcuWFdpWCgaqcamaaaBaaaleaacqWGPbqAaeqaaOwaaaacqaIXaqmcqGGVAWlcqWGUbGBdaWgaaWcbaGaeGymaedabe aakiabgUcaRiabigda夏布+ caViabd6gaUnaaBaaaleaacqaIYaGmaeqaaaqabaGccqGGPaqkaaa@3E05 @
在第二节课中随机选择一组 k个 这些分数中的一个。
找到切入点 c(c) 等于 k个 绝对值排名第1
估计规则的FDR和FNR| d日
我
| > c(c) 这是直截了当的,因为我们知道哪些基因是真正的非空基因(它们是上面增加的基因)。
三。
重复步骤2 B类 时间并报告每个时间的中间结果 k个 我们还报告了FDR的第10百分位和第90百分位 B类 排列。
在我们的例子中,我们使用了相对较少的重复次数( B类= 20); 这使得该过程快速并且给出足够精确的估计。 对于双样本问题,我们通常需要每个类至少有4或5个样本的试验数据。
该过程的结果提供了关于如果增加样本量,FDR和FNR将如何改进的信息。 了解平均差的值 δ 是适当的还是合理的,可以查看这些值
x个
¯
我
2
−
x个
¯
我
1
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= vr0dc8meaabaqaciaacaGaaeqabaqabebeGadaaacacuWG4baEgaqeamaaBaaaleaacqWGPbqAcqaIYaGmaeqaaOGaeyOeI0IafmiEaGNbaebadaWgaaWcbaGaemyAaKMaeGymaedabaaaaaaaa@35B5 @
在试点数据中的重要基因中。
这种方法可以很容易地应用于其他设计和其他类型的响应参数。 对于配对数据,我们取 n个 1 =个 2 =个 /2(记住 n个 是总样本量)。 上述所有食谱都保持不变。 对于一类数据变量=
σ
我
2
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0 @
/n个 .
对于生存数据和Cox的比例风险模型,组间平均差异的类似物是部分似然得分统计的分子,我们表示为 对
我
因此,我们定义了基因特异性方差
σ
我
2
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0 @
通过关系var( 对
我
) =
σ
我
2
数学类型@MTEF @5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0= vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaaiiGacqWFdpWCdachaaWcbaGaemyAaKgabaGaeGOmaidaaaa@30F0 @
/ n个 ,我们解释shift参数 δ 相对于 对
我
.的单位 对
我
然而,它们不是很容易解释,所以我们使用导频数据作为指导。 例如,如果在我们的试验数据中,我们称为重要的基因具有| 对
我
|>100,我们可以设置 δ 在我们的样本量评估中=100。
备注 在SAM方法中,分母 秒
我
分数(1)替换为 秒
我
+ 秒 0 ,其中 秒 0 是可互换常数。 它缩小了表达接近0的基因的数量( 秒 0 ≈ 0).