背景准确检测和估计真实暴露-输出关联在病原学分析中很重要;当存在多个感兴趣的潜在暴露变量时,需要用于检测最可能与感兴趣结果有真正关联的变量子集的方法。病例队列研究通常收集大量未在整个队列中测量的变量的数据(例如生物标志物小组)。在病例组研究中,缺乏关于变量选择方法的指导。方法我们描述并探索了三种变量选择方法在案例研究数据中的应用。这些是:(i)根据单变量(即一次一个)Prentice-weighted Cox回归模型中的显著性水平选择变量;(ii)应用于Prentice-weighted Cox回归的逐步选择;以及(iii)一种两步方法,该方法应用贝叶斯变量选择算法,通过多变量logistic回归获得每个变量的后验选择概率,然后使用Prentice-weighted Cox回归进行效果估计。结果在九种不同的模拟场景中,两步方法比一次一次和分步方法表现出更高的灵敏度和更低的错误发现率。在将这些方法应用于EPIC-InterAct病例组研究的数据时,与一次一个脂肪酸法和逐步法相比,两步法确定了另外两种脂肪酸与2型糖尿病的发病相关。结论两步法可以更有效、更准确地检测病例组研究中暴露与输出的相关性。有一个R包可供研究人员应用此方法。