摘要
预测建模的最佳学习者取决于潜在的数据生成分布。超级学习者(SL)是一种通用集成学习算法,它使用交叉验证从候选预测模型的“库”中进行选择。SL不限于单个预测模型,而是利用各种学习算法的优势来适应不同的数据库。虽然SL在许多环境中表现良好,但尚未在药物流行病学和比较有效性研究中常见的大型电子医疗数据库中进行彻底评估。在这项研究中,我们应用并评估了SL在使用三个电子医疗数据库预测治疗分配方面的性能。我们考虑了由非参数模型和参数模型组成的算法库。我们还考虑了一种新的预测建模策略,该策略将SL与高维倾向评分(hdPS)变量选择算法相结合。使用三个指标评估预测性能:负对数似然、曲线下面积(AUC)和时间复杂性。结果表明,就预测性能而言,最佳的单个算法在不同的数据集中有所不同。SL能够适应给定的数据集,并相对于任何单个学习者优化预测性能。将SL与hdPS相结合是最一致的预测方法,可能有希望用于电子医疗数据库中的PS估计和预测建模。
建议引用
Ju,Cheng;玛丽·库姆斯;Samuel D.Lendle。;杰西卡·富兰克林。;理查德·怀斯(Richard Wyss);塞巴斯蒂安·施尼韦斯;和van der Laan,Mark J.,“使用超级学习者和高维倾向得分方法预测电子医疗数据库的倾向得分”(2016年6月)。加州大学伯克利分校生物统计学工作论文系列。工作文件351。
https://biostats.bepress.com/ucbbiostat/paper351