×

围绕medoids聚类和随机森林分类进行分区,以便GIS提供氟浓度数据插补。 (英语) Zbl 1498.62008号

总结:社区饮水氟化是促进口腔健康的重要组成部分,因为氟暴露是一种有充分证据证明的防龋剂。对生活用水氟化物含量的直接测量提供了关于个人氟化物暴露和龋齿风险的有价值的信息;然而,在口腔健康研究中大规模开展这些研究在后勤上具有挑战性。本文描述了一种新方法的开发和评估,该方法用于填补由空间自相关告知的缺失生活用水氟浓度数据。背景是北卡罗来纳州一项全国范围的儿童口腔健康流行病学研究,其中约75%的研究参与者缺少关于龋齿临床数据的生活用水氟浓度信息。提出并实现了一种新的基于机器学习的插补方法,该方法结合了基于medoids聚类的划分和随机森林分类(PAMRF)。根据每个应用程序的要求,根据允许的错误率或目标样本大小过滤计算值。在未经验证的交叉验证和模拟研究中,PAMRF优于四种现有的插补方法——两种传统的空间插值方法(即逆距离加权法、IDW法和英国通用克里金法)和两种监督学习方法((k)——最近邻法、KNN法和分类回归树法。在估算氟化物浓度和龋齿患病率之间的相关性时,将多重插补值包括在内,这基本上不会改变PAMRF估算值,但由于有效样本量较大,精确度有了显著提高。PAMRF是一种强大的新方法,用于在存在地理信息的情况下插补缺失的氟化物值。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62D10号 缺少数据
第62页第10页 统计学在生物学和医学中的应用;元分析
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Breiman,L.(1996)。装袋预测。机器。学习。24 123-140. ·Zbl 0858.68080号
[2] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. ·Zbl 1007.68152号
[3] 布雷曼(2002)。建立、使用和理解随机森林手册第3版。1.美国加州大学伯克利分校统计系1 58。
[4] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树.华兹华斯统计/概率系列Wadsworth Advanced Books and Software,加利福尼亚州贝尔蒙特·Zbl 0541.62042号
[5] BRUNELLE,J.和CARLOS,J.(1990年)。美国儿童龋齿的近期趋势和水氟化的影响。《牙科杂志》。物件。69 723-727.
[6] BUUREN,S.V.和GROOTHUIS-OUDSHOORN,K.(2010年)。小鼠:通过R中的链式方程进行多元插补。J.统计软件。1-68.
[7] CATE,J.M.T.(1999)。氟化物作用机理理论的当前概念。齿科学报。扫描。57 325-329.
[8] CHEN,J.和SHAO,J.(2000)。调查数据的最近邻插补。J.关闭状态。16 113.
[9] CLIFF,A.D.和ORD,J.K.(1981年)。空间过程:模型和应用伦敦Pion有限公司·Zbl 0598.62120号
[10] Cressie,N.A.C.(1993年)。空间数据统计.概率与数理统计中的威利级数:应用概率统计纽约威利·Zbl 1347.62005年 ·doi:10.1002/97811191151
[11] DIVARIS,K.和JOSHI,A.(2020年)。儿童早期精确口腔健康的基石:ZOE 2.0研究。公共卫生牙科杂志。80 S31-S36·doi:10.1111/jphd.12303
[12] DIVARIS,K.,SLADE,G.D.,FERREIRA ZANDONA,A.G.,PREISSER,J.S.,GINNIS,J.,SIMANCAS PALLARES,M.A.,AGLER,C.S.,SHRESTHA,P.,KARHADE,D.S.等人(2020年)。队列概况:ZOE 2.0——基于社区的儿童早期口腔健康遗传流行病学研究。国际环境杂志。Res.公共卫生17 8056.
[13] ECKERT,S.、FEINGOLD,E.、COOPER,M.、VANYUKOV,M.M.、MAHER,B.S.、SLAYTON,R.L.、WILLING,M.C.、REIS,S.E.、MCNEIL,D.W.等人(2017年)。PKD2和SIBLINGs附近染色体4q21上的变异与龋齿相关。J.嗯,基因。62 491-496.
[14] FALKOWSKI,M.J.、HUDAK,A.T.、CROOKSTON,N.L.、GESSLER,P.E.、UEBLER,E.H.和SMITH,A.M.(2010)。树木级森林生长模型的景观尺度参数化:结合激光雷达数据的K近邻插补方法。可以。J.对于。物件。40 184-199.
[15] FISHER-OWENS,S.A.,GANSKY,S.A.、PLAT,L.J.、WEINTRAUB,J.A.、SOOBADER,M.-J.、BRAMLETT,M.D.和NEWACHECK,P.W.(2007)。对儿童口腔健康的影响:一个概念模型。儿科120 e510-e520。
[16] FRANKE,R.(1982)。分散数据插值:一些方法的测试。数学。公司。38 181-200. ·Zbl 0476.65005号 ·doi:10.2307/2007474
[17] GINNIS,J.、ZANDONá,A.G.F.、SLADE,G.D.、CANTRELL,J.,ANTONIO,M.E.、PAHEL,B.T.、MEYER,B.D.、SHRESTHA,P.、SIMANCAS-PALARES,M.A.等人(2019年)。用于研究目的的儿童早期口腔健康测量:龋齿经验和乳牙釉质发育缺陷。牙源性511-523. 柏林施普林格。
[18] GOWER,J.C.(1971)。一般相似系数及其一些性质。生物计量学27 857-871.
[19] GU,Y.、PREISSER,J.S.、ZENG,D.、SHRESTHA,P.、SHAH,M.、SIMANCAS-PALLARES,M.A.、GINNIS,J.和DIVARIS,K.(2022)。补充“GIS-氟化物浓度数据插补中medoids聚类和随机森林分类的分区”https://doi.org/10.1214/21-AOAAS1516SUPP
[20] HA,D.H.,SPENCER,A.J.,PERES,K.G.,RUGG-GUNN,A.J..,SCOTT,J.A.和DO,L.G.(2019年)。含氟水可以改善母乳喂养对龋齿的影响。《牙科杂志》。物件。98 755-762. ·doi:10.1177/0022034519843487
[21] HASTIE,T.、TIBSHIRANI,R.、SHERLOCK,G.、EISEN,M.、BROWN,P.和BOTSTEIN,D.(1999年)。为基因表达阵列计算缺失数据。斯坦福大学统计系技术报告。
[22] HENNIG,C.和LIAO,T.F.(2013)。如何为混合型变量找到合适的聚类,并应用于社会经济分层(与讨论)。J.R.统计社会服务。C.应用。斯达。62 309-369. ·文件编号:10.1111/j.1467-9876.2012.01066.x
[23] IHEOZOR-EJIOFOR,Z.、WORTHINGTON,H.V.、WALSH,T.、O'MALLEY,L.、CLARKSON,J.E.、MACEY,R.、ALAM,R.,TUGWELL,P.、WELCH,V.等人(2015)。水氟化预防龋齿。Cochrane数据库系统。版次。6
[24] JOHNSTON,K.、VER HOEF,J.M.、KRIVORUCHKO,K.和LUCAS,N.(2001)。使用ArcGIS地理统计分析员380.雷德兰郡埃斯里。
[25] KAUFMAN,L.和ROUSSEEUW,P.J.(2009)。在数据中查找组:聚类分析导论纽约威利。
[26] LAM,N.S.-N.(1983年)。空间插值方法:综述。美国制图师。10 129-150.
[27] LIAW,A.、WIENER,M.等人(2002年)。通过randomForest进行分类和回归。R新闻2 18-22.
[28] MAECHLER,M.、ROUSSEUW,P.、STRUYF,A.、HUBERT,M.和HORNIK,K.(2019年)。cluster:集群分析基础和扩展。R软件包2.1版。0. 2019.
[29] MITAS,L.和MITASOVA,H.(1999)。空间插值。地理信息系统:原理、技术、管理和应用(P.A.Longley、M.F.Goodchild、D.J.Maguire和D.W.E.Rhind编辑)1 481-492 34。纽约威利·Zbl 0663.65007号
[30] MORAN,P.A.P.(1950)。关于连续随机现象的注记。生物特征37 17-23. ·Zbl 0041.45702号 ·doi:10.1093/biomet/37.1-21.17
[31] RCOLORBREWER,S.和LIAW,M.A.(2018年)。包“randomForest”。加州大学伯克利分校:美国加利福尼亚州伯克利。
[32] 卢梭,第J页(1987年)。轮廓:用于解释和验证聚类分析的图形辅助工具。J.计算。申请。数学。20 53-65. ·Zbl 0636.62059号
[33] Rubin,D.B.(1987)。调查中无应答的多重插补.概率与数理统计中的威利级数:应用概率统计.威利,纽约·Zbl 0665.62004号 ·数字对象标识代码:10.1002/9780470316696
[34] SELWITZ,R.H.、ISMAIL,A.I.和PITTS,N.B.(2007年)。龋齿。柳叶刀369 51-59.
[35] SHAFFER,J.、WANG,X.、FEINGOLD,E.、LEE,M.、BEGUM,F.、WEEKS,D.、CUENCO,K.、BARMADA,M.和WENDELL,S.等人(2011年)。儿童龋齿的全基因组关联扫描暗示了新的基因。《牙科杂志》。物件。90 1457-1462.
[36] Shepard,D.(1968年)。不规则空间数据的二维插值函数。会议记录1968 23第三届ACM全国会议517-524. 纽约ACM。
[37] SU,L.,TOM,B.D.和FAREWELL,V.T.(2009)。纵向半连续数据的两部分混合模型中的偏差。生物统计学10 374-389. ·Zbl 1437.62617号
[38] THERNEAU,T.和ATKINSON,B.(2008)。rpart:递归分区。Brian Ripley的R端口。R包版本3-1。
[39] VAN DE VELDEN,M.、IODICE D’ENZA,A.和MARKOS,A.(2019年)。基于距离的混合数据聚类。威利公司(Wiley Interdiscip)。利润.:计算。斯达。11 e1456,12·doi:10.1002/wics.1456
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。