{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,5,28]],“日期-时间”:“2024-05-28T11:52:12Z”,“时间戳”:1716897132913},“引用-计数”:29,“发布者”:“Frontiers Media SA”,“许可证”:[{“开始”:{“日期-零件”:[[2021,8,19]],”日期-时间“:”2021-08-19T00:00:00 0:00Z“,”时间戳“:162933120000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“https:\/\/creativecommons.org\/licenses\/by\/4.0\/”}],“内容域”:{“域”:[“frontiersin.org”],“crossmark-restriction”:true},“short-container-title”:[”Front.Res.Metr.Anal.“],“抽象”:“目标:2016年,世界卫生组织下属的国际癌症研究机构发布了Exposome-Explorer,这是第一个专门研究疾病环境风险因素暴露生物标记物的数据库。数据库内容来自手动文献搜索,该搜索产生了8500多处引文,但最终数据库中仅使用了这些出版物的一小部分。手动管理数据库非常耗时,需要领域专家收集分散在数百万篇文章中的相关数据。本文提出了一种有监督的机器学习管道来辅助手动文献检索过程<\/jats:p>方法:使用Exposome-Explorer中使用的人工检索的科学出版物语料库作为机器学习模型(分类器)的训练和测试集。基于由标题、摘要和元数据构成的不同数据集,评估了一些参数和算法,以预测文章的相关性<\/jats:p>结果:<\/jats:bold>使用标题集和抽象集,使用Logistic回归算法构建了最高性能分类器,F2得分为70.1%。此外,我们使用经过生物标记实体识别训练的分类器从这些文章中提取了1143个实体。其中,我们手动验证了数据库中45个新的候选条目<\/jats:p>结论:我们的方法将数据库管理员手动筛选的文章数量减少了近90%,而对相关文章的错误分类仅为22.1%。我们预计,这种方法也可以应用于类似的生物标志物数据集,或用于辅助类似化学或疾病数据库的手动管理过程<\/jats:p>“,”DOI“:”10.3389\/frma.2021.689264“,”type“:”journal-article“,”created“:{”date-parts“:[[2021,8,19]],”date-time“:”2021-08-19T11:21:11Z“,”timestamp“:1629372071000},”update-policy“:“http://\/dx.DOI.org\/10.3389\/crossmark-policy”,“source”:“Crossref”,“is-referenced-by-count”:3,“title”:[“利用机器学习进行Exposome-Explorer中生物标记物治疗的信息检索“],”前缀“:”10.3389“,”卷“:”6“,”作者“:[{”给定“:”安德烈“,”家族“:”拉莫里亚斯“,”序列“:”第一“,”从属“:[]},{”给出“:”索菲亚“,”家庭“:”耶稣“,”顺序“:”附加“,”附属“:[]},“给定”:“瓦内萨”,“家庭”:“Neveu”,“序列”:“附加”,“affiliation“:[]},{”given“:”Reza M.“,”family“:”Salek“,“sequence”:“additional”,“affiliance”:[]neneneep,{“given”:“Francisco M.”,“family”:“Couto”,“segment”:“extendated”,“filiation”:“[]}],“member”:“1965”,“published-online”:{“date-parts”:[2021,8,19]]}“reference”:[{”key“:“B1”,“doi-asserted-by”:页面“:”e115892“,”doi“:”10.1371 \/journal.pone.0115892“,”article-title“:”生物医学文献分类的机器学习“,”volume“:”9“,”author“:”Almeida“,”year“:”2014“,”journal-title”:“PLOS ONE”},{“key”:“B2”,“article-title”:“带决策树和决策规则的文本挖掘”,“author”:“Apte”,“year”:“1998”}、{“key”:”B3“,“doi-asserted-by”:“publisher”,”第一页“:”123“,”DOI“:”10.1007\/bf00058655“,”article-title“:”Bagging Predictors“,”volume“:”24“,”author“:”Breiman“,”year“:”1996“,”journal-title”:“Mach Learn。“},{”key“:”B4“,”doi-asserted-by“:”publisher“,”first-page“:”5“,”doi“:”10.1023\/a:1010933404324“,”article-title“:”Random Forests“,”volume“:“45”,“author”:“Breiman”,“year”:“2001”,“journal-title”:“Machine Learn.”007\/bf00994018“,”article-title“:”Support-vector Networks“,”volume“:”20“,“作者”:“科尔特斯”,“年份”:“1995”,“新闻标题”:“马赫学习”。“},{”key“:”B6“,”doi-asserted-by“:”publisher“,”first-page“:”58“,”doi“:”10.1186\/s13321-018-0312-9“,”article-title“:”Mer:“用于最小命名实体识别和链接的Shell脚本和注释服务器”,“volume”:“10”,“author”:“Couto”,“year”:“2018”,“journal-title”:“J.Chemnify”},“key”:“”全文生物医学文章的半自动索引”,“卷”:“2005年”,“作者”:“同性恋”,“年份”:“2004年”,《杂志标题》:“AMIA Annul。症状。程序。“},{”key“:”B8“,”doi-asserted-by“:”publisher“,”first-page“:”170“,”doi“:”10.1038\/ng.3774“,”article-title“:”CIViC是专家众包癌症变异体临床解释的社区知识库“,”volume“:“49”,“author”:“Griffith”,“year”:“2017”,“journal-title”:“Nat.Genet.”},”{“key”:“B9”,“article-title”“:”生物医学自然语言处理领域特定语言模型预训练”,“作者”:“Gu”,“年份”:“2021”,“日志标题”:“arXiv预印本arXiv:2007.15779”},{“key”:“B10”,“doi-asserted-by”:“publisher”,”first page“:”105“,”doi“:”10.1186\/1476-069X-10-105“,”article-title“:”绝经前妇女膳食镉摄入量与镉暴露生物标志物之间的关系——人体铁存储量”,“量”:“10”,“作者”:“朱林”,“年份”:“2011年”,“杂志标题”:“环境”。Health“},{“key”:“B11”,“doi-asserted-by”:“publisher”,“first page”:”457“,“doi”:“10.3233\/978-1-61499-830-3-457”,“article-title”:“Exposome Research范围的表征:通用方法”,“volume”::“245”,“author”:“Kiossoglou”,”year“2017”,“journal-title“:”Stud.Health Technol.Inform.“}ted-by“:”publisher“,”首页“:”78“,”DOI“:”10.1186\/s13073-019-0686-y“,”article-title“:”将与临床相关的癌症生物标记物纳入CIViC数据库“,”volume“:”11“,”author“:”Lever“,”year“:”2019“,”journal-title”:“Genome Med.”},{“key”:“B13”,“first-page”:“63”,“article-title”“\u201cNLTK:the Natural Language Toolkit”,“author”:“Loper”,“year”“:”2002年“},{”key“:”B14“,”doi-asserted-by“:”publisher“,”first page“:“1530”,”doi“:”10.3233\/SHTI190519“,”article-title“:”通过主题建模和本体分析表征Exposome研究的范围“,“volume”:“264”,“author”:“Lopez-Campos”,“year”:“2019”,“journal-title”:“Stud.Health Technol.Inform.”},”{“key”:”B15“,”doi-asserted-by“”:“publisher”,“首页”:“386”,“DOI”:“10.1136\/amiajnl-2013-001772”,“文章标题”:“Exposome Informatics:设计未来生物医学研究信息系统的考虑因素”,“卷”:“21”,“作者”:“Martin Sanchez”,“年份”:“2014”,“期刊标题”:“J.Am.Med.Inform”。Assoc.“},{”key“:”B16“,”doi-asserted-by“:”publisher“,”first page“:“D908”,”doi“:”10.1093\/nar\/gkz1009“,”article-title“:”Exposome-explorer 2.0:一个包含候选饮食生物标记物和饮食与癌症风险关联的更新“,”volume“:48”,“author”:“Neveu”,“year”:“2020”,“journal-title”:“核酸研究”},}“key”:“B17”,“doi-asserted-by“:”publisher“,”first page“:”D979“,”doi“:”10.1093\/nar\/gkw980“,”article-title“:”Exposome-explorer:关于暴露于饮食和环境因素的生物标记物的手册化数据库“,”volume“:“”2825“,”DOI“:”10.5555\/1953048.2078195“,”article-title“:”Scikit-learn:机器学习python“,”volume“:”12“,”author“:”Pedregosa“,”year“:”2011“,”journal-title”:“J.Machine learn。Res.“},{”key“:”B19“,”first page“:“727”,”article-title“:”用于选择文章进行Medline索引的高回忆分类器“,”volume“:‘2019’,”author“:”Rae“,”year“:”2019“,“journal-title”:“AMIA Annul.Symp.Proc.”},}“key”:“B20”,”doi-asserted-by“:”publisher“,”首页“:”163“,“doi”:“10.1142\/s0219720010004562”,“”文章标题“:”Calbc Silver Standard语料库“,“volume”:“8”,“author”:“Rebholz-Schhmann”,“year”:“2010”,“journal title”:“J.Bioninform”。计算。生物学。“},{“key”:“B21”,“首页”:“318”,“article-title”:“并行分布式处理:认知微观结构的探索,第1卷”,“author”:“Rumelhart”,“year”:“1986”},“key“:”B22“,“first-page”:“1487”,“article-title”:“人类表型-基因关系的银标准语料库”,“author”:“Sousa”,“年份”:“2019”}doi-asserted-by“:”publisher“,”first page“:”bav008“,“doi”:“10.1093\/database\/bav008”,“article-title”:“Mycoclap,真菌来源木质纤维素活性蛋白特征数据库:资源和文本挖掘策展支持”,“volume”:“2015”,“author”:“Strasser”,“year”:“2015.”,“journal-title“:”database(Oxford)“},{”key“:“B24”,“doi-asserted-by“:”publisher“,”first page“:”463“,”doi“:”10.1097\/coh.0b013e32833ed177“,“article-title”:“什么是生物标记物?”?“,”卷“:”5“,”作者“:”Strimbu“,”年份“:”2010“,”期刊标题“:”货币。操作。HIV AIDS“},{“key”:“B25”,“doi-asserted-by”:“publisher”,“first page”:”1287“,“doi”:“10.1158\/1055-9965.epi-04-0827”,“article-title”:“尿糖和果糖作为糖消费的生物标志物”,“volume”::“14”,“author”:“Tasevska”,“year”:“2005”,“journal-title“:”癌症流行。生物标志物流行“}“”注意你所需要的”,“author”:“Vaswani”,“year”:“2017”},{“key”:“B27”,“doi-asserted-by”:“publisher”,“first page”:”167“,“doi”:“10.1093\/biomet\/54.1-2.167”,“article-title”:“事件概率作为几个独立变量的函数的估计”,“volume”:第54页,“auther”:B28“,”doi-asserted-by“:”publisher“,”first page“:”241“,”doi“:”10.1016\/s0893-6080(05)80023-1“,”article-title“:”Stacked Generalization“,”volume“:“5”,”author“:”Wolpert“,”year“:”1992“,”journal title“:“Neural networks”},{“key”:“B29”,“article-title”:“Na\u00efve Bayes的最优性”,“author”:“Zhang”,“year”:“2004”}],“集装箱标签”:[“研究指标和分析前沿“],”original-title“:[],”link“:[{”URL“:”https:\/\/www.frontiersin.org\/articles\/10.3389\/frma.2021.689264\/full“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2021,8,19]],”date-time“:“2021-08-19T11:21:17Z”,“timestamp“:1629372077000},”score“:1,”resource“:{“primary”:{”URL“:”https:\/\/www.frontiersin.org\/articles\/10.3389\/frma.2021.689264\/full“}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[2021,8,19]]},《references-count》:29,“alternative-id”:[“10.3389\/frma.2021.68969264”],“URL”:“http:”\/\/dx.doi.org\/10.3389 \/frma.2021.689264“,”关系“:{“has-preprint“:[{”id-type“:”doi“,”id“:”10.1101\/2020.12.0423685“,”asserted-by“:”object“}]},”ISSN“:[”2504-0537“],”ISSN-type“:[}”value“:”2504-037“,”type“:”electronic“}],”subject“:【】,”published“:{”date-parts“:[2021,8,19]]}}}}