袁伟哲;刘鹏飞;格雷厄姆·纽比格 我们能实现科学审查的自动化吗? (英语) Zbl 07603111号 J.阿蒂夫。智力。研究(JAIR) 75, 171-212 (2022). 摘要:科学技术的快速发展伴随着同行评审的科学出版物呈指数级增长。同时,每一篇论文的审查都是一个费力的过程,必须由主题专家进行。因此,为越来越多的论文提供高质量的评论是一项重大挑战。在这项工作中,我们提出了以下问题“我们能自动化科学审查吗?”,讨论了使用自然语言处理(NLP)模型为科学论文生成同行评论的可能性。因为首先定义什么是“好的”审查并不简单,所以我们首先讨论可用于判断此任务成功与否的可能评估指标。然后,我们将重点放在机器学习领域,收集该领域中的论文数据集,用每次评论中涵盖的内容的不同方面对其进行注释,并训练有针对性的摘要模型,这些模型将论文作为输入并生成评论作为输出。测试集上的综合实验结果表明,虽然系统生成的评论是综合的,与人写评论相比,涉及论文的更多方面,生成的文本是建设性较差和不太真实除了对论文核心思想的解释之外,所有方面都比人写评论好,这些核心思想在很大程度上是正确的。鉴于这些结果,我们提出八追求一个好的评论生成系统所面临的挑战以及潜在的解决方案,希望这将激发未来在这个方向上的更多研究。我们公开相关资源供未来研究使用:https://github.com/neula/ReviewAdvisor此外,虽然我们的结论是,该技术尚未准备好用于高风险审查设置,但我们提供了一个系统演示,审查顾问(http://review.nlpedia.ai/),显示了最先进的NLP模型在此任务中的当前功能和故障(参见A.2中的演示屏幕截图)。A.1中提供了对本文提出的系统编写的本文的回顾。 MSC公司: 68泰克 人工智能 关键词:自然语言;神经网络;机器学习 软件:审查顾问;GPT-3级;BERT(误码率);SciBERT公司;亚当;SummaRuNNer公司;BERTS核心;GSum公司;捷运局;SciREX公司;维基Asp;审查机器人;领域;TLDR公司;ScisummNet公司;张紧器2传感器 PDF格式BibTeX公司 XML格式引用 \textit{W.Yuan}等人,J.Artif。智力。研究(JAIR)75,171--212(2022;Zbl 07603111) 全文: DOI程序 arXiv公司 参考文献: [1] Angelidis,S.和Lapata,M.(2018年)。总结意见:方面提取满足情感预测,且监管较弱。2018年会议记录 [2] Anjum,O.、Gong,H.、Bhat,S.、Hwu,W.-M.和Xiong,J.(2019年)。PaRe:使用公共主题空间的纸质阅读器匹配方法。2019年会议记录 [3] August,T.、Kim,L.、Reinecke,K.和Smith,N.A.(2020年)。科学传播的写作策略:数据和计算分析。2020年会议记录 [5] Beltagy,I.、Lo,K.和Cohan,A.(2019年)。Scibert:科学文本的预处理语言模型。arXiv预打印arXiv:1903.10676。 [6] Bolukbasi,T.、Chang,K.-W.、Zou,J.、Saligrama,V.和Kalai,A.(2016)。男人对电脑程序员来说就像女人对家庭主妇一样?去除单词嵌入。。 [7] Bornmann,L.和Mutz,R.(2015)。现代科学的增长率:基于出版物和引用文献数量的文献计量分析。信息科学与技术协会杂志,66(11),2215-2222。 [8] Brown,T.B.、Mann,B.、Ryder,N.、Subbiah,M.、Kaplan,J.、Dhariwal,P.、Neelakantan,A.、Shyam,P.,Sastry,G.、Askell,A.等人(2020年)。语言模型的学习者很少。 [9] Cachola,I.、Lo,K.、Cohan,A.和Weld,D.(2020a)。TLDR:对科学文献的极端总结。计算语言学协会的调查结果: [10] Cachola,I.、Lo,K.、Cohan,A.和Weld,D.S.(2020b)。Tldr:对科学文献的极端概括。ArXiv,abs/2004.15011。 [11] Chakraborty,S.、Goyal,P.和Mukherjee,A.(2020年)。基于方面的科学评论情绪分析。arXiv预印本arXiv:2006.03257。 [12] Chen,Y.-C.和Bansal,M.(2018年)。快速抽象摘要和强化选择句子改写。协会第56届年会会议记录 [13] Cohan,A.、Dernoncourt,F.、Kim,D.S.、Bui,T.、Kim,S.、Chang,W.和Goharian,N.(2018a)。基于篇章意识的long抽象概括注意模型 [14] Cohan,A.,Dernoncourt,F.,Kim,D.S.,Bui,T.,Kin,S.,Chang,W.,&Goharian,N.(2018b)。一种用于长篇摘要的语篇意识注意模型 [15] Cohan,A.和Goharian,N.(2017年)。使用引文和文章的话语结构进行科学文章摘要。arXiv预印本arXiv:1704.06619。 [16] De Bellis,N.(2009)。文献计量学和引文分析:从科学引文索引到网络计量学。稻草人压榨机。 [17] Devlin,J.、Chang,M.-W.、Lee,K.和Toutanova,K.(2019年)。伯特:深度双向变形金刚的语言理解预训练。2019年会议记录 [18] Dou,Z.-Y.,Liu,P.,Hayashi,H.,Jiang,Z.,&Neubig,G.(2020年)。Gsum:引导神经抽象总结的一般框架。arXiv预印本arXiv:2010.08014。 [19] Efron,B.(1992年)。引导方法:再次审视折刀。《统计学突破》,第569-593页。斯普林格。 [20] Erera,S.、Shmueli-Scheuer,M.、Feigenblat,G.、Nakash,O.、Boni,O.,Roitman,H.、Cohen,D.、Weiner,B.、Mass,Y.、Rivlin,O.和Lev,G.,Jerbi,A.、Herzig,J.、Hou,Y.,Jochim,C.、Gleize,M.,Bonin,F.和Konopnicki,D.(2019年)。科学文献的摘要系统。InEMNLP/IJCNLP。 [21] Feigenblat,G.、Roitman,H.、Boni,O.和Konopnicki,D.(2017年)。使用交叉熵方法的无监督的以查询为中心的多文档摘要。在的诉讼中 [22] Frermann,L.和Klementiev,A.(2019年)。为基于方面的摘要归纳文档结构。《计算语言学协会第57届年会会议记录》,第6263-6273页,意大利佛罗伦萨。计算语言学协会。 [23] Gao,Y.、Eger,S.、Kuznetsov,I.、Gurevych,I.和Miyao,Y。(2019年)。我的反驳重要吗?NLP主要会议的见解。2019年会议记录 [24] Gehrmann,S.、Deng,Y.和Rush,A.(2018年)。自下而上的抽象总结。2018年自然语言处理实证方法会议论文集, [25] Guu,K.、Lee,K.,Tung,Z.、Pasupat,P.和Chang,M.-W.(2020年)。领域:检索增强语言模型预处理。arXiv预打印arXiv:2002.08909。 [26] Hayashi,H.、Budania,P.、Wang,P.,Ackerson,C.、Neervannan,R.和Neubig,G.(2020年)。Wikiasp:用于基于方面的多域摘要的数据集。计算语言学协会学报。 [27] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》,第770-778页。 [28] Hermann,K.M.、Kocisky,T.、Grefenstette,E.、Espeholt,L.、Kay,W.、Suleyman,M.和Blunsom,P.(2015)。教机器阅读和理解。预付款 [29] Hou,Y.、Jochim,C.、Gleize,M.、Bonin,F.和Ganguly,D.(2019年)。为科学排行榜构建确定任务、数据集、评估指标和数字分数。计算协会第57届年会会议记录 [30] Huang,J.-B.(2018)。深纸格式。arXiv预印本arXiv:1812.08775。 [31] Jain,S.、van Zuylen,M.、Hajishirzi,H.和Beltagy,I.(2020年)。SciREX:用于文档级信息提取的挑战数据集。第58届年度会议记录 [32] Jecmen,S.、Zhang,H.、Liu,R.、Shah,N.B.、Conitzer,V.和Fang,F.(2020年)。通过随机评审分配缓解同行评审中的操纵。arXiv预印本 [33] Jefferson,T.、Alderson,P.、Wager,E.和Davidoff,F.(2002a)。编辑同行评议的影响:系统性评议。贾马,287(21),2784-2786。 [34] Jefferson,T.、Wager,E.和Davidoff,F.(2002b)。衡量编辑同行评审的质量。贾马,287(21),2786-2790。 [35] Jha,R.、Abu-Jbara,A.和Radev,D.(2013)。从关键字开始总结科学主题的系统。计算语言学协会第51届年会论文集(第2卷:短文),第572-577页,保加利亚索非亚。 [36] Jha,R.、Coke,R.和Radev,D.R.(2015a)。测量员:为科学主题生成连贯的调查文章的系统。在Bonet,B.和Koenig,S.(编辑),《 [37] Jha,R.、Finegan-Dollak,C.、King,B.、Coke,R.和Radev,D.(2015b)。调查生成的内容模型:基于事实的评估。第53届年度会议记录 [38] Jin,J.、Geng,Q.、Zhao,Q.和Zhang,L.(2017)。整合审稿人任务的研究兴趣趋势。第26届世界问题国际会议记录 [39] Kang,D.、Ammar,W.、Dalvi,B.、van Zuylen,M.、Kohlmeier,S.、Hovy,E.和Schwartz,R.(2018)。同行评议(peerread)数据集:收集、见解和nlp应用程序。 [40] Kingma,D.和Ba,J.(2014年)。Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980。 [41] Koncel-Kedziorski,R.、Bekal,D.、Luan,Y.、Lapata,M.和Hajishirzi,H.(2019年)。使用图变换器从知识图生成文本。诉讼中 [42] Langford,J.和Guzdial,M.(2015)。审查的随意性,以及对学校管理人员的建议。。 [43] Lewis,M.、Liu,Y.、Goyal,N.、Ghazvininejad,M.,Mohamed,A.、Levy,O.、Stoyanov,V.和Zettlemoyer,L.(2019年)。Bart:对自然语言生成、翻译和理解进行逐个序列的去噪预训练。ArXiv,腹肌/1910.13461。 [44] Lewis,P.、Perez,E.、Piktus,A.、Petroni,F.、Karpukhin,V.、Goyal,N.、K¨uttler,H.、Lewis、M.、Yih,W.t.、Rockt¨aschel,t.等人(2020年)。知识密集型nlp任务的检索增强生成。arXiv预打印arXiv:2005.11401。 [45] Lin,C.-Y.和Hovy,E.(2003)。使用n-gram共现统计自动评估摘要。2003年人类语言技术会议论文集 [46] Lo,K.,Wang,L.L.,Neumann,M.,Kinney,R.,&Weld,D.(2020年)。S2ORC:语义学者开放研究语料库。第58届年会会议记录 [47] Luan,Y.、He,L.、Ostendorf,M.和Hajishirzi,H.(2018年)。科学知识图构建中实体、关系和参考的多任务识别 [48] Luu,K.、Koncel-Kedziorski,R.、Lo,K.,Cachola,I.和Smith,N.A.(2020年)。引文生成。ArXiv,abs/2002.00317。 [49] Manzoor,E.和Shah,N.B.(2020年)。发现文本中潜在的偏见:同行评议的方法和应用。。 [50] Mohammad,S.、Dorr,B.、Egan,M.、Hassan,A.、Muthukrishan,P.、Qazvinian,V.、Radev,D.和Zajic,D.(2009年)。使用引文生成科学范式调查。人类语言技术会议录:2009年 [51] Nallapati,R.、Zhai,F.和Zhou,B.(2017)。Summarunner:一种基于递归神经网络的文档摘要序列模型。ArXiv,abs/1611.04230。 [52] Narayan,S.、Cohen,S.B.和Lapata,M.(2018年)。不要给我细节,只给我总结!用于极端总结的主题软件卷积神经网络。在2018年布鲁塞尔自然语言处理实证方法会议记录中, [53] Nguyen,J.、S´anchez-Hern´andez,G.、Agell,N.、Rovira,X.和Angulo,C.(2018)。使用订单加权平均值进行会议审查分配的决策支持工具。图案 [54] Paulus,R.、Xiong,C.和Socher,R.(2017)。一个用于抽象总结的深度强化模型。arXiv预印本arXiv:1705.04304。 [55] 乔·F、徐·L和韩·X(2018)。模块化和基于注意力的递归卷积神经网络,用于自动学术论文方面评分。InInternational [56] Radford,A.、Wu,J.、Child,R.、Luan,D.、Amodei,D.和Sutskever,I.(2019年)。语言模型是无监督的多任务学习者。OpenAI博客,1(8),9。 [57] Rae,J.W.、Potapenko,A.、Jayakumar,S.M.和Lillicrap,T.(2020)。用于远程序列建模的压缩变压器。ArXiv,abs/1911.05507。 [58] Rogers,A.和Augenstein,I.(2020)。我们可以做些什么来改进NLP中的同行评审?。计算语言学协会的调查结果:EMNLP 2020,pp。 [59] Rubinstein,R.Y.和Kroese,D.P.(2013)。交叉熵方法:组合优化、蒙特卡罗模拟和机器学习的统一方法。施普林格 [60] Smith,R.(2006)。同行评议:科学和期刊核心的一个有缺陷的过程。《皇家医学会杂志》,99,178-182。 [61] Stanovsky,G.、Smith,N.A.和Zettlemoyer,L.(2019年)。评估机器翻译中的性别偏见。《计算语言学协会第57届年会会议记录》,第1679-1684页,意大利佛罗伦萨。计算语言学协会。 [62] Stelmakh,I.、Shah,N.和Singh,A.(2019年)。关于同行评议中的偏见测试。《神经信息处理系统进展》,第5286-5296页。 [63] Subramanian,S.、Li,R.、Pilault,J.和Pal,C.(2019年)。基于transformer语言模型的提取和抽象神经文档摘要 [64] Tabah,A.N.(1999)。文献动力学:关于生长、扩散和流行病的研究。信息科学与技术年度审查(ARIST),34,249-86。 [65] Tomkins,A.、Zhang,M.和Heavlin,W.D.(2017年)。单盲与双盲同行评审中的评审员偏见。《美国国家科学院院刊》,114(48),12708-12713。 [66] Vaswani,A.、Shazeer,N.、Parmar,N.,Uszkoreit,J.、Jones,L.、Gomez,A.N.、Kaiser,L.和Polosukhin,I.(2017年)。注意力是你所需要的。神经信息处理系统进展,第5998-6008页。 [67] Von Bearnensquash,C.(2010年)。纸格式塔。计算机视觉和模式识别(CVPR)的秘密会议记录。 [68] Wadden,D.、Lin,S.、Lo,K.、Wang,L.、van Zuylen,M.、Cohan,A.和Hajishirzi,H.(2020年)。事实或虚构:验证科学主张。2020年会议记录 [69] Wang,K.,&Wan,X.(2018)。学术论文同行评议文本的情绪分析。在第41届ACM SIGIR国际研发会议上 [70] Wang,Q.,Zeng,Q.Huang,L.,K.K.,Ji,H.,&Rajani,N.F.(2020a)。评论机器人:基于知识合成的可解释论文评论生成。的诉讼 [71] Wang,Q.,Zeng,Q.Huang,L.,K.K.,Ji,H.,&Rajani,N.F.(2020b)。ReviewRobot:基于知识合成的可解释论文评论生成。诉讼程序 [72] Xiao,W.和Carenini,G.(2019年)。通过结合全局和局部上下文对长文档进行提取摘要。ArXiv,abs/1909.08089。 [73] Xing、X.、Fan、X.和Wan,X.(2020年)。学术论文中引文文本的自动生成:一项初步研究。《计算语言学协会第58届年会论文集》,第6181-6190页,在线。计算语言学协会。 [74] Xiong,W.和Litman,D.(2011)。自动预测同行评议的有用性。计算语言学协会第49届年会论文集:人类语言技术,502-507页,美国俄勒冈州波特兰 [75] Yasunaga,M.、Kasai,J.、Zhang,R.、Fabbri,A.R.、Li,I.、Friedman,D.和Radev,D.R.(2019a)。Scisummnet:用于科学的大型注释语料库和内容影响模型·Zbl 0714.65036号 [76] Yasunaga,M.、Kasai,J.、Zhang,R.、Fabbri,A.R.、Li,I.、Friedman,D.和Radev,D.R.(2019b)。Scisummnet:用于科学的大型注释语料库和内容影响模型·Zbl 0714.65036号 [77] Zhang,T.、Kishore,V.、Wu,F.、Weinberger,K.Q.和Artzi,Y.(2019年)。Bertscore:使用bert.arXiv、arXiv-1904评估文本生成。 [78] Zhao,J.、Wang,T.、Yatskar,M.、Ordonez,V.和Chang,K.-W.(2018年)。共指消解中的性别偏见:评估和去除方法。arXiv预印本arXiv:1804.06876 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。