研究论文

重新审视开源软件系统中重新打开的错误

作者：
安库尔·塔格拉

加拿大安大略省金斯顿市皇后大学软件分析与智能实验室（SAIL）

加拿大安大略省金斯顿市皇后大学软件分析与智能实验室（SAIL）
查看个人资料

,
张浩翔

加拿大安大略省金斯顿市华为软件卓越中心

加拿大安大略省金斯顿市华为软件卓越中心

http://orcid.org/00000-0002-3921-1724
查看个人资料

,
戈皮·克里希南·拉杰巴哈杜尔（Gopi Krishnan Rajbahadur）

加拿大安大略省金斯顿市华为软件卓越中心

加拿大安大略省金斯顿市华为软件卓越中心
查看个人资料

,
艾哈迈德·哈桑

加拿大安大略省金斯顿市皇后大学软件分析与智能实验室（SAIL）

加拿大安大略省金斯顿市皇后大学软件分析与智能实验室（SAIL）
查看个人资料

经验软件工程第27卷第4版2022年7月https://doi.org/10.1007/s10664-022-0133-6

出版：2022年7月1日出版历史

经验软件工程

摘要

重新打开的错误会降低软件系统的整体质量，因为它们需要开发人员进行不必要的返工。此外，重新发现的错误也会导致最终用户对软件质量失去信任。因此，预测可能重新打开的错误对软件开发人员避免返工非常有帮助。以前关于重新打开的缺陷预测的研究只关注三个开源项目（即Apache、Eclipse和OpenOffice），以生成见解。我们发现三个项目中有一个（即Apache）存在数据泄漏问题，即重新打开的作为训练数据，用于预测重新打开的错误。此外，以前的研究使用过时的预测模型管道（即使用构建预测模型的旧技术）来预测重新打开的错误。因此，我们使用SMOTE、置换重要性等现代技术以及7种不同的机器学习模型，对JIRA跟踪的47个项目组成的大规模数据集重新进行了错误研究。我们使用混合方法（即定量和定性研究）研究重新打开的错误。我们发现：1）在使用更新的重新打开的错误预测模型管道后，只有34%的项目在AUC方面表现出可接受的性能 $\geq$ 0.7. 2）错误重新打开有四个主要原因，即技术（即修补程序/集成问题）、文档、人为（即错误评估导致的）以及错误报告中未显示的原因。3）在AUC可接受的项目中，94%的重新打开的错误是由于在错误重新打开之前发现的修补程序问题（即使用错误的修补程序）造成的。我们的研究重新审视了重新打开的bug，并为开发人员的bug重新打开活动提供了新的见解。

工具书类

Agrawal A，Fu W，Chen D，Shen X，Menzies T（2019）《如何“回避”复杂的软件分析》。IEEE软件工程学报（TSE’19），第1-13页谷歌学者
Agrawal A，Menzies T（2018）“更好的数据”比“更好的挖掘者”更好吗？。在：2018年IEEE/ACM第40届软件工程国际会议（ICSE'18）。IEEE，第1050–1061页谷歌学者
Al Dallal J公司莫拉斯卡S使用内部质量属性预测面向对象的类重用倾向Empir软件工程（EMSE’14）20141947758212007年10月10日/10664-012-9239-3谷歌学者数字图书馆
阿尔特曼A托洛什利砂光机OLengauer T公司置换重要性：一种修正的特征重要性度量生物信息学201026101340134710.1093/生物信息学/btq134谷歌学者数字图书馆
Anvik J、Hiew L、Murphy GC（2006）谁应该修复此错误？。摘自：第28届软件工程国际会议记录（ICSE’06），第361–370页谷歌学者
Arellano AV（2019）使用公共媒体文本挖掘进行流行病监测。北卡罗来纳州立大学谷歌学者
阿尔茨坦R波西奥·M计算语言学的代码间协议计算机语言学家200834455559610.1162/coli.07-034-R2谷歌学者数字图书馆
贝克勒DTThumser ZC公司斯科菲尔德JS马拉斯科PD基于评估者的测试的可靠性：使用模拟构造模型确定上下文相关的协议阈值BMC医学研究方法201818111210.1186/s12874-018-0606-7谷歌学者交叉引用
Biggers LR公司波科维奇CCapshaw R公司埃迪BPEtzkorn左侧卡夫不适用配置基于潜在dirichlet分配的特征位置Empir软件工程（EMSE’14）201419三4655002007年10月10日/10664-012-9224-x谷歌学者数字图书馆
Bortis G，Van Der Hoek A（2013）Porchlight：一种基于标签的漏洞测试方法。2013年第35届国际软件工程会议（ICSE）。IEEE，第342–351页谷歌学者
Bosblaugh S（2012）《简单统计：桌面快速参考》。O'Reilly Media公司。谷歌学者
Caglayan B、Misirli AT、Miranskyy A、Turhan B、Bener A（2012）重新开放问题的特征因素：案例研究。摘自：第八届软件工程预测模型国际会议论文集，第1-10页谷歌学者
Cerda P公司瓦罗佐G凯格尔B脏分类变量学习的相似编码马赫数学习20181078-101477149438352752007年10月10日/10994-018-5724-2谷歌学者数字图书馆
查克拉波蒂D埃尔扎卡H用于建筑性能模拟的先进机器学习技术：比较分析J构建执行模拟201912219320710.1080/19401493.2018.1498538谷歌学者交叉引用
内华达州查拉鲍耶KW霍尔LOKegelmeyer可湿性粉剂SMOTE：合成少数人过采样技术J Artif智能研究200216321357994.6812810.1613/jair.953谷歌学者交叉引用
Chen D，Fu W，Krishna R，Menzies T（2018）《心理科学在可操作分析中的应用》。摘自：第26届ACM欧洲软件工程联合会议会议记录和软件工程基础研讨会，第456–467页谷歌学者
科拉扎A迪马蒂诺S马吉奥五世Scanniello G公司体系结构恢复背景下软件集群的词汇信息权重Empir软件工程（EMSE’16）2016211721032007年10月10日/10664-014-9347-3谷歌学者数字图书馆
科尔宾·吉咪施特劳斯A扎根理论研究：程序、规范和评估标准定性社会学1990131三212007年10月10日/BF00988593谷歌学者交叉引用
达科斯塔da麦金托什S特劳德CKulesza U型哈桑AE快速发布周期对固定问题集成延迟的影响Empir Softw Eng（2018年EMSE）20182328359042007年10月10日/10664-017-9548-7谷歌学者数字图书馆
Denny M，Spirling A（2017）《无监督学习的文本预处理：为什么重要，何时误导，以及如何应对》（2017年9月27日）谷歌学者
Fu W公司孟席斯T沈X软件分析调整：真的有必要吗？Inf Softw Technol公司20167613514610.1016/j.infsof.2016.04.017谷歌学者数字图书馆
Ghotra B、McIntosh S、Hassan AE（2015）《重新审视分类技术对缺陷预测模型性能的影响》。2015年IEEE/ACM第37届IEEE软件工程国际会议（ICSE’15），第1卷。IEEE，第789–800页谷歌学者
Ghotra B、McIntosh S、Hassan AE（2017）关于特征选择技术对缺陷分类模型影响的大规模研究。在：2017年IEEE/ACM第14届采矿软件存储库国际会议（MSR'17）。IEEE，第146-157页谷歌学者
Guo PJ，Zimmermann T，Nagappan N，Murphy B（2010）《描述和预测哪些错误得到修复：微软窗口的实证研究》。In:第32届ACM/IEEE软件工程国际会议（ICSE’10）会议记录-第1卷，第495-504页谷歌学者
Guo PJ、Zimmermann T、Nagappan N、Murphy B（2011）“不是我的错误！”以及软件错误报告重新分配的其他原因。摘自：ACM 2011年计算机支持的合作工作会议记录，第395-404页谷歌学者
Hardeniya N、Perkins J、Chopra D、Joshi N、Mathur I（2016）《自然语言处理：python和nltk》。Packt出版有限公司谷歌学者
海耶斯空军Krippendorff K公司响应对编码数据的标准可靠性度量的呼吁常用方法测量200711778910.1080/19312450709336664谷歌学者交叉引用
He H，Ma Y（2013）《非平衡学习：基础、算法和应用》。威利谷歌学者
Hébert A（2020）用机器学习估计道路事故风险。康考迪亚大学博士论文谷歌学者
赫马拉塔一世瓦尔马GPSaradhi戈瓦尔丹A预处理非正式文本以进行有效的情感分析国际J新兴趋势技术计算科学（IJETTCS）2012125861谷歌学者
Herzig K，Nagappan N（2015）使用关联规则经验检测虚假测试警报。2015年IEEE/ACM第37届IEEE软件工程国际会议（ICSE’15），第2卷。IEEE，第39–48页谷歌学者
Jalbert N，Weimer W（2008），缺陷跟踪系统的自动重复检测。2008年IEEE关于具有FTCS和DCC（DSN）的可靠系统和网络国际会议。IEEE，第52-61页谷歌学者
Jiarpakdee J、Tantithamthavorn C、Hassan AE（2019）相关指标对缺陷模型解释的影响。IEEE软件工程学报（TSE’19）谷歌学者
Jiarpakdee J、Tantithamthavorn C、Treude C（2018）《Autospearman：自动缓解解释缺陷模型的相关软件度量》。2018年IEEE软件维护和进化国际会议（ICSME’18）。IEEE计算机学会，第92–103页谷歌学者
贾帕克迪JTantithamthavorn C公司特劳德C自动特征选择技术对缺陷模型解释的影响Empir Softw Eng公司（EMSE’20）20202553590363810.1007/s10664-020-09848-1谷歌学者数字图书馆
坎南S古鲁萨米五世文本挖掘的预处理技术国际计算机科学通讯网201451716谷歌学者
考夫曼SRosset S公司Perlich C公司斯蒂尔曼O数据挖掘中的泄漏：制定、检测和避免ACM Trans Knowl发现数据（TKDD’12）2012641212014年10月14日/2382577.2382579谷歌学者数字图书馆
李·D拉贾巴哈杜尔GK林德Sayagh M公司湿疹C-PHassan AE公司流行雷艇模型特性的实证研究Empir Softw Eng公司（EMSE’20）2020255339634292007年10月10日/10664-020-09840-9谷歌学者数字图书馆
莱斯曼S贝森B梅斯CPietsch S公司软件缺陷预测的基准分类模型：一个提议的框架和新发现IEEE Trans Softw Eng（2008年TSE）200834448549610.1109/TSE.2008.35谷歌学者数字图书馆
Li H，Shang W，Adams B，Sayagh M，Hassan AE（2020）从开发商的角度对伐木效益和成本进行定性研究。IEEE软件工程学报（TSE’20）谷歌学者
立顿ZC模型可解释性的神话排队201816三315710.1145/3236386.3241340谷歌学者数字图书馆
马尔霍特拉R卡纳·M基于非平衡数据的软件变更预测实证研究Empir Softw Eng（2017年EMSE）2017226280628512007年10月10日/10664-016-9488-7谷歌学者数字图书馆
麦金托什SKamei Y公司亚当斯B哈桑AE现代代码评审实践对软件质量影响的实证研究Empir软件工程（EMSE’16）2016215214621892007年10月10日/10664-015-9381-9谷歌学者数字图书馆
麦克米兰C格雷切尼克M波西瓦尼克DFu C公司谢Q示例：用于查找高度相关应用程序的源代码搜索引擎IEEE Trans Softw Eng（TSE’11）20113851069108710.1109/TSE.2011.84谷歌学者数字图书馆
Méndez JR，Iglesias EL，Fdez-Riverola F，Díaz F，Corchado JM（2005），反垃圾邮件过滤域上的标记、词干和停止词删除。在：西班牙人工智能协会会议。施普林格，第449–458页谷歌学者
Meyer TA、Whateley B（2004）Spambayes：有效的开源、基于贝叶斯的电子邮件分类系统。。收件人：CEAS。Citeser公司谷歌学者
Mi Q，Keung J（2016）基于开源项目的重新打开的错误的实证分析。摘自：《第20届软件工程评估与评估国际会议论文集》，第1-10页谷歌学者
米QKeung J（强生）霍毅门萨S并非所有重新打开的错误都是负面的：对eclipse错误报告的案例研究Inf Softw Technol公司201899939710.1016/j.infsof.2018.03.006谷歌学者数字图书馆
莫拉斯卡S拉瓦扎L基于ROC曲线的软件缺陷预测模型评估Empir Softw Eng公司（EMSE’20）2020255397740192007年10月10日/10664-020-09861-4谷歌学者数字图书馆
Murphy G，Cubranic D（2004）使用文本分类进行自动错误分类。摘自：《第十六届软件工程与知识工程国际会议论文集》，Citeser，第1-6页谷歌学者
Nyamawe公司刘浩牛N乌默尔Q牛Z基于功能请求的软件重构建议Empir Softw Eng公司（EMSE’20）2020255431543472007年10月10日/10664-020-09871-2谷歌学者数字图书馆
Rajbahadur GK，Wang S，Ansaldi G，Kamei Y，Hassan AE（2021）特征重要性方法对缺陷分类器解释的影响。IEEE软件工程学报（TSE’21）谷歌学者
Rajbahadur GK，Wang S，Kamei Y，Hassan AE（2017）使用回归模型构建缺陷分类器的影响。2017年IEEE/ACM第14届国际采矿软件库会议（MSR’17）。IEEE，第135–145页谷歌学者
Rajbahadur GK，Wang S，Kamei Y，Hassan AE（2019）因变量离散化噪声对软件工程中机器学习分类器的影响。IEEE Trans-Softw Eng（TSE’19）：1–18谷歌学者
Rakha MS公司湿疹C-PHassan AE公司重新评估检索重复问题报告的自动化方法的性能IEEE Trans Softw Eng（2017年TSE）201744121245126810.1109/TSE.2017.2755005谷歌学者数字图书馆
罗德里格斯-佩雷斯G罗伯斯·G塞雷布雷尼克A扎伊德曼AGermanán DM公司冈萨雷斯-巴拉霍纳JM错误是如何产生的：一个识别错误是如何引入软件组件的模型Empir Softw Eng公司（EMSE’20）2020252129413402007年10月10日/10664-019-09781-y谷歌学者交叉引用
萨哈RK库尔希德S德国佩里了解长期存在的错误的分类和修复过程Inf Softw Technol公司20156511412810.1016/j.infsof.2015.03.002谷歌学者数字图书馆
Scikit learn（2020）调整估计器的超参数。https://scikit-learn.org/stable/modules/grid_search.html#grid-搜索，[在线；2020年6月8日访问]谷歌学者
Scoccia GL，Autili M（2020）桌面应用程序的Web框架：一项探索性研究。摘自：第14届ACM/IEEE国际经验软件工程与测量研讨会（ESEM'20）会议记录，第1-6页谷歌学者
Shihab E、Ihara A、Kamei Y、Ibrahim WM、Ohira M、Adams B、Hassan AE、Matsumoto K-（2010）《预测再次开放的错误：月食项目的案例研究》。2010年第17届逆向工程工作会议。IEEE，第249-258页谷歌学者
什哈布语E伊哈拉A龟井Y易卜拉欣WMOhira M公司亚当斯B哈桑AE松本基研究开源软件中重新打开的错误Empir Softw Eng（2013年EMSE）2013185100510422007年10月10日/10664-012-9228-6谷歌学者交叉引用
Somasundaram K，Murphy GC（2012）使用潜在dirichlet分配自动分类错误报告。摘自：第五届印度软件工程会议记录，第125-130页谷歌学者
歌曲F刘S杨杰（Yang J）文本分类中文本表示方法的比较研究模式分析和应用200581-2199209219627310.1007/s10044-005-0256-3谷歌学者
Srividhya五世安妮莎·R文本分类中预处理技术的评价国际计算机科学应用杂志201047114951谷歌学者
Stolberg S（2009）通过持续集成实现敏捷测试。2009年敏捷大会。IEEE，第369–374页谷歌学者
Tantithamthavorn C、Hassan AE、Matsumoto K（2018）类别再平衡技术对缺陷预测模型性能和解释的影响。IEEE软件工程学报（TSE’18）谷歌学者
Tantithamthavorn C，McIntosh S，Hassan AE，Matsumoto K（2016）缺陷预测模型分类技术的自动参数优化。摘自：第38届国际软件工程会议（ICSE’16），第321–332页谷歌学者
碳含量麦金托什S哈桑AE松本K缺陷预测模型的模型验证技术的实证比较IEEE Trans Softw Eng（2016年TSE）2016431118谷歌学者数字图书馆
Tian Y，Sun C，Lo D（2012）改进了重复错误报告识别。收录：2012年第16届欧洲软件维护和重组会议。IEEE，第385–390页谷歌学者
Tian Y，Wijedasa D，Lo D，Le Goues C（2016）学习为错误报告受让人推荐排名。2016年IEEE第24届程序理解国际会议（ICPC’16）。IEEE，第1-10页谷歌学者
涂F，朱军，郑Q，周M（2018）《当心何时：与时间相关的问题跟踪数据滥用的实证研究》。在：2018年第26届ACM欧洲软件工程联席会议和软件工程基础研讨会论文集，第307–318页谷歌学者
Turabieh H公司Mafarja M公司李X软件故障预测的分层递归神经网络迭代特征选择算法专家系统应用201912227422016年10月10日/j.eswa.2018.12.033谷歌学者数字图书馆
尤萨尔AKGunal S公司预处理对文本分类的影响Inf流程管理201450110411210.1016/j.ipm.2013.08.006谷歌学者数字图书馆
瓦萨洛C帕尼切拉S帕隆巴FProksch S公司加仑HC扎伊德曼A开发人员如何在不同的环境中使用静态分析工具Empir Softw Eng公司（EMSE’20）2020252141914572007年10月10日/10664-019-09750-5谷歌学者交叉引用
Vieira R、da Silva A、Rocha L、Gomes JP（2019）从报告到bug-fix提交：来自55个apache开源项目的10年bug-fixing活动数据集。摘自：《第十五届软件工程预测模型和数据分析国际会议论文集》，第80–89页谷歌学者
Webb JK公司凯勒KA韦尔·KAllender MC公司大火烈鸟（phoenicopterus roseus）足跖炎评分模型的个体间和个体内一致性评估动物园野生动物医学杂志202051237938410.1638/2019-0219谷歌学者
夏X低D丁·YAl-Kofahi吉咪Nguyen田纳西州王X使用专门的主题模型改进自动错误分类IEEE Trans Softw Eng（2016年TSE）201643三27229710.1109/TSE.2016.2576454谷歌学者数字图书馆
夏X低D希哈布E王X周B自动、高精度地预测重新打开的错误自动软件工程（ASE’15）2015221751092007年10月10日/10515-014-0162-2谷歌学者数字图书馆
Xia X，Lo D，Wang X，Yang X，Li S，Sun J（2013）用于重新打开错误预测的监督学习算法的比较研究。摘自：2013年第17届欧洲软件维护和再工程会议。IEEE，第331–334页谷歌学者
Xia X，Lo D，Wang X，Zhou B（2013）针对错误解决的准确开发人员建议。2013年第20届逆向工程工作会议（WCRE）。IEEE，第72–81页谷歌学者
Xia X，Lo D，Wen M，Shihab E，Zhou B（2014）错误报告字段重新分配的实证研究。2014年软件进化周——IEEE软件维护、再工程和逆向工程会议（CSMR-WCRE’14）。IEEE，第174-183页谷歌学者
宣J姜浩胡毅任Z邹伟罗Z吴X利用软件数据简化技术实现有效的错误分类IEEE Trans Knowl数据工程201427126428010.1109/TKDE.2014.2324590谷歌学者
Xuan J，Jiang H，Ren Z，Zou W（2012）开发人员在错误库中的优先级。2012年第34届国际软件工程会议（ICSE’12）。IEEE，第25-35页谷歌学者
雅达夫A辛格SK苏里JS基于缺陷分类专业知识得分的软件开发人员排名Inf Softw Technol公司201911211710.1016/j.infsof.2019.03.014谷歌学者数字图书馆
Yatish S，Jiarpakdee J，Thongtanunam P，Tanthithavorn C（2019）挖掘软件缺陷：我们应该考虑受影响的版本吗？。参见：IEEE/ACM第41届国际软件工程会议（ICSE’19）。IEEE，第654-665页谷歌学者
曾毅，蒋可，陈杰（2019）利用深度卷积神经网络进行地震盐自动解释。摘自：第三届信息系统和数据挖掘国际会议记录，第16-20页谷歌学者
Zhang H，Wang S，Chen T-H，Hassan AE（2020）关于堆栈溢出的评论是否组织得很好，便于开发人员检索？ACM Trans Softw Eng Methodol公司（TOSEM’20）29谷歌学者
Zhang H，Wang S，Chen T-H，Zou Y，Hassan AE（2019）关于堆栈溢出过时答案的实证研究。IEEE软件工程学报（TSE’19）谷歌学者
Zheng A，Casari A（2018）《机器学习的特征工程：数据科学家的原理和技术》。O'Reilly Media公司。谷歌学者
Zimmermann T，Nagappan N，Guo PJ，Murphy B（2012）描述和预测哪些漏洞会重新打开。2012年：第34届国际软件工程会议（ICSE’12）。IEEE，第1074–1083页谷歌学者

建议

基于开源项目的重开漏洞实证分析
EASE’16：第20届软件工程评估国际会议论文集

背景：修复错误是一项长期而耗时的活动。软件错误经历了一个典型的生命周期，从新报告到最终由开发人员关闭，但由于以下原因，它可能会重新打开以进行进一步操作。。。
阅读更多信息
重新打开的错误的自动、高精度预测

错误修复是软件开发生命周期中最耗时、最昂贵的活动之一。一般来说，错误是在错误跟踪系统中报告的，由分类小组进行验证，然后指派人员进行修复，最后验证并关闭。。。
阅读更多信息
重复错误的特征：从业者的感知和实证分析
摘要
错误处理是软件开发过程的一个重要部分。理想情况下，在错误跟踪系统中，错误会被报告、修复、验证和关闭。在某些情况下，错误必须重新打开，主要是因为修复不正确。然而，不是。。。

我们的研究调查了唯一错误和重复错误之间的差异，并将重复错误进一步分类为主未解决错误（类别-1）和错过重新打开错误（类别-2）。通过对错误报告的调查，我们发现重复项多达。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

经验软件工程第27卷第4期
2022年7月
848页
国际标准编号：1382-3256
期刊目录

©作者，经Springer Science+Business Media，LLC独家许可，隶属于Springer Nature 2022
赞助商
合作中
出版商
Kluwer学术出版社
美国
出版历史
- 出版：2022年7月1日
- 认可的：2022年2月16日
作者标记
Bug报告
重新打开的错误
数据质量
开源软件
模型解释
限定符
- 研究论文
会议
资金来源
其他指标
查看文章指标

文章指标
- 5
  引文总数
  查看引文
- 0
  总下载次数
- 下载量（最近12个月）0
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
查看全部

重新审视开源软件系统中重新打开的错误

经验软件工程

摘要

摘要

工具书类

引用人

建议

基于开源项目的重开漏洞实证分析

重新打开的错误的自动、高精度预测

重复错误的特征：从业者的感知和实证分析

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

数字版

解说词

重新审视开源软件系统中重新打开的错误

经验软件工程

摘要

摘要

工具书类

引用人

建议

基于开源项目的重开漏洞实证分析

重新打开的错误的自动、高精度预测

重复错误的特征：从业者的感知和实证分析

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

作者标记

限定符

会议

资金来源

文章指标

其他指标

数字版

共享此出版物链接

在社交媒体上分享