跳到主要内容
研究论文

重新审视开源软件系统中重新打开的错误

出版:2022年7月1日出版历史
跳过抽象节

摘要

摘要

重新打开的错误会降低软件系统的整体质量,因为它们需要开发人员进行不必要的返工。此外,重新发现的错误也会导致最终用户对软件质量失去信任。因此,预测可能重新打开的错误对软件开发人员避免返工非常有帮助。以前关于重新打开的缺陷预测的研究只关注三个开源项目(即Apache、Eclipse和OpenOffice),以生成见解。我们发现三个项目中有一个(即Apache)存在数据泄漏问题,即重新打开的作为训练数据,用于预测重新打开的错误。此外,以前的研究使用过时的预测模型管道(即使用构建预测模型的旧技术)来预测重新打开的错误。因此,我们使用SMOTE、置换重要性等现代技术以及7种不同的机器学习模型,对JIRA跟踪的47个项目组成的大规模数据集重新进行了错误研究。我们使用混合方法(即定量和定性研究)研究重新打开的错误。我们发现:1)在使用更新的重新打开的错误预测模型管道后,只有34%的项目在AUC方面表现出可接受的性能0.7. 2) 错误重新打开有四个主要原因,即技术(即修补程序/集成问题)、文档、人为(即错误评估导致的)以及错误报告中未显示的原因。3) 在AUC可接受的项目中,94%的重新打开的错误是由于在错误重新打开之前发现的修补程序问题(即使用错误的修补程序)造成的。我们的研究重新审视了重新打开的bug,并为开发人员的bug重新打开活动提供了新的见解。

工具书类

  1. Agrawal A,Fu W,Chen D,Shen X,Menzies T(2019)《如何“回避”复杂的软件分析》。IEEE软件工程学报(TSE’19),第1-13页谷歌学者谷歌学者
  2. Agrawal A,Menzies T(2018)“更好的数据”比“更好的挖掘者”更好吗?。在:2018年IEEE/ACM第40届软件工程国际会议(ICSE'18)。IEEE,第1050–1061页谷歌学者谷歌学者
  3. Al Dallal J公司莫拉斯卡S使用内部质量属性预测面向对象的类重用倾向Empir软件工程(EMSE’14)20141947758212007年10月10日/10664-012-9239-3谷歌学者谷歌学者数字图书馆数字图书馆
  4. 阿尔特曼A托洛什利砂光机OLengauer T公司置换重要性:一种修正的特征重要性度量生物信息学201026101340134710.1093/生物信息学/btq134谷歌学者谷歌学者数字图书馆数字图书馆
  5. Anvik J、Hiew L、Murphy GC(2006)谁应该修复此错误?。摘自:第28届软件工程国际会议记录(ICSE’06),第361–370页谷歌学者谷歌学者
  6. Arellano AV(2019)使用公共媒体文本挖掘进行流行病监测。北卡罗来纳州立大学谷歌学者谷歌学者
  7. 阿尔茨坦R波西奥·M计算语言学的代码间协议计算机语言学家200834455559610.1162/coli.07-034-R2谷歌学者谷歌学者数字图书馆数字图书馆
  8. 贝克勒DTThumser ZC公司斯科菲尔德JS马拉斯科PD基于评估者的测试的可靠性:使用模拟构造模型确定上下文相关的协议阈值BMC医学研究方法201818111210.1186/s12874-018-0606-7谷歌学者谷歌学者交叉引用交叉引用
  9. Biggers LR公司波科维奇CCapshaw R公司埃迪BPEtzkorn左侧卡夫不适用配置基于潜在dirichlet分配的特征位置Empir软件工程(EMSE’14)2014194655002007年10月10日/10664-012-9224-x谷歌学者谷歌学者数字图书馆数字图书馆
  10. Bortis G,Van Der Hoek A(2013)Porchlight:一种基于标签的漏洞测试方法。2013年第35届国际软件工程会议(ICSE)。IEEE,第342–351页谷歌学者谷歌学者
  11. Bosblaugh S(2012)《简单统计:桌面快速参考》。O'Reilly Media公司。谷歌学者谷歌学者
  12. Caglayan B、Misirli AT、Miranskyy A、Turhan B、Bener A(2012)重新开放问题的特征因素:案例研究。摘自:第八届软件工程预测模型国际会议论文集,第1-10页谷歌学者谷歌学者
  13. Cerda P公司瓦罗佐G凯格尔B脏分类变量学习的相似编码马赫数学习20181078-101477149438352752007年10月10日/10994-018-5724-2谷歌学者谷歌学者数字图书馆数字图书馆
  14. 查克拉波蒂D埃尔扎卡H用于建筑性能模拟的先进机器学习技术:比较分析J构建执行模拟201912219320710.1080/19401493.2018.1498538谷歌学者谷歌学者交叉引用交叉引用
  15. 内华达州查拉鲍耶KW霍尔LOKegelmeyer可湿性粉剂SMOTE:合成少数人过采样技术J Artif智能研究200216321357994.6812810.1613/jair.953谷歌学者谷歌学者交叉引用交叉引用
  16. Chen D,Fu W,Krishna R,Menzies T(2018)《心理科学在可操作分析中的应用》。摘自:第26届ACM欧洲软件工程联合会议会议记录和软件工程基础研讨会,第456–467页谷歌学者谷歌学者
  17. 科拉扎A迪马蒂诺S马吉奥五世Scanniello G公司体系结构恢复背景下软件集群的词汇信息权重Empir软件工程(EMSE’16)2016211721032007年10月10日/10664-014-9347-3谷歌学者谷歌学者数字图书馆数字图书馆
  18. 科尔宾·吉咪施特劳斯A扎根理论研究:程序、规范和评估标准定性社会学1990131212007年10月10日/BF00988593谷歌学者谷歌学者交叉引用交叉引用
  19. 达科斯塔da麦金托什S特劳德CKulesza U型哈桑AE快速发布周期对固定问题集成延迟的影响Empir Softw Eng(2018年EMSE)20182328359042007年10月10日/10664-017-9548-7谷歌学者谷歌学者数字图书馆数字图书馆
  20. Denny M,Spirling A(2017)《无监督学习的文本预处理:为什么重要,何时误导,以及如何应对》(2017年9月27日)谷歌学者谷歌学者
  21. Fu W公司孟席斯T沈X软件分析调整:真的有必要吗?Inf Softw Technol公司20167613514610.1016/j.infsof.2016.04.017谷歌学者谷歌学者数字图书馆数字图书馆
  22. Ghotra B、McIntosh S、Hassan AE(2015)《重新审视分类技术对缺陷预测模型性能的影响》。2015年IEEE/ACM第37届IEEE软件工程国际会议(ICSE’15),第1卷。IEEE,第789–800页谷歌学者谷歌学者
  23. Ghotra B、McIntosh S、Hassan AE(2017)关于特征选择技术对缺陷分类模型影响的大规模研究。在:2017年IEEE/ACM第14届采矿软件存储库国际会议(MSR'17)。IEEE,第146-157页谷歌学者谷歌学者
  24. Guo PJ,Zimmermann T,Nagappan N,Murphy B(2010)《描述和预测哪些错误得到修复:微软窗口的实证研究》。In:第32届ACM/IEEE软件工程国际会议(ICSE’10)会议记录-第1卷,第495-504页谷歌学者谷歌学者
  25. Guo PJ、Zimmermann T、Nagappan N、Murphy B(2011)“不是我的错误!”以及软件错误报告重新分配的其他原因。摘自:ACM 2011年计算机支持的合作工作会议记录,第395-404页谷歌学者谷歌学者
  26. Hardeniya N、Perkins J、Chopra D、Joshi N、Mathur I(2016)《自然语言处理:python和nltk》。Packt出版有限公司谷歌学者谷歌学者
  27. 海耶斯空军Krippendorff K公司响应对编码数据的标准可靠性度量的呼吁常用方法测量200711778910.1080/19312450709336664谷歌学者谷歌学者交叉引用交叉引用
  28. He H,Ma Y(2013)《非平衡学习:基础、算法和应用》。威利谷歌学者谷歌学者
  29. Hébert A(2020)用机器学习估计道路事故风险。康考迪亚大学博士论文谷歌学者谷歌学者
  30. 赫马拉塔一世瓦尔马GPSaradhi戈瓦尔丹A预处理非正式文本以进行有效的情感分析国际J新兴趋势技术计算科学(IJETTCS)2012125861谷歌学者谷歌学者
  31. Herzig K,Nagappan N(2015)使用关联规则经验检测虚假测试警报。2015年IEEE/ACM第37届IEEE软件工程国际会议(ICSE’15),第2卷。IEEE,第39–48页谷歌学者谷歌学者
  32. Jalbert N,Weimer W(2008),缺陷跟踪系统的自动重复检测。2008年IEEE关于具有FTCS和DCC(DSN)的可靠系统和网络国际会议。IEEE,第52-61页谷歌学者谷歌学者
  33. Jiarpakdee J、Tantithamthavorn C、Hassan AE(2019)相关指标对缺陷模型解释的影响。IEEE软件工程学报(TSE’19)谷歌学者谷歌学者
  34. Jiarpakdee J、Tantithamthavorn C、Treude C(2018)《Autospearman:自动缓解解释缺陷模型的相关软件度量》。2018年IEEE软件维护和进化国际会议(ICSME’18)。IEEE计算机学会,第92–103页谷歌学者谷歌学者
  35. 贾帕克迪JTantithamthavorn C公司特劳德C自动特征选择技术对缺陷模型解释的影响Empir Softw Eng公司(EMSE’20)20202553590363810.1007/s10664-020-09848-1谷歌学者谷歌学者数字图书馆数字图书馆
  36. 坎南S古鲁萨米五世文本挖掘的预处理技术国际计算机科学通讯网201451716谷歌学者谷歌学者
  37. 考夫曼SRosset S公司Perlich C公司斯蒂尔曼O数据挖掘中的泄漏:制定、检测和避免ACM Trans Knowl发现数据(TKDD’12)2012641212014年10月14日/2382577.2382579谷歌学者谷歌学者数字图书馆数字图书馆
  38. 李·D拉贾巴哈杜尔GK林德Sayagh M公司湿疹C-PHassan AE公司流行雷艇模型特性的实证研究Empir Softw Eng公司(EMSE’20)2020255339634292007年10月10日/10664-020-09840-9谷歌学者谷歌学者数字图书馆数字图书馆
  39. 莱斯曼S贝森B梅斯CPietsch S公司软件缺陷预测的基准分类模型:一个提议的框架和新发现IEEE Trans Softw Eng(2008年TSE)200834448549610.1109/TSE.2008.35谷歌学者谷歌学者数字图书馆数字图书馆
  40. Li H,Shang W,Adams B,Sayagh M,Hassan AE(2020)从开发商的角度对伐木效益和成本进行定性研究。IEEE软件工程学报(TSE’20)谷歌学者谷歌学者
  41. 立顿ZC模型可解释性的神话排队201816315710.1145/3236386.3241340谷歌学者谷歌学者数字图书馆数字图书馆
  42. 马尔霍特拉R卡纳·M基于非平衡数据的软件变更预测实证研究Empir Softw Eng(2017年EMSE)2017226280628512007年10月10日/10664-016-9488-7谷歌学者谷歌学者数字图书馆数字图书馆
  43. 麦金托什SKamei Y公司亚当斯B哈桑AE现代代码评审实践对软件质量影响的实证研究Empir软件工程(EMSE’16)2016215214621892007年10月10日/10664-015-9381-9谷歌学者谷歌学者数字图书馆数字图书馆
  44. 麦克米兰C格雷切尼克M波西瓦尼克DFu C公司谢Q示例:用于查找高度相关应用程序的源代码搜索引擎IEEE Trans Softw Eng(TSE’11)20113851069108710.1109/TSE.2011.84谷歌学者谷歌学者数字图书馆数字图书馆
  45. Méndez JR,Iglesias EL,Fdez-Riverola F,Díaz F,Corchado JM(2005),反垃圾邮件过滤域上的标记、词干和停止词删除。在:西班牙人工智能协会会议。施普林格,第449–458页谷歌学者谷歌学者
  46. Meyer TA、Whateley B(2004)Spambayes:有效的开源、基于贝叶斯的电子邮件分类系统。。收件人:CEAS。Citeser公司谷歌学者谷歌学者
  47. Mi Q,Keung J(2016)基于开源项目的重新打开的错误的实证分析。摘自:《第20届软件工程评估与评估国际会议论文集》,第1-10页谷歌学者谷歌学者
  48. 米QKeung J(强生)霍毅门萨S并非所有重新打开的错误都是负面的:对eclipse错误报告的案例研究Inf Softw Technol公司201899939710.1016/j.infsof.2018.03.006谷歌学者谷歌学者数字图书馆数字图书馆
  49. 莫拉斯卡S拉瓦扎L基于ROC曲线的软件缺陷预测模型评估Empir Softw Eng公司(EMSE’20)2020255397740192007年10月10日/10664-020-09861-4谷歌学者谷歌学者数字图书馆数字图书馆
  50. Murphy G,Cubranic D(2004)使用文本分类进行自动错误分类。摘自:《第十六届软件工程与知识工程国际会议论文集》,Citeser,第1-6页谷歌学者谷歌学者
  51. Nyamawe公司刘浩牛N乌默尔Q牛Z基于功能请求的软件重构建议Empir Softw Eng公司(EMSE’20)2020255431543472007年10月10日/10664-020-09871-2谷歌学者谷歌学者数字图书馆数字图书馆
  52. Rajbahadur GK,Wang S,Ansaldi G,Kamei Y,Hassan AE(2021)特征重要性方法对缺陷分类器解释的影响。IEEE软件工程学报(TSE’21)谷歌学者谷歌学者
  53. Rajbahadur GK,Wang S,Kamei Y,Hassan AE(2017)使用回归模型构建缺陷分类器的影响。2017年IEEE/ACM第14届国际采矿软件库会议(MSR’17)。IEEE,第135–145页谷歌学者谷歌学者
  54. Rajbahadur GK,Wang S,Kamei Y,Hassan AE(2019)因变量离散化噪声对软件工程中机器学习分类器的影响。IEEE Trans-Softw Eng(TSE’19):1–18谷歌学者谷歌学者
  55. Rakha MS公司湿疹C-PHassan AE公司重新评估检索重复问题报告的自动化方法的性能IEEE Trans Softw Eng(2017年TSE)201744121245126810.1109/TSE.2017.2755005谷歌学者谷歌学者数字图书馆数字图书馆
  56. 罗德里格斯-佩雷斯G罗伯斯·G塞雷布雷尼克A扎伊德曼AGermanán DM公司冈萨雷斯-巴拉霍纳JM错误是如何产生的:一个识别错误是如何引入软件组件的模型Empir Softw Eng公司(EMSE’20)2020252129413402007年10月10日/10664-019-09781-y谷歌学者谷歌学者交叉引用交叉引用
  57. 萨哈RK库尔希德S德国佩里了解长期存在的错误的分类和修复过程Inf Softw Technol公司20156511412810.1016/j.infsof.2015.03.002谷歌学者谷歌学者数字图书馆数字图书馆
  58. Scikit learn(2020)调整估计器的超参数。https://scikit-learn.org/stable/modules/grid_search.html#grid-搜索,[在线;2020年6月8日访问]谷歌学者谷歌学者
  59. Scoccia GL,Autili M(2020)桌面应用程序的Web框架:一项探索性研究。摘自:第14届ACM/IEEE国际经验软件工程与测量研讨会(ESEM'20)会议记录,第1-6页谷歌学者谷歌学者
  60. Shihab E、Ihara A、Kamei Y、Ibrahim WM、Ohira M、Adams B、Hassan AE、Matsumoto K-(2010)《预测再次开放的错误:月食项目的案例研究》。2010年第17届逆向工程工作会议。IEEE,第249-258页谷歌学者谷歌学者
  61. 什哈布语E伊哈拉A龟井Y易卜拉欣WMOhira M公司亚当斯B哈桑AE松本基研究开源软件中重新打开的错误Empir Softw Eng(2013年EMSE)2013185100510422007年10月10日/10664-012-9228-6谷歌学者谷歌学者交叉引用交叉引用
  62. Somasundaram K,Murphy GC(2012)使用潜在dirichlet分配自动分类错误报告。摘自:第五届印度软件工程会议记录,第125-130页谷歌学者谷歌学者
  63. 歌曲F刘S杨杰(Yang J)文本分类中文本表示方法的比较研究模式分析和应用200581-2199209219627310.1007/s10044-005-0256-3谷歌学者谷歌学者
  64. Srividhya五世安妮莎·R文本分类中预处理技术的评价国际计算机科学应用杂志201047114951谷歌学者谷歌学者
  65. Stolberg S(2009)通过持续集成实现敏捷测试。2009年敏捷大会。IEEE,第369–374页谷歌学者谷歌学者
  66. Tantithamthavorn C、Hassan AE、Matsumoto K(2018)类别再平衡技术对缺陷预测模型性能和解释的影响。IEEE软件工程学报(TSE’18)谷歌学者谷歌学者
  67. Tantithamthavorn C,McIntosh S,Hassan AE,Matsumoto K(2016)缺陷预测模型分类技术的自动参数优化。摘自:第38届国际软件工程会议(ICSE’16),第321–332页谷歌学者谷歌学者
  68. 碳含量麦金托什S哈桑AE松本K缺陷预测模型的模型验证技术的实证比较IEEE Trans Softw Eng(2016年TSE)2016431118谷歌学者谷歌学者数字图书馆数字图书馆
  69. Tian Y,Sun C,Lo D(2012)改进了重复错误报告识别。收录:2012年第16届欧洲软件维护和重组会议。IEEE,第385–390页谷歌学者谷歌学者
  70. Tian Y,Wijedasa D,Lo D,Le Goues C(2016)学习为错误报告受让人推荐排名。2016年IEEE第24届程序理解国际会议(ICPC’16)。IEEE,第1-10页谷歌学者谷歌学者
  71. 涂F,朱军,郑Q,周M(2018)《当心何时:与时间相关的问题跟踪数据滥用的实证研究》。在:2018年第26届ACM欧洲软件工程联席会议和软件工程基础研讨会论文集,第307–318页谷歌学者谷歌学者
  72. Turabieh H公司Mafarja M公司李X软件故障预测的分层递归神经网络迭代特征选择算法专家系统应用201912227422016年10月10日/j.eswa.2018.12.033谷歌学者谷歌学者数字图书馆数字图书馆
  73. 尤萨尔AKGunal S公司预处理对文本分类的影响Inf流程管理201450110411210.1016/j.ipm.2013.08.006谷歌学者谷歌学者数字图书馆数字图书馆
  74. 瓦萨洛C帕尼切拉S帕隆巴FProksch S公司加仑HC扎伊德曼A开发人员如何在不同的环境中使用静态分析工具Empir Softw Eng公司(EMSE’20)2020252141914572007年10月10日/10664-019-09750-5谷歌学者谷歌学者交叉引用交叉引用
  75. Vieira R、da Silva A、Rocha L、Gomes JP(2019)从报告到bug-fix提交:来自55个apache开源项目的10年bug-fixing活动数据集。摘自:《第十五届软件工程预测模型和数据分析国际会议论文集》,第80–89页谷歌学者谷歌学者
  76. Webb JK公司凯勒KA韦尔·KAllender MC公司大火烈鸟(phoenicopterus roseus)足跖炎评分模型的个体间和个体内一致性评估动物园野生动物医学杂志202051237938410.1638/2019-0219谷歌学者谷歌学者
  77. 夏X低D丁·YAl-Kofahi吉咪Nguyen田纳西州王X使用专门的主题模型改进自动错误分类IEEE Trans Softw Eng(2016年TSE)20164327229710.1109/TSE.2016.2576454谷歌学者谷歌学者数字图书馆数字图书馆
  78. 夏X低D希哈布E王X周B自动、高精度地预测重新打开的错误自动软件工程(ASE’15)2015221751092007年10月10日/10515-014-0162-2谷歌学者谷歌学者数字图书馆数字图书馆
  79. Xia X,Lo D,Wang X,Yang X,Li S,Sun J(2013)用于重新打开错误预测的监督学习算法的比较研究。摘自:2013年第17届欧洲软件维护和再工程会议。IEEE,第331–334页谷歌学者谷歌学者
  80. Xia X,Lo D,Wang X,Zhou B(2013)针对错误解决的准确开发人员建议。2013年第20届逆向工程工作会议(WCRE)。IEEE,第72–81页谷歌学者谷歌学者
  81. Xia X,Lo D,Wen M,Shihab E,Zhou B(2014)错误报告字段重新分配的实证研究。2014年软件进化周——IEEE软件维护、再工程和逆向工程会议(CSMR-WCRE’14)。IEEE,第174-183页谷歌学者谷歌学者
  82. 宣J姜浩胡毅任Z邹伟罗Z吴X利用软件数据简化技术实现有效的错误分类IEEE Trans Knowl数据工程201427126428010.1109/TKDE.2014.2324590谷歌学者谷歌学者
  83. Xuan J,Jiang H,Ren Z,Zou W(2012)开发人员在错误库中的优先级。2012年第34届国际软件工程会议(ICSE’12)。IEEE,第25-35页谷歌学者谷歌学者
  84. 雅达夫A辛格SK苏里JS基于缺陷分类专业知识得分的软件开发人员排名Inf Softw Technol公司201911211710.1016/j.infsof.2019.03.014谷歌学者谷歌学者数字图书馆数字图书馆
  85. Yatish S,Jiarpakdee J,Thongtanunam P,Tanthithavorn C(2019)挖掘软件缺陷:我们应该考虑受影响的版本吗?。参见:IEEE/ACM第41届国际软件工程会议(ICSE’19)。IEEE,第654-665页谷歌学者谷歌学者
  86. 曾毅,蒋可,陈杰(2019)利用深度卷积神经网络进行地震盐自动解释。摘自:第三届信息系统和数据挖掘国际会议记录,第16-20页谷歌学者谷歌学者
  87. Zhang H,Wang S,Chen T-H,Hassan AE(2020)关于堆栈溢出的评论是否组织得很好,便于开发人员检索?ACM Trans Softw Eng Methodol公司(TOSEM’20)29谷歌学者谷歌学者
  88. Zhang H,Wang S,Chen T-H,Zou Y,Hassan AE(2019)关于堆栈溢出过时答案的实证研究。IEEE软件工程学报(TSE’19)谷歌学者谷歌学者
  89. Zheng A,Casari A(2018)《机器学习的特征工程:数据科学家的原理和技术》。O'Reilly Media公司。谷歌学者谷歌学者
  90. Zimmermann T,Nagappan N,Guo PJ,Murphy B(2012)描述和预测哪些漏洞会重新打开。2012年:第34届国际软件工程会议(ICSE’12)。IEEE,第1074–1083页谷歌学者谷歌学者

建议

评论

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

登录

完全访问权限