研究论文

基于问题度量的跨项目相关问题的有效推荐

作者：
郝仁

南京大学计算机科学与技术系新型软件技术国家重点实验室

南京大学计算机科学与技术系新型软件技术国家重点实验室

0000-0002-0981-2852
查看配置文件

,
马明良（Mingliang Ma）

南京大学计算机科学与技术系新型软件技术国家重点实验室

南京大学计算机科学与技术系新型软件技术国家重点实验室

0000-0002-6418-1790
查看配置文件

,
张晓伟

南京大学计算机科学与技术系新型软件技术国家重点实验室

南京大学计算机科学与技术系新型软件技术国家重点实验室

0000-0003-1481-5158
查看配置文件

,
曹玉璐

南京大学计算机科学与技术系新型软件技术国家重点实验室

南京大学计算机科学与技术系新型软件技术国家重点实验室

0000-0002-6623-1165
查看配置文件

,
聂长海

南京大学计算机科学与技术系新型软件技术国家重点实验室

南京大学计算机科学与技术系新型软件技术国家重点实验室

0000-0002-9575-1012
查看配置文件

作者信息和声明

Internetware’23：第14届亚太地区Internetware研讨会论文集2023年8月第1页https://doi.org/10.1145/3609437.3609462

出版：2023年10月5日出版历史

Internetware’23：第14届亚太地区Internetware研讨会论文集

第1页

摘要

随着开源项目数量的增加，项目之间的调用关系变得复杂。跨项目的不同问题也可能相关，称为跨项目相关问题（CPCI），并为开发人员解决这些问题带来新的挑战。在解决这些CPCI时，开发人员必须在当前项目中准确定位导致它的源代码，还需要了解其他项目中的相关问题。然而，很少有研究提出具体的方法来帮助开发人员有效地解决这些CPCI，即找到CPCI的相关问题。

本文提出了一种新的CPCI问题推荐模型。当开发人员修复CPCI时，他们可以根据我们的模型找到相关的问题。我们首先从文本相似性、开发人员之间的合作关系、开发人员对项目的熟悉程度和开发人员的修复经验四个方面提取了26个CPCI问题度量。然后，我们利用三种分类器（SVM、Logistic Regression和Random Forest）构建CPCI推荐模型。为了评估模型的性能，我们基于文本特征构建了三个基线模型，并在Python科学计算软件生态系统中构建了实验，该生态系统主要包括七个开源软件库。此外，我们使用了三个指标来衡量实验结果，即MAP、MRR和召回率@k。在大多数情况下，基于问题特征构建的CPCI推荐模型比基线模型具有更好的实验结果，这表明这些问题度量有助于推荐CPCI。

工具书类

R.Abreu、P.Zoeteweij和A.J。c.范·杰蒙德。2006.软件故障定位相似系数评估。2006年第12届环太平洋地区可靠计算国际研讨会（PRDC’06）。39–46.谷歌学者数字图书馆
拉菲·阿尔马纳（Rafi Almhana）和马鲁安·凯森蒂尼（Marouane Kessentini）。2021.考虑缺陷报告之间的依赖性，以改进缺陷分类。自动化。柔和。工程28，1（2021），1。https://doi.org/10.1007/s10515-020-00279-2谷歌学者数字图书馆
John Anvik、Lyndon Hiew和Gail C。墨菲。2005.应对开放的错误库。2005年10月在美国加利福尼亚州圣地亚哥举行的Eclipse技术交流OOPSLA研讨会。35–39.谷歌学者数字图书馆
Thazin Win Win Aung、Yao Wan、Huan Hoo和Yulei Sui。2022.多变量：用于错误分类的多任务学习框架。《系统与软件杂志》184（2022），111133。https://doi.org/10.1016/j.jss.2021.11133谷歌学者数字图书馆
Thazin Win Win Aung、Yao Wan、Huan Huo和Yulei Sui。2022.多变量：用于错误分类的多任务学习框架。J.系统。柔和。184（2022），111133。https://doi.org/10.1016/j.jss.2021.11133谷歌学者数字图书馆
乌马马赫斯瓦拉·夏尔马·博塔马普拉姆（Umamaheswara Sharma Bhutamapuram）和拉维坎德拉·萨达姆（Ravichandra Sadam）。2023.预测性决策对软件项目的影响有多大？跨项目缺陷预测模型的成本、服务时间和故障分析。J.系统。柔和。195 (2023), 111522. https://doi.org/10.1016/j.jss.2022.111522谷歌学者数字图书馆
莎拉·博斯笑和保罗·沃特斯。2008年。简而言之，统计数据：桌面快速参考。谷歌学者
Yan Cai、Hao Yun、Jinqiu Wang、Lei Qiao和Jens Palsberg，2021年。可靠高效的并发错误预测。第29届欧洲软件工程会议暨软件工程基础研讨会（希腊雅典）ACM联合会议记录（ESEC/FSE 2021）。计算机械协会，美国纽约州纽约市，255-267。https://doi.org/10.1145/3468264.3468549谷歌学者数字图书馆
亚历山大·迪肯（Alexandre Decan）、汤姆·曼斯（Tom Mens）和菲利普·格罗斯让（Philippe Grosjean）。2019.七个软件包装生态系统中依赖网络演化的实证比较。经验软件工程24（2019），381-416。谷歌学者数字图书馆
丁慧（Hui Ding）、马万旺（Wanwangying Ma）、陈林（Lin Chen）、周玉明（Yuming Zhou）和徐宝文（Baowen Xu）。2017年，关于跨项目Bug下游解决方案的实证研究。在2017年12月4日至8日于中国南京举行的APSEC 2017第24届亚太软件工程会议上，Jian Lv、He Jason Zhang、Mike Hinchey和Xiao Liu（编辑）。IEEE计算机学会，318–327。https://doi.org/10.109/APSEC.2017.38谷歌学者交叉引用
罗斯B。吉希克。2015年，《美国有线电视新闻网快报》。2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日至13日。IEEE计算机学会，1440–1448。https://doi.org/10.109/ICCV.2015.169谷歌学者数字图书馆
罗斯B。Girshick、Jeff Donahue、Trevor Darrell和Jitendra Malik。2014.丰富的特征层次结构，用于准确的对象检测和语义分割。2014年IEEE计算机视觉和模式识别会议，CVPR 2014，哥伦布，俄亥俄州，美国，2014年6月23-28日。IEEE计算机协会，580–587。https://doi.org/10.109/CVPR.2014.81谷歌学者数字图书馆
路易斯·戈麦斯、里卡多·达席尔瓦·托雷斯和马里奥·卢西奥·科尔特斯。2023.基于BERT和TF-IDF的特征提取用于FLOSS中的长期错误预测：一项比较研究。信息与软件技术160（2023），107217。https://doi.org/10.1016/j.infsof.2023.107217谷歌学者数字图书馆
D.Han、C.Zhang、X.Fan、A.Hindle、K.Wong和E.Stroulia。2012.通过供应商特定错误的主题分析了解Android碎片。2012年，第19届逆向工程工作会议。83–92。谷歌学者
哈迪·贾汉沙希和穆卡希特·塞维克。2022.S-DABT：开源缺陷跟踪系统中的计划和依赖感知缺陷分类。Inf.软件。技术。151 (2022), 107025. https://doi.org/10.1016/j.infsof.2022.107025谷歌学者数字图书馆
李丽莎、任志磊、李晓晨、邹伟勤和何江。2018年。发行单位如何联系？GitHub中链接行为的实证研究。2018年第25届亚太软件工程会议（APSEC）。386–395. https://doi.org/10.109/APSEC.2018.00053谷歌学者交叉引用
刘新余（Xinyu Liu）、齐周（Qi Zhou）、乔伊·阿鲁拉吉（Joy Arulraj）和亚历山德罗·奥索（Alessandro Orso）。2022.使用等效查询自动检测数据库系统中的性能错误。第44届IEEE/ACM第44届国际软件工程会议，ICSE 2022，匹兹堡，宾夕法尼亚州，美国，2022年5月25-27日。美国医学会，225–236。https://doi.org/10.1145/3510003.3510093谷歌学者数字图书馆
马万旺、陈琳、张祥玉、杨峰、徐兆贵、陈志飞、周玉明和徐宝文。2020年。跨项目缺陷对软件生态系统的影响分析。在2020年6月27日至7月19日于韩国首尔举行的ICSE'20:42国际软件工程会议上，Gregg Rothermel和Doo-Hwan Bae（编辑）。ACM，100–111。https://doi.org/10.1145/3377811.3380442谷歌学者数字图书馆
马万旺、陈林、张祥玉、周玉明、徐宝文。2017.开发人员如何修复跨项目相关的错误？GitHub科学巨蟒生态系统案例研究。在Ieee/acm国际软件工程会议上。381-392。谷歌学者
孟向新、王旭、张红玉、孙海龙、刘旭东。2022.利用深层语义特征和传递的知识改进故障定位和程序修复。第44届国际软件工程会议（宾夕法尼亚州匹兹堡）（ICSE’22）论文集。计算机械协会，美国纽约州纽约市，1169-1180。https://doi.org/10.1145/3510003.3510147谷歌学者数字图书馆
Md Nadim、Debajyoti Mondal和Chanchal K。罗伊。2022.利用源代码图的结构属性进行实时错误预测。自动化软件工程。第29、1页（2022年5月），共30页。https://doi.org/10.1007/s10515-022-00326-0谷歌学者数字图书馆
大石隆文和石井裕美。2020.使用CBOW模型和Skip gram模型的分布式表示计算。第九届国际先进应用信息学大会，IIAI-AAI 2020，日本北九州，2020年9月1日至15日，Tokuro Matsuo、Kunihiko Takamatsu、Yuichi Ono和Sachio Hirokawa（编辑）。IEEE，845–846。https://doi.org/10.109/IIAI-AAI50415.2020.00179谷歌学者交叉引用
潘伟峰（Weifeng Pan）、华明（Ming Hua）、杨紫江（Zijiang Yang）和王田（Tian Wang）。2022.关于“在类依赖网络上使用$k$k-Core分解来提高Bug预测模型的实际性能”的评论。IEEE传输。软件工程48，12（2022），5176–5187。https://doi.org/10.1109/TSE.2022.3140599谷歌学者交叉引用
Jevgenija Pantiuchina、Fiorella Zampetti、Simone Scalabrino、Valentina Piantadosi、Rocco Oliveto、Gabriele Bavota和Massimiliano Di Penta。2020年。为什么开发人员重构源代码：一项基于挖掘的研究。ACM事务处理。柔和。工程方法。29, 4 (2020), 29:1–29:30. https://doi.org/10.1145/3408302谷歌学者数字图书馆
费奥拉·彼得斯（Fayola Peters）、登丹屯（Thein Than Tun）、于义军（Yu Yijun Yu）和巴沙尔·努塞贝（Bashar Nuseibeh）。2019.安全漏洞报告预测的文本过滤和排名。IEEE传输。软件工程45，6（2019），615–631。https://doi.org/10.109/TSE.2017.2787653谷歌学者交叉引用
俞曲、郑庆华、池建磊、金阳旭、何安成、崔迪、张恒山和刘婷。2021.在类依赖网络上使用K-core分解来提高Bug预测模型的实际性能。IEEE传输。软件工程47，2（2021），348–366。https://doi.org/10.109/TSE.2019.2892959谷歌学者数字图书馆
斯蒂芬·罗伯逊、雨果·萨拉戈萨和迈克尔·泰勒。2004年，简单的BM25扩展到多个加权字段。《第十三届ACM信息和知识管理国际会议记录》（美国华盛顿特区）（CIKM'04）。美国纽约州纽约市ACM，42-49。谷歌学者数字图书馆
亨利克·罗查、马可·图利奥·瓦伦特、亨贝托·马奎斯·内托和盖尔·C。墨菲。2016年，关于类似Bug建议的实证研究。在IEEE软件分析、进化和再工程国际会议上。46–56。谷歌学者
Korosh Koochekian Sabor、Mohammad Hamdaqa和Abdelwahab Hamou-Lhadj。2020年。使用堆栈跟踪和分类功能自动预测错误的严重性。Inf.软件。技术。123 (2020), 106205. https://doi.org/10.1016/j.infsof.2019.106205谷歌学者交叉引用
孙成年、罗大卫、肖成国和蒋静。2011.实现对重复错误报告的更准确检索。2011年11月6日至10日，在美国堪萨斯州劳伦斯举行的第26届IEEE/ACM自动化软件工程国际会议（ASE 2011）上，Perry Alexander，Corina S。Pasareanu和John G。Hosking（编辑）。IEEE计算机学会，253-262。https://doi.org/10.1109/ASE.2011.6100061谷歌学者数字图书馆
Sadia Tabassum，莱安德罗·L。Minku和Danyi Feng。2023.跨项目在线实时软件缺陷预测。IEEE传输。软件工程49，1（2023），268–287。https://doi.org/10.109/TSE.2022.3150153谷歌学者交叉引用
谭信伟（Shin Hwei Tan）和李自强（Ziqiang Li），2020年。Android应用程序的协作错误查找。在2020年6月27日至7月19日于韩国首尔举行的ICSE'20:42国际软件工程会议上，Gregg Rothermel和Doo-Hwan Bae（编辑）。美国医学会，1335-1347年。https://doi.org/10.1145/3377811.3380349谷歌学者数字图书馆
迪米特里奥斯·苏卡拉斯（Dimitrios Tsoukalas）、尼古拉·米塔斯（Nikolaos Mittas）、亚历山德罗斯·查齐格奥尔乔（Alexandros Chatzigeorgiou）、狄奥尼西斯（Dionisis D。基哈吉亚斯（Kehagias）、阿波斯托洛斯·安帕佐格鲁（Apostolos Ampatzoglou）、西奥多洛斯·阿马纳蒂迪斯（Theodoros Amanatdis）和左翼天使（Lefteris Angelis）。2021.技术债务识别的机器学习。IEEE软件工程学报（2021），1–1。https://doi.org/10.109/TSE.2021.3129355谷歌学者交叉引用
王俊杰、叶洋、王松、胡军和王庆。2022.上下文和公平-软件进程内众工作者建议。ACM事务处理。柔和。工程方法。第31、3条（2022年3月），共31页。https://doi.org/10.1145/3487571谷歌学者数字图书馆
Mohammad Wardat、Breno Dantas Cruz、Wei Le和Hridesh Rajan。2022.深度诊断：在深度学习计划中自动诊断故障并推荐可操作的修复方法。第44届IEEE/ACM第44届国际软件工程会议，ICSE 2022，匹兹堡，宾夕法尼亚州，美国，2022年5月25-27日。美国医学会，561-572。https://doi.org/10.1145/3510003.3510071谷歌学者数字图书馆
艾米丽·温特（Emily Winter）、大卫·鲍斯（David Bowes）、史蒂夫·顾问（Steve Counsell）、特蕾西·霍尔（Tracy Hall）、塞蒙多·奥（Saemundur O）。Haraldsson、Vesna Nowack和John R。伍德沃德。2023.开发人员对错误修复的真实感受如何？自动程序修复说明。IEEE传输。软件工程49，4（2023），1823-1841。https://doi.org/10.1109/TTS.2022.3194188谷歌学者数字图书馆
杨新丽、罗大伟、辛霞、鲍凌峰和孙建玲。2016.将单词嵌入与信息检索相结合，推荐类似的错误报告。在IEEE软件可靠性工程国际研讨会上。127-137。谷歌学者交叉引用
杨一彪、周玉明、卢洪民、陈琳、陈振宇、徐宝文、哈里顿K.N。梁振宇和张振宇。2015年。基于切片的内聚度量在感知工作量的发布后故障倾向性预测中真的有用吗？实证研究。IEEE传输。《软件工程》41，4（2015），331–357。https://doi.org/10.109/TSE.2014.2370048谷歌学者数字图书馆
新叶、慧申、小马、Razvan C。Bunescu和Chang Liu。2016.从单词嵌入到文档相似性，以改进软件工程中的信息检索。第38届国际软件工程会议论文集，2016年ICSE，美国德克萨斯州奥斯汀，2016年5月14日至22日。404–415之间。https://doi.org/10.1145/2884781.2884862谷歌学者数字图书馆
张文、赵江鹏、芮鹏、王松和叶洋。2023.SusRec：使用多模态集成学习解决错误的可持续开发人员建议方法。IEEE传输。Reliab公司。72, 1 (2023), 61–78. https://doi.org/10.109/TR.2022.3176733谷歌学者交叉引用
赵国良（Guoliang Zhao）、萨夫瓦特·哈桑（Safwat Hassan）、邹莹（Ying Zou）、德里克·张（Derek Truong）和托比·科尔宾（Toby Corbin）。2021年。在运行时预测软件系统中的性能异常。ACM事务处理。柔和。工程方法。30, 3 (2021), 33:1–33:33. https://doi.org/10.1145/3440757谷歌学者数字图书馆
J.Zhou、H.Zhang和D.Lo。2012.应在哪里修复错误？基于错误报告的更准确的基于信息检索的错误定位。2012年，第34届国际软件工程会议（ICSE）。14–24. https://doi.org/10.109/ICSE.2012.6227210谷歌学者交叉引用
周玉明（Yuming Zhou）、徐宝文（Baowen Xu）和梁哈里顿（Hareton Leung）。2010年，关于复杂性度量在面向对象系统中预测容错类的能力。J.系统。柔和。83, 4 (2010), 660–674. https://doi.org/10.1016/j.jss.2009.11.704谷歌学者数字图书馆
T.Zimmermann、A.Zeller、P.Weissgerber和S.Diehl。2005.挖掘版本历史以指导软件更改。IEEE软件工程学报31，6（2005年6月），429–445。https://doi.org/10.1109/TSE.2005.72谷歌学者数字图书馆

索引术语

基于问题度量的跨项目相关问题的有效推荐
1. 社交和专业话题
  1. 专业主题
    1. 计算和信息系统管理
      1. 软件管理
2. 软件及其工程
  1. 软件创建和管理
    1. 软件开发中的协作
      1. 编程团队
  2. 软件符号和工具
    1. 软件配置管理和版本控制系统

索引项已通过自动分类分配给内容。

建议

基于切片的内聚度量在工作量软件发布后的故障倾向预测中实际有用吗？实证研究
背景。基于切片的内聚度量利用与模块输出变量相关的程序切片来量化模块内元素的功能相关性强度。尽管基于切片的内聚度量已经。。。
阅读更多信息
类内聚和方法之间相似性的度量
ACM-SE 44：第44届东南地区年会会议记录

类内聚性是面向对象设计中理想的属性之一。但是，设计师和管理者需要一个良好的指标来衡量这一特性，以帮助他们评估、比较和选择给定问题的各种可能解决方案。在本文中。。。
阅读更多信息
软件故障预测中变更度量的实证分析
摘要
一种称为软件故障预测的质量保证活动可以降低开发成本并提高软件质量。本研究的目的是结合代码度量来研究变更度量，以改进。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
Internetware’23：第14届亚太地区Internetware研讨会论文集
2023年8月
332页
国际标准图书编号：9798400708947
内政部：10.1145/3609437
编辑：
红梅,
吕健（Jian Lv）,
织金,
李宣东,
杨晓虎,
辛霞
版权所有©2023 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2023年10月5日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
跨项目相关问题
韵律学
推荐模型
限定符
- 研究论文
- 研究
- 推荐有限公司
会议

接受率
总体验收率55属于111提交文件，50%
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 59
  总下载次数
- 下载次数（过去12个月）59
- 下载次数（最近6周）4
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

基于问题度量的跨项目相关问题的有效推荐

Internetware’23：第14届亚太地区Internetware研讨会论文集

摘要

工具书类

引用人

索引术语

建议

基于切片的内聚度量在工作量软件发布后的故障倾向预测中实际有用吗？实证研究

类内聚和方法之间相似性的度量

软件故障预测中变更度量的实证分析

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

基于问题度量的跨项目相关问题的有效推荐

Internetware’23：第14届亚太地区Internetware研讨会论文集

摘要

工具书类

引用人

索引术语

建议

基于切片的内聚度量在工作量软件发布后的故障倾向预测中实际有用吗？实证研究

类内聚和方法之间相似性的度量

软件故障预测中变更度量的实证分析

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享