爱思维尔

系统与软件杂志

第182卷,2021年12月,111066年
系统与软件杂志

可编程web服务生态系统的数据修正与演化分析

https://doi.org/10.1016/j.jss.2021.111066获取权限和内容

摘要

随着Internet上服务变化频率的迅速增加,Web服务生态系统的演化分析成为一个关键问题。开发人员需要了解这些演化模式,以帮助他们对服务选择做出决策。可编程网站是一个流行的Web服务生态系统,文献中对其进行了一些演化分析。然而,现有的研究却忽视了其质量问题可编程网站数据集和服务过时的问题。在本研究中,我们首先报告可编程网站数据集来自我们的实证研究。然后,我们提出了一种新的方法,通过估计生命周期来修正相关的进化分析数据应用程序编程接口(API)和mashup。在此基础上,我们还揭示了如何在服务生态系统演化分析中使用三种不同的动态网络模型可编程网站数据集。我们的实验经验重复了原稿的质量问题可编程网站并强调了几个研究机会。

介绍

随着web2.0的发展和面向服务体系结构(SOA)的广泛采用,许多服务现在以应用程序编程接口(api)的形式公开其功能。多个api可以很容易地组合成一个应用程序,也称为混搭(Ngu等人,2010),为客户创造并提供独特的新价值。这种不断增长的现象被称为API经济(Brown等人,2014年)。随着域名壁垒的开放,跨境合作和跨境整合的日益普遍,互联网时代API经济的推动,逐渐弱化了传统域名的概念。这代表着传统互联网生态系统的巨大变化,导致服务生态系统的演变。

API经济使企业能够进行跨境整合和创新,创造出越来越多的新应用。此外,用户在体验这些新的应用时,可能会发现新的需求,这不仅进一步加快了创新进程,也加剧了市场竞争。服务提供商需要对用户需求和偏好的变化保持敏感,不断推出新的服务。因此,研究服务生态系统的演化是很重要的,因为它可以从不同的角度提供见解和显著的益处。从商业角度来看,演化分析帮助服务提供商和市场监管机构了解服务生态系统的演化模式,从而指导可持续和健康的服务/服务生态系统发展,从而帮助决策。例如,通过演化分析,服务提供商可以了解竞争对手的合作策略,发现流行的市场演变趋势,从而使他们能够根据稍纵即逝的创新机会调整其业务战略,从而保持或提高其服务的竞争力。从技术角度来看,演化分析可以从数据中挖掘可解释的先验知识,以促进其他下游任务,如服务推荐、服务发现和服务组合,从而加快服务开发的步伐(Bouguettaya等人,2017年,Sheng等人,2014年)。

可编程网站1是最大的在线API商店平台,它收集了大量第三方API和mashup。每天,新的api/mashup出现,现有的api消亡,不同的api动态地合作创建新的mashup。因此,它是一个典型的Web服务生态系统。此外,可编程网站作为服务计算领域的标准研究数据集。作为真实互联网生态系统的典型代表,它被用于支持许多服务科学研究,特别是在服务推荐(Ma et al.,2021,Botangen et al.,2020,Kalaïet al.,2018),服务发现(Adeleye et al.,2019,Xu et al.,2017),服务进化分析(Tian et al.,2017)等领域,以及服务质量(QoS)预测(Chen等人,2020年,Chen等人,2017年)。截至2021年1月9日,可编程网站收集了23881个API和7973个mashup,其中包括创建日期、类别、配置文件和活动状态等详细信息。

动机:许多研究集中在可编程网站服务生态系统从不同的角度。所有现有研究的分析结果都显示出了积极乐观的态度,对健康的发展可编程网站服务生态系统。一些研究还提供了服务生态系统网络的生成模型,以指导服务推荐和服务发现。这些研究(Wittern et al.,2014,Zhong et al.,2014,Huang et al.,2013,Pan and Chai,2018)通常明确或隐含地基于两个假设:(i)可编程网站数据集是高质量和可信的,并且(ii)api和mashup的过时以及这种消亡的影响可以忽略不计。然而,由于leweb的数据集存在某些缺陷,因此需要谨慎处理这些数据集。例如,标签中的质量问题,特别是关于api和mashup的活动可用性状态和过时时间的问题非常重要。忽视api和mashup的消亡会使评估服务生态系统的真实健康状况变得更加困难,助长盲目乐观的结论,导致错误的进化模式,并损害下游任务。

图1显示了本文在进化分析背景下相对于现有研究的概述。现有研究直接使用从可编程网站进行动态网络建模,然后进行进化分析。然而,在本文中,我们首先识别并纠正了与进化相关的错误信息可编程网站数据集,特别是活动状态和与时间相关的属性。然后,讨论了如何利用动态网络对服务生态系统进行建模。在建立动态网络模型后,利用网络特性和网络可视化方法分析了服务生态系统的演化过程。最后,我们讨论了服务生态系统中存在的问题及其对其他服务任务的影响。

本研究的主要贡献和创新点如下:

C1

我们发现了数据质量问题,包括数据不完整、数据错误和数据噪声可编程网站利用统计方法、自动化网络请求测试和手动检查来获取数据集。

C2

我们在可编程网站基于数据集的自动化网络请求测试结果,提出了一种基于正态分布的api和mashup活动时间估计方法。我们发布了新的可编程网站活动状态和活动时间修正数据集,供其他研究人员进行相关研究。2

C3

我们基于修正的可编程网站结果表明,原始数据集不适合于服务生态系统的研究。理想数据质量的假设误导了数据的统计结果,影响了算法的选择。如果不考虑这些因素,现有的基于旧数据集的研究工作的结果应该被重新考虑,例如关于当前健康状况、多样性和网络规律的各种结论可编程网站服务生态系统。

补体第四成份

在演化分析过程中,我们分析了原始数据质量问题的潜在影响可编程网站从业务和技术的角度,提供一些解决或避免这些质量问题的建议。我们还强调了未来使用新的可编程网站数据集。

本文的其余部分安排如下。第二节讨论了相关工作。第3节介绍了与可编程网站数据集。第四节提出了一种基于概率估计的数据恢复方法。第5节阐明了如何使用动态网络对服务生态系统进行建模。第六节阐述了方法,报告了服务生态系统演化分析的结果,并讨论了其他质量问题对原始生态系统的影响可编程网站数据集对传统服务计算任务和新的挑战和机遇进行了修正可编程网站为传统任务引入数据集。最后,第8节给出了一些结论性意见。

节代码段

相关工程

近年来,服务生态系统的演化分析,如可编程网站,得到了广泛的研究。现有的研究集中在单个服务状态的变化和服务网络拓扑结构的变化上,这些变化旨在帮助开发人员选择合适的服务并将其集成到自己的应用程序中。这些研究的最终目标是提供先验知识来帮助解决各种传统的服务计算问题,例如服务推荐

数据质量问题

我们从可编程网站网站(包括死亡池中的数据)。在检查和测试这些数据之后,我们发现了三个与使用原始数据进行进化分析相关的严重数据质量问题可编程网站数据集。这些问题将在本节的其余部分中详细描述。

数据校正

在本节中,将讨论第3节中提到的数据质量问题,以更好地支持服务生态系统的演化分析。在详细阐述该方法之前,我们想澄清以下几点:

在数据校正结果不完全准确的意义上,我们的方法并不完美;它们是一种概率估计。

由于本文关注的是服务生态系统的演化,因此我们的方法是针对整个服务生态系统的;换句话说,我们可以

服务生态系统动态网络模型

服务生态系统是一个由服务实体及其相互作用组成的不断演化的复杂网络系统。该系统可以自然地建模为三个不同的动态网络,其中的结构随着时间的推移而变化,具体取决于不同的场景:(i)Mashup API网络(M-A),(ii)API-API网络(A-A)和(iii)类别网络(C-C)。

定义1

mashupapi网络(M-A)是一个动态的二分图GA={A,,EA},其中A指的是API,

服务生态系统演化分析

本部分从复杂网络的角度分析了服务生态系统的演化。本节的后续分析是通过回答六个研究问题并根据分析确定研究挑战和机遇来组织的。题目由两部分组成。第一部分是选择哪个动态网络模型来支持研究问题,第二部分是对研究问题的说明。如图9所示,我们有

有效性威胁

在本节中,我们将详细讨论对有效性的威胁。主要有三种威胁:另一种方法,更合适的概率分布,时间误差基于规则的技术的准确性.

另一种方法.估计死亡时间有两类方法:

1

一种是基于第4.1节提出的方法所代表的概率分布的总体估计,这种方法与信息无关

结论

在本文中,我们分析了可编程网站动态网络视角下的服务生态系统。我们首先在原文中总结了质量问题可编程网站并分析了这些质量问题对传统服务计算任务的负面影响。然后,我们提出了新的方法来修正演化相关的数据质量问题,包括API/mashup可用性状态、API/mashup死亡时间和mashup组合。最后,我们进行了一组

信贷作者出资声明

刘明义:概念化,方法论,软件,写作-初稿,可视化。涂智英:概念化,写作-初稿,资源。朱叶琦:软件,可视化,调查。徐晓飞:融资收购。王中杰:概念化,写作-初稿,项目管理,资金获取。全志生:写作–初稿。

竞合利益声明

作者声明,他们没有已知的竞争性的经济利益或个人关系,可能会影响本文报告的工作。

致谢

本文的研究得到了部分支持国家重点研发计划(没有2018年YFB1402500)以及国家自然科学基金(61772155,61832004,61802089,61832014).

刘明义2018年获得哈尔滨工业大学计算机科学与技术学院学士学位,目前正在哈尔滨工业大学攻读软件工程博士学位。他的研究方向包括服务生态系统模型、服务演化分析、数据挖掘和知识图。

工具书类(四十)

  • Adeleye,O.,Yu,J.,Yongchareon,S.,Han,Y.,2018。构建和评估一个不断发展的web API网络。。。
  • Adeleye,O.,Yu,J.,Yongchareon,S.,Sheng,Q.Z.,Yang,L.H.,2019.一个基于健康的web API进化网络。。。
  • B。等等。

    SR-LDA:挖掘服务生态系统知识地图生成的有效表示法

  • 布格塔耶A。等等。

    服务计算宣言:未来10年

    公社。ACM公司

    (2017年)
  • 棕色A。等等。

    API经济、生态系统和参与模式

  • 克劳塞特A。等等。

    经验数据的幂律分布

    暹罗版次。

    (2009年)
  • 是的。等等。

    结合深层神经网络的web服务多标签推荐

  • W。等等。

    联合建模用户、服务、mashup和服务推荐主题

  • W。等等。

    mashup创建中一种新的服务集推荐框架

  • K。等等。

    基于网络预测的演化服务生态系统推荐

    IEEE传输。自动驾驶。科学。工程。

    (2014年)
  • 引用人(1)

    刘明义2018年获得哈尔滨工业大学计算机科学与技术学院学士学位,目前正在哈尔滨工业大学攻读软件工程博士学位。他的研究方向包括服务生态系统模型、服务演化分析、数据挖掘和知识图。

    涂智英哈尔滨工业大学计算机科学与技术学院副教授。他拥有波尔多大学计算机集成制造(Productique)博士学位。从2013年起,他开始在HIT工作。他的研究兴趣是服务计算、企业互操作性和认知计算。他有20种出版物,包括编辑书籍和会议记录、书籍章节和期刊和会议上的技术论文。他是IEEE计算机学会会员,中国CCF会员。

    朱业琪是哈尔滨工业大学计算机学院的本科生。他将从2021年开始攻读硕士学位。他的研究兴趣包括知识图表和服务建议。

    徐晓飞现任哈尔滨工业大学计算机学院教授、副院长。1988年获哈尔滨工业大学计算机科学博士学位,研究方向包括企业智能计算、服务计算、服务互联网和数据挖掘。他是IFIP TC5 WG5.8的副主席,INTEROP VLab China Pole主席,中国计算机联合会(CCF)会员,CCF服务计算技术委员会副主任。他是300多种出版物的作者。他是IEEE和ACM的成员。

    王中杰哈尔滨工业大学计算机系教授。2006年获得哈尔滨工业大学计算机科学博士学位,研究方向包括服务计算、移动和社交网络服务以及软件体系结构。他是40多种出版物的作者。他是IEEE的成员。

    全志生是澳大利亚悉尼麦格理大学计算机系主任和教授。他的研究兴趣包括面向服务计算、分布式计算、互联网计算和物联网。他拥有新南威尔士大学(UNSW)计算机科学博士学位,并在CSIRO ICT中心担任研究科学家。他有超过360种出版物。全智晟教授是2009年国际物联网领域最具影响力学者奖(2019年)、ARC未来奖学金(2014年)、克里斯·华莱士杰出研究贡献奖(2012年)和微软奖学金(2003年)的获得者。

    编辑:法比奥·帕隆巴。

    查看全文