摘要

智能电子商务(电子商务)中的多媒体应用,如在线交易和互联网营销,在存储和传输数字图像和视频时始终面临安全问题。本研究解决了电子商务中的安全问题,并提出了一个统一的框架来分析安全数据。首先,为了优化分配确定的安全资源,我们将电子商务监控模型构建为无向网络,其中被监控节点是图的顶点,顶点之间的连接是无向边。此外,我们的目标是找到监控网络的最小覆盖,作为资源分配的最优解决方案,这被定义为网络监控最小化问题(NMM)。这个问题被证明是NP-hard。其次,通过分析潜在的威胁,我们设计了一个新颖、可信的监控系统,该系统可以集成事件监控、数据分析、风险评估和安全警告。此系统不接触用户的隐私数据。第三,我们提出了一种基于序列模型的风险评估方法,该方法可以根据文本语义预测风险。我们在web规模数据上的实验结果表明,我们的系统在监控时具有足够的灵活性,这也验证了我们系统的有效性和效率。

1.简介

电子商务的迅速发展使其成为中国人生活方式中不可或缺的一个方面,并已深入到人们的生活和工作中。这表明数字化图像和视频的传播越来越受欢迎。例如,淘宝、京东和亚马逊的在线商店开始使用图像和视频,而不仅仅是文本,来介绍商品的特性和用法。多媒体数据,如文本、图像和视频,可以在互联网和用户之间轻松切换。每天都会产生大量的多媒体数据,用户越来越关注隐私问题。此外,由于移动设备的便利性,多媒体数据总是通过无线网络发送。然而,由于数据呈指数级增长,业务对象越来越容易受到攻击,这种潜在的威胁没有得到足够的重视。确保多媒体数据的安全可靠非常重要。

虽然多种互联网安全技术已应用于电子商务,但加强电子商务安全仍具有挑战性[1]. 例如,黑客可以检测到服务泄漏,而由于新创建的电子商务服务数量不断增加,现有的互联网安全算法表现不佳。类似系统,例如基于SOA的系统[2],旨在保护电子商务。2014年,Luhach等人[]提出了电子商务系统的逻辑安全框架。因此,他们试图为电子商务安全应用一种简单、灵活和可回收的应用程序。Massa和Valverde设计了一个基于异常入侵检测系统的电子商务应用欺诈检测系统[4]. 这些研究人员使用不同的异常检测技术来预测电子商务web应用程序中的计算机入侵攻击。据我们所知,现有电子商务安全系统仅考虑电子商务保护的一个或两个方面,尽管以前的研究得出了一些见解。此外,这些安全系统在实时应用中可能难以获得合适的结果。当前的研究试图通过重新设计和实施一个集成事件监测、数据分析、风险评估和安全警告的新系统来克服这些研究局限性。

由于客户和公司的数据都是私密且合理的,因此数据泄漏引起的隐私问题已成为首要关注的问题。因此,客户和公司都很难信任第三方。此外,数据生成量大且速度快。因此,通过添加和删除设备动态调度资源可能相当困难。因此,更新策略可能不容易适应不断变化的网络攻击。电子商务的迅速兴起和发展带来了新的挑战。由于用户不想向他人(尤其是陌生人)透露自己独特的私人信息,包括多媒体内容,因此隐私保护至关重要,其中内容包括身份、位置、偏好和社会关系。然而,有时用户甚至不知道自己的隐私被泄露,也没有刻意保护自己。

在本文中,我们将云计算应用于我们的系统,以使其能够进行配置和资源共享。此外,该系统将数据、服务和设备视为可通过统一接口访问的规范化资源。合理的输入数据也将被加密,而不会被存储。我们将输入数据视为流,只提取特征。我们做出以下贡献。

首先,我们提出了电子商务中的监控最小化问题(NMM-problem),其目标是使用最少的资源来监控整个电子商务网络。电子商务网络被建模为无向图,其中被监控的电子商务对象是图的顶点,两个对象之间的链接是边。通过对集合覆盖问题的约简,我们证明了NMM问题是NP-hard问题。我们还给出了一个贪婪算法来分配最优资源。

其次,我们构建了一个新的统一系统来处理新兴的电子商务安全风险。该系统集成了事件监控、数据分析、风险评估和安全警告,因此可以配置和共享资源。此外,该系统将数据、服务和设备视为可通过统一接口访问的规范化资源。

第三,我们提出了一种基于序列模型的风险评估方法,该方法可以根据文本语义预测风险。借助构建的文本语义知识库,我们可以了解单词的情感倾向。给定一个正最小整数,我们可以挖掘负模式并确定负模式是否频繁,这也可以被视为潜在风险。

第四,我们为不同的应用程序实现了几种数据分析算法,并为不同类型的数据构建了知识库。作为案例研究,我们提供了一个恶意分析模型来说明其工作机制。该案例研究也验证了我们系统的有效性和效率。

本文的其余部分组织如下。章节2审查相关工作。第节介绍了我们的问题公式。章节4为电子商务安全提供威胁分析和我们的系统结构。章节5提供了几种有效的机制。章节6提供了一项实验研究。章节7给出了结论。

这项工作涉及电子商务安全、多媒体和云计算安全。在本节中,我们简要回顾了有关多媒体、电子商务、云计算和安全的最相关的工作。

2.1. 电子商务安全

电子商务安全是一个复杂的问题,不仅限于网络安全。这种类型的安全还涉及以下具体方面。

(1) 管理问题大多数电子商务网站尚未建立统一的管理和评价标准。这些站点的大多数安全风险管理功能都很薄弱。网站缺乏抵御黑客攻击的能力通常会导致服务器瘫痪,从而影响网站的可信度。

(2) 技术问题。虽然存在许多电子商务安全产品,但真正的产品认证是有限的。造成这种情况的主要原因如下。首先,全球网络安全尚未形成完整的体系。第二,安全技术强度较弱。

(3) 环境问题电子商务也会受到社会环境的影响,特别是法律制度的影响。因此,我们必须完善相关法律,确保电子商务建设的发展。

电子商务安全的成功运行取决于几个应用程序之间的复杂相互关系,即开发平台、数据库管理系统、系统软件和网络基础设施[5]. 施密德提出了一个通用模型,他为大多数电子商务流程确定了三个阶段。(1) 在信息阶段,各方试图找到合作伙伴,对其进行比较,澄清其贸易关系,并指定要交换的产品。这些行动没有法律约束力。(2) 在签约阶段,双方根据自己的决策标准确定合作伙伴,然后制定并签署关于贸易关系的合同。(3) 在交付阶段,完成付款和交付,并最终准备新交易[6].

已经提出了几项讨论电子商务安全方面的研究。

电子商务软件包应与安全电子传输、安全套接字层(SSL)、公钥基础设施和安全电子商务协议协同工作[7]数据传输加密技术。电子商务在互联网或内联网上运行。主要的电子商务交易模式是B2B和B2C。公钥基础设施(PKI)提供了在互联网上识别或验证另一方身份的理想方法。可以实现几个基于PKI的安全服务来保护电子商务交易。

数字签名提供了身份验证和完整性的要求。发送消息通过哈希函数运行,最终生成新值(即消息摘要)。邮件摘要和纯文本使用收件人的公钥加密并发送给收件人。接收方使用其私钥解密消息,并通过提供的哈希算法传递消息。数字证书也用于安全目的。算法提供生成和验证签名的功能。签名生成使用私钥生成数字签名[8].

SSL由Netscape开发,用于在web服务器和客户端之间提供安全通信。信息被分成数据包,按顺序编号,并附有错误控制。单个数据包通过不同的路由发送[6]. SSL广泛应用于互联网,尤其是涉及交换机密信息(如信用卡号码)的交互[9]. SSL保护客户端和服务器之间的通信,并为双方提供身份验证以实现安全通信[10]. SSL提供点对点安全[11]. 也就是说,消息仅在网络传输期间加密,需要其他安全机制来处理应用程序或磁盘中的消息安全性。SSL用于在通信方之间安全地交换密钥。

PGP由Phil Zimermann开发,在不安全的电子环境中提供安全通信。PGP为电子邮件安全提供身份验证、机密性、压缩和分段服务。此外,PGP还提供可用于电子邮件和文件存储应用程序的保密和身份验证服务[8]. PGP广泛用于电子邮件安全。

强制反措施的有效性受到几个弱点的影响。防火墙系统是最受欢迎的安全形式,也有一些设计和配置挑战。入侵预防系统存在漏洞,例如低估了预防和检测的安全能力,注重性能而非安全,以及包括设计和实施在内的未定义管理策略[12]. 一项针对入侵防御系统的规避技术有效性的研究表明,IPS系统容易受到规避技术和组合的影响[10]. 大多数检出率在95%以上;然而,旧的规避技术甚至可以渗透到最复杂的系统中。上述研究得出的结论是,默认配置不够严格,无法阻止以规避手段掩盖的攻击。Imperva针对反病毒软件的有效性进行的一项研究收集了40种产品,并对82种恶意软件进行了测试。这项研究的结论是,反病毒产品在恶意软件检测方面是有效的,可以在大样本中快速重新分布;然而,新的毒株仍然为袭击留下了机会。攻击之窗造成了一个盲点,因为安全团队通常不知道它的存在。因此,建议采用一种拟议的安全模型来处理此类盲点,该模型包括监控对服务器、数据库和文件的访问[13]. 强大的密码策略还可以防止对用户帐户的重复攻击、对所有用户帐户的持续推测攻击以及基于用户详细信息进行猜测的特定攻击。然而,为确定密码的有效性而进行的一项研究得出结论认为,用户被误导使用强密码,因为他们无法抵御密码窃取攻击。因此,有效的锁定系统(即三次登录失败)将是小型机构的理想控制措施[14].

本研究构建了一个新的模型和框架,以克服以往电子商务保护方法的局限性。下一节将讨论此模型。

2.2. 多媒体和云计算安全

通常,多媒体安全解决方案基于使用隐藏技术,如加密[9],密钥管理[15],身份验证[16]、和水印[10]应用于多媒体数据保护。然而,由于难以处理大量数据,传统的安全措施在直接应用于云端时效果不佳。由于云计算技术的广泛应用,研究人员正致力于寻找更高效的方法来处理云平台上的多媒体安全问题。

云计算可以表示为软件即服务的组合,这是指服务交付模型[17]. 由于它提供了灵活的支持,多媒体数据始终存储在云平台上。Zhu等人[18]描述了多媒体云计算的概述,并从多媒体感知云的角度给出了多媒体云的解决方案。如何保护存储在云环境中的多媒体数据仍然是一个悬而未决的问题。以下是对最近与云计算相关的多媒体安全研究活动的全面综述[19].

构建了云计算安全系统。Jain和Kaur[20]提出了一种使用DES算法的云计算数据安全系统。此密码块链接系统对客户端和服务器是安全的。该系统的安全体系结构采用DES密码块链设计,消除了每天发生的数据被盗欺诈行为。Ren等人[21]提出了一种有效且灵活的方案,旨在利用交叉算法增强云计算环境中的多媒体安全。用户可以将云服务作为实用服务进行访问,并几乎立即开始使用它们。Yadav等人[22]提出了一种云计算中基于隐私保护和副本确定的基于内容的图像检索(CBIR)方案,该方案支持加密图像上的CBIR,而不会将敏感信息泄漏到云服务器。他们提取特征向量来表示相应的图像,并通过对位置敏感的散列构造预过滤表来提高搜索效率。安全性分析和实验结果证明了该方案的安全性和有效性。随着智能手机等移动设备的广泛部署,移动用户如何信任媒体云服务提供商提供的媒体服务成为一个重要问题。Wang等人[19]提出了使用安全共享和水印方案来保护媒体云中的用户数据。安全共享方案允许用户将多个数据块上传到不同的云中,从而无法从任何一个云中获取全部信息。此外,所提出的可扩展水印算法可以用于个人移动用户和媒体云之间的身份验证。所提出的方法不仅获得了良好的安全性能,而且可以提高媒体质量,减少传输开销。

然而,上述方案或系统只关注如何保护多媒体数据。他们没有触及资源分配问题,也缺乏监控。因此,我们的方法与上述现有方法有很大不同。

3.问题陈述

在本节中,我们首先实际描述了监控场景,然后说明了我们的模型准备工作。

3.1. 电子商务监控场景

云监控服务架构(CMS)的代表性网络架构如图所示1体系结构的实体可以描述如下。

(1) 监控网络(MN)被监测网络被表示为无向图,其中被监测对象是网络的顶点,边是两个顶点之间的连接。实际上,数据是通过连接的链路(即边缘)传输的。直观地说,监视一个节点不仅应该监视对象本身,还应该监视与该对象相连的链接。因此,被监视的网络可以分为几个部分,其中每个部分包括一个被监视对象和与该对象相关的链接。被监视的对象可以是网站、信息系统等。

(2) 用户用户是访问MN并将数据存储在MN中的实体,可以是企业客户,也可以是个人客户。

(3) 监控系统(MS)监控系统是基于云计算的统一方案。它由三部分组成:管理域、监控域和数据域。管理域管理MS并为用户访问提供友好的用户界面。通过这些接口,MS管理员可以获得实时动态。监控域为MN提供监控功能,并动态分配资源。数据域实现数据处理。数据(包括恶意代码和日志)存储在云上的关系数据库或NoSQL数据库中。数据将在存储时提取为特征。

3.2. 前期工作
3.2.1. 受监控网络

被监控的网络是一个无向图,由,其中是一组顶点和是一组无向边。我们表示顶点的邻居集通过以及通过。对应CMS模型,表示为监视对象,并且表示为.我们将被监控实体(ME)表示为,哪里包含根顶点和任何边缘只属于一个人. 是一组受监视的实体,其中.

我们现在举一个例子来解释上述符号。

示例1。2显示图表和两组不同的被监视实体,其中.包含6个顶点和8条边。包含根顶点和4条边缘,这些边缘在哪里,,、和.

3.2.2. 顺序模型

是一组项目。项目集是的子集:也就是说,.A序列是项目集的有序列表,由捐赠,其中是项集。有长度的序列被称为-顺序。A序列称为另一序列的子序列超序列,捐赠为,如果存在整数这样的话.

序列数据库是一组元组,其中是sequence_id,并且一个序列。元组据说包含一个序列,如果是的子序列.序列的支持在序列数据库中是数据库中包含的元组数:也就是说,.

然后我们给出一个示例来说明上述概念,如表所示1.

示例2。我们表示标记序列数据集以及最低限度的支持数据集包含4个序列和8个项目。长度为1的图案为, , ,长度为2的图案是, , , , , , ,.

4.威胁分析和有效机制

在本节中,我们首先分析了电子商务的现有威胁,然后设计了几种有效的机制。我们还总结了系统的设计目标。

4.1. 威胁分析

电子商务网络安全不可避免地隐藏着网络用户信息盗窃、信息篡改、虚假信息、恶意计算机病毒、恶意破坏和系统安全等危险。电子商务面临以下威胁。

(1) 电子商务网站可能是假冒的,因此可能损害消费者权益:电子商务提供了一个优秀的消费者购物过程。尽管这种交易方式便利了人们的经济生活,但许多人仍然缺乏安全常识(例如,他们无法识别哪些购物网站是真实的)。点击虚假网站无疑会误导客户。

(2) 电子商务缺乏标准化管理:人们很少关心电子商务的安全:由于没有统一的国家标准,交易处理涉及不同的非标准协议。此外,中国缺乏任何与网络相关的立法;因此,人们可以做任何他们想做的事情,从而对公共互联网环境造成严重破坏。

(3) 信息存储安全性相对较弱:电子商务中存在两种主要的存储威胁形式,即“未经授权的用户”和“查看信息”。当企业接入互联网时,电子商务运营过程中的问题将对企业产生重大影响。企业面临的外部威胁包括外部攻击、未经授权的访问和信息盗窃。相比之下,内部威胁涉及未经授权访问信息。

(4) 数据基数增加:众多客户和企业加入电子商务活动;因此,数据呈指数级增长。这种情况可能会导致异常检测的损失,因为现有的计算资源无法处理急剧增加的数据。一种定向方法是添加计算资源。然而,无法支持动态添加或删除的现有系统是另一个新出现的问题。

4.2. 基于云计算的电子商务系统

在本节中,我们建议基于威胁分析来设计我们的电子商务安全系统。首先,为了确保上述模型下数据的安全性和可靠性,我们旨在实现以下目标:

(1) 正确性:确保用户的数据确实得到了适当的存储,并始终保持在云中

(2) 动态资源支持:即使用户在云中修改、删除或追加数据,也要保持相同的监控级别,并在增加或减少资源时保持可伸缩性

(3) 在线分析:实时在线分析事件,及时发布预警

(4) 处理大数据:处理海量流媒体数据

现在,我们将详细介绍我们的电子商务安全系统。我们在开源云计算模型上使用和实现我们的应用程序,作为支持动态添加和删除源的基本平台。只有授权用户才能通过针对不同安全策略设计的统一界面访问此系统。我们不确定用户数据,只提供有趣的分析结果,以充分保护数据隐私。显示了工作流程。

电子商务系统的工作原理如下。我们已经初步建立了多任务的知识库,如异常检测、频繁数据挖掘和暗链识别。此进程可以脱机下载。我们将系统部署在互联网上并连接到网站,从而使我们能够实时监控安全事件。首先,我们通过使用选定的接口从监控数据中获取数据流。在此过程中,我们只记录数据信息,而不将其存储在数据库中。其次,我们以适合我们输入的格式重建流数据。第三,我们为数据分析提供动态计算资源。在这种情况下,多种算法可以针对不同的统计字符分析数据。因此,我们可以得到几个分析结果。最后,我们通过统一的界面将结果输出给授权用户。我们将用户隔离开来,这样他们就只能知道自己的分析结果和建议。数据在整个过程中都会加密,以避免数据泄漏。

下一节将为系统提供有效的机制。

5.高效机制

在本节中,我们提出了几种有效的机制,包括网络监控最小化和基于序列特征的风险评估。

5.1. 网络监控最小化

很明显,微软的资源有限,我们应该合理分配资源。正如我们上述所述,我们希望确保整个网络由MS监控。因此,我们可以定义如下问题。

问题3。给定一个MS,一个受监控的网络,和一组受监控的实体,我们打电话给监控盖.问题是找到最小的监控覆盖.

以下定理说明了找到最小监控覆盖的难度。

定理4。最小网络覆盖是多项式等价于最小集覆盖问题。

证明。我们从NP硬集覆盖问题中通过约简来证明这个定理[20]. 给出并集等于地集的一个地集和一组集,集覆盖问题是使用最少集的集覆盖。
给定一个集合覆盖问题的实例,让最小网络覆盖.是被监视实体(ME)的根节点集。很明显是的顶点覆盖;也就是说,任何边缘与中的至少一个节点相关.接下来,我们展示一下是最小顶点覆盖。假设存在另一个顶点覆盖这样的话.我们构建小微如下所示。对于每个顶点,我们形成一个ME,它包括以及所有边缘.然后,我们随机删除ME中的边,直到每条边都属于一个ME是一组至少有一条边的小微。显然,,这意味着不是最低网络覆盖率。显然,不存在。这是一个矛盾。因此,最小网络覆盖是多项式等价于最小集覆盖问题。

在定理证明中4,我们证明了可以用多项式步长从集合覆盖构造监控覆盖。存在一个2近似算法[4]对于集合覆盖问题。在我们的方法中,我们提出了一个最优的处理顺序,这确保了算法生成的ME可以是一个更有利的ME处理顺序。我们提出了两条规则来指导边缘选择。

(1) 选择已连接到先前选定边的边。

(2) 选择与顶点相关的具有高选择性的边。ME的选择性取决于.

算法1概述了监控覆盖和选择相结合的方法。我们首先选择一条最大的边。对于顶点,我们建造并移除边缘以确保一条边只能属于一个ME。此过程结束,直到已删除。然后我们举一个例子来解释这个过程。

(1); ;
(2)虽然有更多的边做
(3)如果然后
(4)拾取边这样的话是最大的;
(5)其他的
(6)拾取边这样的话是最大的;
(7)ME植根于;
(8)添加进入之内;
(9);
(10)删除中的边;
(11)如果然后
(12)ME植根于;
(13)添加进入之内;
(14)删除中的边;
(15);
(16)删除以及度为0的所有节点;
(17) 返回

例5。我们首先计算顶点和边的度数然后,我们构建基于,分别是。边缘我们将ME建立在.现在移除所有边返回。
关于算法的时间复杂性,我们注意到计算度和排序边具有成本,其中是网络中的顶点数。在每轮中,至少有两个顶点从,所以迭代需要步骤。因此,算法的时间复杂性1.

5.2. 基于顺序模型的风险评估

在本节中,我们提出了如何使用顺序特征来识别风险。请注意,我们的风险评估与信息安全风险显著不同,因为我们的方法考虑了句子的情绪。我们的方法可以获得评论的情绪,以便客户可以确定哪个商店更好。我们现在展示信息安全风险的基本模型,它使用资产、威胁和漏洞的知识。风险评估知识库的架构如图所示4.

风险评估知识分为资产知识、威胁知识和漏洞知识。资产知识定义了资产的机密性、可用性和完整性。威胁知识通过故障频率定义威胁级别。一般来说,频率越高,威胁越大。漏洞知识实际上被定义为对资产的影响,其中漏洞被威胁利用。规则包括基本规则和特定规则,由用户分别定义以分析潜在威胁。

众所周知,上述基于知识的风险评估需要大量用户定义的规则,而这些规则总是很难固定。与之不同,我们尝试将语义分析应用于风险知识。原因是传统的风险评估方法无法识别短文本中的威胁,因为它们只能处理结构词或短语。如何设计一个合理的评价体系仍然是一个悬而未决的问题。

给出一组评论,我们有兴趣提取以下特性。

(1) 情感特征所谓的情感因素是否定词、程度词和相关词。这些词的出现往往会影响句子中的情感变化或情感强度。例如,“虽然我们不能立即成功,但如果你努力,你最终会完成”包含情感影响因素“不是”、“而是”等等。这些情感词汇可以决定用户的情感趋势。

(2) 单词统计根据统计和研究,我们发现单个词类或组合的几个连续部分包含主观信息和客观信息。这个N个-词性模型是一种基于语料库的统计自然语言模型。什么时候?N个是3,这三个连续的单词组合成一个模式。本文将三个连续部分的序列视为情绪特征。

这个句子的三个POS特征是:名词-形容词-代词-格、代词-格言-动词、格-动词-名称标记、动词-名称-标记-格、名称-标记-lattice-noun、格-名词-动词和名词-动词-符号。

(3) 语义依赖特征我们利用词之间的语义关系来揭示句子的句法结构。语义依存是语法语法句法结构的主要元素。它是指句子中单词对的二元关系。一个叫做中心词,另一个叫做附属词。依存关系表示中心词和辅助词之间的语义依存关系。通过探索句子中中心词与中心词附属词之间的相互依存关系,我们可以获得有效的情感特征。如果两个单词之间存在依赖关系,我们将这两个单词视为一个实体,它表示序列中的项集。

给定一组文本,在我们提取完上述特征之后,我们实际上获得了一组序列,其中一个单词是一个项,或者依赖单词集是一个项目集。固定最小支撑,我们可以挖掘频繁的序列模式,并确定是否存在负面情绪模式。通过比较消极情感模式和积极情感模式,我们可以获得文本情感。算法2给出了此方法的详细信息。

(1) 初始化序列集;
(2) 对于每个文本
(3)提取情感特征、统计特征和语义依赖特征;
(4)删除的中性功能;
(5)构造基于,其中每个项目是一个单词;
(6);
(7) 结束
(8) 将序列模式挖掘技术应用于以获得;
(9) 返回.

6.实验

在本节中,我们分析了所建议系统和优化技术的有效性和效率。这些算法是用Java实现的,并用JDK 8编译。所有实验都是在一个有8台机器的集群上进行的,其中每台机器有32台GB DDR3 RAM和一个3.10Ghz Intel Xeon E3-1220 v2 CPU,4核,4线程。操作系统是Linux Ubuntu 14.04。

6.1条。数据集和评估指标
6.1.1. 数据集集合

我们使用5个公开的现实世界网络,这些网络发布在SNAP中[23],以评估监控最小化。网络统计如表所示2顶点#和边#分别表示为顶点和边的数量。

我们还从互联网上收集了恶意统一资源定位器(URL)数据。恶意网站是互联网犯罪活动的基石[5]. 用户每次决定是否单击不熟悉的URL时,都必须隐式评估相关风险[17]. 我们选择恶意数据的原因如下。首先,恶意数据在不同的电子商务领域有很多样本,包括文本、图像、视频和其他多媒体数据。因此,我们可以学习有关恶意特征的重要知识,然后构建知识库。其次,丰富的知识使我们能够轻松处理新的输入数据。在数据分析中,大量数据对学习模型非常有益。因此,我们可以提高分类和推荐任务的准确率和召回率。验证也很方便,因为我们的数据来自流行的恶意网站,这些网站被标记为合适或不合适。第三,恶意数据有明确的分类;因此,它们很容易清洗和分析。

我们设计了一个爬虫并对其特征进行了统计分析。因此,我们在完成分析时也获得了特征向量。文件总数为259137,总大小为13.6GB。列出了恶意数据的描述性统计信息。

6.1.2. 评估矩阵

我们从以下几个方面评估了我们提出的方法的性能。(1)“时间成本”:测量每个方法的平均总运行时间。(2)“精度”和“召回”:“精度”是正确结果的数量除以所有返回结果的数量。“Recall”是正确结果数除以应返回的结果数。请注意,此度量仅用于恶意URL检测。(3)“#ME”:它测量ME的数量,这是NMM问题的解决方案。

6.2. 系统性能结果

数字56显示不同系统的性能。显然,我们的基于云的系统在事件分析、事件存储和事件收集方面取得了更好的性能。总之,我们的系统可以监控95个重要网站,同时从至少20个数据源收集数据。我们的系统可以收集至少2000条数据记录,每秒处理至少5000条数据记录。通过部署云计算平台,我们减少了运行时间,效率提高了7.9倍。虽然该算法只是所提系统的一个微型版本,但它仍然证明了该系统的有效性和效率。

6.3. NMM问题的结果

数字78展示了网络监控最小化方法的性能。基线方法称为“随机”,它随机选择一个根顶点来构造ME。我们提出的方法算法1称为“学位”7,ME数量减少,表明算法1可以获得更少的小微,从而减少监控资源。从图中8,由于“度”首先对顶点进行排序,因此“度”的时间开销大于“随机”。Youtube的数据集拥有最大的#ME和时间成本,因为该数据集是最大的数据集。

6.4. 恶意URL检测结果

我们选择几个特征来形成数据向量。此后,这些功能可能表示恶意代码片段。考虑到不断的页面标记划分网页,删除无关信息并留下真正有益的文本很容易。上下文词汇也几乎无关紧要。因此,我们不考虑语义,只从统计数据中获取特征。4描述了选定的功能。

9显示了精确度和召回率随样本数的增加而增加。我们可以知道,准确率和召回率都大于80%,这是更好的结果。这表明我们的系统在恶意URL检测任务上是有效的。

6.5. 案例研究

在本节中,我们报告了一个来自监控数据的恶意URL检测和风险预测的案例研究。

我们使用一个虚假的购物网站,”https://www.taobao1.com,”来解释有关恶意URL检测的案例研究。爬网网页后,我们识别出嵌入可执行文件“XX.exe”的代码段。当用户单击超链接时,此可执行文件将弹出并误导用户输入其用户名和密码。此后,用户的私人信息将被泄露。

然后,我们报告了一个风险预测示例,该示例由我们的系统检测到。当我们处理来自WWW的安全报告时,我们的系统发现这份报告有严重的负面情绪。我们得知,这份报告是关于Apache Tomcat的泄漏。然后,我们预测了具有Apache Tomcat的资产的高风险。

7.结论

本研究设计了一个统一的框架来分析安全数据。根据提出的框架,我们构建了一个新颖且可信的系统,该系统集成了事件监测、数据分析、风险评估和安全警告。我们运行了面向电子商务安全的恶意URL检测,以验证系统的有效性和效率。我们通过分析具体任务的结果,为公司避免网络攻击造成的损失提供了有价值和有益的措施。然而,我们的研究有几个局限性。首先,我们不关注电子商务系统的内部安全,这也是一个需要完整权限管理的安全威胁。其次,我们还应该改进适当数据分析的选择,因为不同的算法可能会返回相似的结果。

我们研究的局限性表明了我们未来的研究方向。首先,应该制定一种改进的方法来权衡准确性和效率。第二,应解决内部安全威胁。第三,适当制定管理战略。

利益冲突

作者声明,本论文的出版不存在利益冲突。

致谢

本研究得到了国家自然科学基金(no.61672553)和教育部人文社会科学项目(no.16YJCZH076)的资助。