摘要

属性约简是粗糙集理论的重要处理步骤,其目的是消除数据冗余,提取有用信息。覆盖粗糙集作为经典粗糙集理论的推广,在理论和应用上都引起了广泛的关注。通过使用覆盖粗糙集,可以避免连续属性离散化的过程。本文首先对一致覆盖粗糙集进行了研究,回顾了一致覆盖粗糙集中的一些基本概念。然后,建立了属性约简模型,阐述了基于一致覆盖粗糙集的属性约简步骤。最后,我们将所研究的方法应用于实际滞后数据。可以证明我们的方法是可行的,并且最小二乘支持向量机(LS-SVM)和相关向量机(RVM)对约简结果进行了识别。此外,识别结果与气井实际测试结果一致,验证了该方法的有效性和效率。

1.简介

属性约简已经成为模式识别和机器学习任务中的一个重要步骤[1,2]. 属性约简的主要目的是去除数据集中的冗余信息,提取有用信息,以提高分类能力[]. Pawlak于1982年提出的经典粗糙集理论被用作处理各种类型的不充分和不完美数据的数学工具[4]. 粗糙集理论自提出以来,一直受到众多研究学者的关注,它为知识发现、特征选择、数据挖掘和规则提取提供了一个流行的数学框架。一般来说,传统的粗糙集理论可以基于等价关系将宇宙的对象划分为互斥的等价类。需要用粗糙集理论分析的数据表称为信息系统。信息系统作为人工智能中的一个数学模型,被认为是粗糙集的一个重要应用[5,6]. 在过去的几十年里,粗糙集在信息系统方面已经做了很多工作,包括在机器学习、决策分析和知识发现方面的一些成功应用。因此,粗糙集理论在不可预测和不确定信息系统中发挥着重要作用[7,8].

传统粗糙集属性约简的一个缺点是它只能处理离散数据库。因此,在属性约简之前,需要对连续数据库进行离散化。目前,现有的离散化方法大致可分为两类:有监督离散化方法和无监督离散化方法[9]. 监督离散化方法通常包括基于信息熵的离散化和基于ChiMerge算法的离散化[10]虽然无监督离散化方法可能包括等频率或等宽度的box方法、直观划分离散化和基于聚类分析的离散化[11,12]. 基于粗糙集理论的传统属性约简存在两个局限性:()现实世界中的数据库是数值型的,传统的粗糙集理论无法直接处理;()数值数据在属性约简之前必须进行离散化,这必然导致信息的丢失。因此,开发一种直接处理数值数据库的高效方法是非常必要的。为了有效地解决这个问题,提出了覆盖粗糙集理论,避免了属性离散化[13].

覆盖粗糙集理论是传统粗糙集理论的推广,可以直接处理数值数据。一旦推出,覆盖粗糙集就备受关注。到目前为止,许多研究人员对基于覆盖粗糙集的近似问题进行了研究[14——17]. 然而,据作者所知,关于覆盖粗糙集的属性约简及其实际应用的研究成果相对较少,这促使了本文的研究。

本文首先回顾了传统粗糙集和上下近似理论,提出了一致覆盖粗糙集理论的一些基本概念,并建立了一个属性约简模型。然后,提出并推广了基于一致覆盖粗糙集的属性约简,并将其与传统粗糙集属性约简进行了比较。最后,将所研究的属性约简方法应用于实际测井气数据。将使用LS-SVM和RVM算法识别约简结果,以确认其有效性。

2.与粗糙集相关的基本理论

2.1. Pawlak的粗糙集

在粗糙集理论中,四元组称为信息系统,其中是一组非空样本,称为宇宙或样本空间。而且是一组非空的属性或功能,分为以下几组条件属性和集合的决策属性的,.每个子集属性的可以诱导二元关系,也称为-不可分辨关系,定义为,是的范围是的映射函数; 它为每个对象提供一个属性值,其中,,。对于,-近似值和-近似定义如下:,,、和.图1直观地显示-近似值,-近似值和边界面积。

一个属性()在中被称为相对可有可无如果; 否则,是不可或缺的中所有不可或缺的属性的集合被称为,表示为如果相对独立于,被称为

2.2. 覆盖粗糙集相关的基本国家

定义1(参见[18]).成为一个话语的宇宙是的子集族然后,被称为覆盖如果中没有子集为空,并且
很明显当然是一个封面覆盖的概念是分区的扩展。在[19,20]覆盖的概念被用来构造下近似算子和上近似算子,并研究这些算子的性质。

定义2(参见[21]).是…的封面对于每个,让,也是一个覆盖,最小集包括在里面一个电话的诱导覆盖
对于每个,最小集包括在里面中的每个元素不能写入为中其他元素的并集 当且仅当是一个分区。对于任何,如果然后; 所以如果,然后

定义3(参见[21]).是一个覆盖物家族对于每个,让,、和也是一个覆盖 是所有覆盖物的交叉点,包括在里面

显然是所有覆盖物的交叉点,包括在里面所以,对于每一个,最小集包括在里面 可以视为中覆盖层的交集中的每个元素不能写入为中其他元素的并集如果每个覆盖是一个分区,那么也是一个分区,并且是包含以下内容的等价类对于每个,如果,然后,所以如果,然后

定义4(参见[21]).是一个覆盖物家族对于任何,下近似值和上近似值关于定义如下:,

的正域、负域和边界域相对于分别由以下公式计算:,、和

3.属性约简与仿真实验

3.1. 基于传统粗糙集的属性约简

在信息系统中,属性约简是粗糙集理论的一个重要应用。其核心思想是在保持不可分辨关系的同时减少冗余信息。然后,传统的约简方法,如基于区分矩阵的属性约简[22],基于启发式信息的属性约简[23],和基于进化计算的属性约简[24],可用于获取属性约简结果。接下来,我们以粒子群优化(PSO)算法为例,研究了基于进化算法的属性约简。

3.1.1. 基于粒子群算法的属性约简

简要结合粗糙集理论中属性约简的基本概念和粒子群优化(PSO)的思想,构造了基于PSO的属性约简算法。它有效地降低了算法复杂度。其算法步骤如下。

步骤1。对原始信息表中的数据进行离散化(离散化方法是基于曲线拐点的属性离散化)[25].

第2步。随机初始化粒子群。

步骤3。构建健身函数:; 计算每个粒子群的适应值。

步骤4。对于每个粒子群,将当前适应度值设置为新的,如果当前的适应值比过去的好。选择最好的作为,并继续更新位置。

步骤5。确定终止条件是否满足;如果是,请转至步骤否则,返回步骤(或以迭代次数作为终止条件)。

步骤6。使用约简定义测试每个粒子,获取所有候选约简集,删除冗余属性,然后获取最终的约简集。

3.1.2. 经典示例模拟与比较分析

1是一个城市白天的天气信息。“否”表示测试天数。有5个条件属性,分别是“c1”(光度)、“c2”(温度)、“c 3”(相对湿度)、“C 4”(风速)和“C 5”(降水)。“D”是表示行驶状况的决策属性。

基于曲线拐点离散后[25],请参阅表2

基于PSO算法进行属性约简后,约简结果为,这意味着条件属性c1和c3是冗余的。三个关键属性决定了旅行条件,分别是c2(温度)、c4(风速)和c5(降雨量)。

然而,如果我们基于信息熵应用离散化,请参见表

在基于PSO算法的相同约简方法而非相同离散化方法后,约简结果为显然,4个关键属性决定了旅行条件。它们分别是c1(光度)、c3(相对湿度)、c4(风速)和c5(降雨量)。

我们检验了在实际生活中,数值数据必须通过传统的粗糙集理论进行离散化。然而,需要指出的是,属性离散化在一定程度上破坏了条件属性和决策属性之间的不可分辨关系,也导致了信息的缺乏和约简结果的不同。因此,属性约简的准确性受到影响。为了解决连续属性离散化的复杂性,我们将提出一种基于一致覆盖粗糙集的属性约简方法。该方法可以大大提高属性约简的准确性和效率。

3.2. 基于一致覆盖粗糙集的属性约简
3.2.1、。基本定义和原则

在实际应用中,大量的数据库不能用经典粗糙集直接处理。为此,发展了邻域粗糙集和相似关系粗糙集。这些模型引入了一个宇宙的覆盖,而不是划分,因此可以归类为覆盖粗糙集。在下文中,我们回顾了一致覆盖粗糙集的一些定义。

定义5(参见[26]).是一个覆盖物家族 是决策属性集。是一个决策部门

如果,,这样的话,然后是决策系统被称为一致覆盖决策系统,并作为。的正区域相对于定义为。否则,被称为不一致覆盖决策系统。

定义6。是一个一致的覆盖决策系统。假设,由我们捐款矩阵,称为的区分矩阵并定义如下。
(1) 何时,(2) 何时,如果对于,是维护以下关系的封面之一关于这里我们应该指出,如果,中元素之间的关系是一个分离;如果,我们的意思是它是, , , , .自对称且,用于,我们代表仅通过以下三角形中的元素

定理7。是一个一致的覆盖决策系统,是的区分矩阵,可分辨函数如下:哪里意味着,对于每个, 进行分离操作。制造商  ; 然后是集合是系统所有缩减的集合。

3.2.2. 经典示例模拟

为了进一步验证算法的可行性,应用示例进行了仿真分析。

4是典型井的测井数据集,其中“否”表示井数。“c1”表示声波时差,“c2”表示井径,“c3”表示自然伽马,“c4”表示板块半径,“c5”表示感应电阻率,“c6”表示冲刷带电阻率。“D”表示油井类型,“0”表示干井,“1”表示油井[27].

显然,表中所有的条件属性都是数值数据4因此,数据必须离散化,不能直接由传统粗糙集处理。因此,一致覆盖粗糙集可以用于处理表中的数据4从而避免了传统粗糙集理论所缺乏的信息。

根据覆盖粗糙集的定义,是样本集的覆盖因此,构成4层样品在决策属性表中,对于每个条件属性,使用“降序”来建立等价关系。所以我们可以,,,,,,.样品可以分为两类, 根据决策属性,,显然,由于一致覆盖粗糙集的定义。而且,因此如下所示:对于每个,计算结果如下:基于区分函数的约简结果如下:

根据结果,该决策系统中有两个约简结果,即,分别是。显然,条件属性, ,是区分“干井”和“油井”的关键信息,所以

4.基于一致覆盖粗糙集的算法描述

属性约简是粗糙集的一个核心应用。本文主要研究基于一致覆盖粗糙集的属性约简。对于一致覆盖决策系统,属性约简的实质是保证条件属性的最小子集,从而达到属性约简目的[28]. 根据上述经典示例(第3.2.2)图中给出了基于一致覆盖粗糙集的属性约简模型的流程图2

根据图2,算法步骤设计如下。此外,本文还编制了基于一致粗糙集的属性约简算法。

步骤1。读取决策信息表中的样本数据。

第2步。按降序对样本数据进行排序,并构建样本的覆盖层。

步骤3。确保决策系统的一致性;然后运行步骤(本文只考虑一致覆盖决策系统)。

步骤4。建立区分矩阵也就是说,,

步骤5。写入区分函数:根据可辨矩阵。

步骤6。获取缩减集通过连接和析取形式;也就是说,

5.实际应用和实验分析

为了验证基于一致覆盖粗糙集的属性约简方法的有效性,我们采用了中国新疆“苏6”气井的测井数据,如表所示5并进行比较分析。所有条件属性都是数值型的。此外,为了保持机密性,选择了200种实验样本数据类型(井深3000 m–3400 m),而不是所有的测井数据。根据实际测试结果,其中气层点80个,非气层点120个。表中有13个条件属性5它们是GR(自然伽马)、DT(声波时间)、SP(自然电位)、WQ(平流区电阻率)、LLD(深部双侧向电阻率)、LL(浅部双侧向电阻)、DEN(密度)、NPHI(补偿中子)、PE(光电吸收指数)、U(铀)、TH(钍)、K(钾)、,和CALI(钻孔直径)。样本信息的决策属性为非气层和气层,决策属性表示为, ,分别是。“0”代表非农业层;“1”表示气层。(注:气田简称为富含天然气的天然气田。通常,有机物埋深在1至6公里之间,石油的生产温度在65至150摄氏度之间。天然气将随深度增加而产生。)

根据一致覆盖粗糙集的定义,显然,表中的日志数据5是一致的决策系统。表中的数据5输入到基于一致覆盖粗糙集的属性约简程序中。那么,还原结果是使用两种不同的传统粗糙集约简方法,即基于识别矩阵的属性约简和基于粒子群优化(PSO)的粗糙集属性约简,来处理表中的数据5进行比较和分析。还原结果如表所示6

根据表中的还原结果和运行时间6基于一致覆盖粗糙集的约简方法具有约简属性少、运行时间短的优点。

为了进一步验证基于一致覆盖粗糙集的属性约简的有效性,采用最小二乘支持向量机(LS-SVM)对约简结果进行识别[29]和相关向量机(RVM)[30]. 识别结果见表7识别结果表明,该算法的识别准确率分别为94.2%(LS-SVM)和91.5%(RVM),高于其他两种约简算法。

显示了实际气体分布,图4结果表明,采用LS-SVM对所研究算法进行识别,识别准确率为94.2%。5用RVM对研究算法进行了识别,识别准确率为91.5%。

根据图中识别结果的比较,4、和5我们知道,LS-SVM和RVM对所研究算法的识别准确率都达到了90%。它可以有效地减少气体识别中的繁琐工作,提高识别精度。数字67分别通过LS-SVM和RVM显示所研究算法的分类。其中,红线表示分类线,绿点表示气层点,黑色星号表示非气层点。

基于一致覆盖粗糙集的属性约简的提出具有重要意义。一方面,它避免了连续属性离散化的繁琐步骤,减少了决策信息表中重要信息的缺乏。基于这些原因,基于传统粗糙集的属性约简的准确性和效率可以大大提高。另一方面,与传统的属性约简相比,该算法可以直接处理现实世界中的数值数据,大大减少了工作量。将该方法应用于实际滞后数据;实践证明,天然气勘探是有效的,识别精度高。该方法可行、合理,对人工智能和数据挖掘具有重要的理论意义和实用价值。

6.结论

提出了一种基于一致覆盖粗糙集的高效属性约简算法。分析了传统粗糙集和覆盖粗糙集的知识。讨论了基于传统粗糙集的属性约简方法的不足和覆盖粗糙集的优点。实际测井数据验证了该算法的可行性和有效性。实验结果表明,所研究的约简方法能够有效地处理数值数据,比传统的粗糙集理论效率更高。通过LS-SVM和RVM算法将约简结果与实际识别结果进行比较,验证了算法的有效性。实验表明,本文提出的识别结果与实际气体分布一致,识别精度高。

利益冲突

提交人声明他们没有利益冲突。

致谢

本研究得到河北省自然科学基金(编号:E2016202341)和河北省回国学者基金(编号C201200308)的资助。