摘要

正态分布的测量误差在应用中是普遍存在的。一般来说,较小的测量误差需要更好的仪器和更高的测试成本。在决策中,我们将选择具有适当测量误差的属性子集,以最小化总测试成本。最近,提出了基于误差范围的均匀分布覆盖粗糙集来研究这一问题。然而,测量误差满足正态分布,而不是均匀分布,这对于大多数应用来说是相当简单的。本文将正态分布度量误差引入到基于覆盖的粗糙集模型中,并在该模型中处理了测试敏感属性约简问题。本文的主要贡献有四个方面。首先,我们建立了一个基于正态分布测量误差的新数据模型。其次,利用正态分布的“3σ”规则构造了具有测量误差的覆盖粗糙集模型。使用此模型,覆盖物是根据数据构建的,而不是由用户分配的。第三,在基于覆盖的粗糙集上重新定义了测试敏感属性约简问题。第四,提出了一种启发式算法来处理这个问题。实验结果表明,该算法比现有算法更有效。这项研究提出了关于成本敏感学习的新研究趋势。

1.简介

测量误差是测量值与其真实值之间的差值。它可以来自测量仪器、被测项目、环境、操作员和其他来源[1]. 正态分布是高斯于1809年提出的一种合理的测量误差分布。事实上,正态分布几乎适用于整个科学和工程测量。在数据挖掘应用程序中,基于测量误差的数据模型是不确定数据的一种重要形式(参见,例如[24]).

测试成本是指获取与某个对象相关的数据项所花费的时间、金钱或其他资源[510]. 有许多测量方法具有不同的测试成本来获得数据项。通常,为了获得测量误差较小的数据,需要较高的测试成本。在数据挖掘应用中,我们将选择具有适当测量误差的属性子集,以最小化总测试成本,同时保留原始决策系统的必要信息。

属性约简是一组属性的子集,这些属性对于保持给定信息表的特定属性来说是足够的和必要的[11]. 它是粗糙集理论的一个关键问题,近年来受到了广泛关注(参见,例如[1216]). 作为属性约简的泛化,测试敏感属性约简[6]重点是选择一组测试以满足最小测试成本标准。

最近,基于误差范围的覆盖粗糙集[4]引入是为了解决错误范围。该理论基于基于覆盖的粗糙集[1723]和邻域粗糙集[2428]. 此外,在新理论中,测试敏感属性约简问题处理的是数值数据,而不是标称数据。因此,该问题比中定义的问题更具挑战性[6]. 然而,基于误差范围的覆盖粗糙集只考虑均匀分布的误差,这是不现实的。

本文引入正态分布来构建一种新的基于覆盖的粗糙集模型,以解决正态分布测量误差(NDME)问题根据“3西格玛”“规则。本文的主要贡献有四个方面。首先,我们引入正态分布来建立一个基于测量误差的新数据模型。误差范围是根据属性值而不是不同数据集的固定误差范围来计算的。其次,我们建立了计算模型,即基于覆盖的反求具有正态分布测量误差的ugh集。第三,在新模型中重新定义了最小测试成本属性约简问题。第四,我们提出了一种启发式算法来解决约简问题。具体来说-设计了加权启发式约简算法,其中属性重要性由-加权测试成本。

本文使用加州大学爱尔文分校(UCI)图书馆的十个开放数据集来研究我们算法的性能和有效性。我们采用三种方法从统计角度评估约简算法的性能。使用开源软件成本敏感粗糙集(Coser)进行的实验[29]验证了该算法的性能。实验结果表明,在大多数情况下,我们的算法可以产生最小的测试成本降低。同时,所提出的算法可以获得比现有算法更好的性能和效率[4].

论文的其余部分组织如下:第节2分别给出了带有测量误差和测试成本的数据模型。章节描述了计算模型,即具有正态分布测量误差的基于覆盖的粗糙集模型。本节还定义了新模型下的最小测试成本降低问题。下一节4呈现一个-加权启发式约简算法和竞争方法。第节讨论了实验结果以及与现有工作的比较5最后,第节得出了结论6.

2.数据模型

本节介绍数据模型。首先,我们提出了一个具有正态分布测量误差的决策系统,为了简洁起见,该系统也称为NEDS。然后,我们将测试成本引入到NEDS中,并使用NDME定义了对测试成本敏感的决策系统。

2.1. 正态分布

正态分布是科学和工程测量中的一种重要类型。它可以用概率密度函数来描述其中参数是给出分布位置和参数的平均值是给出分布规模的方差。

累积分布函数(CDF)随机变量的值小于或等于某个值的概率:哪里.对于随机变量,其中右侧表示随机变量取值小于或等于。标准正态分布显示为。方程式变为

对于正态分布,约68.27%的正态分布值与平均值相差在一个标准偏差内;约95.45%的值在两个标准偏差内;几乎所有值(99.73%)都在平均值的3个标准偏差内,即“3西格玛”规则[30]. 我们使用以下示例解释标准偏差和置信区间之间的关系。

示例1。标准偏差为0.01,平均值为0;然后我们知道大约99%的测量误差是从−0.03到.

2.2. 具有测量误差的决策系统

我们在模型中引入正态分布测量误差[31]使模型更加真实。

定义2。具有正态分布测量误差的决策系统(NEDS)是6元组:哪里非空集合称为宇宙是分别称为条件属性和决策属性的非空变量集。是每个值的集合,以及是每个的信息函数.是测量误差的最大值。是的置信上限(UCL)和置信下限(LCL)分别是。

定义3。出租为NEDS,属性的错误范围定义为哪里哪里是用户特定的参数,的第个实例值,,以及是实例数。的精确度可以通过以下方式进行调整设置。

从定义我们可以看到,具有正态分布测量误差的决策系统是决策系统和具有误差范围的决策系统(DS-ER)的推广(参见,例如[4]). 如果所有属性都没有错误,则,NEDS降级为DS。如果错误范围为固定值,即,NEDS降级为DS-ER。

介绍了测量误差异常值的处理方法。在应用中,如果重复测量数据满足这个将被视为异常值并被拒绝,其中th测量值和是所有测量值的平均值。这就是测量误差理论的Pauta准则。

现在,我们在下面的命题中研究置信区间极限和标准差之间的关系。

提案4。分别为LCL和UCL,并让就是信心水平。一个具有置信区间上限哪里.

超过三个偏差的值是一个异常错误,需要加以识别并从考虑中删除。标准正态分布是正态分布的特例。置信区间的极限在以下命题中进行了研究。

提案5。分别为标准正态分布测量误差的LCL和UCL。一个有

证明。标准正态分布由以下公式得出平均值和一般正态分布。,因此(10)持有。

在定义中,一个关键参数是一个调整因素。现在我们通过以下命题来介绍它。

提案6。为的LCL和UCL分别是。置信区间在置信水平,以及.根据(),一个有

根据()和命题6,如果,我们有,; 如果,我们有,,如果,我们有,.

与误差范围较小的误差范围相比,反应时间较短的误差范围较大。与较大的误差范围相比,较小的误差范围具有更高的分类精度。一般来说,较小的测量误差需要更好的仪器和更高的测试成本。在许多应用中,不可能或没有必要区分宇宙中误差范围较小的物体或元素。可以通过设置以满足不同的要求。

2.3. 具有正态分布测量误差的测试成本无关决策系统

我们将测试成本引入数据模型。现在,我们将对新模型进行如下讨论。

定义7。具有正态分布测量误差的测试无关决策系统(TCI-NEDS)是7元组:哪里,以及与NEDS中的含义相同,并且是测试成本函数。测试成本是相互独立的,即,对于任何.

注意,在此模型中,测试成本不适用于决策属性。

为了进行处理和比较,通过线性函数将条件属性的值从其值规范化为从0到1的范围哪里是属性的最大值和最小值分别是初始值和规范化值。

1提出了一个条件属性为归一化值的虹膜决策系统。在哪里?SL、SW、PL、PW}、,类},以及.

3.具有正态分布测量误差的覆盖粗糙集

粗糙集理论是处理信息系统中不确定性知识的有力工具[32]. 已成功应用于功能选择[33,34],规则提取[3537],不确定性推理[38,39],决策评估[40,41],粒度计算[4245]等等。近年来,基于覆盖的粗糙集在理论和应用上都取得了显著的成就,引起了人们的广泛关注。

邻域的概念(参见例如[4648])已应用于定义不同类型的基于覆盖的粗糙集[1618]. 从不同的角度来看,邻域被称为信息颗粒或覆盖元素。1说明了在二维实空间中[25]. 对于这种邻域粗糙集模型,距离参数是用户特定的参数。距离小于的对象被视为邻居。最近,在[4]. 邻域的大小取决于测试的误差范围,更多的对象落入邻域用于更大的误差范围。2说明了这个二维邻域。

在本节中,我们将正态分布测量误差引入到基于覆盖的粗糙集。该模型称为具有正态分布测量误差的覆盖粗糙集。如前所述,如果我们不考虑错误,此模式将退化为经典决策系统。因此,该模型是经典模型的自然延伸。本节还提出了基于NDME覆盖粗糙集模型的测试敏感属性约简问题。

3.1. 具有正态分布测量误差的覆盖粗糙集

根据“三西格玛”规则,我们提出了一种同时考虑误差分布和置信区间的新模型2,我们在[31]如下所示。

定义8。是一个具有正态分布测量误差的决策系统。鉴于,附近的关于属性集上的正态分布度量误差定义为哪里是错误边界。它表示的错误值在里面.

测量误差不超过应该被视为邻域颗粒的家族。我们解释原因而不是受雇于(14)作为最大距离。虽然误差值在一定范围内,但置信区间之间存在显著差异。如前所述,“3西格玛”规则表明,对于正态分布,不同的比例值位于平均值的不同标准偏差内。特别是,如果数据与平均值的标准偏差超过三个,则比例非常接近于0。

因此,测量误差相差不超过应该被视为邻里颗粒家族。自然,邻域的大小取决于测试的误差范围和调整因子。显示了基于,,以及.

在新模型中,下近似值和上近似值定义如下。

定义9(参见[31]).是一个具有正态分布测量误差的决策系统,并且是由.对于任何,下近似值和上近似值在邻域近似空间中定义为

,.边界区域在里面定义为的正区域关于定义为[49,50].

3.2. 测试成本敏感属性约简问题

属性约简是一种成功的去除冗余数据和简化挖掘任务的技术。存在许多相对约简的定义[25,38,51,52]对于不同的粗糙集模型。在本节中,我们使用NDME在基于覆盖的粗糙集模型上定义了测试敏感属性约简。

中提出的最小测试成本降低问题[6]可以重新定义如下。找到这种简化的问题称为最小测试成本降低问题.

问题1。最小测试成本降低问题。输入:;输出:;约束:;优化目标:.

与经典的最小约简问题相比,有以下几点不同。第一个是输入,其中测试成本和测量误差是外部信息。第二个是优化目标,即最小化测试成本,而不是最小化特征数量。我们可以采用加减策略[15]来设计我们的启发式约简算法。

为了解决问题的约束,我们在中定义了一个不一致的对象[4]. 在这里,我们将其重新定义如下。

定义10。是一个具有正态分布测量误差的决策系统,,以及.英寸,任何被称为不一致对象,如果。中的不一致对象集

我们可以通过不一致对象的数量来评估邻域块的特征,即,从定义10我们知道给定,当且仅当。因此是计算正区域时的一个重要参数。因此,以下命题可用作还原的另一种定义。

提案11。成为NEDS。任何是决策相对约简当且仅当(1),(2)..

有时,我们对最小减少或最小测试成本减少感兴趣(参见,例如[6])。在这项工作中,我们专注于寻找具有最小测试成本的约简,即测试-敏感属性约简。由于TCI-NEDS是NEDS的自然延伸,NEDS中的概念也适用于TCI-NED。我们介绍以下定义。

定义12。表示TCI-NEDS的所有约简集.任何哪里称为最小测试成本降低.

根据这个定义,我们应该首先计算所有约简。因此,需要详尽的算法来解决这个问题。然而,对于大型数据集,以最小的测试成本找到约简是NP困难的。因此,我们应该提出一种启发式算法来处理大型数据集的这个问题。

3.3. 评价措施

为了消除主客观因素的影响,采用了三种评价指标来评价该算法的性能。我们采取了[6]为此目的。这些是寻找最优因子(FOF)、最大超越因子(MEF)和平均超越因子(AEF)。

是实验次数,让为实验中搜索到的最优约简数。找到最佳因素是一个定性和定量的衡量标准,定义为

最大超越因子描述了算法的最坏情况,定义为哪里是表示还原不良的超出因子,这是一种定量度量,其中是一个最佳还原,并且是搜索到的约简。

平均超标系数定义为它代表了算法的整体性能。

4.算法

测试敏感属性约简问题是NP-hard问题。因此,需要使用启发式算法来计算大型数据集的可能约简。为了评估启发式算法的性能,我们应该从所有约简中找到一个最优的约简。因此,还需要穷举算法。

在这一节中,我们主要介绍一种启发式算法和一种竞争方法来处理新问题。的穷举算法[4]用于查找数据集的所有约简。它基于回溯,其中剪枝技术在减少计算方面至关重要。

4.1. 这个-加权启发式约简算法

为了设计启发式算法,我们使用了一个与[6]. 该算法遵循典型的添加-删除策略[15],在算法中列出1.它构造了一个超约简,然后对其进行约简以获得一个约简。该算法与[6]. 首先,输入是一个具有正态分布测量误差的独立于测试的决策系统,它比TCI-ER更具泛化性。其次,测试结果是具有正态分配测量误差的数值,而不仅仅是标称值。第5行和第7行列出了该框架的关键代码,并重新定义了属性重要性函数以获得相应的算法。的效率-加权启发式约简算法将在第节中讨论5.4.

输入: ( )
输出:以最小的测试成本减少
方法:
(1) ;
//属性添加
(2) = ;
(3)虽然( ( ) ( ))
(4) 对于每个   
(5) 计算(f)( );
(6)  结束
(7) 选择 用最大值(f)( );
(8)  B类=B类 = ;
(9)结束while
 //属性删除
(10) = ;
(11)虽然( )做
(12) 选择 以最大的测试成本。
(13)   = ;
(14)  如果( ( )= ( ))然后
(15)   = ;
(16) 如果结束
(17)结束while
(18) 返回 ;

如前所述,是评价邻域块质量的一个重要参数。现在,我们介绍以下概念。

定义13。成为NEDS,,以及.是邻域中不一致对象的数量。与正区域不一致的对象总数为

最后,我们建议-加权启发式信息函数:哪里它在启发式信息中起着主导作用,其中是的测试成本是用户特定的参数。如果,基本上不考虑测试成本。如果成本较低的测试具有更大的意义。不同设置可以调整测试成本的重要性。

4.2. 竞争方法

为了获得更好的结果,在[6]. 在新环境中,它仍然有效,因为没有普遍最优的。在这种方法中,只需一个优胜者就可以完成彼此的约简,也就是说,可以使用以下方法获得测试成本最小的约简:哪里是通过算法获得的约简1使用启发式信息用户特定的集合值。

这种方法可以显著提高结果的质量。算法运行不同时间价值观;因此,需要更多的运行时。然而,这是可以接受的,因为启发式算法是快速的。

5.实验

5.1. 数据生成

UCI库中的大多数数据集[53]没有固有的测量误差和测试成本。因此,在我们的实验中,我们创建这些数据来研究约简算法的性能。例如,测量误差满足正态分布和Pauta准则。对于同一个对象,错误范围较小的条件属性应该更昂贵。在本节中,我们将讨论测量误差和测试成本的产生。

步骤1。从机器学习数据库的UCI存储库中选择了10个数据集,这些数据集列于表2。每个数据集应该只包含一个决策属性,并且没有缺少的值。为了便于处理,首先,我们将数据项的值归一化为0到1的范围。然后,缺失值直接设置为0.5。

第2步。我们为一个特定属性生成附加测试的数量。我们生成一个随机整数在范围内也就是说,我们有测量方法,以获得每个对象的值。包括我们实验的附加测试在内的测试数量为,如表所示2.

步骤3。我们生产根据(6)和(7). 这个是根据数据库的价值计算的,没有任何主观性。不同数据库的三种错误范围如表所示这些错误范围分别是所有属性的最大、最小和平均错误范围。的精确度可以通过以下方式进行调整设置,我们设置在我们的实验中为0.01。

步骤4。我们根据误差范围生成“新”数据作为原始测试,我们可以在生产,其中。数字生成如下。

出租在(0,1)上均匀分布,则是具有正态分布的随机数平均值和.来自命题4我们知道,以及.

因为我们需要一个随机数,我们让

最后,误差范围为根据定义8,是新测试的误差范围.

生成的具有不同误差范围的NDME如图所示4.不同数据库生成的NDME如图所示5.

步骤5。产生了测试成本,它们总是由正整数表示。作为最初的测试,让是一个特定数据项的最后一个测试。在中设置为随机数.哪里设置为。此设置可确保错误范围较窄的测试成本较高。

表中列出了这种方法生成的数据集4.SL代表萼片长度,SW代表萼片宽度,PL代表瓣长,PW代表瓣宽。SL-1、PL-1和PL-2表示原始数据的不同修订。只有一种方法可以获得SW和PW。

5.2. 启发式算法的有效性

.启发式算法在不同的测试成本设置和不同的设置所有数据集。数字67显示FOF的结果。对于的不同设置,算法的性能完全不同;也就是说,测试成本在该启发式算法中起着关键作用。; 因此,这些结果不包括在本实验结果中。

数字89显示MEF的结果,它提供了算法的最坏情况,它们应该被视为一种统计度量。数字1011显示AEF的结果。这些从统计角度显示了算法的总体性能。

从结果中我们观察到,不同数据集的结果质量各不相同。它与数据集本身有关,因为误差范围和启发式信息都是根据数据集的值计算的。那么在大多数情况下,AEF小于0.3,这是可以接受的。虽然结果一般可以接受,但算法的性能仍有待提高。在节中5.3,我们将进一步解决此问题。

5.3. 三种方法的比较

对于所提出的算法,是一个关键参数。通过不同的设置可以获得三种方法第一种方法称为非加权方法。这是唯一一个不考虑测试成本的测试,通过设置第二种方法称为最佳方法方法,就是选择最好的如图所示的值6通过11第三种方法是第节中讨论的竞争方法4.2三者均基于算法1和相同的数据库。现在,我们通过第节中提到的三种方法来比较所提出的算法的性能4.

5列出了所有三种方法的结果。从表5,我们观察到以下情况。(1)非加权方法几乎没有找到最优约简。从所有三个指标来看,这都是不可接受的。(2)在大多数情况下,最好的该方法获得了最佳结果。然而,我们不知道如何获得在实际应用中。(3)竞争方法显著提高了结果的质量,对于相对较少的.

5.4. 与现有算法的比较

与现有模型相比[4],本节介绍了主要改进。

首先,将NDME作为数据模型,提出了基于NDME的覆盖粗糙集。在大多数情况下,测量误差满足正态分布而不是均匀分布;因此,该模型具有更广泛的应用领域。

其次,比较不同数据库的修复错误范围[4],根据数据库值自适应生成建议的误差范围。显示了为不同数据库生成的错误范围。同一数据库的不同属性的错误范围完全不同。例如,Wdbc的最大误差范围为0.0040,最小误差范围为0.0006。

第三,a-提出了加权启发式算法来处理最小测试成本缩减问题。我们的算法与-加权算法[4]从有效性和效率出发。由于两种不同的算法具有不同的参数,我们在十个数据集上比较了竞争方法的结果。12显示了两种算法的竞争逼近结果。从结果中我们观察到(1)在Wpbc和Iono数据集上,两种算法具有相同的性能;(2)-加权算法在Iris、Glass和Credit数据集上的性能优于我们的算法;(3)然而,我们的算法比-五个数据集上的加权算法。

The efficiency comparison between the-加权算法和-图中描述了加权的13从结果中,我们注意到我们的算法在运行时方面有了改进。14显示了-加权算法和-加权算法。

6.结论

在粗糙集模型中,测量误差和测试成本都是数据固有的。在本文中,我们建立了一个新的基于覆盖的粗糙集模型,在四个层次上考虑了测量误差和测试成本。(1)在数据模型级别,提出了一种新的数据模型,其中包含NDME和测试成本。由于测量误差具有一定的普遍性,该模型具有更多的应用领域。(2)在计算模型级别,我们使用NDME引入了一种基于覆盖的粗糙集。该模型通常比该领域中的模型更复杂。(3)在问题层面,基于新模型重新定义了最小测试成本降低问题。(4)在算法级别-提出了加权启发式算法来处理这个约简问题。实验结果表明了该算法的有效性和效率。

总之,基于正态分布测量误差的数据模型具有广泛的应用范围。本研究提出了基于覆盖的粗糙集和成本敏感学习的新研究趋势。

致谢

本研究部分得到了中国国家科学基金(61170128号)、中国福建省自然科学基金(2012J01294号)、复杂系统管理与控制国家重点实验室(20110106号)、,福建省高等教育基金会JK2012028号,福建省教育厅JA12222号。