1.简介
不完全经济信息是指人们由于认知能力有限,对市场信息的掌握不完全。也就是说,在经济体制下,市场无法有效地生产和分配足够的信息。在现实生活中,由于信息收集和传播的成本,信息无法及时传递给每个需要信息的市场参与者。结果是信息流动和应用受到限制。此外,市场价格不能敏感地反映市场的供求状况,市场供求状况也不能在价格的引导下敏感地发生变化。其中最严重的可能导致市场机制失灵,因此提高不完全经济信息的完整性成为一个重要的研究课题。
事实上,数据的离散化并不是一个新话题。在粗糙集理论出现之前,人们对人类离散化(或量化)问题进行了广泛的研究,由于数值计算的需要,取得了许多研究成果。粗糙集理论是通过分析决策表和获取不可分辨关系知识来提高不完备经济信息完备性的有效方法。
大多数关于粗糙集理论的原始研究都是用波兰语发表的。在出版时,它没有引起国际计算机科学和数学界的注意,其研究领域仅限于东欧一些国家。直到20世纪80年代末,它才吸引了世界各地学者的注意[1]. 1991年,Z.Pawlak的专著《粗糙集:数据推理的理论方面》系统地阐述了粗糙集理论,为粗糙集理论奠定了严格的数学基础。这本书的出版标志着粗糙集研究的繁荣。Skowron等人提出的粗糙集和布尔逻辑方法是完备的。理论上,可以找出离散断点集的所有可能组合。然而,该算法的复杂度是指数级的,无法应用于实际问题。Nguyen基于断点对实例的可分性提出了几种改进的贪婪算法。一般来说,选择最佳度量并不容易,但在选择最佳度量后使用改进的贪婪算法解决问题尤其有效。属于局部优化搜索算法;这对于整个问题来说是不实际的。陈彩云使用遗传算法搜索最佳离散断点集,属于整体搜索算法。第二类算法是从不同角度提出的粗糙集离散化算法。主要问题是候选分割点的选择是主观的,一些离散算法的效率也值得考虑。迄今为止,粗糙集理论已成功应用于模式识别、机器学习、决策支持、过程控制、,预测建模等[2]. 粗糙集理论基于分类机制,它将分类理解为特定空间中的等价关系,等价关系构成了空间的划分[三]. 粗糙集理论将知识理解为数据的划分,每个划分的集称为概念。其主要思想是利用已知知识的知识库,用已知知识库中的知识近似不准确或不确定的知识[4]. 粗糙集理论在信息科学应用中有两大类:一类是非决策分析,其内容主要包括数据压缩、约简、聚类和机器发现[5]; 另一类是决策分析,主要包括决策分析和规则提取。当然,它也可以用于原始数据的预处理,例如数据压缩和缩减。粗糙集理论作为处理不确定性和不精确性的数学工具,近年来在国际学术界受到越来越多的关注[6]. 离散化是粗糙集的重要问题之一。Pawlak提出的以不可区分关系为核心的粗糙集方法处理离散属性值,而实际生活数据大多是连续属性值。因此,数据需要离散化,这已成为粗糙集理论实用化的瓶颈[7]. 离散化的本质可以归结为使用选定的断点来划分条件属性形成的空间的问题。这是一个空间划分和优化编码问题[8]. 这个问题在模式识别分类、编码和图像编码领域得到了广泛的研究[9,10]. 然而,如何将前人的研究与现有理论相结合,开发出一种对粗糙集知识有用的离散化方法是一个值得研究的问题。 本研究提出了一种基于粗糙集的不完全经济信息大数据离散化算法,该方法的新颖性和创新点在于首先加入了不完全经济数据,然后在使用粗糙集补充数据的基础上,在保持原有决策系统不可分辨关系的同时,尽可能减少断点集分割空间,它是由连续的属性值和分类识别形成的相关信息,准确地提高了计算效率,使不完整的经济信息更加完整。本研究设计的算法有效地填充了不完整的经济信息,提高了经济信息流通的效率,使市场机制更加灵活,为经济领域的发展进步做出了突出贡献。
2.粗糙集不完全经济信息的离散算法设计
2.1. 基于深度学习的不完全经济信息填充算法
近年来,国内外专家提出了大量的不完全经济信息的填充方法,但这些方法只能处理小规模数据。因此,本文提出了基于深度学习的不完全经济信息填充算法。首先,构建三层网络模型,将每层网络的输出设置为上层网络的输出,将最上层设置为获取的特征输出。在训练过程中,从自顶向下的训练中提取网络初始化参数,最后使用反向传播算法对所有参数进行微调[11]. 为了提取网络训练各层的监控目标,首先将实例数据设置为输入,并建立覆盖自动编码器来提取实例数据的两层特征。叠加式自动编码器的原理图如所示图1: 在图1,年表示重建的数据集是编码因子。在本研究中,原始经济信息将尚未处理的设置为网络输入和第一层特征可以在最底层提取,其中是特征因子。功能被设置为上层网络的输入,并且第二层特征获得。训练主要基于局部训练,权重需要通过第二层特征训练进行更新,不能干扰下层网络。根据该方法,可以初始化分层网络参数,最后使用反向传播算法对人体参数进行微调[12]. 通过这种方式,两层功能和可以提取原始数据实例的。 基于叠加式自动编码器,建立了三层深部充填网络模型。三层深填充网络模型的示意图如所示图2: 在图2,监控数据设置为,和3,并使用分层训练表初始化每个层的网络参数。第一步是向数据实例添加噪声,第二步提取一些属性并将属性值设置为0,最后得到仿真示例不完全经济信息;当输入为,第一层特征和提取不完全经济信息的第一层特征实例的在.设置作为监管数据,作为输入,第二层特征和属于可以获得。第一层特征实例的在中获得使用叠加自动编码器。最后,设置作为监管数据,作为输入,第三层特征和属于可以获得。深度学习网络依次逼近实例特征,减少了各层不完全经济信息的干扰。当到达网络的顶层时,可以获得大数据特征[13]. 实例在数据集中按顺序提取R(右)并对深度学习网络进行培训。培训后,更新网络参数。当全局网络稳定时,网络参数,和已提取。
提取网络参数后,提取不完全经济信息数据集中各数据的深度特征[14]. 对于不完整的经济信息,需要将其不完整属性的属性值设置为0并建立.被分割并设置为输入,其深度特征使用方程式(1)得出。 然后,使用公式(2)恢复不完整的经济信息并获得填充值不完整的经济信息: 2.2. 基于断点判别的粗糙集离散化算法
粗糙集是处理不准确数据的重要数学工具。与证据理论和模糊集理论不同,粗糙集理论不需要任何关于数据的先验知识或附加信息[15]. 在粗糙集理论中,数据表被称为信息系统。在数据背景下,填写后的完整经济信息中存在大量无法确定的数据。因此,使用粗糙集中基于断点判别的离散化算法,在保持决策系统原有不可区分关系的前提下,通过使用尽可能少的断点集来划分完整经济信息的连续属性值所形成的空间[16]. 假设在大数据背景下,填报后完整经济信息的决策系统为,U型是有限对象集(域);R(右)是属性集;V(V)是属性值的集合;(f)是信息功能。每个连续条件属性,C是一个子集。在域中,其有限属性值V(V)排序如下。 填写后完整经济信息的候选断点是哪里;代表米-属性a的第个断点和;是属性a和集合的断点总数()是一组实例。 在完成的经济信息的决策属性值为j个,实例属于这两者X(X),属性a的值小于断点的值,其编号为 在完成的经济信息的决策属性值为j个,实例属于这两者X(X),属性a的值大于断点的值,其编号为 然后哪里和是属性因素,是决策类型d日表示决策因素。断点的X(X)插入,并且decision属性值的实例j个在集合中X(X)被划分为x个小于的子集和一个x个大于或等于的子集[17]. 因为不同的断点在集合的插入位置不同X(X),决策属性的实例分布位置j个不同,因此不同断点区分决策属性值的能力不同j个是不同的。在中所示的示例集中图3,“•”表示决策属性值为1的实例,“∘”表示决策值为0的实例。显然,断点在区分实例集中的决策类方面优于断点。对于任何断点成套X(X),我们使用指示断点对的决策属性值的判别能力j个。对于集合中的任何断点X(X),我们使用判别能力来表示断点的决策属性值。是断点的加权平均值因为…的辨别力决策属性值。因此,是选择断点的指示器[18]. 2.2.1. 的计算方法
在下面,能够区分填写完整的经济信息断点从决策属性值j个已计算。首先,介绍以下概念。
是实例决策属性值等于的概率j个并且属于x个在填充的完整经济信息集中;
是实例决策属性值不等于的概率j个和属于x个在填充的完整经济信息集中;
是决策属性值的实例总数j个在填充的完整经济信息集中;
是填充的经济信息集的完整示例.
从观察中可以看出,如果断点的值完整的经济信息的高度,意味着决策属性值的实例j个集中在侧面;那么它将非常高,这意味着决策属性值的实例不等于j个分布在。这表明具有较强的区分决策属性值的能力j个因此用于表示填写完整经济信息断点的能力区分决策属性值j个.
第1步计算;
第2步计算;
步骤3已计算。
2.2.2. 的计算方法
通过分析,我们得出,如果完全填充的完整经济信息断点非常重要,那么相应地较高。值越大是,断点越高区分决策类的能力为。这表明填充的完整经济信息断点也很重要,有优先选择权[19]. 断点的值可以表示为 2.2.3. 基于大数据的离散算法设计
随着物联网、社交网络、云计算等技术不断融入我们的生活,以及现有计算能力、存储空间和网络带宽的快速发展,人类在互联网、通信、金融、商业、,医疗保健和许多其他领域继续增长和积累。特别是,经济领域产生的海量大数据导致经济信息完整性下降,不完整经济信息量增加。因此,在大数据背景下,利用粗糙集处理不完备的经济信息势在必行。基于大数据粗糙集的不完全经济信息离散化算法的设计过程如下:
假设P(P)是选定的一组经济信息断点,L(左)是实例被断点集划分为的等价类集P(P)C是一组候选断点。是已完成的经济信息决策系统的等效类,已被P划分,因此如果,的是 基于上述分析,给出了基于断点判别能力的离散化算法。
基于断点判别能力的算法(算法1):
- 第1步
;.
- 第2步
对于,应进行计算;
- 步骤3
选择最大断点属于并将其添加到P中;
- 第4步
对于所有人,如果划分等价类X(X)进入之内和,然后删除X(X)从L(左)并添加等价类和到L(左);
- 第5步
如果实例在每个等价类中具有相同的决策L(左),然后停止;否则请转至步骤2。
假设填写后完整的经济信息决策系统的域为U型和P(P)用于表示由等于属性值的决策属性确定的等价关系。问是由填充后的完整经济信息决策系统的任意条件属性的相等性所确定的等价关系簇,它在U型. 本研究算法选择填充完整经济信息断点的过程实质上是属性值合并的过程。
(1) 假设本研究中的算法在U型根据等价关系,则只有一个合并: 和分别表示完整经济信息决策系统离散化前后的兼容性,以及因此,填写后完整的经济信息决策系统的兼容性不变。
(2) 同样,当等价类的组合为两个或多个时,填充后完整的经济信息决策系统的兼容性不会改变[20]. 3.实验过程与分析
通过实验验证了本文基于大数据设计的粗糙集不完全经济信息离散化算法的有效性。首先进行不完全经济信息的填充性能测试,然后进行离散化性能测试。
(1) 不完全经济信息的填充性能测试
为了验证该算法的有效性,将该算法与FIMUS和DMI两种填充算法进行了比较。将一部分数据从10G不完全经济信息的数据集中删除,以模拟不完整经济信息集。填充完成后,将填充值与实际值进行比较,以获得算法的填充精度。
本研究人为地创建了两个经济信息缺失值,即单模式缺失和多模式缺失。在单模式中,每个数据对象只允许包含一个缺失值,而多模式允许每个数据对象包含多个缺失值[21,22],缺少的值会有所不同。通过从数据集中选择1%、3%、5%和10%的数据并删除数据的一些属性值来模拟缺失的数据。 本文使用两个标准来衡量算法的填充精度。第一个标准称为标准,用于测量填充值与真实值的匹配程度。第二个标准是RMSE,它测量填充值和真实值之间的平均误差。根据两个标准的定义,对于一个算法即,该算法的填充精度越高。反之,RMSE值越小,该算法填充精度越低。填充结果如所示表1: 可以从中看到表1对于任何类型的缺失组合,随着数据缺失率的增加通过算法FIMUS和DMI得到的结果是递减的,即两种算法对不完全经济信息的填充精度随着数据丢失率的增加而降低。随着数据丢失率的增加,算法FIMUS和DMI得到的RMSE不断增加,即两种算法的填充精度随着数据丢失速率的增加而降低[23,24]. 本研究中提出的算法的RMSE填充值小于0.2。因此,就RMSE而言,该算法的填充精度明显高于FIMUS和DMI。 这是因为本研究方法采用了基于深度学习的不完全经济信息填充算法。通过对现有信息的特征提取和深度学习,可以获得补充填充值。因此,计算结果的准确性较高。
对于任何缺失的组合,随机选择不同的经济信息作为训练数据。运行算法20次后通过统计算法获得的RMSE值和平均值如所示图5和图6: 可以从中看到图5和图6该算法的填充精度相对稳定。具体来说,当数据删除率在1%到10%之间时,可稳定维持在0.8以上,RMSE值稳定在0.15~0.2之间。此外,对于任何一种缺失率,单一缺失模式的填充精度显著高于多重缺失模式的填写精度[25]. 这是因为多填充模式有大量的缺失数据,其对特征提取和恢复的干扰高于单一缺失模式。 (2) 离散化性能测试结果
为了验证算法的离散化测试性能,共设置了9组不同大小的样本,并填充了不完整的经济信息。利用本文提出的基于信息熵算法和基于断点重要性算法的方法进行了离散实验。并设置不同样本的数量。详细设置如所示表2. 为了验证该算法的有效性,对不完全经济信息进行了识别测试。实验过程分为以下步骤:
每个数据集随机选择50%用于训练集的学习,剩下的50%使用获得的推理规则进行识别和测试。识别结果如所示图7,图8,图9和图10. 实验结果表明,正确识别率高达98.67%,错误识别率低达2.01%,拒绝识别率低至1.01%。从计算时间来看,该算法计算时间最短,最小值仅为101s。实验结果表明,该算法的识别效果优于基于信息的熵算法和断点重要性算法。此外,它在检测结果中表现出很强的鲁棒性。这主要是由于基于粗糙集断点判别的离散化算法。该算法在保持决策系统原有不可区分关系的前提下,使用尽可能少的断点来划分现有经济信息连续属性值所形成的空间。
4.讨论
离散化算法利用粗糙集中决策系统一致性水平的概念。通过计算、聚类和划分获得决策系统的一致性水平,并反复调整聚类参数因子,以确保决策系统的连贯性水平。使用判别函数过滤候选断点是一种常见的离散化算法,例如基于断点重要性的算法。您可以区分断点的实例数来衡量断点的重要性。实例对的值越高,断点越重要,选择断点的可能性越大。根据不同候选断点决策能力的差异,本研究提出了一种基于粗糙集的大数据不完全经济信息离散化算法,实验结果表明,当数据删除率在1%~10%之间时,稳定性可以保持在0.8以上,RMSE值稳定在0.15~0.2之间,表明该算法对不完全经济信息的填充效果良好,主要原因是采用深度学习的算法没有完全填充经济信息。首先,构建了一个三层网络模型。将每个层的输出设置为上层的输出,将上层设置为获取的特征输出。在训练过程中,从上到下提取网络初始化参数,并使用反向传播算法对所有参数进行微调,提高了不完全经济信息的填充效果。本研究设计的算法正确识别率高达98.67%,错误识别率和拒绝识别率均低于其他两种算法。该算法的计算时间最短,最小值仅为101s,这表明该算法使用粗糙集来实现补充经济信息的离散化,具有较高的计算效率和识别精度。
总之,实验结果验证了算法的有效性,不完全经济信息具有良好的填充效果。当样本量和条件属性较大时,它仍然具有更高的计算效率和更高的识别精度,这对提高经济信息的流动率起着重要作用。
5.结论
虽然粗糙集理论的发展才二十多年,但取得了显著的研究成果。它在计算机领域(数据决策与分析、机器学习、模式识别等)的成功应用逐渐受到重视。为了使不完备的经济信息完整,提高计算速度,实现相关经济信息的准确分类和识别,提出了一种基于大数据的粗糙集不完备经济信息离散化算法。首先填充不完全经济信息,然后分析候选断点的决策能力。连续属性离散化后,决策系统保持了原有的一致性。在保持决策系统原有不可分辨性的同时,利用粗糙集对连续属性值形成的空间进行分割,使断点尽可能少,从而对相关信息进行准确分类和识别。实验结果表明,当样本数较大且条件属性较大时,该算法是有效的,具有较高的效率。
由于实际问题的复杂性,该方法不适合于所有数据集的离散化。有必要不断探索新的离散化算法,以满足不同数据集的需要。未来,随着经济的发展和社会的进步,经济数据必将以惊人的速度增长,对经济信息的要求也将更加严格,因此我们一定会找到更有效的方法来处理这些不完整的经济信息。研究必须与时俱进,引入更先进的技术来填充和离散不完整的经济信息,使经济信息流通更具启发性,完善数据,促进经济进步。