Discretization Algorithm for Incomplete Economic Information in Rough Set Based on Big Data

Li, Xiangyang; Shen, Yangyang

doi:10.3390/sym12081245

开放式访问第条

基于大数据的粗糙集不完全经济信息离散化算法

通过

李向阳

和

沈阳阳

^*

山西财经大学信息学院，太原030006

^*

应向其寄送信件的作者。

对称 2020,12(8), 1245;https://doi.org/10.3390/sym12081245

收到的提交文件：2020年6月4日/修订日期：2020年7月16日/接受日期：2020年7月17日/发布日期：2020年7月28日

（本文属于特刊科学与工程中的数学建模与计算方法II)

下载

浏览地物

版本注释

摘要

:

基于粗糙集的离散化用于用尽可能少的断点集划分连续属性值形成的空间，同时保持决策系统原有的不可区分关系，从而准确地分类和识别相关信息。本文提出了一种基于大数据的粗糙集不完备经济信息离散化算法。首先，使用基于深度学习的不完全经济信息填充算法来补充不完全的经济信息。然后，基于断点判别，利用粗糙集中的离散化算法实现了基于粗糙集的辅助经济信息离散化。使用多组数据测试了该算法的性能，并与其他算法进行了比较。实验结果表明，该算法对基于不完全经济信息粗糙集的离散化是有效的。当不完全经济信息粗糙候选断点数量增加时，它仍然具有较高的计算效率，可以有效地提高不完全经济数据的完整性，最终应用性能优越。

关键词：

大数据;不完整的;经济信息;粗糙集;离散化;断点

1.简介

不完全经济信息是指人们由于认知能力有限，对市场信息的掌握不完全。也就是说，在经济体制下，市场无法有效地生产和分配足够的信息。在现实生活中，由于信息收集和传播的成本，信息无法及时传递给每个需要信息的市场参与者。结果是信息流动和应用受到限制。此外，市场价格不能敏感地反映市场的供求状况，市场供求状况也不能在价格的引导下敏感地发生变化。其中最严重的可能导致市场机制失灵，因此提高不完全经济信息的完整性成为一个重要的研究课题。

事实上，数据的离散化并不是一个新话题。在粗糙集理论出现之前，人们对人类离散化（或量化）问题进行了广泛的研究，由于数值计算的需要，取得了许多研究成果。粗糙集理论是通过分析决策表和获取不可分辨关系知识来提高不完备经济信息完备性的有效方法。

大多数关于粗糙集理论的原始研究都是用波兰语发表的。在出版时，它没有引起国际计算机科学和数学界的注意，其研究领域仅限于东欧一些国家。直到20世纪80年代末，它才吸引了世界各地学者的注意[1]. 1991年，Z.Pawlak的专著《粗糙集：数据推理的理论方面》系统地阐述了粗糙集理论，为粗糙集理论奠定了严格的数学基础。这本书的出版标志着粗糙集研究的繁荣。Skowron等人提出的粗糙集和布尔逻辑方法是完备的。理论上，可以找出离散断点集的所有可能组合。然而，该算法的复杂度是指数级的，无法应用于实际问题。Nguyen基于断点对实例的可分性提出了几种改进的贪婪算法。一般来说，选择最佳度量并不容易，但在选择最佳度量后使用改进的贪婪算法解决问题尤其有效。属于局部优化搜索算法；这对于整个问题来说是不实际的。陈彩云使用遗传算法搜索最佳离散断点集，属于整体搜索算法。第二类算法是从不同角度提出的粗糙集离散化算法。主要问题是候选分割点的选择是主观的，一些离散算法的效率也值得考虑。迄今为止，粗糙集理论已成功应用于模式识别、机器学习、决策支持、过程控制、，预测建模等[2]. 粗糙集理论基于分类机制，它将分类理解为特定空间中的等价关系，等价关系构成了空间的划分[三]. 粗糙集理论将知识理解为数据的划分，每个划分的集称为概念。其主要思想是利用已知知识的知识库，用已知知识库中的知识近似不准确或不确定的知识[4].

粗糙集理论在信息科学应用中有两大类：一类是非决策分析，其内容主要包括数据压缩、约简、聚类和机器发现[5]; 另一类是决策分析，主要包括决策分析和规则提取。当然，它也可以用于原始数据的预处理，例如数据压缩和缩减。粗糙集理论作为处理不确定性和不精确性的数学工具，近年来在国际学术界受到越来越多的关注[6].

离散化是粗糙集的重要问题之一。Pawlak提出的以不可区分关系为核心的粗糙集方法处理离散属性值，而实际生活数据大多是连续属性值。因此，数据需要离散化，这已成为粗糙集理论实用化的瓶颈[7]. 离散化的本质可以归结为使用选定的断点来划分条件属性形成的空间的问题。这是一个空间划分和优化编码问题[8]. 这个问题在模式识别分类、编码和图像编码领域得到了广泛的研究[9,10]. 然而，如何将前人的研究与现有理论相结合，开发出一种对粗糙集知识有用的离散化方法是一个值得研究的问题。

本研究提出了一种基于粗糙集的不完全经济信息大数据离散化算法，该方法的新颖性和创新点在于首先加入了不完全经济数据，然后在使用粗糙集补充数据的基础上，在保持原有决策系统不可分辨关系的同时，尽可能减少断点集分割空间，它是由连续的属性值和分类识别形成的相关信息，准确地提高了计算效率，使不完整的经济信息更加完整。本研究设计的算法有效地填充了不完整的经济信息，提高了经济信息流通的效率，使市场机制更加灵活，为经济领域的发展进步做出了突出贡献。

2.粗糙集不完全经济信息的离散算法设计

2.1. 基于深度学习的不完全经济信息填充算法

近年来，国内外专家提出了大量的不完全经济信息的填充方法，但这些方法只能处理小规模数据。因此，本文提出了基于深度学习的不完全经济信息填充算法。首先，构建三层网络模型，将每层网络的输出设置为上层网络的输出，将最上层设置为获取的特征输出。在训练过程中，从自顶向下的训练中提取网络初始化参数，最后使用反向传播算法对所有参数进行微调[11].

为了提取网络训练各层的监控目标，首先将实例数据设置为输入，并建立覆盖自动编码器来提取实例数据的两层特征。叠加式自动编码器的原理图如所示图1:

在图1,年表示重建的数据集

{（f）}_{θ^{'}}

是编码因子。在本研究中，原始经济信息

c（c）

将尚未处理的设置为网络输入和第一层特征

{第页}_{1} = 克_{θ^{0}} (c（c）)

可以在最底层提取，其中

克_{θ^{我}}

是特征因子。功能

{第页}_{1}

被设置为上层网络的输入，并且第二层特征

{第页}_{2} = 克_{θ^{1}} ({第页}_{1})

获得。训练主要基于局部训练，权重需要通过第二层特征训练进行更新，不能干扰下层网络。根据该方法，可以初始化分层网络参数，最后使用反向传播算法对人体参数进行微调[12]. 通过这种方式，两层功能

{第页}_{1}

和

{第页}_{2}

可以提取原始数据实例的。

基于叠加式自动编码器，建立了三层深部充填网络模型。三层深填充网络模型的示意图如所示图2:

在图2，监控数据设置为

{c（c）}^{'}

,

{第页}_{1}^{'}

和

{第页}_{2}^{'}

3，并使用分层训练表初始化每个层的网络参数。第一步是向数据实例添加噪声

c（c）

，第二步提取一些属性并将属性值设置为0，最后得到仿真示例

{c（c）}^{'}

不完全经济信息；当输入为

{c（c）}^{'}

，第一层特征

{第页}_{1}^{'} = 克_{θ^{0}} ({c（c）}^{'})

和

年 = 克_{θ^{0}} ({c（c）}^{'})

提取不完全经济信息的第一层特征

{第页}_{1}

实例的

x个

在

克_{θ^{0}}

.设置

{第页}_{1}

作为监管数据，

{第页}_{1}^{'}

作为输入，第二层特征

年_{1} = 克_{θ^{1}} ({第页}_{1}^{'})

和

{第页}_{2}^{'} = 克_{θ^{1}} ({第页}_{1}^{'})

属于

{c（c）}^{'}

可以获得。第一层特征

{第页}_{2}

实例的

x个

在中获得

克_{θ^{1}}

使用叠加自动编码器。最后，设置

{第页}_{2}

作为监管数据，

{第页}_{2}^{'}

作为输入，第三层特征

{第页}_{三}^{'} = 克_{θ^{2}} ({第页}_{2}^{'})

和

年_{2} = 克_{θ^{0}} ({第页}_{三}^{'})

属于

{x个}^{'}

可以获得。深度学习网络依次逼近实例特征，减少了各层不完全经济信息的干扰。当到达网络的顶层时，可以获得大数据特征[13].

实例在数据集中按顺序提取R（右）并对深度学习网络进行培训。培训后，更新网络参数。当全局网络稳定时，网络参数

β^{0}

,

β^{1}

和

β^{2}

已提取。

提取网络参数后，提取不完全经济信息数据集中各数据的深度特征[14]. 对于不完整的经济信息

{c（c）}_{一}

，需要将其不完整属性的属性值设置为0并建立

{c（c）}_{一}^{'}

.

{c（c）}_{一}^{'}

被分割并设置为输入，其深度特征

第页

使用方程式（1）得出。

第页 = 克_{θ^{2}} (克_{θ^{1}} (克_{θ^{0}} ({c（c）}_{一}^{'})))

(1)

然后，使用公式（2）恢复不完整的经济信息并获得填充值

\tilde{c（c）}

不完整的经济信息：

\tilde{c（c）} = 克_{θ^{0}} (克_{θ^{1}} (克_{θ^{2}} (第页)))

(2)

2.2. 基于断点判别的粗糙集离散化算法

粗糙集是处理不准确数据的重要数学工具。与证据理论和模糊集理论不同，粗糙集理论不需要任何关于数据的先验知识或附加信息[15]. 在粗糙集理论中，数据表被称为信息系统。在数据背景下，填写后的完整经济信息中存在大量无法确定的数据。因此，使用粗糙集中基于断点判别的离散化算法，在保持决策系统原有不可区分关系的前提下，通过使用尽可能少的断点集来划分完整经济信息的连续属性值所形成的空间[16].

假设在大数据背景下，填报后完整经济信息的决策系统为

S公司 = (U型, R（右）, V（V）, （f）)

,U型是有限对象集（域）；R（右）是属性集；V（V）是属性值的集合；（f）是信息功能。每个连续条件属性

一 \in C类

，C是一个子集。在域中，其有限属性值V（V）排序如下。

{V（V）}_{0}^{一} < {V（V）}_{1}^{一} < \dots {V（V）}_{{n个}_{一}}^{一}

(3)

填写后完整经济信息的候选断点是

{c（c）}_{我}^{一} = ({V（V）}_{我 - 1}^{一} + {V（V）}_{我}^{一}) / 2

(4)

哪里

我 = 1, 2, \dots, {n个}_{一}

;

{c（c）}_{米}^{一}

代表米-属性a的第个断点和

1 \leq 米 \leq n个

;

{n个}_{一}

是属性a和集合的断点总数

X（X）

(

X（X） \subseteq U型

)是一组实例。

在完成的经济信息的决策属性值为j个，实例属于这两者X（X），属性a的值小于断点的值

{c（c）}_{米}^{一}

，其编号为

x个 ({c（c）}_{米}^{一}) = | {x个 | x个 \in X（X） \land [一 (x个) < {c（c）}_{米}^{一}] \land [d日 (x个) = j个] |} |

(5)

在完成的经济信息的决策属性值为j个，实例属于这两者X（X），属性a的值大于断点的值

{c（c）}_{米}^{一}

，其编号为

{第页}_{j个}^{x个} ({c（c）}_{米}^{一}) = | {x个 | x个 \in X（X） \land [一 (x个) \geq {c（c）}_{米}^{一}] \land [d日 (x个) = j个] |} |

(6)

然后

x个 ({c（c）}_{米}^{一}) = \sum_{j个 = 1}^{第页 (d日)} x个 ({c（c）}_{米}^{一}) = | {x个 | x个 \in X（X） \land 一 (x个) < {c（c）}_{米}^{一} |} |

(7)

{第页}_{j个}^{x个} ({c（c）}_{米}^{一}) = \sum_{j个 = 1}^{第页 (d日)} x个 ({c（c）}_{米}^{一}) = | {x个 | x个 \in X（X） \land 一 (x个) \geq {c（c）}_{米}^{一} |} |

(8)

哪里

一 (x个)

和

d日 (x个)

是属性因素，

第页 (d日)

是决策类型d日表示决策因素。断点

{c（c）}_{米}^{一}

的X（X）插入，并且decision属性值的实例j个在集合中X（X）被划分为x个小于的子集

{c（c）}_{米}^{一}

和一个x个大于或等于的子集

{c（c）}_{米}^{一}

[17]. 因为不同的断点在集合的插入位置不同X（X），决策属性的实例分布位置j个不同，因此不同断点区分决策属性值的能力不同j个是不同的。在中所示的示例集中图3，“•”表示决策属性值为1的实例，“∘”表示决策值为0的实例。显然，断点

{c（c）}_{2}

在区分实例集中的决策类方面优于断点

{c（c）}_{1}

。对于任何断点

{c（c）}_{米}^{一}

成套X（X），我们使用

P（P） (j个, {c（c）}_{米}^{一})

指示断点对的决策属性值的判别能力j个。对于集合中的任何断点X（X），我们使用判别能力来表示断点的决策属性值。

c（c） e（电子） d日 ({c（c）}_{米}^{一})

是断点的加权平均值

{c（c）}_{米}^{一}

因为…的辨别力

第页 (d日)

决策属性值。因此，

c（c） e（电子） d日 ({c（c）}_{米}^{一})

是选择断点的指示器[18].

2.2.1. 的计算方法 $P（P） (j个, {c（c）}_{米}^{一})$

在下面，能够区分填写完整的经济信息断点

{c（c）}_{米}^{一}

从决策属性值j个已计算。首先，介绍以下概念。

{P（P）}_{L（左）} (j个, {c（c）}_{米}^{一})

是实例决策属性值等于的概率j个并且属于x个在填充的完整经济信息集中

X（X）

;

{P（P）}_{R（右）} (j个 ~ {c（c）}_{米}^{一})

是实例决策属性值不等于的概率j个和属于x个在填充的完整经济信息集中

X（X）

;

N个 (j个)

是决策属性值的实例总数j个在填充的完整经济信息集中

X（X）

;

| X（X） |

是填充的经济信息集的完整示例

X（X）

.

从观察中可以看出，如果断点的值

{P（P）}_{L（左）} (j个, {c（c）}_{米}^{一})

完整的经济信息的高度，意味着决策属性值的实例j个集中在

{c（c）}_{米}^{一}

侧面；那么它

{P（P）}_{R（右）} (j个 ~ {c（c）}_{米}^{一})

将非常高，这意味着决策属性值的实例不等于j个分布在

{c（c）}_{米}^{一}

。这表明

{c（c）}_{米}^{一}

具有较强的区分决策属性值的能力j个因此

{P（P）}_{L（左）} (j个, {c（c）}_{米}^{一}) + {P（P）}_{R（右）} (j个 ~ {c（c）}_{米}^{一})

用于表示填写完整经济信息断点的能力

{c（c）}_{米}^{一}

区分决策属性值j个.

第1步 ${P（P）}_{L（左）} (j个, {c（c）}_{米}^{一})$ 计算；
第2步 ${P（P）}_{R（右）} (j个 ~ {c（c）}_{米}^{一})$ 计算；
步骤3 $P（P） (j个, {c（c）}_{米}^{一})$ 已计算。

2.2.2. 的计算方法 $c（c） e（电子） d日 ({c（c）}_{米}^{一})$

通过分析，我们得出，如果完全填充的完整经济信息断点非常重要，那么

c（c） e（电子） d日 ({c（c）}_{米}^{一})

相应地较高。值越大

c（c） e（电子） d日 ({c（c）}_{米}^{一})

是，断点越高

{c（c）}_{米}^{一}

区分决策类的能力为。这表明填充的完整经济信息断点

{c（c）}_{米}^{一}

也很重要，有优先选择权[19]. 断点的值

c（c） e（电子） d日 ({c（c）}_{米}^{一})

可以表示为

c（c） e（电子） d日 ({c（c）}_{米}^{一}) = \frac{1}{第页 (d日)} \circ \sum_{j个 = 1}^{第页 (d日)} P（P） (j个, {c（c）}_{米}^{一})

(9)

2.2.3. 基于大数据的离散算法设计

随着物联网、社交网络、云计算等技术不断融入我们的生活，以及现有计算能力、存储空间和网络带宽的快速发展，人类在互联网、通信、金融、商业、，医疗保健和许多其他领域继续增长和积累。特别是，经济领域产生的海量大数据导致经济信息完整性下降，不完整经济信息量增加。因此，在大数据背景下，利用粗糙集处理不完备的经济信息势在必行。基于大数据粗糙集的不完全经济信息离散化算法的设计过程如下：

假设P（P）是选定的一组经济信息断点，L（左）是实例被断点集划分为的等价类集P（P）C是一组候选断点。

{X（X）}_{1}, {X（X）}_{2}, \dots, {X（X）}_{米}

是已完成的经济信息决策系统的等效类，已被P划分，因此如果

c（c） \in P（P）

，的

c（c） e（电子） d日 ({c（c）}_{米}^{一})

是

c（c） e（电子） d日 ({c（c）}_{米}^{一}) = c（c） e（电子） d日 {x个}_{1} ({c（c）}_{米}^{一}) + c（c） e（电子） d日 {x个}_{2} ({c（c）}_{米}^{一}) + \dots c（c） e（电子） d日 {x个}_{米} ({c（c）}_{米}^{一})

(10)

基于上述分析，给出了基于断点判别能力的离散化算法。

基于断点判别能力的算法（算法1）：

第1步: $P（P） = ϕ$ ; $L（左） = {U型}$ .
第2步: 对于 $c（c） \in C类$ , $c（c） e（电子） d日 ({c（c）}_{米}^{一})$ 应进行计算；
步骤3: 选择最大断点 ${c（c）}_{最大值}$ 属于 $c（c） e（电子） d日 ({c（c）}_{米}^{一})$ 并将其添加到P中；
第4步: 对于所有人 $X（X） \in L（左）$ ，如果 ${c（c）}_{最大值}$ 划分等价类X（X）进入之内 ${X（X）}_{1}$ 和 ${X（X）}_{2}$ ，然后删除X（X）从L（左）并添加等价类 ${X（X）}_{1}$ 和 ${X（X）}_{2}$ 到L（左）;
第5步: 如果实例在每个等价类中具有相同的决策L（左），然后停止；否则请转至步骤2。

假设填写后完整的经济信息决策系统的域为U型和P（P）用于表示由等于属性值的决策属性确定的等价关系。问是由填充后的完整经济信息决策系统的任意条件属性的相等性所确定的等价关系簇，它在U型.

问_{1} = {{X（X）}_{1}, {X（X）}_{2}, \dots, {X（X）}_{我 - 1}, {X（X）}_{我}, {X（X）}_{我 + 1}, \dots, {X（X）}_{j个 - 1}, {X（X）}_{j个}, {X（X）}_{j个 + 1}}

(11)

本研究算法选择填充完整经济信息断点的过程实质上是属性值合并的过程。

（1）假设本研究中的算法在U型根据等价关系

P（P） (问)

，则只有一个合并：

问_{2} = {{X（X）}_{1}, {X（X）}_{2}, \dots, {X（X）}_{我 - 1}, {X（X）}_{我 + 1}, \dots, {X（X）}_{j个 - 1}, {X（X）}_{j个 + 1}, \dots, {X（X）}_{n个}, {X（X）}_{我} \cup {X（X）}_{j个}}

(12)

{d日}_{P（P） (问)}^{}

和

{d日}^{'}_{P（P） (问)}^{}

分别表示完整经济信息决策系统离散化前后的兼容性，以及

{d日}_{P（P） (问)} - {d日}^{'}_{P（P） (问)} = 0

因此，填写后完整的经济信息决策系统的兼容性不变。

（2）同样，当等价类的组合为两个或多个时，填充后完整的经济信息决策系统的兼容性不会改变[20].

计算过程如所示图4如下所示。

3.实验过程与分析

通过实验验证了本文基于大数据设计的粗糙集不完全经济信息离散化算法的有效性。首先进行不完全经济信息的填充性能测试，然后进行离散化性能测试。

（1）不完全经济信息的填充性能测试

为了验证该算法的有效性，将该算法与FIMUS和DMI两种填充算法进行了比较。将一部分数据从10G不完全经济信息的数据集中删除，以模拟不完整经济信息集。填充完成后，将填充值与实际值进行比较，以获得算法的填充精度。

本研究人为地创建了两个经济信息缺失值，即单模式缺失和多模式缺失。在单模式中，每个数据对象只允许包含一个缺失值，而多模式允许每个数据对象包含多个缺失值[21,22]，缺少的值会有所不同。通过从数据集中选择1%、3%、5%和10%的数据并删除数据的一些属性值来模拟缺失的数据。

本文使用两个标准来衡量算法的填充精度。第一个标准称为

{d日}_{2}

标准，用于测量填充值与真实值的匹配程度。第二个标准是RMSE，它测量填充值和真实值之间的平均误差。根据两个标准的定义，对于一个算法

{d日}_{2}

即，该算法的填充精度越高。反之，RMSE值越小，该算法填充精度越低。填充结果如所示表1:

可以从中看到表1对于任何类型的缺失组合，随着数据缺失率的增加

{d日}_{2}

通过算法FIMUS和DMI得到的结果是递减的，即两种算法对不完全经济信息的填充精度随着数据丢失率的增加而降低。随着数据丢失率的增加，算法FIMUS和DMI得到的RMSE不断增加，即两种算法的填充精度随着数据丢失速率的增加而降低[23,24]. 本研究中提出的算法的RMSE填充值小于0.2。因此，就RMSE而言，该算法的填充精度明显高于FIMUS和DMI。

这是因为本研究方法采用了基于深度学习的不完全经济信息填充算法。通过对现有信息的特征提取和深度学习，可以获得补充填充值。因此，计算结果的准确性较高。

对于任何缺失的组合，随机选择不同的经济信息作为训练数据。运行算法20次后

{d日}_{2}

通过统计算法获得的RMSE值和平均值如所示图5和图6:

可以从中看到图5和图6该算法的填充精度相对稳定。具体来说，当数据删除率在1%到10%之间时，

{d日}_{2}

可稳定维持在0.8以上，RMSE值稳定在0.15~0.2之间。此外，对于任何一种缺失率，单一缺失模式的填充精度显著高于多重缺失模式的填写精度[25]. 这是因为多填充模式有大量的缺失数据，其对特征提取和恢复的干扰高于单一缺失模式。

（2）离散化性能测试结果

为了验证算法的离散化测试性能，共设置了9组不同大小的样本，并填充了不完整的经济信息。利用本文提出的基于信息熵算法和基于断点重要性算法的方法进行了离散实验。并设置不同样本的数量。详细设置如所示表2.

为了验证该算法的有效性，对不完全经济信息进行了识别测试。实验过程分为以下步骤：

用选定的三种方法离散不完全经济信息数据集；
选择信息熵算法进行属性约简，使用归纳值约简算法进行值约简，得到规则。最后，测试所获得的知识。

每个数据集随机选择50%用于训练集的学习，剩下的50%使用获得的推理规则进行识别和测试。识别结果如所示图7,图8,图9和图10.

实验结果表明，正确识别率高达98.67%，错误识别率低达2.01%，拒绝识别率低至1.01%。从计算时间来看，该算法计算时间最短，最小值仅为101s。实验结果表明，该算法的识别效果优于基于信息的熵算法和断点重要性算法。此外，它在检测结果中表现出很强的鲁棒性。这主要是由于基于粗糙集断点判别的离散化算法。该算法在保持决策系统原有不可区分关系的前提下，使用尽可能少的断点来划分现有经济信息连续属性值所形成的空间。

4.讨论

离散化算法利用粗糙集中决策系统一致性水平的概念。通过计算、聚类和划分获得决策系统的一致性水平，并反复调整聚类参数因子，以确保决策系统的连贯性水平。使用判别函数过滤候选断点是一种常见的离散化算法，例如基于断点重要性的算法。您可以区分断点的实例数来衡量断点的重要性。实例对的值越高，断点越重要，选择断点的可能性越大。根据不同候选断点决策能力的差异，本研究提出了一种基于粗糙集的大数据不完全经济信息离散化算法，实验结果表明，当数据删除率在1%～10%之间时，稳定性可以保持在0.8以上，RMSE值稳定在0.15～0.2之间，表明该算法对不完全经济信息的填充效果良好，主要原因是采用深度学习的算法没有完全填充经济信息。首先，构建了一个三层网络模型。将每个层的输出设置为上层的输出，将上层设置为获取的特征输出。在训练过程中，从上到下提取网络初始化参数，并使用反向传播算法对所有参数进行微调，提高了不完全经济信息的填充效果。本研究设计的算法正确识别率高达98.67%，错误识别率和拒绝识别率均低于其他两种算法。该算法的计算时间最短，最小值仅为101s，这表明该算法使用粗糙集来实现补充经济信息的离散化，具有较高的计算效率和识别精度。

总之，实验结果验证了算法的有效性，不完全经济信息具有良好的填充效果。当样本量和条件属性较大时，它仍然具有更高的计算效率和更高的识别精度，这对提高经济信息的流动率起着重要作用。

5.结论

虽然粗糙集理论的发展才二十多年，但取得了显著的研究成果。它在计算机领域（数据决策与分析、机器学习、模式识别等）的成功应用逐渐受到重视。为了使不完备的经济信息完整，提高计算速度，实现相关经济信息的准确分类和识别，提出了一种基于大数据的粗糙集不完备经济信息离散化算法。首先填充不完全经济信息，然后分析候选断点的决策能力。连续属性离散化后，决策系统保持了原有的一致性。在保持决策系统原有不可分辨性的同时，利用粗糙集对连续属性值形成的空间进行分割，使断点尽可能少，从而对相关信息进行准确分类和识别。实验结果表明，当样本数较大且条件属性较大时，该算法是有效的，具有较高的效率。

由于实际问题的复杂性，该方法不适合于所有数据集的离散化。有必要不断探索新的离散化算法，以满足不同数据集的需要。未来，随着经济的发展和社会的进步，经济数据必将以惊人的速度增长，对经济信息的要求也将更加严格，因此我们一定会找到更有效的方法来处理这些不完整的经济信息。研究必须与时俱进，引入更先进的技术来填充和离散不完整的经济信息，使经济信息流通更具启发性，完善数据，促进经济进步。

作者贡献

概念化、X.L.和Y.S。；方法论，X.L。；书面原稿编制，X.L。；写作与编辑，Y.S。；正式分析，Y.S.。两位作者都已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

利益冲突

作者声明没有利益冲突。

工具书类

转向架，C。；Marsden，O.用类似实验的出口边界层模拟初始高度扰动射流。Aiaa J。 2016,54, 1299–1312. [谷歌学者] [交叉参考] [绿色版本]
Sun，Y.F。；Duan，C.H。；Zhang，P.Y.，《大数据驱动的未来网络：架构和应用场景》。中国科学院学报。电子。技术信息。 2017,12, 25–30. [谷歌学者]
Wang，F。；Morten，J.P。；Spitzer，K.在非结构化网格上使用有限元技术对CSEM数据进行各向异性三维反演。地球物理学。J.国际。 2018,213, 1056–1072. [谷歌学者] [交叉参考]
荣，D.S。；胡J.S。；Zhao，J.J.基于数据融合和IGA-RGRNN算法的低煤层甲烷产量预测模型。J.电源 2018,75, 182–188. [谷歌学者]
马修，B。；S.J.约翰。；Garg，H.顶点粗糙图。复杂智能。系统。 2020,6, 347–353. [谷歌学者]
郭坤。基于Web的通信电源远程监控的研究与设计。Chin J.电源 2017,41, 41,633–634. [谷歌学者]
宋，J。；曾荫权，E.C.C。；陈，D。；Yang，X.模糊决策理论粗糙集模型中的最小决策成本降低。知识-基于系统。 2017,126, 104–112. [谷歌学者] [交叉参考]
刘晓庆：大数据时代高校体育理论课教学模式探讨。自动。仪器。 2017,1, 208–209. [谷歌学者]
Fetouh，T。；Zaky，M.S.使用遗传算法和粗糙集理论设计基于SVC的稳定器的新方法。IET通用。Transm公司。分发。 2017,11, 372–382. [谷歌学者] [交叉参考]
周，P。；Xiong，Y.Y.基于数据挖掘的网络状态异常检测。吉林大学（科学版） 2017,55, 1269–1273. [谷歌学者]
戴J。；胡，H。；吴维珍。；钱，Y。；Huang，D.基于最大可分辨对的模糊粗糙集属性约简方法。IEEE传输。模糊系统。 2018,26, 2174–2187. [谷歌学者] [交叉参考]
Liu，Y.大数据非结构化信息存储效率仿真研究。计算。模拟。 2018,35, 198–202. [谷歌学者]
李毅。；Wu，S。；Lin，Y。；Liu，J.-H.基于不同类比率模糊粗糙集的鲁棒特征选择。知识-基于系统。 2017,120, 74–86. [谷歌学者] [交叉参考]
胡，D。；Yu，X。；Wang，J.基于Kolmogorov–Smirnov拟合优度检验的粗糙集理论中的统计推断。IEEE传输。模糊系统。 2017,25, 799–812. [谷歌学者] [交叉参考]
维贾亚，J。；Sivasankar，E.使用粗糙集理论结合集成分类技术计算有效特征，以改进电信部门的客户流失预测。计算 2018,100, 839–860. [谷歌学者] [交叉参考]
黄，Y。；李·T。；罗，C。；藤田，H。；Horn，S.-J.概率集值信息系统的动态变精度粗糙集方法。知识-基于系统。 2017,122, 131–147. [谷歌学者] [交叉参考] [绿色版本]
戴J。；胡，Q。；胡，H。；Huang，D.用粗糙集方法进行属性约简的邻域不一致对选择。IEEE传输。模糊系统。 2018,26, 937–950. [谷歌学者] [交叉参考]
Aggarwal，M.粗糙信息集及其在决策中的应用。IEEE传输。模糊系统。 2017,25, 265–276. [谷歌学者] [交叉参考]
陈，Y。；薛，Y。；马云（Ma，Y.）。；Xu，F.邻域粗糙集的不确定性度量。知识-基于系统。 2017,120, 226–235. [谷歌学者] [交叉参考]
Wang，C.Y.L-模糊粗糙集的拓扑结构和L-模糊关系的相似集。国际期刊近似原因。 2017,83, 160–175. [谷歌学者] [交叉参考]
阿瓦蒂，V.B。；Jyoti，M.长多孔滑块润滑解的同伦分析方法。申请。数学。非线性科学。 2016,1, 507–516. [谷歌学者] [交叉参考] [绿色版本]
卡尔沃，M。；蒙蒂亚诺，J.I。；Rández，L.亚当斯方法的一种新的步长变化技术。申请。数学。非线性科学。 2016,1, 547–558. [谷歌学者] [交叉参考] [绿色版本]
Chen，L。；夏，X。；郑浩。；邱，M.四点控制球轴承中摩擦力矩行为与实际接触角的关系。申请。数学。非线性科学。 2016,1, 53–64. [谷歌学者]
科斯塔玛尼亚。；德里戈，M。；马提尼，M。；索纳，B。；Venturino，E.是一个让感染了奥杰斯基病的猪场免于疫情蔓延的手术模型。申请。数学。非线性科学。 2016,1, 207–228. [谷歌学者] [交叉参考] [绿色版本]
Shiralashetti，S.C.公司。；Mundewadi，R.A.非线性Volterra积分和积分微分方程数值解的修正小波全逼近格式。申请。数学。非线性科学。 2016,1, 529–546. [谷歌学者] [交叉参考] [绿色版本]

图1。自动编码器原理图的叠加。

图2。三层深水网络模型示意图。

图3。区分决策类的不同断点。

图4。计算过程图。

图5。平均值。

图6。RMSE平均值。

图7。正确识别率。

图8。错误识别率。

图9。拒收率。

图10。计算时间。

表1。填充结果。

组合	d日₂						RMSE公司
组合	单个			多个			单个			多个
删除率/%	本文中的算法	FIMUS公司	DMI公司	本文中的算法	FIMUS公司	DMI公司	本文中的算法	FIMUS公司	DMI公司	本文中的算法	FIMUS公司	DMI公司
1	0.843	0.742	0.733	0.818	0.728	0.722	0.152	0.262	0.288	0.175	0.268	0.294
三	0.892	0.728	0.713	0.848	0.709	0.698	0.119	0.273	0.303	0.144	0.296	0.318
5	0.856	0.693	0.685	0.841	0.682	0.673	0.137	0.294	0.307	0.157	0.318	0.329
10	0.866	0.658	0.644	0.843	0.636	0.617	0.162	0.317	0.337	0.177	0.329	0.363

表2。详细的实验设置。

样本量/个体	条件属性/个人数量	决策编号/个人	极端异常值/个人	噪音/强度
151	5	4	2	1
215	10	7	5	5
271	14	三	7	9
337	8	8	9	10
691	15	三	11	12
769	9	三	17	15
847	19	5	21	17
5001	8	11	25	19
20,001	17	27	27	22

分享和引用

MDPI和ACS样式

李，X。；沈，Y。基于大数据的粗糙集不完全经济信息离散化算法。对称 2020,12, 1245.https://doi.org/10.3390/sym12081245

AMA风格

李旭、沈毅。基于大数据的粗糙集不完全经济信息离散化算法。对称. 2020; 12(8):1245.https://doi.org/10.3390/sym12081245

芝加哥/图拉宾风格

李、向阳和沈阳阳。2020年，“基于大数据的粗糙集不完全经济信息离散化算法”对称12、8号：1245。https://doi.org/10.3390/sym12081245

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

基于大数据的粗糙集不完全经济信息离散化算法

摘要

1.简介

2.粗糙集不完全经济信息的离散算法设计

2.1. 基于深度学习的不完全经济信息填充算法

2.2. 基于断点判别的粗糙集离散化算法

2.2.1. 的计算方法 $P（P） (j个, {c（c）}_{米}^{一})$

2.2.2. 的计算方法 $c（c） e（电子） d日 ({c（c）}_{米}^{一})$

2.2.3. 基于大数据的离散算法设计

3.实验过程与分析

4.讨论

5.结论

作者贡献

基金

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI

文章菜单

基于大数据的粗糙集不完全经济信息离散化算法

摘要

1.简介

2.粗糙集不完全经济信息的离散算法设计

2.1. 基于深度学习的不完全经济信息填充算法

2.2. 基于断点判别的粗糙集离散化算法

2.2.1. 的计算方法 P（P） ( j个 , c（c） 米 一 )

2.2.2. 的计算方法 c（c） e（电子） d日 ( c（c） 米 一 )

2.2.3. 基于大数据的离散算法设计

3.实验过程与分析

4.讨论

5.结论

作者贡献

基金

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI

2.2.1. 的计算方法 $P（P） (j个, {c（c）}_{米}^{一})$

2.2.2. 的计算方法 $c（c） e（电子） d日 ({c（c）}_{米}^{一})$