摘要

电子科学中新的数据挖掘任务涉及分布式、高度异构数据和知识源的挖掘。然而,标准数据挖掘平台,如Weka和Orange,在从本地数据源进行知识发现的过程中只涉及自己的数据挖掘算法。相比之下,下一代数据挖掘技术应该能够处理分布式数据源,使用作为web服务实现的数据挖掘算法,以及以本体的形式使用数据源的形式描述和知识发现工具,为给定的数据挖掘任务自动组合复杂的知识发现工作流。本文基于现有的Orange数据挖掘工具箱及其可视化编程环境,提出了一种新的面向服务的知识发现框架及其在面向服务的数据挖掘环境Orange4WS(Orange for Web Services)中的实现,该框架支持手动组合数据挖掘工作流。新的面向服务的数据挖掘环境Orange4WS包括以下新功能:简单地使用web服务作为远程组件,可以包含在数据挖掘工作流中;关系数据挖掘算法的简单结合;知识发现本体以抽象和机器可解释的方式描述工作流组件(数据、知识和数据挖掘服务),并由规划师使用,实现数据挖掘工作流的自动组合。这些新功能在三个真实场景中展示。

此内容仅以PDF格式提供。
您当前没有访问此文章的权限。