橙色4ws

面向服务数据挖掘的Orange4ws环境。e-science中新的数据挖掘任务涉及到分布式、高度异构的数据和知识源的挖掘。然而,标准的数据挖掘平台,如Weka和Orange,在从本地数据源发现知识的过程中,只涉及自己的数据挖掘算法。相比之下,下一代数据挖掘技术应该能够处理分布式数据源,使用作为web服务实现的数据挖掘算法,以及以本体形式使用数据源和知识发现工具的形式化描述,为给定的数据挖掘任务实现复杂知识发现工作流的自动组合。本文在已有的Orange数据挖掘工具箱及其可视化编程环境的基础上,提出了一种新的面向服务的知识发现框架Orange4WS(orangeforwebservices),实现了数据挖掘工作流的人工组合。新的面向服务的数据挖掘环境Orange4WS包含以下新特性:将web服务作为远程组件简单使用,这些组件可以包含在数据挖掘工作流中;简单地结合关系数据挖掘算法;以抽象和机器可解释的方式描述工作流组件(数据、知识和数据挖掘服务)的知识发现本体,以及规划人员使用它来实现数据挖掘工作流的自动组合。这些新特性在三个真实场景中展示。