发现有趣和可操作的知识

用于诊断数据挖掘

-部署的技术

本页的罗马尼亚语翻译

在许多数据挖掘应用程序中,输入数据具有目标属性,表示应用程序任务的目标。在数据挖掘中而机器学习,这个属性称为class属性。涉及此类数据的两种主要数据挖掘类型:

  1. 预测数据挖掘:目标是建立预测性或可用于对未来案例进行分类的分类模型。第一类数据挖掘一直是几乎是整个机器学习社区。最商业化数据挖掘工具也用于此目的。
  2. 诊断数据挖掘:目的是了解数据和/或按顺序查找问题的原因和可操作的知识解决问题。这种类型的数据挖掘对于工程、制造和科学应用,因为工程师科学家们想要获得新的知识,而不仅仅是得到一个预测。
第二项任务由数据挖掘研究人员在有趣的主题,即帮助用户找到可操作的知识从大量发现的模式中快速获得。然而,通过我们发现,现有的机器学习技术真正适合第二项任务,同时又存在趣味性方法也不够。我们必须建立一个不同的摩托罗拉的一种商业数据挖掘系统系统不符合他们的需要。原因是他们无法执行第二项任务很好,而第二项是整个工程/制造业,产品改进是本质。需要进行数据挖掘以识别产品问题和其原因(无需预测)。

我们还惊讶地发现,当前的规则挖掘范式(分类规则挖掘或关联规则挖掘)本身构成兴趣分析的主要障碍寻找可操作的知识。我们发现了

由于现有的方法,我们设计了一组新技术来执行第二个任务。它们基于两个新颖的想法,规则多维数据集一般印象我们的系统,称为机会地图已在摩托罗拉部署并日常使用。该系统的第一个版本于2005年12月左右部署。截至2006年6月15日,它被用于分析11个用于完全不同应用程序的大型数据集从摩托罗拉的全球业务中,例如,寻找呼叫原因绩效问题及其解决、供应链分析、网络特征、业务机会等。一些应用程序包括以下连续分析新数据进来了。发现了许多摩托罗拉的新产品已经使用了这些知识。该系统还商用。下面的文章讨论了一些技术。第一篇论文更倾向于研究,第二篇论文更侧重于研究在摩托罗拉应用程序上。

出版物

关于数据挖掘有趣性的老论文

创建于2006年8月4日刘冰(Bing Liu).