×

并行和分布式学习的推进算法。 (英语) Zbl 1057.68742号

摘要:可用信息的不断增加及其分布式和异构性对数据挖掘领域产生了重大影响。我们提出了一个并行和分布式增强算法的框架,旨在有效地集成在无法装入主计算机内存的超大、分布式和可能异构数据库上学习的专门分类器。Boosting是构建高精度分类器集合的一种流行技术,其中分类器是连续训练的,训练实例上的权重根据先前分类器的性能自适应设置。
我们的并行boosting算法是为具有少量处理器的紧耦合共享内存系统设计的,其目标是在比单个处理器上的boosting迭代次数更少的情况下实现最大的预测精度。在所有处理器在每轮提升中并行学习分类器后,根据预测的可信度将其组合。我们提出的分布式boosting算法主要用于在数据无法合并在一起时从几个不相交的数据点进行学习,尽管它也可以用于并行学习,其中将大量数据集划分为几个不相交的子集,以进行更有效的分析。
在每一轮提升中,该方法将来自所有站点的分类器组合在一起,并在每个站点上创建分类器集成。最后的分类器被构造为基于不相交数据集的所有分类器集合的集合。应用于多个数据集的新方法表明,与标准的顺序增压相比,并行增压可以达到相同甚至更好的预测精度。实验结果还表明,分布式boosting与标准boosting相比,分类精度有了相当或略有提高,但由于它使用的数据集较小,因此所需的内存和计算时间要少得多。

MSC公司:

68周05 非数值算法
68单位99 计算方法和应用
第68页,共15页 数据库理论
68T05型 人工智能中的学习和自适应系统

软件:

UCI-毫升;冲刺
PDF格式BibTeX公司 XML格式引用
全文: 内政部