×

兹马思-数学第一资源

从正面和未标记的例子中学习。(英语) Zbl 1081.68081
摘要:在许多机器学习设置中,有标记的示例很难收集,而未标记的数据却很丰富。另外,对于一些二元分类问题,也有作为目标概念元素的实例。这些额外的数据可以用来提高监督学习算法的准确性吗?在本文中,我们只研究从正数据和未标记数据中学习算法的设计。许多机器学习和数据挖掘算法,如决策树归纳算法和朴素贝叶斯算法,只使用示例来评估统计查询(SQ-like算法)。为了描述这些算法,卡恩斯设计了统计查询学习模型。在这里,我们设计了一个算法方案,将任何SQ-like算法转换为基于正统计查询(正实例集合上的概率估计)和实例统计查询(实例空间上概率估计)的算法。我们证明了在统计查询学习模型中,任何可学习的类都可以从正统计查询和实例统计查询中学习,前提是任何目标概念(f)的权重下界都可以在多项式时间内估计。然后,设计了一个决策树归纳算法POSC4。5,基于C4。5,只使用了正的和未标记的例子,并给出了该算法的实验结果。在不平衡班级的情况下,两个班级中的一个(比如积极的班级)比另一个班级的代表性严重不足,学习问题仍然存在。这个问题具有挑战性,因为它在许多实际应用中都会遇到。

理学硕士:
68T05型 人工智能中的学习与自适应系统
68页15页 理论数据库
PDF格式 BibTeX公司 XML 引用
全文: 内政部 链接
参考文献:
[1] 安格鲁因,D。;Laird,P.,从嘈杂的例子中学习,机器学习,2,4,343-370,(1988)
[2] A、 张国荣,张国荣,张国荣,等位问题与统计查询模型,中华民国八十五年。第32年。ACM研讨会。《计算理论》,2000年,第435-440页·Zbl 1296.68122号
[3] A、 Blum,T.Mitchell,结合有标记和无标记数据与协同训练,in:Proc。第11年。计算学习理论研讨会,1998年,第92-100页。
[4] 五十、 Breiman,J.H.Friedman,R.A.Olshen,C.J.Stone,《分类和回归树》,技术报告,Wadsworth International,蒙特利,CA,1984年·Zbl 0541.62042
[5] S、 常分划分类噪声下的Pac学习及其在决策树归纳中的应用,in:Proc。第14实习医生。机器学习会议,1997年,第83-91页。
[6] F、 Decommité,F.Denis,R.Gilleron,F.Letouzey,正面和未标记的例子有助于学习,in:Proc。第十个实习生。算法学习理论会议,1999年,第219-230页。
[7] F、 丹尼斯,PAC从正态统计查询中学习,in:Proc。第九个实习生。算法学习理论会议,1998年,第112-126页·Zbl 0932.68083
[8] S、 高曼,周,利用未标记数据加强监督学习,in:Proc。第17个实习生。机器学习会议,2000年,第327-334页。
[9] 豪斯勒,D。;卡恩斯,M。;利特尔斯通,N。;Warmuth,M.K.,多项式可学习性模型的等价性,Inform。计算机。,第95卷第2期,第129-161页,(1991年)·Zbl 0743.68115
[10] J、 Jackson,关于统计查询导出的噪声容忍PAC算法的效率,in:Proc。第13年。计算学习理论论坛,2000年,第7-15页。
[11] T、 张建中,利用支持向量机进行文本分类的转化推理,in:Proc。第16名实习生。机器学习会议,1999年,第200-209页。
[12] M、 卡恩斯,《从统计查询中有效的噪声容忍学习》,in:Proc。第25届ACM研讨会。《计算理论》,1993年,第392-401页·Zbl 1310.68179
[13] C、 J.Merz,P.M.Murphy,UCI机器学习数据库库,1998年。
[14] Mitchell,T.,机器学习和数据挖掘,Commun。ACM,42,11,30-36,(1999年)
[15] K、 Nigam,R.Ghani,联合培训的适用性和有效性分析,in:Proc。第九个实习生。信息和知识管理会议,2000年,第86-93页。
[16] 尼甘,K。;麦卡伦,A.K。;特伦,S。;Mitchell,T.M.,《使用EM对有标签和无标签文档的文本分类》,机器学习,39,2/3,103-134,(2000)·Zbl 0949.68162
[17] 昆兰,J.R.,C4。5: 《机器学习课程》(1993),摩根考夫曼洛斯阿尔托斯,加利福尼亚州
[18] Valiant,L.G.,一个关于可学习的,公社的理论。ACM,27,11,1134-1142,(1984年)·Zbl 0587.68077
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。