×

兹马思-数学第一资源

检测和排序显著区域。(英语) Zbl 1235.68189
摘要:我们描述了一种从任意分区的数据中学习显著区域的集成方法。分区来自大规模仿真的分布式处理需求。数据量使得分类器只能对给定分区的本地数据进行训练。由于数据分区反映了模拟的需要,因此类统计信息可能会因分区而异。有些类可能会从一些甚至大部分分区中丢失。我们将快速集成学习算法与比例概率多数投票相结合,以便从这些数据中学习一个准确的分类器。由于有些模拟很难在没有大量误报的情况下建模,而且由于我们本质上是在为模拟数据构建搜索引擎,因此我们对预测区域进行排序,以增加大多数排名靠前的预测是正确的(显著)的可能性。从一个容器被撕裂和一个套管被掉落的模拟运行的结果表明,尽管个别训练集中的班级不平衡,感兴趣的区域还是被成功地识别出来的。提升曲线分析表明,与默认的自然时间步长排序相比,使用数据驱动的排序方法在统计上有显著的改进。通过允许改进对感兴趣区域的关注而无需按常规搜索所有数据,为最终用户节省了大量时间。
理学硕士:
68T05型 人工智能中的学习与自适应系统
62小时30分 分类和鉴别.聚类分析(统计方面)
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 阿加沃尔,韩杰,王杰,于PS(2004),数据流按需分类。知识发现与数据挖掘国际会议论文集。美国纽约ACM出版社,第503-508页
[2] ASC,国家核安全局与Sandia、Lawrence Livermore和Los Alamos国家实验室合作,http://www.Sandia.gov/nnsa/ASC/。2008年11月29日访问
[3] Baeza Yates R,Ribeiro Neto B:现代信息检索。ACM出版社,纽约(1999年)
[4] Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP(2005),空间不相交数据的分类器集合。在:多分类器系统,第六届国际研讨会。计算机科学讲义,第3541卷。斯普林格,海滨,加利福尼亚州,美国,第196-205页
[5] Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP:决策树集成创建技术的比较。IEEE模式分析与机器智能汇刊29(1),173–180(2007)·Zbl 05340706·doi:10.1109/TPAMI.2007.250609
[6] 布雷曼L:随机森林。马赫学习45(1),5-32(2001)·Zbl 1007.68152号·102043美元/102043美元
[7] Brinker K(2004)标签排序函数的主动学习。在:第21届国际机器学习会议论文集,7月4日至8日。加拿大亚伯达省班夫市,第129-136页
[8] Chawla NV,Hall LO,Bowyer KW,Kegelmeyer WP:SMOTE:合成少数过采样技术。《人工智能研究》16,321–357(2002年)·Zbl 0994.68128
[9] Chawla NV,Moore TE,Hall LO,Bowyer KW,Kegelmeyer WP,Springer C:分布式学习,类似于装袋的性能。模式识别24(1-3),455-471(2003)·Zbl 01967323号·doi:10.1016/S0167-8655(02)00269-6
[10] Chawla NV,Hall LO,Bowyer KW,Kegelmeyer WP:从bites学习组合:一种可伸缩和精确的方法。《机械学习研究》5421-451(2004)
[11] Cohen WW,Schapire RE,Singer Y:学习排序。《人工智能研究》10243-270(1999)·Zbl 0915.68031
[12] Demsar J:多个数据集上分类器的统计比较。机械学习研究杂志7,1-30(2006)
[13] Domingos P(1999)元成本:使分类器成本敏感的一般方法。知识发现与数据挖掘国际会议论文集。美国纽约ACM出版社,155-164页
[14] Domingos P,Hulten G(2000)挖掘高速数据流。知识发现与数据挖掘国际会议论文集。美国纽约ACM出版社,第71-80页
[15] Erdem Z,Polikar R,Gurgen F,Yumusak N(2005),增量学习支持向量机集成。在:多分类器系统,第六届国际研讨会。计算机科学讲义,第3541卷。斯普林格,海滨,加利福尼亚州,美国,第246-256页
[16] Eschrich S,Hall LO(2003)《从数据的软分区学习:减少方差》。在:第12届IEEE模糊系统国际会议,2003年。FUZZ'03,5月25-28日,第一卷。美国密苏里州圣路易斯,第666-671页
[17] Fan W(2004)矿山概念漂移数据流的系统数据选择。知识发现与数据挖掘国际会议论文集。ACM出版社,纽约,纽约,美国,pp 128–137
[18] Fan W,Wang H,Yu PS,Stolfo SJ(2002),成本敏感数据挖掘的全分布式框架。在:第22届国际分布式计算系统大会论文集,7月2-5日。奥地利维也纳,第445-446页
[19] Gionis A,Mannila H,Puolamäki K,Ukkonen A(2006)从数据中发现桶订单的算法。第12届ACM SIGGDD知识发现与数据挖掘国际会议论文集,8月20-23日。费城,宾夕法尼亚州,美国,第561-566页·Zbl 1191.68874
[20] Hall LO,Bhadoria D,Bowyer KW(2004),从空间不相交数据学习模型。2004年IEEE系统、人和控制论国际会议,10月10-13日,第2卷。荷兰海牙,第1447-1451页
[21] 亨德森A:ParaView指南。Kitware Inc.,美国(2004)
[22] Hullermeier E,Furnkranz J(2005)学习标签偏好:排名误差与位置误差。IDA05,第六届智能数据分析国际研讨会,9月8日至10日。西班牙马德里,第180-191页
[23] Koegler WS,Kegelmeyer WP(2005)FCLib:用于构建数据分析和数据发现工具的库。智能数据分析进展VI IDA 2005,第192-203页·114683452号
[24] Kong R,Zhang B:支持向量机的快速增量学习算法。控制决定20(10),1129–1136(2005)·Zbl 1115.68477
[25] Korecki JN,Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP(2008)大型复杂仿真的半监督学习。国际模式识别协会第19届会议记录,12月8日至11日。坦帕,佛罗里达州,美国
[26] Kotsiantis S,Kanellopoulos D,Pintelas P:处理不平衡数据集:综述。GESTS国际计算机科学与工程30(1),25–36(2006)
[27] Kusnezov DF(2004)《高级模拟与计算:未来十年》。技术代表,NA-ASC-100R-04,Sandia国家实验室,阿尔伯克基。http://www.acq.usd.mil/dsb/reports/ADA495920.pdf
[28] Lazarevic A,Obradovic Z:促进并行和分布式学习的算法。Distrib并行数据库J 11(2),203–229(2002)·Zbl 1057.68742·doi:10.1023/账号:1013992203485
[29] 凌国生,李丙.1998.数据挖掘在直销中的应用:问题与对策。第四届知识发现与数据挖掘国际会议论文集(KDD-98),第73-79页
[30] Maloof MA,Michalski RS:部分实例记忆的增量学习。人工智能154(1-2),95-126(2004)·Zbl 1085.68641号·doi:10.1016/j.artint.2003.04.001
[31] Manning C,Raghavan P,Schutze H:信息检索导论。剑桥大学出版社,剑桥(2008)·Zbl 1160.68008
[32] otsun:一种基于灰度直方图的阈值选择方法。IEEE Trans-Syst Man Cybern 9,62–66(1979年)·doi:10.1109/TSMC.1979.4310076
[33] Piatetsky Shapiro G,Steingold S:数据库营销中的电梯质量测量。《探索新闻》2(2),76–80(2000)·Zbl 05442888号·数字标识码:10.1145/380995.381018
[34] Schoof LA,Yarberry VR(1998)《出埃及记II:有限元数据模型》,技术报告#SAND92–2137。国家实验室,185
[35] 分类学和分类学方法的结合。中导聚变3(2),135–148(2002)·Zbl 05422999·doi:10.1016/S1566-2535(02)00051-9
[36] Shoemaker L,Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP(2006),学习从不相交和倾斜的训练集中预测显著区域。在:第18届IEEE人工智能工具会议(ICTAI 2006),阿灵顿,弗吉尼亚州,美国,第116-123页
[37] Shoemaker L、Banfield RE、Hall LO、Bowyer KW、Kegelmeyer WP(2008a)检测和排序显著区域,以实现高效浏览。国际模式识别协会第19届会议记录,12月8日至11日。坦帕,佛罗里达州,美国
[38] Shoemaker L,Banfield RE,Hall LO,Bowyer KW,Kegelmeyer WP:使用分类器集合来标记空间不相交的数据。中导聚变9(1),120–133(2008b)·Zbl 05423094·doi:10.1016/j.inffus.2007.08.001
[39] 王飞,马S,杨利,李T(2006)项目图推荐。第六届数据挖掘国际会议论文集。1119-1123页
[40] 韦伯·吉,小布顿,王兹:不那么天真的贝叶斯:聚合一个相依估计量。马赫学习58(1),5-24(2005)·Zbl 1075.68078·doi:10.1007/s10994-005-4258-6
[41] 稀有采矿:统一框架。SIGKDD Explor 6(1),7–19(2004年)·中银05442966·数字标识码:10.1145/1007730.1007734
[42] Witten IH,Frank E:数据挖掘:实用机器学习工具和技术。2摩根考夫曼,旧金山(2005)·Zbl 1076.68555
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。