×

一种超快速时间序列距离度量,允许在更复杂的实际部署中进行数据挖掘。 (英语) Zbl 1477.68264号

摘要:许多时间序列数据挖掘算法的核心是简化为对时间序列子序列形状的推理。这需要有效的距离度量,在过去的二十年中,大多数算法都使用欧氏距离或DTW作为其核心子程序。我们认为,这些距离测量并不像社区认为的那样有力。对这些指标的过度信任可能源于过度依赖基准数据集和自我选择偏见。社区只是不愿意处理更困难的领域,而当前的距离测量不适合这些领域。在这项工作中,我们引入了一种新的距离测量方法MPdist(MPdist)。我们表明,我们提出的距离度量比当前的距离度量更稳健。例如,它可以处理缺少值或虚假区域的数据。此外,它允许我们成功地挖掘数据集,从而击败任何基于欧几里德或DTW距离的算法。此外,我们还表明,可以高效地计算距离度量,以便对快速到达的流进行分析。

理学硕士:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62M10个 统计学中的时间序列、自相关、回归等(GARCH)

软件:

UCR套件
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿班达,A。;森喜朗,美国。;Lozano,JA,《基于距离的时间序列分类综述》,Data Min Knowl Disc,33,2,378-412(2019)·Zbl 1458.62191号 ·doi:10.1007/s10618-018-0596-4
[2] Aghabozorgi,S。;Shirkhorshidi,AS;Wah,TY,时间序列聚类——十年回顾,Inf Syst,53,16-38(2015)·doi:10.1016/j.is.2015.04.007
[3] 艾哈迈德,M。;马哈茂德,AN;Islam,MR,《金融领域异常检测技术的调查》,Future Gen Compute Syst,55,278-288(2016)·doi:10.1016/j.future.2015.01.001
[4] 巴格纳尔,A。;Lines,J.公司。;博斯特罗姆,A。;大型,J。;Keogh,E.,《伟大的时间序列分类烘烤:最近算法进展的回顾和实验评估》,Data Min Knowl Disc,31,3,606-660(2017)·doi:10.1007/s10618-016-0483-9
[5] 贝克,MB;Venugopal,PD;灯,WO,气候变化和物候:小绿叶蝉(半翅目:蝉科)迁徙和影响严重程度,《公共科学图书馆·综合》,10,5,e0124915(2015)·doi:10.1371/journal.pone.0124915
[6] Batista GE,Wang X,Keogh EJ(2011)时间序列的复数不变距离度量。摘自:2011年SIAM数据挖掘国际会议记录,第699-710页
[7] Berndt DJ,Clifford J(1994)。使用动态时间扭曲查找时间序列中的模式。收录:KDD研讨会,第10卷,第359-70页
[8] Chen Y,Keogh E,Hu B,Begum N,Bagnall A(2015)UCR时间序列分类档案。检索自www.cs.ucr.edu/eamon/time_series_data
[9] Darvishzadeh A、Entezari N、Stahovich T(2018)《寻找答案:在手写问题解决方案中定位学生答案的技巧》。参加:2018年第16届笔迹识别前沿国际会议(ICFHR),第587-592页
[10] Dau HA,Begum N,Keogh E(2016)Semi-supervision显著改善了动态时间扭曲下的时间序列聚类。收件人:第25届ACM国际信息和知识管理会议,第999-1008页
[11] Dau HA、Silva DF、Petitjean F、Forestier G、Bagnall A、Keogh E(2017)动态时间扭曲窗口宽度的合理设置可以更准确地分类时间序列。2017年IEEE大数据(大数据)国际会议,第917-22页
[12] 达乌,HA;巴格纳尔,A。;Kamgar,K。;Yeh,C-CM;Zhu,Y。;加尔加比,S。;加利福尼亚州Ratanamahatana;Keogh,E.,《UCR时间序列档案》,IEEE/CAA J Automat Sin,6,6,1293-1305(2019)·doi:10.1109/JAS.2019.1911747
[13] Demšar,J.,多数据集上分类器的统计比较,J Mach Learn Res,7,1-30(2006)·Zbl 1222.68184号
[14] 吉拉梅·贝特,M。;Dubrawski,A.,《使用时间约束图对时间序列进行分类》,J Mach Learn Res,18,1,4370-4403(2017)
[15] 黑格、凯伦·齐塔、温迪·福斯林和瓦莱丽·古拉尔尼克。2004年,“可视化查询语言:在时间序列数据中发现模式和关系”,第七届科学和工程数据集挖掘研讨会。第24卷
[16] 霍纳克,J。;King,G.,《如何处理时间序列横截面数据中的缺失值》,《美国政治科学杂志》,54,2,561-581(2010)·数字对象标识代码:10.1111/j.1540-5907.2010.00447.x
[17] Hu B,Chen Y,Zakaria J,Ulanova L,Keogh E(2013)通过加权每个分类器的跟踪记录对多维流时间序列进行分类。2013年IEEE第13届数据挖掘国际会议,第281-90页
[18] 胡,B。;陈,Y。;Keogh,E.,更现实假设下的流式时间序列分类,Data Min Knowl Disc,30,2,403-437(2016)·Zbl 1411.62254号 ·doi:10.1007/s10618-015-0415-0
[19] Imani S,Madrid F,Ding W,Crouter S,Keogh E(2018)矩阵概要XIII:时间序列片段:时间序列数据挖掘的新原语。2018年IEEE大知识国际会议(ICBK),第382-89页
[20] Jin,S。;陈,ZM;巴科斯,EA;太阳,XL;Xiao,B.,茶树上绿叶蝉小叶蝉(半翅目:蝉科)EPG波形的特征及其与触角活动的相关性,昆虫生理杂志,58,9,1235-1244(2012)·doi:10.1016/j.jinsphys.2012.06.08
[21] Keogh E(2019)本论文的支持网站。2020年2月29日检索。https://sites.google.com/site/mpdistinfo网站/
[22] Madden S(2004)英特尔实验室数据
[23] Mauck K(2018)个人通信
[24] 梅,J。;刘,M。;Wang,Y-F;Gao,H.,学习基于马氏距离的多变量时间序列分类动态时间扭曲度量,IEEE Trans Cybern,46,6,1363-1374(2015)·doi:10.1109/TCYB.2015.2426723
[25] 莫斯科维奇,R。;Shahar,Y.,多元时间序列的分类驱动时间离散化,Data Min Knoll Disc,29,4871-913(2015)·doi:10.1007/s10618-014-0380-z
[26] Mueen A(2016)MASS算法。2016年5月24日检索。www.cs.unm.edu/mueen/FastestSimilaritySearch.html
[27] Murray D、Liao J、Stankovic L、Stankovi V、Hauxwell Baldwin R、Wilson C、Coleman M、Kane T、Firth S(2015)个性化实时能源反馈的数据管理平台。In:第八届家用电器和照明能效国际会议(EEDAL),第1293-1307页
[28] Paparrizos J,Gravano L(2015)《K形:时间序列的高效准确聚类》。摘自:2015年ACM SIGMOD国际数据管理会议记录,第1855-1870页
[29] Piatetsky-Shapiro G(2014)分析的数据类型/来源。2018年4月2日检索。https://www.kdnuggets.com/polls/2014/data-types-sources-analyzed.html
[30] Rakthanmanon T、Campana B、Mueen A、Batista G、Westover B、Zhu Q、Zakaria J、Keogh E(2012)在动态时间扭曲下搜索和挖掘数万亿时间序列子序列。在:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第262-70页
[31] Refitsmarthomes.org.(2018)REFIT数据集。检索自www.redirectsmarthomes.org/index.php/data
[32] 罗德里格斯,JJ;李坤雪娃(Kuncheva,LI);阿隆索,CJ,《旋转森林:一种新的分类器集成方法》,IEEE Trans-Pattern Ana Mach Intell,28,10,1619-1630(2006)·doi:10.1109/TPAMI.2006.211
[33] Ruutu JPO、Kilkki MK、Nokia Networks Oy(2000)采用上次出现和滑动窗口技术确定最小值和最大值的系统和方法。美国专利6023453
[34] Sarangi SR,Murthy K(2010)《尘埃:不确定时间序列之间相似性的广义概念》。摘自:第16届ACM SIGKDD知识发现和数据挖掘国际会议记录,第383-392页
[35] Schäfer,P.,《BOSS与噪声存在下的时间序列分类》,Data Min Knowl Disc,29,6,1505-1530(2015)·Zbl 1405.68305号 ·doi:10.1007/s10618-014-0377-7
[36] Sengupta,S.,多维时间序列分类及其在视频活动识别中的应用(2015),德里:阿尔斯特大学,德里
[37] 塞拉,J。;Arcos,JL,用于时间序列模体发现的粒子群优化,基于知识的系统,92,127-137(2016)·doi:10.1016/j.knosys.2015.10.021
[38] 翁,X。;Shen,J.,使用局部保持投影对多元时间序列进行分类,基于知识的系统,21,7,581-587(2008)·doi:10.1016/j.knosys.2008.03.027
[39] 翁,X。;Shen,J.,使用二维奇异值分解对多元时间序列进行分类,基于知识的系统,21,7,535-539(2008)·doi:10.1016/j.knosys.2008.03.014
[40] 威利特,DS;乔治·J。;威利特,NS;Stelinski,法学博士;Lapointe,SL,昆虫媒介取食特征的机器学习,PLoS Compute Biol,12,11,e1005158(2016)·doi:10.1371/journal.pcbi.1005158
[41] Ye L,Keogh E(2009)时间序列形状:数据挖掘的新原语。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第947-956页
[42] Yeh MY,Wu KL,Yu PS,Chen MS(2009)《自豪:处理不确定数据流相似性查询的概率方法》。摘自:第十二届扩展数据库技术国际会议论文集:数据库技术进展,第684-95页
[43] Yeh CCM,Zhu Y,Ulanova L,Begum N,Ding Y,Dau YA,Silva DF,Mueen A,Keogh E(2016)矩阵轮廓I:时间序列的所有配对相似性连接:一个统一的观点,包括主题、不一致和形状。2016年IEEE第16届数据挖掘国际会议(ICDM)。IEEE,第1317-22页·Zbl 1416.62534号
[44] Yi X,Zheng Y,Zhang J,Li T(2016)ST-MVL:地感时间序列数据中缺失值的填充
[45] 张,A。;Song,S。;Wang,J。;Yu,PS,时间序列数据清理:从异常检测到异常修复,Proc VLDB Endowm,10,10,1046-1057(2017)·doi:10.14778/311540.3115410
[46] Zhu Y,Zimmerman Z,Senobari NS,Yeh CCM,Funning G,Mueen A,Brisk P,Keogh E(2016)Matrix profile Ii:利用新算法和Gpus打破时间序列基序和连接的1亿障碍。2016年IEEE第16届数据挖掘国际会议(ICDM),第739-48页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。