×

在测量数据对象相似性的过程中,对数据相关方法进行的比较研究。 (英语) Zbl 1458.68198号

摘要:传统的基于距离的通用相似性度量,如Minkowski距离(也称为“(ell_p)-范数”,与“(p>0)”相关,并且对度量单位或尺度敏感。现有的通用数据相关度量,如秩差、Lin的概率度量和(m_p)-相异性((p>0)),对度量单位或尺度不敏感。尽管它们已被证明比传统的距离测量更有效,但它们的特性和相关性能尚未被研究。在本文中,我们研究了不同通用数据相关度量的特征和关系。通过引入(m_0)-相异性,我们推广了(m_p)-不同性,并证明了它是一个具有数据依赖自相似性的一般数据依赖测度,其中秩差和Lin测度是数据依赖自相似性的特例。我们评估了一系列通用数据依赖和数据依赖度量在基于内容的信息检索和(k)NN分类任务中的有效性。我们的研究结果表明,完全依赖数据的m_p相异性度量是其他依赖数据和常用的基于距离的相似度度量的更有效的替代方法,因为它的特定任务性能在广泛的数据集中更加一致。

MSC公司:

68T09号 数据分析和大数据的计算方面
62H30型 分类和区分;聚类分析(统计方面)
68第20页 信息存储和数据检索
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ariyaratne HB,Zhang D(2012)《一种新颖的音乐流派分类自动层次方法》。收录:2012年IEEE多媒体和博览会研讨会会议记录。IEEE计算机协会,华盛顿特区,第564-569页
[2] Aryal,Sunil,《对测量单位和尺度鲁棒的异常检测技术,知识发现和数据挖掘进展》,589-601(2018),查姆:斯普林格国际出版社,查姆
[3] Aryal S,Ting KM,Haffari G,Washio T(2014a)Mp-差异性:一种依赖数据的差异性度量。摘自:IEEE数据挖掘国际会议(ICDM)论文集,第707-712页
[4] 苏尼尔·阿里亚尔;Ting,Kai Ming;乔纳森·威尔斯(Jonathan R.Wells)。;Washio,Takashi,《用相对质量改进iForest》,《知识发现和数据挖掘进展》,510-521(2014),Cham:Springer International Publishing,Cham
[5] 苏尼尔·阿里亚尔;Ting,Kai Ming;哈法里(Gholamreza Haffari);Washio,Takashi,《文档异质性度量中的超越tf-idf和余弦距离》,信息检索技术,400-406(2015),Cham:Springer International Publishing,Cham
[6] Aryal,S。;Ting,公里;Washio,T。;Haffari,G.,《数据依赖差异性度量:几何距离度量的有效替代方法》,Knowl Inf Syst,53,2,479-506(2017)·doi:10.1007/s10115-017-1046-0
[7] Aryal S,Ting KM,Washio T,Haffari G(2019)一种新的简单有效的bag-off-word文档间相似性度量方法。CoRR arxiv:abs/1902.03402
[8] 本吉奥,Y。;科尔维尔,A。;Vincent,P.,《表征学习:回顾与新视角》,IEEE Trans-Pattern Ana Mach Intell,35、8、1798-1828(2013)·doi:10.1109/TPAMI.2013.50
[9] 凯文·拜尔(Kevin Beyer);乔纳森·戈尔茨坦;拉格胡·罗摩克里希南;Shaft,Uri,“最近的邻居”什么时候有意义?,计算机科学讲稿,217-235(1999),柏林,海德堡:施普林格-柏林-海德堡,柏林
[10] 布莱克,M.,《不可分辨的身份》,《心灵:Q Rev Psychol Philos》,61,242,153-164(1952)·doi:10.1093/分钟/LXI.242.153
[11] Breiman,L.,《随机森林》,《马赫学习》,第45、1、5-32页(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[12] Cardoso-Cachopo,A.,《改进单标签文本分类方法》(2007),里斯本:里斯本技术大学高级技术研究所
[13] 康诺威,Wj;Iman,Rl,Rank transformation as a bridge between parametric statistics and non-parametrics stats,美国统计,35,3,124-129(1981)·Zbl 0468.62026号
[14] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe-Taylor,J.,《支持向量机和其他基于核的学习方法简介》(2000),剑桥:剑桥大学出版社,剑桥
[15] Datar M,Immorlica N,Indyk P,Mirrorkni VS(2004)基于P-稳定分布的局部敏感哈希方案。摘自:第二十届计算几何年会论文集,第253-262页·Zbl 1373.68193号
[16] 德萨,Mm;Deza,E.,《距离百科全书》(2009),柏林:施普林格出版社,柏林·Zbl 1167.51001号
[17] Dua D,Graff C(2017)UCI机器学习库,http://archive.ics.uci.edu/ml。加州大学欧文分校信息与计算机科学学院
[18] 杜达,罗;佩·哈特(Pe Hart);Stork,Dg,模式分类(2000),纽约:Wiley-Interscience,纽约
[19] 费尔南多,Tl;Webb,Gi,SimUSF:一种有效且不违反区间尺度假设的相似性度量,Data Min Knowl Disc,31,1,264-286(2017)·Zbl 1416.62335号 ·doi:10.1007/s10618-016-0463-0
[20] 弗朗索瓦,D。;维尔茨,V。;Verleysen,M.,分数距离的集中,IEEE Trans-Knowl Data Eng,19,7,873-886(2007)·doi:10.1109/TKDE.2007.1037
[21] Frome A、Corrado GS、Shlens J、Bengio S、Dean J、Ranzato M、Mikolov T(2013)《设计:深层视觉-语义嵌入模型》。收录于:《国家公共卫生研究院院刊》,第2121-2129页
[22] Geusebroek,J-M;Gj,Burghouts;Smeulders,Aw,《阿姆斯特丹物体图像库》,国际计算机视觉杂志,61,1103(2005)·doi:10.1023/B:VISI.0000042993.50813.60
[23] Gong Y,Kumar S,Rowley HA,Lazebnik S(2013)使用双线性投影学习高维数据的二进制代码。摘自:2013年IEEE计算机视觉和模式识别会议记录,第484-491页
[24] 古德费罗,I。;本吉奥,Y。;Courville,A.,《深度学习》(2016),剑桥:麻省理工学院出版社,剑桥·Zbl 1373.68009号
[25] 韩,E-H;Karypis,G.,《基于中心的文档分类:分析和实验结果》,《第四届欧洲数据挖掘和知识发现原则会议论文集》,424-431(2000),伦敦:Springer,伦敦
[26] Kiela D,Bottou L(2014)使用卷积神经网络学习图像嵌入,以改进多模态语义。摘自:2014年自然语言处理经验方法会议记录(EMNLP)。计算语言学协会,第36-45页
[27] 金,香港;Kim,H。;Cho,S.,Bagof-concepts:通过分布式表示中的聚类词理解文档表示,神经计算,266336-352(2017)·doi:10.1016/j.neucom.2017.05.046
[28] Krizhevsky A(2009)从微小图像中学习多层特征,多伦多大学计算机科学系硕士论文,Alex Krizhovsky
[29] Krumhansl,Cl,《关于几何模型对相似性数据的适用性:相似性和空间密度之间的相互关系》,《心理学评论》,85,5,445-463(1978)·doi:10.1037/0033-295X.85.5.445
[30] Kulis,B.,《计量学习:一项调查》,《发现趋势——马赫学习》,第5、4、287-364页(2013年)·Zbl 1278.68014号 ·doi:10.1561/220000019
[31] Lecun,Y。;本吉奥,Y。;Hinton,G.,《深度学习》,《自然》,521436-444(2015)·doi:10.1038/nature14539
[32] 李,P。;Shrivastava,A。;摩尔,Jl;König,Ac,大规模学习的散列算法,Adv Neural Inf Process Syst,242672-2680(2011)
[33] Lin D(1998)相似性的信息理论定义。摘自:第十五届机器学习国际会议(ICML)会议记录。Morgan Kaufmann Publishers Inc.,旧金山,第296-304页
[34] Lin K,Yang H,Xiao J,Chen C(2015)快速图像检索的二进制散列码深度学习。在:2015年IEEE计算机视觉和模式识别研讨会会议(CVPRW),第27-35页
[35] 刘凤,婷KM,周志华(2008)《隔离林》。摘自:第八届IEEE数据挖掘国际会议记录,第413-422页
[36] Mahalanobis,Pc,《关于统计学中的广义距离》,印度国家科学院学报,249-55(1936)·Zbl 0015.03302号
[37] Mansouri,J。;Khademi,M.,乘法距离:一种缓解高维数据距离不稳定性的方法,Knowl-Inf Syst,45,3,783-805(2015)·doi:10.1007/s10115-014-0813-4
[38] Mikolov T、Sutskever I、Chen K、Corrado G、Dean J(2013a)《单词和短语的分布式表示及其构成》。摘自:第26届神经信息处理系统国际会议论文集。Curran Associates Inc.,美国,第3111-3119页
[39] Nguyen N,Guo Y(2008)度量学习:一种支持向量方法。参见:ECML PKDD 2008会议记录。柏林施普林格,第125-136页
[40] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;格里塞尔,O。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:蟒蛇中的机器学习,J Mach learn Res,12,2825-2830(2011)·Zbl 1280.68189号
[41] Ren W,Yu Y,Zhang J,Huang K(2014)学习卷积非线性特征用于K个最近邻图像分类。摘自:第22届模式识别国际会议记录,第4358-4363页
[42] Salton,G。;Buckley,C.,自动文本检索中的术语加权方法,Inf Process Manag,24,5,513-523(1988)·doi:10.1016/0306-4573(88)90021-0
[43] Salton,G。;Mcgill,Mj,现代信息检索导论(1986),纽约:麦格劳-希尔公司,纽约
[44] Shi,T。;Horvath,S.,《使用随机森林预测因子的无监督学习》,《计算图统计杂志》,15,1,118-138(2006)·doi:10.1198/106186006X94072
[45] Song D,Liu W,Ji R,Meyer DA,Smith JR(2015)视觉搜索的顶级监督二进制编码。摘自:2015年IEEE计算机视觉国际会议(ICCV)论文集,第1922-1930页
[46] Stevens,Ss,《计量尺度理论》,《科学》,第103、2684、677-680页(1946年)·邮编:1226.91050 ·doi:10.1126/science.103.2684.677
[47] Stewart M(2015)《python中的度量学习算法》。GitHub存储库。https://github.com/michaelstewart/metric-learn
[48] Sturges,Ha,《班级间隔的选择》,美国统计学会杂志,21,153,65-66(1926)·doi:10.1080/01621459.1926.10502161
[49] Tan,P-N;斯坦巴赫,M。;Kumar,V.,《数据挖掘导论》(2006),波士顿:Addison-Wesley出版社,波士顿
[50] Ting KM,朱毅,Carman M,Zhu,Y,Zhou Z-H(2016)。使用依赖数据的差异性度量克服基于距离的邻域方法的关键弱点。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议记录,第1205-1214页
[51] 卡里·托科拉;Tuv,Eugene,《带监督内核的集成学习》,机器学习:ECML 2005,400-411(2005),柏林,海德堡:施普林格-柏林-海德堡,柏林
[52] Tsang IW,Kwok JT,Bay CW(2003)带核的远程度量学习。摘自:《人工神经网络国际会议论文集》,第126-129页
[53] 特维斯基,A.,《相似的特征》,《心理学评论》,84,4,327-352(1977)·doi:10.1037/0033-295X.84.4.327
[54] Wang,F。;Sun,J.,《数据挖掘中距离度量学习和降维研究》,data Min Knowl Disc,29,2,534-564(2015)·Zbl 1403.68215号 ·doi:10.1007/s10618-014-0356-z
[55] Wang J,Do HT,Woznica A,Kalousis A(2011)多核度量学习。摘自:Shawe-Taylor J、Zemel RS、Bartlett PL、Pereira E、Weinberger KQ(eds)《神经信息处理系统进展》,第24卷。Curran Associates公司,第1170-1178页
[56] 王J,沈HT,宋J,季J(2014)Hashing for similarity search:a survey,CoRR.arXiv:1408.2927
[57] Wang,J。;张,T。;宋,J。;塞贝,N。;Shen,Ht,关于学习散列的调查,IEEE Trans-Pattern Ana Mach Intell,40,4,769-790(2018)·doi:10.1109/TPAMI.2017.2699960
[58] Weinberger K,Blitzer J,Saul L(2005)大幅度最近邻分类的距离度量学习。收录:神经信息处理系统进展论文集。麻省理工学院出版社,剑桥
[59] Xu Z,Weinberger KQ,Chapelle O(2013)《内核机器的距离度量学习》,技术报告1208.3422v2,arXiv
[60] 钟,G。;Wang,L-N;Ling,X。;Dong,J.,《数据表示学习综述:从传统特征学习到最近的深度学习》,《金融数据科学杂志》,2016年第2期,第4期,第265-278页·doi:10.1016/j.jfds.2017.05.001
[61] 周,G-T;Ting,公里;刘,Ft;Yin,Y.,基于内容的多媒体信息检索的相关性特征映射,模式识别,45,4,1707-1720(2012)·doi:10.1016/j.patcog.2011.09.016
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。