×

用于关联模式发现的通用主题字典模型。 (英语) Zbl 07656976号

摘要:从由不同项目组成的篮子集合中发现项目的关联模式是各个领域的一个重要问题。假设每个篮子由从主题字典中随机抽取的项目主题组成,主题字典模型提供了一个通用框架,以通过统计推断实现高效的关联模式发现。本文扩展了原有的主题词典模型,允许一个篮子中有多个类别的条目,并且每个篮子中只观察到有无条目,而所有定量信息都会丢失。扩展模型可以解决原始主题词典模型无法处理的更大范围的实际问题。仿真研究和实际数据应用都证实了所提方法相对于现有方法的优越性。

MSC公司:

62件 统计学的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] AGRAWAL,R.、IMIELINSKI,T.和SWAMI,A.(1993)。挖掘大型数据库中项目集之间的关联规则。ACM SIGMOD数据管理会议记录207-216.
[2] AGRAWAL,R.和SRIKANT,R.(1994)。关联规则挖掘的快速算法。会议记录20第十届超大数据库国际会议487-499.
[3] BLEI,D.、ANDREW,Y.和JORDAN,M.(2003)。潜在狄利克雷分配。J.马赫。学习。物件。3 993-1022. ·Zbl 1112.68379号
[4] BLEI,D.和LAFFERTY,J.(2006)。动态主题模型。会议记录23第三届国际机器学习会议113-120.
[5] BLEI,D.M.和LAFFERTY,J.D.(2007)。科学的相关主题模型。附录申请。斯达。1 17-35. ·兹比尔1129.62122 ·doi:10.1214/07-AOAS114
[6] BOOTH,J.G.和HOBERT,J.P.(1999)。使用自动蒙特卡罗em算法最大化广义线性混合模型的可能性。J.R.统计社会服务。B.统计方法。61 265-285. ·Zbl 0917.62058号
[7] BORGELT,C.(2003)。高效实现apriori和eclat。IEEE ICDM频繁项集挖掘实现研讨会会议记录.
[8] BORGELT,C.(2004)。apriori算法的递归剪枝。IEEE ICDM频繁项目集挖掘实现研讨会论文集.
[9] BORGELT,C.(2005)。FP-growth算法的实现。会议记录1第一届开源数据挖掘国际研讨会1-5.
[10] DEMPSTER,A.P.,LAIRD,N.M.和RUBIN,D.B.(1977年)。通过EM算法获得不完整数据的最大似然(讨论后)。J.R.统计社会服务。B.统计方法。39 1-38. ·Zbl 0364.62022号
[11] 邓,K.、耿,Z.和刘,J.S.(2014)。通过主题字典模型发现关联模式。J.R.统计社会服务。B.统计方法。76 319-347. ·Zbl 07555453号 ·doi:10.1111/rssb.12032
[12] 邓,K.,刘,D.,高,S.和耿,Z.(2005)。图形模型的结构学习及其在中医学中的应用。计算机课堂讲稿。科学。3614 362-367.
[13] DOUCET,A.、DE FREITAS,J.F.G.和GORDON,N.J.(2001)。序列蒙特卡罗方法在实践中的应用纽约州施普林格·Zbl 0967.00022号
[14] Fearnhead P.和Clifford P.(2003年)。通过粒子滤波器对隐马尔可夫模型进行在线推理。J.R.统计社会服务。B.统计方法。65 887-899. ·Zbl 1059.62098号 ·doi:10.1111/1467-9868.00421
[15] FENG,Y.,WU,Z.,ZHOU,X.,ZHOU,Z.和FAN,W.(2006)。方法综述:中医知识发现:现状和展望。Artif公司。智力。医学。38 219-236.
[16] GUPTA,N.、MANGAL,N.,TIWARI,K.和MITRA,P.(2006)。挖掘蛋白质序列中的定量关联规则。数据挖掘柏林施普林格。
[17] 韩杰、裴杰和尹寅(2000)。挖掘频繁模式,无需候选生成。SIGMOD记录。29 1-12.
[18] HE,P.、DENG,K.、LIU,Z.、LIU,D.、LIU、J.S.和GENG,Z.(2012)。发现中药的草药功能群。统计医学。31 636-642. ·doi:10.1002/sim.4146
[19] HUANG,Z.、DONG,W.、BATH,P.、JI,L.和DUAN,H.(2015)。从电子病历中挖掘潜在治疗模式。数据最小知识。发现。29 914-949. ·doi:10.1007/s10618-014-0381-y
[20] JORDAN,M.、GHAHRAMANI,Z.、JAAKKOLA,T.S.和SAUL,L.K.(1999)。介绍图形模型的变分方法。机器。学习。37 183-233. ·Zbl 0945.68164号
[21] 刘J.S.和陈R.(1998)。动态系统的序贯蒙特卡罗方法。J.Amer。统计人员。协会。93 1032-1044. ·Zbl 1064.65500号 ·doi:10.2307/2669847
[22] 刘建生、陈瑞和黄伟华(1998)。拒收控制和顺序重要性抽样。J.Amer。统计人员。协会。93 1022-1031. ·Zbl 1064.65501号 ·doi:10.2307/2669846
[23] LU,H.(2020年)。2019-新型冠状病毒(2019-nCoV)的药物治疗选择。Biosci公司。趋势14 69-71. ·doi:10.5582/bst.2020.01020
[24] LUO,H.、TANG,Q.L.、SHANG,Y.X.、LIANG,S.B.、YANG,M.、ROBINSON,N.和LIU,J.P.(2020)。中药能预防2019年冠状病毒病吗?回顾历史经典、研究证据和当前预防方案。琴。J.整合。医学。26 243-250.
[25] MCCULLOCH,C.E.(1997)。广义线性混合模型的最大似然算法。J.Amer。统计人员。协会。92 162-170. ·Zbl 0889.62061号 ·数字对象标识代码:10.2307/2291460
[26] PIATETSKY-SHAPIRO,G.(1991)。发现、分析和呈现强大的规则。知识。发现。数据库229-248.
[27] RAJAK,A.和GUPTA,M.K.(2008)。关联规则挖掘:在各个领域的应用。国际数据管理会议记录3-7.
[28] ROSEN-ZVI,M.、GRIFFITHS,T.、STEYVERS,M.和SMYTH,P.(2004)。作者和文档的作者主题模型。会议记录20第十届人工智能不确定性会议487-494.
[29] RUIZ,F.J.R.、ATHEY,S.和BLEI,D.M.(2020年)。购物者:消费者选择的概率模型,包含替代品和补充品。附录申请。斯达。14 1-27. ·Zbl 1443.62218号 ·doi:10.1214/19-AOAS1265
[30] WEBB,G.(2007)。发现重要模式。机器。学习。68 1-33. ·Zbl 1470.68195号
[31] YANG,Y.和DENG,K.(2023年)。补充“关联模式发现的通用主题词典模型”https://doi.org/10.1214/22-AOAS1626SUPP网站
[32] YANG,Y.,LI,Q.,LIU,Z.,YE,F.和DENG,K.(2019)。通过专家专用电子病历的统计学习了解中医。数量。生物。7 201-232.
[33] ZAKI,M.(2000年)。用于关联挖掘的可扩展算法。IEEE传输。知识。数据工程。12 372-390
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。