×

非参数贝叶斯负二项因子分析。 (英语) Zbl 1407.62113号

摘要:分析协变量-样本计数矩阵的一种常见方法是根据泊松似然对其进行因式分解,该矩阵的元素表示协变量在样本中出现的次数。我们显示了它在捕捉样本中存在的协变量重复自身并激发相关变量的趋势方面的局限性。为了解决这一局限性,我们构造了负二项因子分析(NBFA),将矩阵分解为负二项似然矩阵,并将其与基于Dirichlet多项式分布的混合成员模型相关联。为了支持可数无穷因子,我们提出了层次伽马负二项过程。通过利用新证明的离散分布之间的联系,我们构造了两个块Gibbs采样器和一个折叠Gibbs取样器,它们都自适应地截断了它们的因子数,并证明了在复合泊松表示下开发的块Gibb采样器收敛快且计算复杂度低。实例结果表明,NBFA在根据样本长度调整推断因子数量方面具有独特的机制,与之前提出的完全忽略突发性的离散潜在变量模型相比,它在简约表示、预测能力和计算复杂性方面具有明显优势,或者只对协变量的突发性建模,而不对因素的突发性进行建模。

MSC公司:

62G05型 非参数估计
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aldous,D.(1983年)。“可交换性和相关主题”,载于《圣面粉十三世概率教育》,1–198。斯普林格。
[2] Antoniak,C.E.(1974)。“Dirichlet过程的混合及其在贝叶斯非参数问题中的应用”,《统计学年鉴》,2(6):1152-1174·Zbl 0335.60034号 ·doi:10.1214/aos/1176342871
[3] Blei,D.和Lafferty,J.(2005)。“相关主题模型”,NIPS,147-154。
[4] Blei,D.、Ng,A.和Jordan,M.(2003年)。“潜在的Dirichlet分配”,《机器学习研究杂志》,3:993–1022·兹比尔1112.68379
[5] Broderick,T.、Mackey,L.、Paisley,J.和Jordan,M.I.(2015)。“组合聚类和贝塔负二项式过程”,IEEE模式分析和机器智能汇刊。
[6] Buntine,W.和Jakulin,A.(2006年)。“离散组件分析”,《子空间、潜在结构和特征选择技术》。斯普林格·弗拉格。
[7] Canny,J.(2004)。“GaP:离散数据的因子模型”,摘自SIGIR。
[8] Church,K.W.和Gale,W.A.(1995)。泊松混合〉,《自然语言工程》。
[9] Doyle,G.和Elkan,C.(2009年)。《主题模型中突发性的解释》,摘自ICML。
[10] Dunson,D.B.和Herring,A.H.(2005)。混合离散结果的贝叶斯潜在变量模型〉,《生物统计学》,6(1):11-25·Zbl 1069.62094号 ·doi:10.1093/biostatistics/kxh025
[11] Escobar,M.D.和West,M.(1995)。《使用混合物的贝叶斯密度估计和推断》,《美国统计协会杂志》·Zbl 0826.62021号 ·doi:10.1080/01621459.1995.10476550
[12] W.J.Ewens(1972年)。理论种群生物学,3(1):87-112·Zbl 0245.92009号 ·doi:10.1016/0040-5809(72)90035-4
[13] Fan,R.-E.、Chang,K.-W.、Xieh,C.-J.、Wang,X.-R.和Lin,C.-J(2008)。“LIBLINEAR:大型线性分类库”,《机器学习研究杂志》,1871-1874年·Zbl 1225.68175号
[14] Ferguson,T.S.(1973)。“一些非参数问题的贝叶斯分析”,《统计年鉴》,1(2):209-230·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[15] Fox,E.B.、Sudderth,E.B.,Jordan,M.I.和Willsky,A.S.(2011年)。“一种粘性HDP-HMM,适用于说话人日记。”应用统计学年鉴·Zbl 1232.62077号 ·doi:10.1214/10-AOAS395
[16] Gan,Z.、Chen,C.、Henao,R.、Carlson,D.和Carin,L.(2015)。《主题建模的可扩展深度泊松因子分析》,摘自ICML。
[17] Griffiths,T.L.和Steyvers,M.(2004年)。《寻找科学主题》PNAS。
[18] Hofmann,T.(1999)。“概率潜在语义分析。”在UAI中·Zbl 0970.68130号 ·doi:10.1023/A:1007617005950
[19] Ishwaran,H.和James,L.F.(2001)。“破杆先验的吉布斯抽样方法”,《美国统计协会杂志》,96(453)·兹比尔1014.62006 ·doi:10.1198/016214501750332758
[20] Lee,D.D.和Seung,H.S.(2001年)。《非负矩阵分解算法》,NIPS。
[21] Ligoi,A.、Mena,R.H.和Prünster,I.(2007年)。“控制贝叶斯非参数混合模型中的强化”,《皇家统计学会期刊:B辑》,69(4):715-740。
[22] Madsen,R.E.、Kauchak,D.和Elkan,C.(2005)。“使用Dirichlet分布建模单词burstiness”,摘自ICML。
[23] Mosimann,J.E.(1962年)。“关于复合多项式分布、多元(β)分布以及比例之间的相关性。”《生物统计学》,65-82·Zbl 0105.12502号
[24] Newman,D.、Asuncion,A.、Smyth,P.和Welling,M.(2009年)。《主题模型的分布式算法》,《机器学习研究杂志》·Zbl 1235.68324号
[25] 佩斯利·J、王·C和布莱·D·M(2012)。《离散无限Logistic正态分布》,贝叶斯分析·Zbl 1330.62081号 ·doi:10.1214/12-BA734
[26] Papaspiliopoulos,O.和Roberts,G.O.(2008)。“Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法”,《生物统计学》·Zbl 1437.62576号 ·doi:10.1093/biomet/asm086
[27] Pitman,J.(2006)。组合随机过程。数学讲义。斯普林格·弗拉格·Zbl 1103.60004号
[28] Pritchard,J.K.、Stephens,M.和Donnelly,P.(2000)。“利用多点基因型数据推断种群结构”,《遗传学》,155(2):945-959。
[29] Ranganath,R.、Tang,L.、Charlin,L.和Blei,D.M.(2015)。AISTATS中的“深层指数族”。
[30] Regazzini,E.、Likoi,A.和Prünster,I.(2003)。“具有独立增量的标准化随机测度均值的分布结果”,《统计年鉴》,31(2):560-585·Zbl 1068.62034号 ·doi:10.1214/aos/1051027881
[31] Teh,Y.W.、Jordan,M.I.、Beal,M.J.和Blei,D.M.(2006)。“层次迪里克莱过程”,《美国统计协会期刊》,101:1566-1581·Zbl 1171.62349号 ·doi:10.1198/016214500000302
[32] Walker,S.G.(2007)。“带切片的Dirichlet混合模型采样”,《统计模拟与计算中的通信》·Zbl 1113.62058号 ·doi:10.1080/03610910601096262
[33] Wallach,H.M.、Mimno,D.M.和McCallum,A.(2009年A)。“重新思考LDA:为什么优先事项很重要。”在NIPS中。
[34] Wallach,H.M.、Murray,I.、Salakhutdinov,R.和Mimno,D.(2009b)。ICML中的“主题模型评估方法”。
[35] Zhou,M.(2017)。“非参数贝叶斯负二项因子分析:补充材料”,贝叶斯分析。
[36] Zhou,M.和Carin,L.(2015)。“负二项式过程计数和混合建模”,IEEE模式分析和机器智能汇刊,37(2):307-320。
[37] Zhou,M.、Cong,Y.和Chen,B.(2016a)。《可增强的伽马相信网络》,JMLR,17(163):1-44·Zbl 1392.68373号
[38] Zhou,M.、Hannah,L.、Dunson,D.和Carin,L.(2012)。《贝塔负二项过程和泊松因子分析》,AISTATS,1462-1471。
[39] Zhou,M.、Padilla,O.H.M.和Scott,J.G.(2016b)。“从一系列负二项式过程导出的随机计数矩阵的先验·doi:10.1080/01621459.2015.1075407
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。