文件Zbl 07370577-zbMATH打开

一种用于拟合拉普拉斯正则分层模型的分布式方法。（英语） Zbl 07370577号

J.马赫。学习。物件。 22，第60号论文，37页（2021年）.

摘要：分层模型是指以任意方式依赖于一组选定的类别特征，并线性依赖于其他特征的模型。在基本和传统公式中，单独的模型适用于分类特征的每个值，只使用具有特定分类值的数据。在这个公式中，我们添加了拉普拉斯正则化，它鼓励相邻类别值的模型参数相似。拉普拉斯正则化允许我们在分层特征值上指定一个或多个加权图。例如，对一周中的几天进行分层，我们可以指定星期日模型参数应接近星期六和星期一模型参数。与传统的分层模型相比，正则化提高了模型的性能，因为分类的每个值的模型都从其邻域“借用强度”。特别是，它甚至为训练数据集中没有出现的分类值生成了一个模型。
基于交替方向乘数法（ADMM），我们提出了一种有效的分布式分层模型拟合方法。当拟合损失函数为凸函数时，分层模型拟合问题是凸的，我们的方法计算损失加正则化的全局极小值；在其他情况下，它计算局部极小值。该方法非常有效，并且可以自然地扩展到大数据集或分层特征值的数量。我们用各种例子来说明我们的方法。

引用于4文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

凸优化；分层模型；图表；交替方向乘法器法；拉普拉斯正则化

软件：

NetworkX公司；童子军；CVXPY公司；PyTorch公司；L-BFGS公司；科学Py；SNAP（快照）；数字Py

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	A.El Alaoui、X.Cheng、A.Ramdas、M.Wainwright和M.Jordan。半监督学习中基于拉普拉斯正则化的渐近行为。维塔利·费尔德曼（Vitaly Feldman）、亚历山大·拉赫林（Alexander Rakhlin）和奥哈德·沙米尔（Ohad Shamir），编辑，第29届学习理论年会，《机器学习研究进展》第49卷，第879-906页，美国纽约哥伦比亚大学，2016年6月23-26日。PMLR。统一资源定位地址http://proceedings.mlr.press/v49/elalaoui16.html。
[2]	D.Bates和S.DebRoy。线性混合模型和惩罚最小二乘法。多元分析杂志，91（1）：1-172004。ISSN 0047-259X。半参数和非参数混合模型专题·Zbl 1051.62063号
[3]	D.Bates、M.M¨achler、B.Bolker和S.Walker。使用lme4拟合线性混合效应模型。统计软件杂志，67（1）：1-482015。ISSN 1548-7660。
[4]	M.Belkin、P.Niyogi和V.Sindhwani。流形正则化：从标记和未标记示例学习的几何框架。机器学习研究杂志，7（11月）：2399-24342006·Zbl 1222.68144号
[5]	R.博斯科维奇。每个教皇条件下进行一次研究，并简要介绍操作性扩增、前子宫肌瘤和脓疱性子宫肌瘤。Bononiensi Scientiarum et Artum Instuto Attque Academia Commentarii，4:353-3961757。
[6]	B.Boser、I.Guyon和V.Vapnik。一种最优边缘分类器的训练算法。计算学习理论研讨会论文集，第144-152页。ACM，1992年。
[7]	S.博伊德。图拉普拉斯特征值的凸优化。《国际数学家大会论文集》，第1311-13192006页·Zbl 1100.05063号
[8]	S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社，2004年·Zbl 1058.90049号
[9]	S.Boyd、N.Parikh、E.Chu、B.Peleato和J.Eckstein。通过交替方向乘数法进行分布式优化和统计学习。机器学习基础与趋势，3（1）：1-1222011。ISSN 1935-8237·Zbl 1229.90122号
[10]	L.Breiman、J.Friedman、C.Stone和R.Olshen。分类和回归树。Wadsworth和Brooks-Cole统计-概率序列。Taylor&Francis，1984年。国际标准图书编号9780412048418。统一资源定位地址https://books.google.com/books？id=JwQx-WOmSyQC·Zbl 0541.62042号
[11]	N.Breslow和D.Clayton。广义线性混合模型中的近似推理。《美国统计协会杂志》，88（421）：9-251993年·Zbl 0775.62195号
[12]	C.Brunsdon、A.Fotheringham和M.Charlton。地理加权回归：探索空间非平稳性的一种方法。地理分析，28（4）：281-2981996。
[13]	R.卡鲁阿纳。多任务学习。机器学习，28（1）：41-751997。30
[14]	J.Chen、C.Wang、Y.Sun和X.Shen。无线传感器网络定位的半监督拉普拉斯正则最小二乘算法。计算机网络，55（10）：2481-24912011。ISSN 1389-1286。统一资源定位地址http://www.sciencedirect.com/science/article网站/pii/S1389128611001393。
[15]	S.Chen、D.Witten和A.Shojaie。混合图形模型的选择和估计。《生物特征》，102（1）：47-642014年12月。ISSN 0006-3444。doi:10.1093/biomet/asu051。统一资源定位地址https://doi.org/10.1093/biomet/asu051。 ·Zbl 1345.62081号
[16]	J.Cheng、T.Li、E.Levina和J.Zhu。高维混合图形模型。计算与图形统计杂志，26（2）：367-3782017。
[17]	M.Cohen、R.Kyng、G.Miller、J.Pachocki、R.Peng、A.Rao和S.Xu。在接近mlog1/2时间内求解sdd线性系统。《第四十六届ACM计算理论年度研讨会论文集》，STOC’14，第343-352页，美国纽约州纽约市，2014年。ACM公司·Zbl 1315.65026号
[18]	C.Cortes和V.Vapnik。支持向量网络。机器学习，20（3）：273-2971995。ISSN 1573-0565·Zbl 0831.68098号
[19]	D.考克斯。二元序列的回归分析。《皇家统计学会杂志》，20（2）：215-2421958年·Zbl 0088.35703号
[20]	麻省理工学院选举数据和科学实验室，美国众议院，1976-2016年，2017年。
[21]	芝加哥警察局。犯罪——2001年至今。https://data.cityofchicago.org/公共安全/犯罪-2001年至今/ijzp-q8t22019年。访问时间：2019-04-09。
[22]	S.Diamond和S.Boyd。CVXPY：一种嵌入Python的凸优化建模语言。《机器学习研究杂志》，17（1）：2909-29132016·Zbl 1360.90008号
[23]	W.Du和R.Tibshirani。Cox模型的柔韧套索。arXiv电子版，2018年7月。
[24]	D.Dua和C.Graff。UCI机器学习库。http://archive.ics.uci.edu/ml, 2019. 统一资源定位地址http://archive.ics.uci.edu/ml。
[25]	J.恩格尔。多元逻辑回归。Neerlandica统计，42（4）：233-2521988·Zbl 0715.62138号
[26]	O.Er、A.Tanrikulu、A.Abakay和F.Temurtas。一种基于概率神经网络的间皮瘤疾病诊断方法。计算机与电气工程，38（1）：75-812012。信号处理和生物医学工程新趋势专刊。
[27]	J.Fan和W.Zhang。变系数模型的统计方法。统计及其接口，1:179-1952008年2月·Zbl 1230.62031号
[28]	J.Friedman、T.Hastie和R.Tibshirani。用图形套索进行稀疏逆协方差估计。生物统计学，9（3）：432-4412008·兹比尔1143.62076
[29]	J.Friedman、T.Hastie和R.Tibshirani。关于组套索和稀疏组套索的注释。arXiv电子版，2010年。
[30]	C.高斯。第7卷《环境中的圆锥形部分中的圆顶理论》（Theoria motus corporum coelestium in sectionibus conicis solem ambientium）。Perthes et Besser，1809年·Zbl 1234.01016号
[31]	I.Goodfellow、Y.Bengio和A.Courville。深度学习。麻省理工学院出版社，2016年·Zbl 1373.68009号
[32]	S.Gross和R.Tibshirani。数据共享套索：一种发现提升的新工具。计算统计与数据分析，1012016年3月·Zbl 1466.62082号
[33]	A.Hagberg、P.Swart和D.Chult。使用NetworkX探索网络结构、动态和功能。技术报告，洛斯阿拉莫斯国家实验室（LANL），新墨西哥州洛斯阿拉莫斯，2008年。
[34]	D.Hallac、J.Leskovec和S.Boyd。网络套索：大型图形中的聚类和优化。《ACM知识发现和数据挖掘国际会议论文集》，第387-396页。ACM，2015年。
[35]	D.Hallac、Y.Park、S.Boyd和J.Leskovec。通过时变图形套索进行网络推理。《ACM知识发现和数据挖掘国际会议论文集》，第205-213页。ACM，2017a。
[36]	D.Hallac、C.Wong、S.Diamond、A.Sharang、R.Sosic、S.Boyd和J.Leskovec。SnapVX：基于网络的凸优化求解器。机器学习研究杂志，18（1）：110-1142017b·兹比尔1433.68345
[37]	T.Hastie和R.Tibshirani。变系数模型。英国皇家统计学会杂志。B系列（方法学），55（4）：757-7961993年·Zbl 0796.62060号
[38]	T.Hastie、R.Tibshirani和J.Friedman。统计学习要素，2009年·Zbl 1273.62005年
[39]	B.他、H.杨和S.王。单调变分不等式的自适应惩罚参数交替方向法。最优化理论与应用杂志，106（2）：337-3562000·Zbl 0997.49008号
[40]	M.Hestenes和E.Stiefel。求解线性系统的共轭梯度方法。国家标准局研究杂志，49:409-4361952a·Zbl 0048.09901号
[41]	M.Hestenes和E.Stiefel。求解线性系统的共轭梯度法。国家标准局研究杂志，49（6），1952b·Zbl 0048.09901号
[42]	D.Hosmer和S.Lemeshow。应用Logistic回归。约翰·威利父子有限公司，2005年。国际标准图书编号9780471722144·Zbl 0967.62045号
[43]	P.Huber。位置参数的稳健估计。《数理统计年鉴》，35（1）：73-1011964·Zbl 0136.39805号
[44]	D.Hunter和K.Lange。MM算法教程。美国统计学家，58（1）：30-372004。
[45]	L.Jacob和J.Vert。对已知结合物较少的等位基因进行有效的肽-MHC-I结合预测。生物信息学，24（3）：358-3662007。
[46]	J.Jiang。线性和广义线性混合模型及其应用。统计学中的斯普林格系列。施普林格，多德雷赫特，2007年。统一资源定位地址https://cds.cern.ch/记录/ 1411968. ·兹比尔1152.62040
[47]	R.Johnson和T.Zhang。图半监督学习中拉普拉斯归一化的有效性。《机器学习研究杂志》，8:1489-15172007年12月。ISSN 1532-4435·Zbl 1222.68227号
[48]	E.Jones，T.Oliphant，P.Peterson等人。SciPy:Python的开源科学工具，2001年。统一资源定位地址http://www.scipy.org/。
[49]	T.Lash K.Rothman，南格陵兰。现代流行病学。Lippincott Williams&Wilkins，第3版，1986年。
[50]	W.Kernan、C.Viscoli、R.Makuch、L.Brass和R.Horwitz。临床试验的分层随机化。临床流行病学杂志，52（1）：19-261999。
[51]	B.凯斯滕鲍姆。流行病学和生物统计学：临床研究导论。Springer科学与商业媒体，2009年。
[52]	B.科普曼。关于允许充分统计的分布。美国数学学会学报，39（3）：399-4091936·Zbl 0014.16806号
[53]	A.科瓦克和A.史密斯。图上的非参数回归。计算与图形统计杂志，20（2）：432-4472011。
[54]	N.Laird和J.Ware。纵向数据的随机效应模型。生物计量学，38（4）：963-9741982·Zbl 0512.62107号
[55]	J.Lee和T.Hastie。混合图形模型的结构学习。机器学习研究进展第31卷，第388-396页，美国亚利桑那州斯科茨代尔，2013年4月29日至5月1日。PMLR公司。统一资源定位地址http://proceedings.mlr.press/v31/lee13a.html。
[56]	J.Lee和T.Hastie。学习混合图形模型的结构。计算与图形统计杂志，24（1）：230-2532015。
[57]	A.勒让德。新的m’ethodes pour la d’termination des orbites des com'etes。菲尔明·迪多特（Firmin Didot），1805年。
[58]	J.Leskovec和R.Sosi’c。Snap：通用网络分析和图形管理库。ACM智能系统与技术交易（TIST），8（1）：2016年1月。
[59]	M.Lindstrom和D.Bates。用于重复测量数据的线性混合效应模型的Newton-Raphson和EM算法。美国统计协会杂志，83（404）：1014-10221988·Zbl 0671.65119号
[60]	D.Liu和J.Nocedal。关于大规模优化的有限内存bfgs方法。数学规划，45（1-3）：503-5281989·Zbl 0696.90048号
[61]	C.Lu、J.Feng、S.Yan和Z.Lin。通过优化最小化实现乘数的统一交替方向方法。IEEE模式分析和机器智能汇刊，40（3）：527-5412018。
[62]	C.Manning、P.Raghavan和H.Sch–utze。信息检索导论。剑桥大学出版社，2008年·Zbl 1160.68008号
[63]	D.麦克米伦。地理加权回归：空间变化关系分析，2004年。
[64]	L.Meier、S.Van De Geer和P.Bülmann。该组套索用于逻辑回归。《皇家统计学会杂志》，70（1）：53-712008·Zbl 1400.62276号
[65]	S.Melacci和M.Belkin。拉普拉斯支持向量机在原函数中训练。机器学习研究杂志，12:1149-11842011年7月。ISSN 1532-4435·Zbl 1280.68182号
[66]	S.Murphy和P.Sen.Cox型回归模型中的时间相关系数。随机过程及其应用，39（1）：153-1801991。ISSN 0304-4149·Zbl 0754.62069号
[67]	B.Nadler、N.Srebro和X.Zhou。半监督学习的统计分析：无限未标记数据的极限。在Y.Bengio、D.Schuurmans、J.Lafferty、C.Williams和A.Culotta，《神经信息处理系统进展》编辑，第1330-1338页。Curran Associates，Inc.，2009年。
[68]	J.Nelder和R.Wedderburn。广义线性模型。《皇家统计学会杂志》，135（3）：370-3841972年。
[69]	Y.内斯特罗夫。坐标下降法在大规模优化问题中的效率。SIAM优化杂志，22（2）：341-3622012·Zbl 1257.90073号
[70]	N.Parikh和S.Boyd。近似算法。优化的基础和趋势，1（3）：127-2392014。ISSN 2167-3888。
[71]	A.Paszke、S.Gross、S.Chintala、G.Chanan、E.Yang、Z.DeVito、Z.Lin、A.Desmaison、L.Antiga和A.Lerer。pytorch中的自动区分。神经信息处理系统研究进展，2017年。
[72]	E.皮特曼。足够的统计数据和内在的准确性。剑桥哲学学会数学学报，32（4）：567-5791936·JFM 62.0611.02型
[73]	N.Polson、J.Scott和B.Willard。统计和机器学习中的近似算法。统计科学，30（4）：559-5812015年11月。doi:10.1214/15-STS530。统一资源定位地址https://doi。org/10.1214/15-STS530·Zbl 1426.62213号
[74]	P.Richt´arik和M.Tak´a´c。最小化复合函数的随机块坐标下降方法的迭代复杂性。数学程序设计，144（1）：1-382014。ISSN 1436-4646·Zbl 1301.65051号
[75]	G.罗宾逊。BLUP是一件好事：随机效应的估计。统计科学，6（1）：15-321991年2月。统一资源定位地址https://doi.org/10.1214/ss/1177011926。 ·Zbl 0955.62500号
[76]	L.Rudin、S.Osher和E.Fatemi。基于非线性全变分的噪声去除算法。物理学D：非线性现象，60（1-4）：259-2681992·Zbl 0780.49028号
[77]	V.Sadhanala、Y.-X.Wang和R.Tibshirani。拉普拉斯平滑的图稀疏化方法。2016年5月9日至11日，西班牙加的斯，A.Gretton和C.Robert编辑，《第19届国际人工智能和统计会议论文集》，机器学习研究进展第51卷，第1250-1259页。PMLR。统一资源定位地址http://proceedings.mlr.press/v51/sadhanal16.html。
[78]	M.Schaub、M.Trefois、P.van Dooren和J.Delvenne。快速线性解的稀疏矩阵分解及其在拉普拉斯系统中的应用。SIAM矩阵分析与应用杂志，38（2）：505-5292017·Zbl 1367.65041号
[79]	D.谢尔顿。图形化多任务学习。2008年出版前。
[80]	D.斯皮尔曼。谱图理论及其应用。《计算机科学基础》，第29-38页。IEEE，2007年。
[81]	D.斯皮尔曼。拉普拉斯矩阵中的算法、图论和线性方程。《国际数学家大会议事录》，第2698-2722页。《世界科学》，2010年·兹比尔1241.65033
[82]	Y.Sun、P.Babu和D.Palomar。信号处理、通信和机器学习中的优化最小化算法。IEEE信号处理学报，65（3）：794-8162017·Zbl 1414.94595号
[83]	S.Teng。拉普拉斯范式：海量图的新兴算法。在国际计算模型理论和应用会议上，第2-14页。施普林格，2010年·Zbl 1284.05312号
[84]	R.Tibshirani。通过套索回归收缩和选择。《皇家统计学会杂志》，58（1）：267-2881996年·Zbl 0850.62538号
[85]	R.Tibshirani和J.Friedman。柔韧的套索。计算与图形统计杂志，29（1）：215-2252020·Zbl 07499284号
[86]	A.蒂霍诺夫。关于反问题的稳定性。Doklady Akademii Nauk SSSR，39（5）：195-1981943。
[87]	A.蒂霍诺夫。不正确公式化问题的解决和正则化方法。苏联数学Doklady，4:1035-10381963·Zbl 0141.11001号
[88]	W.托布勒。一部模拟底特律地区城市发展的电脑电影。经济地理，46（补充1）：234-2401970。
[89]	J.Tuck和S.Boyd。特征认证模型，2020年。
[90]	J.Tuck、D.Hallac和S.Boyd。拉普拉斯正则化问题的分布式优化最小化。IEEE/CAA自动化杂志，6（1）：45-522019年1月。ISSN 2329-9266。
[91]	S.Van Der Walt、C.Colbert和G.Varoqueux。numpy数组：高效数值计算的结构。科学与工程计算，13（2）：222011。
[92]	L.Vandenberghe和S.Boyd。半定规划。SIAM综述，38（1）：49-951996·Zbl 0845.65023号
[93]	N.维斯诺伊。Lx=b:拉普拉斯解算器及其算法应用。理论计算机科学基础与趋势，8（1-2）：1-1412013·兹比尔1280.65003
[94]	F.Wang、Z.-A.Huang、X.Chen、Z.Zu、Z.Wen、J.Zhao和G.-Y.Yan。LRLSHMDA：拉普拉斯正则最小二乘法用于人类微生物疾病关联预测。科学报告，7（1）：76012017。
[95]	S.Wang和L.Liao。一类单调变分不等式问题的变参数分解方法。优化理论与应用杂志，109（2）：415-4292001·Zbl 0999.49009号
[96]	Y.Wang、W.Yin和J.Zeng。非凸非光滑优化中ADMM的全局收敛性。科学杂志。计算。，78（1）：2019年1月29-63日。ISSN 0885-7474·Zbl 1462.65072号
[97]	Z.Wang、Z.Zhou、X.Sun、X.Qian和L.Sun。用于人脸识别的增强型lapsvm算法。国际计算技术进步杂志，4:343-3512012。
[98]	Z.Wang、X.Sun、L.Zhang和X.Qian。基于最优laprls的文档分类。软件杂志，8（4）：1011-10182013。
[99]	J.Wiens、J.Guttag和E.Horvitz。时变参数患者风险分层：一种多任务学习方法。机器学习研究杂志，17（79）：1-232016。
[100]	D.Witten和R.Tibshirani。高维问题的协方差回归和分类。英国皇家统计学会期刊，71（3）：615-6362009。统一资源定位地址http://www.jstor.org/stable/40247591。 ·Zbl 1250.62033号
[101]	X.-Y.Yang、J.Liu、M.-Q.Zhang和K.Niu。一种新的基于单类支持向量机的多类支持向量算法。InComputation Science-ICCS 2007，第677-684页，柏林，海德堡，2007年。施普林格柏林海德堡。
[102]	M.Yuan和Y.Lin。分组变量回归中的模型选择和估计。《皇家统计学会杂志》，68:49-672006年·Zbl 1141.62030号
[103]	D.Zhang和D.Shen。阿尔茨海默病的半监督多模式分类。2011年IEEE生物医学成像国际研讨会：从纳米到宏观，第1628-1631页，2011年。
[104]	Y.Zhang和Q.Yang。关于多任务学习的调查。计算研究数据库，abs/1707.081142017。
[105]	X.Zhu、Z.Ghahramani和J.Lafferty。使用高斯场和调和函数的半监督学习。《国际机器学习会议论文集》，第912-9192003页。
[106]	A.Zouzias和N.Freris。解拉普拉斯系统的随机八卦算法。《欧洲控制会议记录》，第1920-1925页，2015年。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种用于拟合拉普拉斯正则分层模型的分布式方法。（英语） Zbl 07370577号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

一种用于拟合拉普拉斯正则分层模型的分布式方法。 （英语） Zbl 07370577号

MSC公司：

关键词：

软件：

参考文献：

一种用于拟合拉普拉斯正则分层模型的分布式方法。（英语） Zbl 07370577号