跳到主要内容
研究论文

并行加权随机抽样

出版:2022年9月10日 出版历史

摘要

从一组加权项进行有效采样的数据结构是许多应用程序的重要构建块。然而,已知的并行解决方案很少。我们弥合了其中许多差距。我们给出了高效、快速、实用的并行和分布式算法,用于构建支持单个项采样的数据结构(别名表、压缩数据结构)。这也为别名表的构造提供了一种简化且更节省空间的顺序算法。我们的采样方法k个由于n个有/无替换项和子集(泊松)抽样输出敏感型,即,采样算法在不同的样品。这在连续的情况下也很有趣。加权随机排列可以通过对适当的随机偏差进行排序来完成。最后,我们给出了一种通信效率高、可高度扩展的(加权和未加权)油藏采样方法。该算法基于可能具有独立兴趣的流算法的完全分布式模型。别名表和替换采样的实验表明,使用多达158个共享内存机器线程时,可以实现近似线性的加速。对多达5120个岩芯的分布式加权储层采样的实验评估也显示出良好的加速效果。

工具书类

[1]
Joachim H.Ahrens和Ulrich Dieter。1985.顺序随机抽样。ACM数学软件交易(TOMS)11、2(1985年6月),157–169。
[2]
雅罗斯拉夫·阿克雷姆塞夫(Yaroslav Akhremtsev)和彼得·桑德斯(Peter Sanders)。2016.搜索树上的快速并行操作。第23届国际高性能计算会议(HiPC)IEEE,291–300。
[3]
理查德·阿拉提亚(Richard Arratia)。关于均匀随机整数素因式分解中的依赖量。当代组合数学10 (2002), 29–91.第36页.
[4]
肯尼思·巴彻(Kenneth E.Batcher)。1968.分类网络及其应用。美国信息处理协会联合会(AFIPS)会议,第32卷。307–314.
[5]
Petra Berenbrink等人。2020年。在每次交互的亚恒定时间内模拟人口协议。第28届欧洲算法研讨会(ESA)(LIPIcs,第173卷)。
[6]
蒂莫·宾曼。2018年TLX:复杂C++数据结构、算法和其他帮助程序集合。https://panthema.net/tlx网站.
[7]
Timo Bingmann等人。2016.Thrill:使用C进行高性能算法分布式批量数据处理\(++\).英寸2016 IEEE国际大数据会议IEEE,172-183。
[8]
盖伊·布莱洛赫。1989.扫描作为基本并行操作。IEEE传输。计算。38,11(1989年11月),1526–1538。
[9]
Stéphane Boucheron、Gábor Lugosi和Pascal Massart。2013集中不等式:一个非渐近独立理论。牛津大学出版社。
[10]
弗拉基米尔·布拉弗曼(Vladimir Braverman)、拉斐尔·奥斯特罗夫斯基(Rafail Ostrovsky)和格雷戈里·沃桑格(Gregory Vorsanger)。2015年。加权采样,不替换数据流。通知。过程。莱特。115, 12 (2015), 923–926.
[11]
Ken R.W.Brewer和Muhammad Hanif。1983不等概率抽样《统计学讲义》,第15卷。施普林格科技与商业媒体。
[12]
Karl Bringmann和Kasper Green Larsen。2013年,从离散分布中进行简单抽样。第45届ACM计算理论研讨会(STOC)美国医学会,775–782。
[13]
Karl Bringmann和Konstantinos Panagiotou。2017.离散分布的有效抽样方法。算法79, 2 (2017), 484–508.
[14]
M.T.Chao。1982年。通用非等概率抽样计划。生物特征69, 3 (1982), 653–656.
[15]
范荣凯,吕林源,2003。给定期望度的随机图中的平均距离。互联网数学1, 1 (2003), 91–113.
[16]
Yung-Yu Chung、Srikanta Tirthapura和David P.Woodruff。2016.分布式流随机采样的简单消息优化算法。IEEE知识与数据工程汇刊28, 6 (2016), 1356–1368.
[17]
伊迪丝·科恩和哈伊姆·卡普兰。2007.使用底部汇总数据-\(k\)草图。第26届ACM分布式计算原理年会(PODC’07)ACM,225–234。
[18]
理查德·科尔。1988.并行合并排序。SIAM J.计算。17, 4 (1988), 770–785.
[19]
格雷厄姆·科尔莫德。2013.连续分布式监测模型。ACM SIGMOD记录42, 1 (2013), 5–14.
[20]
Graham Cormode、S.Muthukrishnan、Ke Yi和Qin Zhang。2010年。分布式流的最佳采样。第29届ACM数据库系统原理研讨会(PODS’10).ACM,77–86。
[21]
Graham Cormode、S.Muthukrishnan、Ke Yi和Qin Zhang。2012.分布式溪流连续采样。美国医学会杂志59, 2 (2012), 10.
[22]
杰弗里·迪恩(Jeffrey Dean)和桑杰·盖马沃特(Sanjay Ghemawat)。MapReduce:简化大型集群上的数据处理。公社。ACM公司51,1(2008年1月),107–113。
[23]
吕克·德夫罗伊。1986非均匀随机变量生成施普林格。
[24]
D.P.Dubhashi和D.Ranjan。1998年,《球和箱子:负依赖研究》。RSA:随机结构与算法13 (1998), 99–124.
[25]
帕夫洛斯·埃弗雷米迪斯。2015.数据流加权随机抽样。算法、概率、网络和游戏:保罗·G·斯皮拉基斯60岁生日科学论文和论文施普林格,183-195年。
[26]
Pavlos S.Efraimidis和Paul G.Spirakis。1999快速并行加权随机采样技术报告TR99.04.02。CTI Patras公司。
[27]
Pavlos S.Efraimidis和Paul G.Spirakis。2006.水库加权随机抽样。通知。过程。莱特。97, 5 (2006), 181–185.
[28]
C.T.Fan、Mervin E.Muller和Ivan Rezucha。1962.使用顺序(逐项)选择技术和数字计算机制定抽样计划。J.艾默。统计师。协会。57, 298 (1962), 387–402.
[29]
马克·加拉西(Mark Galassi)、吉姆·戴维斯(Jim Davies)、詹姆斯·泰勒(James Theiler)、布莱恩·高夫(Brian Gough)、杰拉尔德·荣曼(Gerard Jungmann)、帕特里克·阿尔肯(Patrick Alken)、迈克尔·布斯(Michael Booth)、法布里斯·罗西。2009GNU科学图书馆:参考手册(第三版)网络理论。
[30]
布鲁诺·加勒恩(Bruno Galerne)、阿瑞斯·拉盖(Ares Lagae)、西尔万·列斐伏尔(Sylvain Lefebvre)和乔治·德雷塔基斯(George Drettakis)。2012年,Gabor噪音示例。ACM事务处理。图表。31, 4 (2012), 73:1–73:9.
[31]
Allan Gottlieb等人。1983年,纽约大学超级计算机——设计MIMD共享内存并行计算机。IEEE传输。计算。32, 2 (1983), 175–189.
[32]
托本·哈格鲁普。1991.随机排列的快速并行生成。第18届国际自动化、语言和编程学术讨论会(ICALP)施普林格,405–416。
[33]
托本·哈格鲁普(Torben Hagerup)、库尔特·梅尔霍恩(Kurt Mehlhorn)和J.伊恩·蒙罗(J.Ian Munro)。1993年。以最佳方式保持离散概率分布。第20届国际自动化、语言和编程学术讨论会(ICALP)施普林格,253-264。
[34]
雅罗斯拉夫·哈耶克。1964.有限总体不同概率拒绝抽样的渐近理论。数理统计年报(1964), 1491–1523.
[35]
莫里斯·汉森(Morris H.Hansen)和威廉·赫尔维茨(William N.Hurwitz)。1943.关于有限总体抽样理论。数理统计年报14, 4 (1943), 333–362.
[36]
罗德尼·R·豪厄尔。2008关于多变量渐近表示法2007-4技术报告。堪萨斯州立大学。
[37]
Lorenz Hübschle-Schneider和Peter Sanders。2016.top的高效通信算法-\(k\)选择问题。第30届国际并行和分布式处理研讨会(IPDPS)IEEE,659–668。
[38]
Lorenz Hübschle-Schneider和Peter Sanders。2019.平行加权随机抽样。第27届欧洲算法研讨会(ESA).
[39]
洛伦茨·Hübschle-Schneider。2020通信效率高的概率算法:选择、采样和检查博士学位论文。卡尔斯鲁厄技术研究所(KIT)。
[40]
Lorenz Hübschle-Schneider和Peter Sanders。2020年。通信-从完全分布式数据流中进行高效加权水库采样。第32届ACM交响乐团。论算法与体系结构中的并行性(SPAA).
[41]
Lorenz Hübschle-Schneider、Peter Sanders和Ingo Müller。2015.top的高效通信算法-\(k\)选择问题。计算研究库(CoRR)(2 2015).arxiv公司:1502.03942【cs.DS】
[42]
英特尔。2019.2019年英特尔数学内核库。英特尔。https://software.intel.com/en-us/mkl-reference-manual-for-c.
[43]
约瑟夫·贾贾(Joseph JáJá)。1992并行算法简介艾迪森·卫斯理。
[44]
Rajesh Jayaram、Gokarna Sharma、Srikanta Tirthapura和David P.Woodruff。2019.分布式河流的水库加权采样。第38届ACM数据库系统原理研讨会(PODS’19)ACM,218–235。
[45]
维平·库马尔(Vipin Kumar)、阿南斯·格拉玛(Ananth Grama)、安舒尔·古普塔(Anshul Gupta)和乔治·卡里皮斯(George Karypis)。1994并行计算导论。算法设计与分析本杰明/卡明斯。
[46]
Kevin J.Lang.2014年。生成加权集元素随机顺序的实用算法。计算系统理论54, 4 (2014), 659–688.
[47]
汉斯·佩特·莱曼。2020加权随机采样:GPU上的别名表硕士论文。卡尔斯鲁厄理工学院(KIT)。
[48]
Kim-Hung Li.1994年。时间复杂性的油藏采样算法\(\mathcal{O}\!\left(n(1+\log(n/n))\right)\).ACM数学软件交易(TOMS)20, 4 (1994), 481–493.
[49]
George Marsaglia、Wai Wan Tsang、Jingbo Wang等。2004.快速生成离散随机变量。统计软件杂志11, 3 (2004), 1–11.
[50]
Yossi Matias、Jeffrey Scott Vitter和Wen-Chun Ni.2003年。离散随机变量的动态生成。计算系统理论36, 4 (2003), 329–358.
[51]
M.Matsumoto和T.Nishimura。1998年,梅森扭曲器:一个623维均匀分布伪随机数生成器。ACMTCS:ACM建模与计算机仿真汇刊8 (1998), 3–30.
[52]
Jens Maue和Peter Sanders。2007.近似加权匹配的工程算法。第六届实验算法研讨会施普林格,242-255。
[53]
Rajeev Motwani和Prabhakar Raghavan。1995随机算法剑桥大学出版社。
[54]
基里尔·米勒。2016年,加速加权随机抽样,无需更换。Arbeitsberichte Verkehrs-und Raumplanung公司1141 (2016).
[55]
Frank Olken和Doron Rotem。1995.数据库随机抽样:调查。统计与计算5, 1 (1995), 25–42.
[56]
R核心团队。2019.R: 统计计算语言与环境.R统计计算基金会,奥地利维也纳。https://www.R-project.org.
[57]
马丁·拉布(Martin Raab)和安吉丽卡·斯特格(Angelika Steger)。1998年,“球进箱子”——一个简单而严密的分析。计算机科学随机化和近似技术国际研讨会施普林格,159-170。
[58]
Sanguthevar Rajasekaran和John H.Reif。1989.最优和亚对数时间随机并行排序算法。SIAM J.计算。18, 3 (1989), 594–607.
[59]
阿比拉姆·拉纳德(Abhiram G.Ranade)。1991.如何模仿共享内存。J.计算。系统科学。42, 3 (1991), 307–326.
[60]
彼得·桑德斯。1996。关于随机静态负载平衡的竞争分析。随机并行算法第一次研讨会S.Rajasekaran(编辑)。夏威夷檀香山。http://algo2.iti.kit.edu/sanders/papers/rand96.pdf.
[61]
彼得·桑德斯。1998年。分布式、外部和分层存储器的随机排列。通知。过程。莱特。67, 6 (1998), 305–310.
[62]
Peter Sanders、Sebastian Lamm、Lorenz Hübschle Schneider、Emanuel Schrade和Carsten Dachsbacher。2018年。高效随机抽样——并行、矢量化、缓存效率高和在线。ACM数学软件交易(TOMS)44, 3 (2018), 29:1–29:14.
[63]
彼得·桑德斯(Peter Sanders)、库尔特·梅霍恩(Kurt Mehlhorn)、马丁·迪茨费尔宾格(Martin Dietzfelbinger)和罗曼·德蒙提耶夫(Roman Dementiev)。2019.顺序和并行算法及数据结构–基本工具箱施普林格。
[64]
彼得·桑德斯(Peter Sanders)、塞巴斯蒂安·施拉格(Sebastian Schlag)和英戈·米勒(Ingo Müller)。2013年,基本大数据问题的高效通信算法。2013年IEEE国际大数据会议IEEE,15–23。
[65]
朱利安·顺(Julian Shun)。2017.改进了小波树和秩/选择结构的并行构造。2017年数据压缩会议(DCC)IEEE,92–101。
[66]
A.B.桑特。1977.列出概率相等或不等的连续抽样,不进行替换。英国皇家统计学会杂志:C辑(应用统计学)26, 3 (1977), 261–268.
[67]
Kanat Tangwongsan和Srikanta Tirthapura。2019.并行流随机采样。2019年欧洲-巴黎:并行处理施普林格,451–465。
[68]
伊夫·蒂莱。2006采样算法施普林格。
[69]
Srikanta Tirthapura和David P.Woodruff。2011年,重新访问分布式流的最佳随机采样。第25届分布式计算国际研讨会(DISC’11)施普林格,283-297。
[71]
杰弗里·维特尔。1985.水库随机取样。ACM数学软件交易(TOMS)11,1(1985年3月),37-57。
[72]
迈克尔·D·沃斯。1991.一种用于生成具有给定分布的随机数的线性算法。IEEE软件工程学报(TSE)17, 9 (1991), 972–975.
[73]
阿拉斯泰尔·沃克。1977年。生成具有一般分布的离散随机变量的有效方法。ACM数学软件交易(TOMS)3, 3 (1977), 253–256.
[74]
Chak-Kuen Wong和Malcolm C.Easton。1980年。一种有效的加权抽样方法,无需替换。SIAM J.计算。9, 1 (1980), 111–113.
[75]
Matei Zaharia等人。2013.离散流:大规模容错流计算。第24届ACM操作系统原理研讨会(SOSP)美国医学会,423–438。
[76]
Matei Zaharia等人。2016年,Apache spark:大数据处理的统一引擎。公社。ACM公司59, 11 (2016), 56–65.

引用人

查看全部
  • (2024)FlowWalker:一种高效高效的基于GPU的动态图随机漫游框架VLDB捐赠会议记录10.14778/3659437.365943817:8(1788-1801)在线发布日期:2024年5月31日
  • (2024)通信不可靠的异构网络中的联合学习IEEE无线通信汇刊10.1109/TWC.2023.331182423:4(3823-3838)在线发布日期:2024年4月
  • (2024)物联网入侵检测:NSENet与LSTM融合模型的研究与实践埃及信息学杂志2016年10月10日/j.eij.2024.10047626(100476)网上发布日期:2024年6月
  • 显示更多引用者

建议

评论

信息和贡献者

问询处

发布于

数学软件上的封面图像ACM事务
ACM数学软件汇刊 第48卷第3期
2022年9月
357页
国际标准编号:0098-3500
EISSN公司:1557-7295
内政部:10.1145/3551652
期刊目录

出版商

计算机协会

美国纽约州纽约市

出版历史

出版:2022年9月10日
在线AM:2022年7月22日
认可的:2022年5月9日
修订过的:2022年5月5日
收到:2020年6月3日
发表于TOMS体积48,问题

权限

请求对此文章的权限。

检查更新

作者标记

  1. 分类分布
  2. 多努利分布
  3. 并行算法
  4. 别名方法
  5. 婴儿车
  6. 高效通信算法
  7. 泊松抽样
  8. 水库采样

限定符

  • 研究文章
  • 参考

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 下载次数(过去12个月)199
  • 下载次数(最近6周)10
反映截至2024年9月21日的下载量

其他指标

引文

引用人

查看全部
  • (2024)FlowWalker:一种高效高效的基于GPU的动态图随机漫游框架VLDB捐赠会议记录10.14778/3659437.365943817:8(1788-1801)在线发布日期:2024年5月31日
  • (2024)通信不可靠的异构网络中的联合学习IEEE无线通信汇刊10.1109/TWC.2023.331182423:4(3823-3838)在线发布日期:2024年4月
  • (2024)物联网入侵检测:NSENet与LSTM融合模型的研究与实践埃及信息学杂志2016年10月10日/j.eij.2024.10047626(100476)网上发布日期:2024年6月
  • (2024)基于加权随机标记的点聚类分析地理系统杂志10.1007/s10109-024-00447年在线发布日期:2024年9月10日
  • (2024)为看不见的互联网建模复杂网络及其应用XII10.1007/978-3-031-53472-0_30(359-370)在线发布日期:2024年2月21日
  • (2024)生成小随机样本的算法软件:实践与经验10.1002/spe.3379在线发布日期:2024年9月18日
  • (2024)加快筛选改性药物妈妈2Z4基于深度学习的局部几何分析用于析氢反应的催化剂能源和环境材料10.1002/eem2.12743在线发布日期:2024年5月15日
  • (2022)QUBO和Lechner–Hauke–Zoller优化问题的无拒绝蒙特卡罗模拟IEEE接入10.1109/访问2022.319717610(84279-84301)在线发布日期:2022年

视图选项

获取访问权限

登录选项

完全访问权限

查看选项

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用联机查看电子阅读器.

电子阅读器

全文

以全文形式查看本文。

全文

HTML格式格式

在中查看本文HTML格式格式。

HTML格式

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享