摘要
A.Ahmed、M.Aly、J.Gonzalez、S.Narayanamurthy和A.J.Smola。 潜在变量模型中的可缩放推理。 WSDM,2012年。 谷歌学者 数字图书馆 S.Ahn、B.Shahbaba和M.Welling。 分布随机梯度MCMC。 ICML,2014年。 谷歌学者 数字图书馆 M.Awasthi、D.Nellans、K.Sudan、R.Balasubramonian和A.Davis。 处理多个片上内存控制器带来的问题和机遇。 在2010年的PACT中。 谷歌学者 数字图书馆 W.Bolosky、R.Fitzgerald和M.Scott。 用于numa内存管理的简单但有效的技术。 SOSP,1989年。 谷歌学者 数字图书馆 S.Brin和L.Page。 对大型超文本Web搜索引擎的剖析。 计算机网络,1998年。 谷歌学者 数字图书馆 A.Brown、T.Mowry和O.Krieger。 用于核心外应用程序的基于编译器的I/O预取。 2001年ACM计算机系统交易(TOCS)。 谷歌学者 数字图书馆 Y.Bu、B.Howe、M.Balazinska和M.D.Ernst。 Haloop:大型集群上的高效迭代数据处理。 程序中。 VLDB Endow,2010年。 谷歌学者 数字图书馆 S.Byna、Y.Chen、X.Sun、R.Thakur和W.Gropp。 使用MPI文件缓存和I/O签名进行并行I/O预取。 在ACM/IEEE超级计算,2008年。 谷歌学者 数字图书馆 P.Cao、E.Felton和K.Li。应用程序控制的文件缓存的实现和性能。 OSDI,1994年。 谷歌学者 数字图书馆 R.Chandra、S.Devine、B.Verghese、A.Gupta和M.Rosenblum。 多处理器计算服务器的调度和页面迁移。 ASPLOS,1994年。 谷歌学者 数字图书馆 F.Chang和G.A.Gibson。 通过推测执行自动生成I/O提示。 OSDI,1999年。 谷歌学者 数字图书馆 C.-T.Chu、S.K.Kim、Y.A.Lin、Y.Yu、G.Bradski、A.Ng和K.Olukotun。 用于多核机器学习的地图还原。 NIPS,2006年。 谷歌学者 J.Cipar、Q.Ho、J.K.Kim、S.Lee、G.R.Ganger、G.Gibson、K.Keeton和E.Xing。 解决有界过时的掉队者问题。 在HotOS中,2013年。 谷歌学者 数字图书馆 A.Coates、B.Huval、T.Wang、D.Wu、B.Catanzaro和N.Andrew。 深入学习COTS HPC系统。 ICML,2013年。 谷歌学者 数字图书馆 H.Cui、J.Cipar、Q.Ho、J.K.Kim、S.Lee、A.Kumar、J.Wei、W.Dai、G.R.Ganger、P.B.Gibbons、G.A.Gibson和E.P.Xing。 利用有限陈旧性加快大数据分析。 USENIX ATC,2014年。 谷歌学者 数字图书馆 J.Dean、G.Corrado、R.Monga、K.Chen、M.Devin、Q.Le、M.Mao、M.Ranzato、A.Senior、P.Tucker、K.Yang和A.Ng。大规模分布式深层网络。 NIPS,2012年。 谷歌学者 数字图书馆 K.Fraser和F.Chang。 操作系统I/O推测:两次调用比一次调用快多少。 在2003年USENIX年度技术会议上。 谷歌学者 R.Gemulla、E.Nijkamp、P.J.Haas和Y.Sismanis。 具有分布随机梯度下降的大尺度矩阵分解。 KDD,2011年。 谷歌学者 数字图书馆 A.Gerbessiotis和L.Valiant。 直接批量同步并行算法。 1992年,在斯堪的纳维亚算法理论研讨会上。 谷歌学者 数字图书馆 G.Gibson、G.Grider、A.Jacobson和W Lloyd。 PRObE:用于计算机系统研究的千节点实验集群。 USENIX公司; 登录:,2013年。 谷歌学者 J.Gonzalez,Y Low,H.Gu,D.Bickson和C.Guestrin。PowerGraph:自然图上的分布式图并行计算。 OSDI,2012年。 谷歌学者 数字图书馆 J.Griffoen和R.Appleton。 使用预测方法减少文件系统延迟。 1994年夏季USENIX。 谷歌学者 数字图书馆 T.L.Griffiths和M.Steyvers。 寻找科学主题。 美国国家科学院院刊,2004年。 谷歌学者 交叉引用 Q.Ho、J.Cipar、H.Cui、S.Lee、J.K.Kim、P.B.Gibbons、G.A.Gibson、G.R.Ganger和E.P.Xing。 通过过时的同步并行参数服务器实现更有效的分布式ML。 NIPS,2013年。 谷歌学者 数字图书馆 英特尔。 英特尔®;线程构建块。 https://www.threadingbuildingblocks.org。 谷歌学者 H.Kwak、C.Lee、H.Park和S.Moon。 什么是推特、社交网络或新闻媒体? WWW,2010年。 谷歌学者 数字图书馆 A.Kyrola、G.Blelloch和C.Guestrin。GraphChi:仅在PC上进行大规模图形计算。OSDI,2012年。 谷歌学者 数字图书馆 J.Langford、A.J.Smola和M.Zinkevich。 慢学习者速度快。 NIPS,2009年。 谷歌学者 数字图书馆 H.Lei和D.Duchamp。 文件预取的分析方法。 在1997年USENIX年度技术会议上。 谷歌学者 数字图书馆 Y.Low、J.Gonzalez、A.Kyrola、D.Bickson、C.Guestrin和J.M.Hellerstein。 GraphLab:一种新的机器学习并行框架。 阿联酋,2010年。 谷歌学者 数字图书馆 G.Malewicz、M.H.Austern、A.J.Bik、J.C.Dehnert、I.Horn、N.Leiser和G.Czajkowski。 Pregel:用于大规模图形处理的系统。 SIGMOD,2010年。 谷歌学者 数字图书馆 D.Murray、F.McSherry、R.Isaacs、M.Isard、P.Barham和M.Abadi。 Naiad:一个及时的数据流系统。 SOSP,2013年。 谷歌学者 数字图书馆 R.H.Patterson、G.A.Gibson、E.Ginting、D.Stodolsky和J.Zelenka。 通知预取和缓存。 SOSP,1995年。 谷歌学者 数字图书馆 D.Peng和F.Dabek。 使用分布式事务和通知的大规模增量处理。 在OSDI,2010年。 谷歌学者 数字图书馆 R.Power和J.Li.Piccolo:用分区表构建快速的分布式程序。 OSDI,2010年。 谷歌学者 数字图书馆 A.Roy、I.Mihailovic和W.Zwaenepoel。 X-Stream:使用流分区的以边缘为中心的图形处理。 SOSP,2013年。 谷歌学者 数字图书馆 蒂勒普罗。 TILEPro处理器系列:TILEPro64概述。 http://www.tilera.com/products/processors/TILEPro_Family网站 , 2013. 谷歌学者 A.Tumanov、J.Wise、O.Mutlu和G.R.Ganger。 多核芯片上的非对称软件执行位置。 2013年,在未来多核架构(SFMA)系统研讨会上。 谷歌学者 UCI。 UCI机器学习库。 http://archive.ics.uci.edu/ml/datasets/Bag +共+个单词。 谷歌学者 Y.Wang,X.Zhao,Z.Sun,H.Yan,L.Wang,Z.Jin,L.Wang,Y.Gao,J.Zeng,Q.Yang,et al.面向大数据的主题建模。 arXiv预印arXiv:1405.44022014。 谷歌学者 M.Zaharia、T.Das、H.Li、S.Shenker和I.Stoica。 离散流:在大型集群上进行流处理的高效容错模型。 SOSP,2013年。 谷歌学者 数字图书馆 R.Zhang和J.Kwok。 用于全局变量一致性优化的异步分布式ADMM算法。 ICML,2014年。 谷歌学者 Y.Zhang、Q.Gao、L.Gao和C.Wang。 PrIter:用于优先迭代计算的分布式框架。 SoCC,2011年。 谷歌学者 数字图书馆
索引术语
利用迭代法进行并行ML计算
建议
在包含共享的最后一级缓存上利用重用位置 高性能嵌入式体系结构和编译器专题 芯片多处理器(CMP)中用于共享最后一级缓存(SLLC)管理的替换策略的优化对于避免芯片外访问至关重要。 时间局部性被第一级私有缓存内存利用,是。。。 利用空间足迹利用数据缓存中的空间局部性 特刊:第25届计算机体系结构年度国际研讨会论文集(ISCA'98) 现代缓存设计通过在缓存未命中时提取称为缓存线的大数据块来利用空间局部性。随后对同一缓存线内单词的引用会导致缓存命中。 尽管这种方法受益于空间位置。。。 利用复制提高基于NUCA的CMP系统的性能 多核处理器设计挑战专刊、ESTIMedia’13专刊和常规论文 半导体纳米技术的进步使芯片多处理器成为高性能微处理器的参考体系结构。 CMP通常采用在内核和私有L1缓存之间共享的大型Last-Level Caches(LLC),其性能取决于。。。