跳到主要内容
10.1109/SC.2005.76acm会议文章/章节视图摘要出版物页面供应链会议记录会议集合
第条

内核级别的透明、增量检查点:并行计算机容错的基础

出版:2005年11月12日 出版历史
  • 获取引文提醒
  • 摘要

    我们描述了TICK(内核级透明增量检查指针)的软件体系结构、技术特性和性能,TICK是一种作为内核线程实现的系统级检查指针,专门设计用于在Linux集群中提供容错。此实现基于2.6.11 Linux内核,提供了基于系统级完整或增量检查点的透明、高响应和高效容错的基本功能。TICK是完全用户透明的,不需要对用户代码或系统库进行任何更改;它具有高度响应性:中断,如定时器中断,可以在2.5µs内触发检查点;它支持增量检查点和完整检查点,最小开销小于6%,对磁盘的完整检查点每分钟执行一次。

    工具书类

    [1]
    {1} D.Addison、J.Beecroft、D.Hewson、M.McLaren和F.Petrini。二次方QsNet II:超级计算应用程序网络。热芯片142003年8月18日至20日,加利福尼亚州斯坦福大学。
    [2]
    {2} N.R.Adiga等人。BlueGene/L超级计算机概述。2002年超级计算会议记录,以及IBM研究报告RC22570(W0209-033)2002年11月16日至22日,马里兰州巴尔的摩。
    [3]
    {3} D.Bailey、T.Harris、W.Saphir、R.van der Wijngaart、A.Woo和M.Yarrow。NAS并行基准2.0。NAS 95-020,NASA艾姆斯研究中心,加利福尼亚州莫菲特油田,1995年12月。
    [4]
    {4} A.巴拉克和O.拉丹。用于高性能集群计算的MOSIX多计算机操作系统。未来一代计算机系统杂志,13(4-5):361-3721998年3月。
    [5]
    {5} 格雷格·布朗维茨基、马丁·舒尔茨、彼得·斯威德、丹尼尔·马奎斯和凯沙夫·平加里。共享内存程序的应用程序级检查点。第十一届编程语言和操作系统体系结构支持国际会议(ASPLOS XI)马萨诸塞州波士顿,2004年10月。
    [6]
    {6} C.Carothers和B.Szymanski。多线程程序的检查点。Dobbs博士杂志2002年8月15日(8)。
    [7]
    {7} F.Chabaud、N.Cunningham和B.Blackham。Linux软件挂起。
    [8]
    {8} 国防高级研究计划局的高生产率计算系统(HPCS)倡议。可从以下位置获得网址:http://www.darpa.mil/ipto/programs/hpcs/index.html。
    [9]
    {9} J.Duell、P.Hargrove和E.Roman。伯克利实验室Linux检查点/重启的设计与实现。
    [10]
    {10} E.N.Elnozahy、D.B.Johnson和W.Zwaenepoel。一致检查点的性能。第十一届可靠分布式系统研讨会论文集1992年10月5日至7日,德克萨斯州休斯顿。
    [11]
    {11} Yoav Etsion和Dror G.Feitelson。具有分组调度的系统中的用户级通信。2001年国际并行和分布式处理研讨会论文集,IPDPS2001,加利福尼亚州旧金山,2001年4月。
    [12]
    {12} 法布里奇奥·佩里尼(Fabrizio Petrini)、基·戴维斯(Kei Davis)和何塞·卡洛斯·桑乔(JoséCarlos Sancho)。带缓冲Coscheduling的大规模并行机的系统级容错。第九届IEEE容错并行、分布式和网络中心系统研讨会(FTPDS04)2004年4月,新墨西哥州圣菲。
    [13]
    {13} 胡安·费尔南德斯(Juan Fernández)、埃坦·弗拉赫滕贝格(Eitan Frachtenberg)和法布里奇奥·佩里尼(Fabrizio Petrini)。BCS MPI:大型并行计算机系统软件设计的一种新方法。SC2003会议记录2003年11月10日至16日,亚利桑那州凤凰城。
    [14]
    {14} 胡安·费尔南德斯(Juan Fernández)、埃坦·弗拉赫滕贝格(Eitan Frachtenberg)、法布里奇奥·佩里尼(Fabrizio Petrini)、凯·戴维斯(Kei Davis)和何塞·卡洛斯·桑乔。大型集群上系统软件的体系结构支持。2004年并行处理国际会议(ICPP-04)2004年8月,加拿大魁北克省蒙特利尔。
    [15]
    {15} M.Foster。与UCLiK一起追查AP的检查点。第十届国际Linux系统技术会议论文集2003年10月14日至16日,德国萨尔布鲁克。
    [16]
    {16} 埃坦·弗拉赫滕贝格(Eitan Frachtenberg)、凯·戴维斯(Kei Davis)、法布里奇奥·佩里尼(Fabrizio Petrini)、胡安·费尔南德斯(Juan Fernández)和何塞·卡洛斯·桑乔。通过并行编程设计并行操作系统。2004年欧洲保时捷展2004年8月,意大利比萨。
    [17]
    {17} Eitan Frachtenberg、Fabrizio Petrini、Juan Fernández、Scott Pakin和Salvador Coll。风暴:闪电-快速资源管理。ACM/IEEE SC2002马里兰州巴尔的摩,2002年11月。
    [18]
    {18} Eitan Frachtenberg、Fabrizio Petrini、Juan Fernández、Scott Pakin和Salvador Coll。风暴:闪电般的快速资源管理。SC2002会议记录2002年11月16日至22日,马里兰州巴尔的摩。
    [19]
    {19} E.亨德里克斯。VMA泵。可从以下位置获得http://cvs。sourceforge.net/viewcvs.py/bproc/vmadump。
    [20]
    {20} E.亨德里克斯。BProc:Beowulf分布式进程空间。第16届ACM超级计算国际年会论文集2002年6月22日至26日,纽约市。
    [21]
    {21}D.J.Kerbyson、H.J.Alme、A.Hoisie、F.Petrini、H.J Wasserman和M.Gittings。大规模应用程序的预测性能和可扩展性建模。超级计算会议录2001年11月10日至16日。
    [22]
    {22}Lightning Linux群集。可从以下位置获得网址:http://www.lanl。gov/worldview/news/releases/archive/03-107.shtml。
    [23]
    {23}N.梅耶。用户和内核级检查点。Sun Microsystems HPC联盟会议记录2003年11月15日至17日,亚利桑那州凤凰城。可从以下位置获得http://checkpointing.psnc.pl/Progress/sat_nmeyer.pdf。
    [24]
    {24}S.Osman、D.Subhraveti、G.Su和J.Nieh。Zap的设计与实现:一个迁移计算环境的系统。第五届操作系统设计与实现研讨会论文集2002年12月9日至11日,马萨诸塞州波士顿。
    [25]
    {25}法布里奇奥·佩特里尼和吴俊峰。通过缓冲Coscheduling提高资源利用率。并行算法与应用杂志, 16:123-144, 2001.
    [26]
    {26}皮涅罗。EPCKPT公司。可从以下位置获得网址://www。research.rutgers.edu/~edpin/epckpt。
    [27]
    {27}J.S.Plank、M.Beck、G.Kingsley和K.Li。Libckpt:Unix下的透明检查点。Usenix 1995年冬季技术会议记录1995年1月16日至20日,路易斯安那州新奥尔良。
    [28]
    {28}迈克尔·L·鲍威尔和巴顿·P·米勒。在DEMOS/MP.in中处理迁移ACM操作系统原理研讨会新罕布什尔州布雷顿森林,1983年。
    [29]
    {29}J.Rough和A.Gossinski。在GENESIS中利用操作系统服务高效地检查点并行应用程序。并行处理算法和体系结构国际会议论文集2002年10月23日至25日,中国北京。
    [30]
    {30}J.C.Sancho、F.Petrini、G.Johnson、J.Fernández和E.Frachtenberg。《科学计算中增量检查点的可行性》。第18届国际并行与分布式处理研讨会论文集2004年4月26日至30日,新墨西哥州圣达菲。
    [31]
    {31}S.Sankaran、J.M.Squires、B.Barrett、A.Lumsdaine、J.Duell、P.Hargrove和E.Roman。LAM/MPI检查点/重新启动框架:系统启动的检查点。LACSI研讨会会议记录2003年10月12日至14日,新墨西哥州圣达菲。
    [32]
    {32}马丁·舒尔茨(Martin Schulz)、格雷格·布朗维茨基(Greg Bronevetsky)、罗希特·费尔南德斯(Rohit Fernandes)、丹尼尔·马奎斯(Daniel Marques)、凯沙夫·平加利(Keshav Pingali)和保罗。MPI程序可扩展应用程序级检查点恢复方案的实现和评估。ACM/IEEE SC20042004年11月10日至16日,宾夕法尼亚州匹兹堡。
    [33]
    {33}O.O.Sudakov和E.S.Meshcheryakov。Linux进程检查点和重启系统。可从以下位置获得http://www.cluster.kiev.ua/eng/tasks/chpx.html。
    [34]
    {34}ASCI Sweep3D基准。可从http://www.llnl.gov/ASCI benchmarks/ASCI/limited/sewp3d/获得。
    [35]
    {35}H.Zhong和J.Nieh。CRAK:Linux检查点/作为内核模块重新启动。技术报告CUCS-014-01,哥伦比亚大学计算机科学系,纽约,2001年11月。

    引用人

    查看全部
    • (2023)使用GPU加速重复数据消除的可扩展增量检查点第52届并行处理国际会议记录10.1145/3605573.3605639(665-674)在线发布日期:2023年8月7日
    • (2020)利本维米奥2020年USENIX USENIX年度技术会议记录10.5555/3489146.3489147(1-16)在线发布日期:2020年7月15日
    • (2019)用于码头集装箱的快速内存CRIU记忆系统国际研讨会论文集10.1145/3357526.3357542(53-65)在线发布日期:2019年9月30日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    SC'05:2005 ACM/IEEE超级计算会议记录
    2005年11月
    829页
    国际标准图书编号:1595930612

    赞助商

    出版商

    IEEE计算机学会

    美国

    出版历史

    出版:2005年11月12日

    检查更新

    限定符

    • 第条

    会议

    SC'05年
    赞助商:

    接受率

    SC’05论文接受率:260份投稿中的62份,24%;
    6373份提交文件的总体接受率为1516份,24%

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)2
    • 下载次数(最近6周)0

    其他指标

    引文

    引用人

    查看全部
    • (2023)使用GPU加速重复数据消除的可扩展增量检查点第52届并行处理国际会议记录10.1145/3605573.3605639(665-674)在线发布日期:2023年8月7日
    • (2020)利本维米奥2020年USENIX USENIX年度技术会议记录10.5555/3489146.3489147(1-16)在线发布日期:2020年7月15日
    • (2019)用于码头集装箱的快速内存CRIU记忆系统国际研讨会论文集10.1145/3357526.3357542(53-65)在线发布日期:2019年9月30日
    • (2019)GPU快照ACM超级计算国际会议记录10.1145/3330345.3330361(171-183)在线发布日期:2019-06-26
    • (2018)OpenMP数据共享在CAPE上的实现第九届信息与通信技术国际研讨会论文集10.1145/3287921.3287950(359-366)在线发布日期:2018年12月6日
    • (2017)分布式内存体系结构上OpenMP实现的检查点和执行模型优化第17届IEEE/ACM集群、云和网格计算国际研讨会论文集10.1109/CCGRID.2017.119(711-714)在线发布日期:2017年5月14日
    • (2017)基于多分辨率信息融合的容错仿真通用CFD框架计算物理杂志2016年10月10日/j.jcp.2017.06.044347:C(290-304)在线发布日期:2017年10月15日
    • (2016)了解GPGPU应用程序中的错误传播高性能计算、网络、存储和分析国际会议记录10.5555/3014904.3014932(1-12)在线发布日期:2016年11月13日
    • (2016)ALMA公司第17届国际中间件会议记录10.1145/2988336.2988341(1-14)在线发布日期:2016年11月28日
    • (2016)NVWAL公司ACM SIGARCH计算机架构新闻10.1145/2980024.287239244:2(385-398)在线发布日期:2016年3月25日
    • 显示更多引用者

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享