摘要
{1} 爱国者导弹防御:软件问题导致沙特阿拉伯达兰的系统故障。美国总会计师事务所技术报告,GAO/IMTEC-92-26,GAO,1992年。]] 谷歌学者 {2} M.J.Accetta、R.V.Baron、W.J.Bolosky、D.B.Golub、R.F.Rashid、A.Tevanian、M.Young、Mach:UNIX开发的新内核基础,收录于:USENIX夏季会议论文集,佐治亚州亚特兰大,1986年。]] 谷歌学者 {3} A.Acharya,《廉价的可靠性:我如何学会不再担心和喜欢廉价的PC》,载于:《评估和构建系统可靠性第二次研讨会论文集》,加州圣何塞,2002年(受邀演讲)。]] 谷歌学者 {4} E.Adams,《优化软件产品的预防性服务》,IBM J.Res.Develop。 28(1)(1984)2-14.]] 谷歌学者 数字图书馆 {5} T.Adams,R.Igou,R.Silliman,A.M.Neela,E.Rocco,《可持续基础设施:IT服务如何应对计划外停机的现实》,研究简报97843a,战略、趋势和战术系列,Gartner Research,2001年5月。]] 谷歌学者 {6} M.K.Aguilera,W.Chen,S.Toueg,心跳:静态可靠通信的无超时故障检测器,摘自:第11届分布式算法国际研讨会论文集,德国萨尔布吕肯,1997年。]] 谷歌学者 数字图书馆 {7} T.Anderson,R.Kerr,《Recovery blocks in action:a system supporting high reliability》,摘自:《第二届软件工程国际会议论文集》,加利福尼亚州旧金山,1976年。]] 谷歌学者 数字图书馆 {8} A.Arpaci-Dusseau、R.Arpaci-Dosseau,灰箱系统中的信息和控制,摘自:第18届ACM操作系统原理研讨会论文集,加拿大班夫,2001年。]] 谷歌学者 数字图书馆 {9} R.H.Arpaci-Dusseau、A.C.Arpaci-Dosseau,故障停机容错,摘自:第八届操作系统热点专题研讨会论文集,德国埃尔茅/奥伯拜恩,2001年。]] 谷歌学者 数字图书馆 {10} M.Baker,M.Sullivan,《恢复盒:使用快速恢复在UNIX环境中提供高可用性》,摘自:《夏季USENIX技术会议论文集》,德克萨斯州圣安东尼奥,1992年。]] 谷歌学者 {11} J.F.Bartlett,A NonStop内核,摘自:第八届ACM操作系统原理研讨会论文集,加利福尼亚州太平洋格罗夫,1981年。]] 谷歌学者 数字图书馆 {12} E.Brewer,Inktomi insights,Personal communication,2000年。]] 谷歌学者 {13} E.Brewer,从大规模服务中吸取的教训,IEEE互联网计算。 5 (4) (2001) 46-55.]] 谷歌学者 数字图书馆 {14} E.Brewer,Running Inktomi,《个人沟通》,2001年。]] 谷歌学者 {15} F.P.布鲁克斯(F.P.Brooks),《神话人月》(The Mythical Man-Month),周年纪念版,艾迪森·韦斯利(Addison-Wesley),马萨诸塞州雷丁(Reading),1995年。]] 谷歌学者 数字图书馆 {16} A.B.Brown,D.A.Patterson,《运营商撤销:建立一个可撤销的电子邮件存储》,载于:USENIX年度技术会议论文集,德克萨斯州圣安东尼奥,2003年。]] 谷歌学者 数字图书馆 {17} E.Bugnion,S.Devine,K.Govil,M.Rosenblum,DISCO:在可扩展多处理器上运行商品操作系统,ACM Trans。 计算。 系统。 15 (4) (1997) 412-447.]] 谷歌学者 数字图书馆 {18} G.Candea,M.Delgado,M.Chen,A.Fox,《自动故障路径推断:软件系统的通用自省技术》,载于:IEEE第三届互联网应用研讨会论文集,加州圣何塞,2003年。]] 谷歌学者 数字图书馆 {19} G.Candea,A.Fox,《递归可重启性:将重启大锤变成手术刀》,载于:《操作系统热点话题第八次研讨会论文集》,德国埃尔莫/奥伯拜恩,2001年。]] 谷歌学者 数字图书馆 {20} G.Candea,A.Fox,Crash-oniy software,摘自:《操作系统热点问题第九次研讨会论文集》,夏威夷利休,2003年。]] 谷歌学者 数字图书馆 {21}G.Candea,P.Keyani,E.Kiciman,S.Zhang,A.Fox,JAGR:一种自主的自我覆盖应用服务器,收录于:第五届主动中间件服务国际研讨会论文集,西雅图,华盛顿州,2003年6月。]] 谷歌学者 交叉引用 {22}M.Castro,B.Liskov,实用拜占庭容错,摘自:第三届USENIX操作系统设计与实现研讨会论文集,洛杉矶新奥尔良,1999年。]] 谷歌学者 数字图书馆 {23}K.M.Chandy,C.V.Ramamoorthy,计算机程序的回滚和恢复策略,IEEE Trans。 计算。 21 (6) (1972) 546-556.]] 谷歌学者 数字图书馆 {24}J.Chapin,M.Rosenblum,S.Devine,T.Lahiri,D.Teodosiu,A.Gupta,《Hive:共享内存多处理器的故障控制》,摘自:《第十五届ACM操作系统原理研讨会论文集》,科罗拉多州铜山,1995年。]] 谷歌学者 数字图书馆 {25}M.Chen,E.Kiciman,E.Fratkin,E.Brewer,A.Fox,《精确定位:大型、动态互联网服务中的问题确定》,摘自:《可靠系统和网络国际会议论文集》,华盛顿特区,2002年6月。]] 谷歌学者 数字图书馆 {26}P.M.Chen,W.T.Ng,G.Rajamani,C.M.Aycock,《里约文件缓存:幸存的操作系统崩溃》,摘自:《第七届编程语言和操作系统架构支持国际会议论文集》,马萨诸塞州剑桥,1996年。]] 谷歌学者 数字图书馆 {27}A.Chou,J.-F.Yang,B.Chelf,S.Hallem,D.Engler,《操作系统错误的实证研究》,载于《第18届ACM操作系统原理研讨会论文集》,加拿大路易斯湖,2001年。]] 谷歌学者 数字图书馆 {28}T.C.Chou,超越容错,IEEE计算。 30(4)(1997)31-36.]] 谷歌学者 数字图书馆 {29}计算机协会。 Unicenter CA-SYSVIEW实时性能管理。 http://www.ca.com网站 ,2002年10月。]] 谷歌学者 {30}P.Cousot(编辑),静态分析,施普林格,柏林,2001年。]] 谷歌学者 数字图书馆 {31}J.W.Cutler,A.Fox,K.Bhasin,《将互联网服务的经验教训应用于空间系统》,摘自:IEEE航空航天会议论文集,马里兰州大天空,2001年。]] 谷歌学者 {32}J.W.Cutler,G.Hutchins,《蛋白石:更小、更简单、更幸运》,摘自《美国国际航空航天局小型卫星会议论文集》,犹他州洛根,2000年。]] 谷歌学者 {33}G.Czajkowski,L.Daynés,《不折不扣的多任务:虚拟机进化》,摘自:《面向对象编程系统语言和应用会议论文集》,佛罗里达州坦帕湾,2001年。]] 谷歌学者 数字图书馆 {34}O.-J.Dahl,K.Nygaard,Simula——一种基于算法的模拟语言,Commun。 ACM 9(9)(1966)671-678。]] 谷歌学者 数字图书馆 {35}S.Deering,D.Estrin,D.Farinacci,V.Jacobson,C.Liu,L.Wei,P.Sharma,A.Helmy,协议独立组播(PIM),稀疏模式协议:规范,1996年3月,互联网草案。]] 谷歌学者 数字图书馆 {36}A.DiGiorgio,智能船还不够,海军研究所程序。 124 (6) (1998).]] 谷歌学者 {37}S.Floyd,V.Jacobson,《周期路由消息的同步》,IEEE/ACM Trans。 Netw公司。 2 (2) (1994) 122-136.]] 谷歌学者 数字图书馆 {38}S.Floyd,V.Jacobson,C.Liu,S.McCanne,《轻量级会话和应用程序级帧的可靠多播框架》,摘自:《ACM SIGCOMM会议论文集》,马萨诸塞州波士顿,1995年。]] 谷歌学者 数字图书馆 {39}A.Fox,S.D.Grible,Y.Chawathe,E.A.Brewer,P.Gauthier,基于集群的可扩展网络服务,摘自:第16届ACM操作系统原理研讨会论文集,法国圣马洛,1997年。]] 谷歌学者 数字图书馆 {40}S.Garg,Y.Huang,C.Kintala,K.Trivedi,通过检查点和恢复最小化程序的完成时间,摘自:美国计算机学会计算机系统测量和建模会议论文集,宾夕法尼亚州费城,1996年。]] 谷歌学者 数字图书馆 {41}S.Garg,A.V.Moorsel,K.Vaidyanathan,K.S.Trivedi,《软件老化检测和评估方法》,摘自:第九届软件可靠性工程国际研讨会论文集,德国帕德博姆,1998年。]] 谷歌学者 数字图书馆 {42}S.Garg,A.Puliafito,M.Telek,K.Trivedi,使用马尔可夫再生随机Petri网分析软件复兴,摘自:第六届软件可靠性工程国际研讨会论文集,法国图卢兹,1995年。]] 谷歌学者 交叉引用 {43}A.Gillen,D.Kusnetzki,S.McLaron,《Linux在降低企业计算成本中的作用》,IDC白皮书,2002年1月。]] 谷歌学者 {44}R.P.Goldberg,虚拟机研究综述,IEEE计算。 杂志7(6)(1974)34-45.]] 谷歌学者 数字图书馆 {45}C.G.Gray,D.R.Cheriton。 租约:分布式文件缓存一致性的高效容错机制,摘自:第12届ACM操作系统原理研讨会论文集,利奇菲尔德公园,亚利桑那州,1989年。]] 谷歌学者 数字图书馆 {46}J.Gray,数据库操作系统注释,收录于:R.Bayer,R.M.Graham,J.H.Saltzer,G.Seegmüller(编辑),《操作系统,高级课程》,第60卷,施普林格,柏林,1978年,第393-481页。]] 谷歌学者 数字图书馆 {47}J.Gray,《交易概念:优点和局限性》,摘自:《超大数据库国际会议论文集》,法国戛纳,1981年 谷歌学者 {48}J.格雷,为什么计算机会停止运行,可以采取什么措施? in:第五届分布式软件和数据库系统可靠性研讨会论文集,加利福尼亚州洛杉矶,1986年。]] 谷歌学者 {49}J.Gray,A.Reuter,《事务处理:概念和技术》,Morgan Kaufmann,加利福尼亚州旧金山,1993年。]] 谷歌学者 数字图书馆 {50}S.D.Gribble,E.A.Brewer,J.M.Hellerstein,D.Culler,《互联网服务构建的可扩展分布式数据结构》,载于:《第四届USENIX操作系统设计与实现研讨会论文集》,加州圣地亚哥,2000年10月。]] 谷歌学者 数字图书馆 {51}H.Härtig,M.Hohmuth,J.Liedtke,S.Schönberg,J.Wolter,基于µ-内核的系统的性能,摘自:第16届ACM操作系统原理研讨会论文集,法国圣马洛。]] 谷歌学者 数字图书馆 {52}C.Hawblitzel,T.von Eicken,《Luna:灵活的Java保护系统》,摘自:《第五届USENIX操作系统设计与实现研讨会论文集》,马萨诸塞州波士顿,2002年。]] 谷歌学者 数字图书馆 {53}J.Hennessy,D.Patterson,《计算机体系结构:定量方法》,第三版,Morgan Kaufmann,加利福尼亚州旧金山,2002年。]] 谷歌学者 数字图书馆 {54}Hewlett_Packard,《使用开放管理接口规范进行集成和相关企业管理》,HP open-View白皮书,2002年。 http://www.openview.hp.com。 ]] 谷歌学者 {55}D.Hitz,J.Lau,M.Malcolm,NFS文件服务器设备的文件系统设计,摘自:冬季USENIX技术会议论文集,加利福尼亚州旧金山,1994年。]] 谷歌学者 数字图书馆 {56}Y.Huang,C.M.R.Kintala,软件实现的容错:技术和经验,载于:第23届容错计算国际研讨会论文集,法国图卢兹,1993年。]] 谷歌学者 {57}Y.Huang,C.M.R.Kintala,N.Kolettis,N.D.Fulton,《软件复兴:分析、模块和应用》,摘自:第25届容错计算国际研讨会论文集,加州帕萨迪纳,1995年。]] 谷歌学者 数字图书馆 {58}International_Business_Machines,IBM主管软件复兴,白皮书,2001年1月。]] 谷歌学者 {59}International_Business_Machines,Tivoli监控资源模型参考,文件编号SH19-4570-012002。 http://www.tivoli.com。 ]] 谷歌学者 {60}D.Jacobs,《使用BEA WebLogic服务器进行分布式计算》,摘自:《创新数据系统研究会议论文集》,加利福尼亚州阿西洛马,2003年。]] 谷歌学者 {61}Z.T.Kalbarczyk,R.K.Iyer,S.Bagchi,K.Whisnant,Chameleon:自适应容错软件基础设施,IEEE Trans。 并行分配系统。 10 (1999) 560-579.]] 谷歌学者 数字图书馆 {62}R.W.Kembel,《光纤通道顾问:综合介绍》,西北学习协会,1998年,第8页。]] 谷歌学者 {63}T.Lahiri,A.Ganesh,R.Weiss,A.Joshi,《快速启动:Oracle中的快速故障恢复》,载于:ACM国际数据管理会议记录,加利福尼亚州圣巴巴拉,2001年。]] 谷歌学者 数字图书馆 {64}W.LeFebvre,CNN.com——应对世界危机,2001年12月在加利福尼亚州圣地亚哥举行的USENIX系统管理会议上受邀演讲。]] 谷歌学者 {65}B.Ling,A.Fox,《中间层存储层的案例》,摘自:《操作系统热点问题第九次研讨会论文集》,夏威夷利休,2003年。]] 谷歌学者 数字图书馆 {66}D.E.Lowell,S.Chandra,P.M.Chen,《探索故障透明性和通用恢复的限制》,载于《第四届USENIX操作系统设计与实现研讨会论文集》,加利福尼亚州圣地亚哥,2000年。]] 谷歌学者 数字图书馆 {67}D.E.Lowell,P.M.Chen,《与Rio Vista的自由交易》,载于《第16届ACM操作系统原理研讨会论文集》,法国圣马洛,1997年。]] 谷歌学者 数字图书馆 {68}M.R.Lyu(编辑),软件容错,威利,纽约,1995年。]] 谷歌学者 数字图书馆 {69}A.Mahmood,E.J.McCluskey,使用看门狗处理器的并发错误检测——一项调查,IEEE Trans。 计算。 37 (2) (1988) 160-174.]] 谷歌学者 数字图书馆 {70}J.McCarthy,符号表达式的递归函数及其机器计算,收录于:J.McCasthy,M.L.Minsky(Eds.),《人工智能》,第53号季度进展报告,麻省理工学院电子研究实验室,马萨诸塞州坎布里奇,1959年4月。]] 谷歌学者 数字图书馆 {71}J.-J.Miau,R.Holdaway(编辑),《降低航天器地面系统和操作的成本》,第3卷,Kluwer学术出版社,多德雷赫特,2000年。]] 谷歌学者 {72}微软。 微软。 NET Framework,微软出版社,华盛顿州雷蒙德,2001年。]] 谷歌学者 {73}D.Milojicic,A.Messer,J.Shau,G.Fu,A.Munoz,《内存硬件错误的相关性增加:可恢复编程模型的案例》,载于:《ACM SIGOPS欧洲研讨会论文集》,丹麦科尔丁,2000年。]] 谷歌学者 数字图书馆 {74}J.C.Mogul,R.F.Rashid,M.J.Accetta,《包过滤器:用户级网络代码的有效机制》,摘自:第11届ACM操作系统原理研讨会论文集,德克萨斯州奥斯汀,1987年。]] 谷歌学者 数字图书馆 {75}B.Murphy,N.Davies,Tru64 UNIX的系统可靠性和可用性驱动程序,摘自:第29届容错计算国际研讨会论文集,威斯康星州麦迪逊,1999(教程)。]] 谷歌学者 {76}B.Murphy,T.Gent,使用自动数据收集过程测量系统和软件可靠性,Qual。 Reliab公司。 《工程国际》11(1995)341-353。]] 谷歌学者 交叉引用 {77}K.Nagaraja,R.Bianchini,R.P.Martin,T.D.Nguyen,《使用故障模型强制提高可用性》,载于《评估和构建系统可靠性第二次研讨会论文集》,加利福尼亚州圣何塞,2002年。]] 谷歌学者 {78}NOCPulse,指挥中心概述,2002年。 http://nocpulse.com。 ]] 谷歌学者 {79}M.Olson,K.Bostic,M.Seltzer,Berkeley DB,摘自:1999年夏季USENIX技术会议记录,加利福尼亚州蒙特雷,1999年6月。]] 谷歌学者 数字图书馆 {80}D.Oppenheimer、A.Ganapathi、D.Patterson,为什么互联网服务会失败,可以采取什么措施? in:第四届USENIX互联网技术和系统研讨会论文集,西雅图,华盛顿州,2003年。]] 谷歌学者 数字图书馆 {81}A.Pal,个人通信,雅虎!, 公司,2002年。]] 谷歌学者 {82}D.Patterson、A.Brown、P.Broadwell、G.Candea、M.Chen、J.Cutler、P.Enriquez、A.Fox、E.Kiciman、M.Merzbacher、D.Oppenheimer、N.Sastry、W.Tetzlaff、N.Treuhaft,面向恢复的计算(ROC):动机、定义、技术和案例研究,技术报告UCB/CSD-02-1175,加州伯克利大学伯克利分校,2002年3月。]] 谷歌学者 数字图书馆 {83}V.Paxson,互联网中的端到端路由行为,摘自:ACM SIGCOMM会议论文集,加利福尼亚州斯坦福市,1996年。]] 谷歌学者 数字图书馆 {84}D.K.Pradhan,容错计算机系统设计,Prentice Hall,Englewood Cliffs,NJ,1995。]] 谷歌学者 数字图书馆 {85}S.Raman,S.McCanne,《软状态通信的模型、分析和协议框架》,摘自:《ACM SIGCOMM会议论文集》,马萨诸塞州剑桥,1999年。]] 谷歌学者 数字图书馆 {86}G.里维斯,火星上到底发生了什么? 风险-19.491998年1月。]] 谷歌学者 {87}Resonate,业务关键型应用程序的应用程序性能管理,2002年。 http://coronance.com。 ]] 谷歌学者 {88}M.Rosenblum,J.K.Ousterhout,日志结构文件系统的设计和实现,摘自:第13届ACM操作系统原理研讨会论文集,加利福尼亚州太平洋格罗夫,1991年。]] 谷歌学者 数字图书馆 {89}S.Saroiu,K.P.Gummadi,R.J.Dunn,S.D.Grible,H.M.Levy,《互联网内容交付系统分析》,摘自:《第五届USENIX操作系统设计与实现研讨会论文集》,马萨诸塞州波士顿,2002年。]] 谷歌学者 数字图书馆 {90}G.G.Schulmeyer,G.R.MacKenzie,《现代软件集成系统的验证与确认》,Prentice-Hall,Englewood Cliffs,NJ,2000年。]] 谷歌学者 数字图书馆 {91}D.Scott,《进行明智投资以减少计划外停机时间》,《战术指南研究说明TG-07-4033》,Gartner Group,Stamford,CT,1999年3月19日(企业运营PRISM)。]] 谷歌学者 {92}M.I.Seltzer,C.Small,《自监测和自适应操作系统》,载于:《第六届操作系统热点研讨会论文集》,马萨诸塞州科德角,1997年。]] 谷歌学者 数字图书馆 {93}D.P.Siewiorek,R.S.Swarz,《可靠计算机系统:设计与评估》,第三版,AK Peters,Natick,MA,1998年。]] 谷歌学者 数字图书馆 {94}L.Spainhower,为什么系统会失败? 审查研究1993-1998年,在IFIP工作组10.4(可靠计算和容错)上的陈述,第41次会议记录,美国圣约翰,维尔京群岛,2002年1月。]] 谷歌学者 {95}L.Spainhower,T.A.Gregg,IBM S/390并行企业服务器G5容错:历史视角,IBM J.Res.Develop。 43 (5-6), 1999.]] 谷歌学者 {96}M.Stonebraker,《Postgres存储系统的设计》,摘自:《第13届超大数据库会议论文集》,英国布莱顿,1987年。]] 谷歌学者 数字图书馆 {97}Sun Microsystems,J2EE平台规范,2002年。 http://java.sun.com/j2ee/。 ]] 谷歌学者 {98}M.A.Swartwout,R.J.Twiggs,SAPPHIRE——斯坦福大学的第一颗业余卫星,摘自:1998年AMSAT-NA研讨会论文集,密歇根州维克斯堡,1998年10月。]] 谷歌学者 {99}B.Tuthill,K.Johnson,S.Wilkening,D.Roe,IRIX Checkpoint and Restart Operation Guide,Silicon Graphics,Inc.,加利福尼亚州山景城,1999年。]] 谷歌学者 {100}L.Wall,R.L.Schwartz,Programming Perl,O'Reilly,Sebastopol,CA,1991年。]] 谷歌学者 数字图书馆 {101}Y.-M.Wang,Y.Huang,K.-P.Vo,P.-Y.Chung,C.M.R.Kintala,检查点及其应用,摘自:第25届容错计算国际研讨会论文集,1995年。]] 谷歌学者 数字图书馆 {102}K.Whisnant,R.Iyer,P.Hones,R.Some,D.Rennels,《星载应用REE SIFT环境的实验评估》,载于:《可靠系统和网络国际会议论文集》,华盛顿特区,2002年。]] 谷歌学者 数字图书馆 {103}A.Whitaker,M.Shaw,S.Grible,《Denali隔离内核中的规模和性能》,摘自《第五届USENIX操作系统设计与实现研讨会论文集》,马萨诸塞州波士顿,2002年。]] 谷歌学者 数字图书馆 {104}R.J.Willett,容错4号电子交换系统的恢复策略设计,贝尔系统。 《技术期刊》61(10)(1982)3019-3040。]] 谷歌学者 交叉引用 {105}N.Wirth,编程语言Oberon,软件——实践。 有效期:18(7)(1988)671-690。]] 谷歌学者 数字图书馆 {106}W.Xie,H.Sun,Y.Cao,K.Trivedi,Web用户感知的在线服务可用性建模,技术报告,高级计算与通信中心(CACC),杜克大学,2002年。]] 谷歌学者 {107}L.Zhang,S.Deering,D.Estrin,S.Shenker,D.Zappala,RSVP:一种新的资源预留协议,IEEE Netw。 7 (5) (1993).]] 谷歌学者
索引术语
通过递归微重启提高可用性:一个软状态系统案例研究
建议
流处理系统中高可用性的实证研究 2009年中间件:第十届ACM/IFIP/USENIX中间件国际会议记录 高可用性(HA)对于许多流处理应用程序(如财务数据分析和灾难响应)至关重要。 现有的HA方案使用主动备用或被动备用来防止系统出现意外故障,例如。。。 在强一致性云服务中使用向后原子备份恢复技术实现云服务的本地和远程恢复以实现高可用性:云服务的高可用性恢复 数据丢失是由于崩溃、相关故障、逻辑故障、停电和安全威胁而发生的。 有几种技术(例如NoBackup、WARBackup和LocalRecovery)用于本地恢复数据。 而且,高度一致的云服务(。。。