×

浮点运算。 (英语) Zbl 07736656号

摘要:浮点数在基于物理的数值计算中具有直观的意义,因此它已成为计算机中最常见的逼近实数的方法。早在1985年,IEEE-754标准就以一种严格但有用的方式规定了浮点运算的语义,在使浮点运算在当今普遍存在方面发挥了很大作用。特别是,执行浮点运算时,应将其结果视为首先以无限精度计算,然后四舍五入为目标格式。结果是,浮点算法满足“标准模型”,该模型通常用于分析浮点算法的准确性。但这只是表面现象,浮点运算提供了更多。在本次调查中,我们回顾了浮点运算的历史以及IEEE-754标准规定的浮点运算规范。我们还记得它需要什么属性,以及每个程序员在设计浮点算法时应该知道什么。我们提供了可以用浮点算法实现的各种基本块。特别是,人们可以实际计算某些浮点操作引起的舍入误差,这为设计更精确的算法铺平了道路。更一般地说,浮点运算的特性使计算精度超出工作精度成为可能。

MSC公司:

65-XX岁 数值分析
6504年 计算机算术的数值算法等。
65克50 舍入误差
2007年7月68日 计算机体系结构的数学问题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal,A.、Mueller,S.M.、Fleischer,B.M.、Sun,X.、Wang,N.、Choi,J.和Gopalakrishnan,K.(2019),DLFloat:专为深度学习训练和推理设计的16-B浮点格式,第26届IEEE计算机算术研讨会,IEEE,第92-95页。
[2] Anderson,C.S.、Zhang,J.和Corna,M.(2018),Intel®AVX-512体系结构上的增强矢量数学支持,第25届IEEE计算机算术研讨会,第120-124页。
[3] Babuška,I.(1969),《数学分析中的数值稳定性》,载于1968年IFIP大会论文集,第1卷,第11-23页·Zbl 0212.16802号
[4] Barnes,R.C.M.、Cooke-Yarborough,E.H.和Thomas,D.G.A.(1951),使用冷阴极计数管进行存储的电子数字计算机(第1部分),电子。工程23,286-291·Zbl 0045.06704号
[5] Bartels,T.、Fisikopoulos,V.和Weiser,M.(2022),健壮谓词的快速浮点过滤器。可从arXiv:2208.00497获取·Zbl 1514.65056号
[6] Baudin,M.和Smith,R.L.(2012),Scilab的一个强大的复杂部门。可从arXiv:1210.4539获取。
[7] Beebe,N.H.F.(2017),《数学函数计算手册》,施普林格出版社·Zbl 1378.65001号
[8] Bertaccini,L.、Paulin,G.、Fischer,T.、Mach,S.和Benini,L(2022),《MiniFloat-NN和ExSdotp:ISA扩展和模块化开放硬件单元,用于RISC-V核的低精度培训》,第29届IEEE计算机算术研讨会。
[9] Blanchard,P.、Higham,N.J.和Mary,T.(2020),一类快速准确的求和算法,SIAM J.Sci。计算42,A1541-A1557·Zbl 1471.65035号
[10] Bohlender,G.、Walter,W.、Kornerup,P.和Matula,D.(1991),精确浮点运算的语义,第十届IEEE计算机算术研讨会,第22-26页。
[11] Boldo,S.(2006),《完全浮点证明的缺陷:Veltkamp/Dekker算法的形式证明示例》,第三届国际自动推理联合会议(Furbach,U.和Shankar,N.,eds),计算机科学讲稿第4130卷,Springer,第52-66页·Zbl 1222.65156号
[12] Boldo,S.(2009),Kahan的正确判别计算算法终于被正式证明,IEEE Trans。计算58220-225·Zbl 1367.65206号
[13] Boldo,S.和Daumas,M.(2003),可能下溢浮点运算的可表示修正项,第16届IEEE计算机算术研讨会(Bajard,J.-C.和Schulte,M.编辑),第79-86页。
[14] Boldo,S.和Melquiond,G.(2008),《FMA的仿真和正确舍入的和:使用舍入到奇数的证明算法》,IEEE Trans。计算57462-471·Zbl 1388.65200号
[15] Boldo,S.和Melquiond,G.(2017),《计算机算术和形式证明》,ISTE出版社/爱思唯尔出版社·Zbl 1385.68001号
[16] Boldo,S.和Muller,J.-M.(2005),《使用融合mac可计算的一些函数》,第17届IEEE计算机算术研讨会,第52-58页。
[17] Boldo,S.和Muller,J.-M.(2011),《FMA的精确和近似误差》,IEEE Trans。计算60157-164·Zbl 1367.65072号
[18] Boldo,S.、Graillat,S.和Muller,J.-M.(2017),关于2Sum和Fast2Sum算法的鲁棒性,ACM Trans。数学。柔和。44, 4:1-4:14. ·兹比尔1484.65003
[19] Boldo,S.、Lauter,C.和Muller,J.-M.(2021年),《使用逐点到最近的逐点到偶数算法模拟逐点到最接近的逐点“增强”浮点运算》,IEEE Trans。计算701046-1058·Zbl 07497357号
[20] Borges,C.F.(2021),算法1014:Hypot的改进算法(左(x,y右)),ACM Trans。数学。软47,1-12·Zbl 07467969号
[21] Borges,C.F.,Jeannerod,C.P.和Muller,J.M.(2022),《整根倒数平方根的高级算法》,第29届IEEE计算机算术研讨会,第18-25页。
[22] Brent,R.P.(1973),关于各种浮点数字系统可达到的精度,IEEE Trans。计算。C-22、601-607·Zbl 0261.65036号
[23] Brent,R.P.(1978),算法524:MP,Fortran多精度算法包[A1],ACM Trans。数学。软4,71-81。
[24] Brent,R.、Percival,C.和Zimmermann,P.(2007),复杂浮点乘法的误差界限,数学。组件761469-1481·Zbl 1118.65031号
[25] Brisebarre,N.和Chevillard,S.(2007),高效多项式L近似,第18届IEEE计算机算术研讨会,第169-176页。
[26] Brisebarre,N.和Muller,J.-M.(2008),《用任意精度常数进行正确的四舍五入乘法》,IEEE Trans。计算57165-174·Zbl 1388.65201号
[27] Brisebarre,N.、Hanrot,G.和Robert,O.(2017),指数和和整定函数,IEEE Trans。计算662044-2057·Zbl 1390.65174号
[28] Brisebarre,N.,Joldeş,M.,Muller,J.-M.,Nanes,A.-M.和Picot,J.(2020),库利-图基快速傅立叶变换中涉及的一些运算的误差分析,ACM Trans。数学。柔和。46, 11:1-11:27. ·Zbl 1484.65348号
[29] Brunie,N.、De Dinechin,F.、Kupriianova,O.和Lauter,C.(2015),数学函数的代码生成器,第22届IEEE计算机算术研讨会,第66-73页。
[30] Cameron,T.R.和Graillat,S.(2022),关于精确计算所有多项式根的补偿Ehrlich-Abersh方法,Electron。事务处理。数字。分析55401-423·Zbl 1487.65052号
[31] Castaldo,A.M.、Whaley,R.C.和Chronopoulos,A.T.(2009),《使用超块算法家族减少点积中的浮点误差》,SIAM J.Sci。计算311156-1174·兹比尔1189.65076
[32] Ceruzzi,P.E.(1981),《康拉德·祖斯的早期计算机,1935年至1945年》,《历史年鉴》。计算结果3,241-262·Zbl 0998.01518号
[33] Champagne,W.P.(1964年),《用钩子或钩子寻找多项式根》。德克萨斯州奥斯汀德克萨斯大学硕士论文。
[34] Chevillard,S.,Harrison,J.,Joldeş,M.和Lauter,C.(2011),近似误差上限的高效精确计算,Theoret。计算。科学4121523-1543·Zbl 1211.65025号
[35] Chevillard,S.、Joldeš,M.和Lauter,C.(2010),《Sollya:数字代码开发的环境》,载于《国际数学软件会议》(Fukuda,K.et al.,eds),《计算机科学讲稿》第6327卷,斯普林格出版社,第28-31页·Zbl 1295.65143号
[36] Chung,E.、Fowers,J.、Ovtcharov,K.、Papamichael,M.、Caulfield,A.、Massengill,T.、Liu,M.,Lo,D.、Alkalay,S.、Haselman,M.和Abeydera,M.以及Adams,L.、Angepat,H.、Boehn,C.、Chiou,D.、Firestein,O.、Forin,A.、Gatlin,K.S.、Ghandi、M.、Heil,S.和Holohan,K.,Husseini、A.El、Juhasz、T.、Kagi、K.、Kovvuri,R.K.、Lanka,S.以及Van Megen,F、。,Mukhortov,D.、Patel,P.、Perez,B.、Rapsang,A.、Reinhardt,S.、Rouhani,B.、Sapek,A.、Seera,R.、Shekar,S.,Sridharan,B.、Weisz,G.、Woods,L.、Xiao、P.Yi、Zhang,D.、Zhao,R.和Burger,D.(2018),利用项目脑波在数据中心规模实时服务DNN,IEEE Micro38,8-20。
[37] Cock,J.和Markstein,V.(1990),《IBM RISC技术的演变》,IBM J.Res.Dev.34,4-11。
[38] Cococcioni,M.、Rossi,F.、Ruffaldi,E.和Saponara,S.(2022),《边缘深度学习的小实域表示:比较》,收录于《下一代算术》(Gustafson,J.和Dimitrov,V.,eds),斯普林格出版社,第117-133页。
[39] Cody,W.J.和Waite,W.(1980),《基本功能软件手册》,Prentice-Hall·Zbl 0468.68036号
[40] Collange,C.、Defour,D.、Graillat,S.和Iakymchuk,R.(2015),多核和多核架构上并行简化的数值再现性,并行计算49,83-97。
[41] Connolly,M.P.和Higham,N.J.(2022),住户QR分解的概率取整误差分析。MIMS EPrint 2022.5,英国曼彻斯特大学曼彻斯特数学科学研究所。网址:http://eprints.mathemath。曼彻斯特ac.uk/2865/·Zbl 1520.65019号
[42] Connolly,M.P.、Higham,N.J.和Mary,T.(2021),《随机取整及其概率向后误差分析》,SIAM J.Sci。计算结果43,A566-A585·Zbl 1462.65050号
[43] Connolly,M.P.、Higham,N.J.和Pranesh,S.(2022),随机低秩矩阵近似:舍入误差分析和混合精度算法。MIMS EPrint 2022.10,英国曼彻斯特大学曼彻斯特数学科学研究所。网址:http://eprints.mathemats.manchester.ac.uk/2863/。
[44] Cornea Hasegan,M.A.,Golliver,R.A.和Markstein,P.(1999),《基于Newton-Raphson的浮点除法和平方根算法的正确性证明大纲》,第14届IEEE计算机算术研讨会,第96-105页。
[45] Corna,M.、Harrison,J.和Tang,P.T.P.(2002),基于安腾系统的科学计算,英特尔出版社。
[46] Croci,M.、Fasi,M.,Higham,N.J.、Mary,T.和Mikaitis,M.(2022),《随机取整:实现、错误分析和应用》,皇家社会开放科学9,1-25。
[47] Darcy,J.(2017),Restore always-strict浮点语义。技术报告JEP 306。
[48] Daumas,M.(1999),浮点展开的乘法,第14届IEEE计算机算术研讨会,第250-257页。
[49] Daumas,M.、Rideau,L.和Théry,L.(2001),浮点数的通用库及其在精确计算中的应用,第14届国际高阶逻辑定理证明会议(Boulton,R.J.和Jackson,P.B.编辑),计算机科学讲义第2152卷,Springer,第169-184页·Zbl 1005.68544号
[50] De Dinechin,F.、Forget,L.、Muller,J.-M.和Uguen,Y.(2019年),《姿态:好、坏和丑》,载于《下一代算术会议》,ACM出版社,第1-10页。
[51] De Dinechin,F.、Lauter,C.和Melquiond,G.(2011),《使用Gappa证明基本函数的浮点实现》,IEEE Trans。计算60242-253·Zbl 1367.65250号
[52] Dekker,T.J.(1971),扩展可用精度的浮点技术,数值。数学.18224-242·Zbl 0226.65034号
[53] Demmel,J.(1984),欠流与数值软件的可靠性,SIAM J.Sci。统计师。计算5887-919·Zbl 0564.65029号
[54] Demmel,J.、Ahrens,P.和Nguyen,H.D.(2016年),《高效可再生浮点求和和BLAS》。技术报告UCB/EECS-2016-121,加州大学伯克利分校EECS系·Zbl 1484.65100号
[55] Demmel,J.和Hida,Y.(2004),《快速准确的浮点求和及其在计算几何中的应用》,数值。算法37,101-112·Zbl 1074.65054号
[56] Demmel,J.和Nguyen,H.D.(2015),并行可再现求和,IEEE Trans。计算642060-2070·Zbl 1360.68042号
[57] Demmel,J.和Riedy,J.(2021),《不断变化的世界中浮点运算的新IEEE 754标准》,SIAM News54,9。
[58] Demmel,J.、Dongarra,J.,Gates,M.、Henry,G.、Langou,J.和Li,X.、Luszczek,P.、Pereira,W.、Riedy,J.以及Rubio-González,C.(2022年),针对BLAS和LAPACK提出了一致的异常处理。可从arXiv:2207.09281获取。
[59] El Arar,E.-M.,Sohier,D.,De Oliveira Castro,P.和Petit,E.(2022),数值算法中随机取整的积极影响,第29届IEEE计算机算术研讨会,第58-65页。
[60] Fabiano,N.、Muller,J.-M.和Picot,J.(2019),三字算术算法,IEEE Trans。计算681573-1583·Zbl 07159076号
[61] Fasi,M.和Mikaitis,M.(2020),CPFloat:模拟低精度算法的C库。MIMS EPrint 2020.22,英国曼彻斯特大学曼彻斯特数学科学研究所。网址:http://eprints.mathemats.manchester.ac.uk/2873/。
[62] Fasi,M.、Higham,N.J.、Mikaitis,M.和Pranesh,S.(2021),NVIDIA张量核的数值行为,PeerJ Compute。科学7,e330。
[63] Févotte,F.和Lathuilière,B.(2016),VERROU:评估浮点精度而不重新编译。可在https://hal.archives-ouvertes.fr/hal-01383417。
[64] Figueroa,S.A.(1995),双舍入何时无害?,ACM SIGNUM新闻稿30,21-26。
[65] Flegg,G.,Hay,C.和Moss,B.(1985),Nicolas Chuquet,文艺复兴时期的数学家:1484年完成的Chuquet's数学手稿的广泛翻译研究,Springer·Zbl 0556.01001号
[66] Forsythe,G.E.(1959),关于舍入误差的注释重印,SIAM Review1,66-67·Zbl 0168.14002号
[67] Fortune,S.和Van Wyk,C.J.(1993),计算几何的高效精确算法,第九届计算几何年度研讨会,美国计算机学会,第163-172页。
[68] Fousse,L.、Hanrot,G.、Lefèvre,V.、Pélissier,P.和Zimmermann,P.(2007),MPFR:具有正确舍入的多精度二进制浮点库,ACM-Trans。数学。软33,13-es·Zbl 1365.65302号
[69] Friedland,P.(1967),算法312:复数的绝对值和平方根,Commun。关联计算。机械师1065。
[70] Gill,S.(1951),在自动数字计算机器中逐步积分微分方程的过程,数学。程序。剑桥菲洛斯。Soc.4796-108·Zbl 0042.13202号
[71] Goldberg,D.(1991),《每个计算机科学家应该了解的浮点运算》,《ACM计算调查》23,5-48。编辑后的重印本可在https://docs.oracle.com/cd/E19059-01/fortec6u2/806-7996/806-7996.pdf来自Sun的《数值计算指南》;它包含IEEE 754实现之间的补遗差异,也可在http://www.validlab.com/goldberg/addendum.html。
[72] Goldberg,I.B.(1967),27位不足以实现8位精度,Commun。关联计算。马赫数10,105-106。
[73] Goualard,F.(2014),《如何计算区间中点?》?,ACM事务处理。数学。Softw.40,11:1-11:25·Zbl 1305.65252号
[74] Goualard,F.(2022),从区间中提取随机浮点数,ACM-Trans。模型。计算。模拟32,16:1-6:24。
[75] Graillat,S.和Ménissier-Morain,V.(2007),实数和复数浮点运算中的无错误转换,2007年非线性理论及其应用国际研讨会,第341-344页·Zbl 1259.65073号
[76] Graillat,S.和Ménissier-Morain,V.(2008),复浮点算法中的补偿Horner方案,第八届实数与计算机会议,第133-146页。
[77] Graillat,S.和Ménissier-Morain,V.(2012),《复杂浮点算法中的精确求和、点积和多项式求值》,Inform。计算216,57-71·兹比尔1259.65073
[78] Graillat,S.、Lefèvre,V.和Muller,J.-M.(2020),替代分割函数和Dekker的产品,第27届IEEE计算机算术研讨会,第41-47页。
[79] Gregory,R.T.和Raney,J.L.(1964),84位数字的浮点运算,Commun。关联计算。马赫数7,10-13·Zbl 0121.12104号
[80] Gustafson,J.L.(2015),《错误的终结:Unum计算》,Chapman&Hall/CRC·Zbl 1320.65072号
[81] Hallman,E.和Ipsen,I.C.F.(2022),浮点求和的精确软件确定性和概率误差界。可在arXiv上购买:2203.15928。
[82] Harrison,J.(1999),《浮点运算的机器检验理论》,载于《第十二届高阶逻辑定理证明国际会议》(Bertot,Y.et al.,eds),计算机科学讲义第1690卷,Springer,第113-130页。
[83] Hauser,J.R.(1996),处理数字程序中的浮点异常,ACM Trans。程序。语言系统18,139-174。
[84] 何寅、丁春秋(2000),《利用精确的算术提高并行应用中的数值再现性和稳定性》,载于第十四届超级计算国际会议,美国计算机学会,第225-234页。
[85] Hennessy,J.L.和Patterson,D.A.(2012),《计算机体系结构:定量方法》,第五版,摩根·考夫曼·兹比尔1003.68001
[86] Henry,G.,Tang,P.T.P.和Heinecke,A.(2019),《利用bfloat16人工智能数据类型进行高精度计算》,第26届IEEE计算机算术研讨会,第69-76页。
[87] Hida,Y.,Li,X.S.和Bailey,D.H.(2001),四双精度浮点算法,第15届IEEE计算机算术研讨会,第155-162页。
[88] Higham,N.J.(1993),浮点求和的准确性,SIAM J.Sci。计算14,783-799·Zbl 0788.65053号
[89] Higham,N.J.(2002),《数值算法的准确性和稳定性》,第二版,SIAM·Zbl 1011.65010号
[90] Higham,N.J.(2021a),浮点算术的数学,LMS Newsletter 493,35-41·Zbl 1477.65276号
[91] Higham,N.J.(2021b),极端规模和低精度下算法的数值稳定性。MIMS EPrint 2021.14,英国曼彻斯特大学曼彻斯特数学科学研究所。网址:http://eprints.maths.manchester.ac.uk/id/eprint/2833。
[92] Higham,N.J.和Mary,T.(2019),概率取整误差分析的新方法,SIAM J.Sci。计算41,A2815-A2835·Zbl 07123205号
[93] Higham,N.J.和Mary,T.(2020),《基本线性代数核随机数据的夏普概率向后误差分析》,SIAM J.Sci。计算42,A3427-A3446·Zbl 1452.65090号
[94] Higham,N.J.和Mary,T.(2022),《数值线性代数中的混合精度算法》,《数值学报》31,347-414·Zbl 1512.65081号
[95] Higham,N.J.和Pranesh,S.(2019),模拟低精度浮点算法,SIAM J.Sci。计算41,C585-C602·Zbl 07124603号
[96] Hirshfeld,A.(2009),《尤里卡人:阿基米德的生命和遗产》,Walker&Company。
[97] Hull,T.E.、Fairgrave,T.F.和Tang,P.T.P.(1994),使用异常处理实现复杂的基本函数,ACM Trans。数学。Softw.20,215-244·Zbl 0888.65014号
[98] (2015),《IEEE区间算术标准》(IEEE Std 1788-2015),IEEE。
[99] (2019),《IEEE浮点运算标准》(IEEE Std 754-2019),IEEE。
[100] Iffrah,G.(1999),《数字的普遍历史:从史前到计算机的发明》,威利出版社。
[101] Ikebe,Y.(1965),关于132位数字的三精度浮点运算的注释,Commun。关联计算。175-177年8月·Zbl 0129.1022
[102] Innocente,V.和Zimmermann,P.(2022),单精度、双精度、扩展双精度和四精度数学函数的精度。可从hal-03141101获取。
[103] (2018),BFLOAT16:硬件数字定义。白皮书,网址:https://www.intel.com/content/dam/develop/external/us/en/documents/bf16-hardware-numerics-definition-white-paper.pdf。
[104] (2010),编程语言.Fortran.第1部分:基本语言,国际标准ISO/IEC 1539-1:2010。
[105] (2011),编程语言-C,国际标准ISO/IEC 9899:2011。
[106] Ipsen,I.C.F.和Zhou,H.(2020),内部产品的概率误差分析,SIAM J.矩阵分析。申请411726-1741·Zbl 1461.65068号
[107] (2022),C编程语言-N3054,标准工作草案(2022年9月)。https://en.wikipedia.org/wiki/C2。
[108] Jeannerod,C.-P.(2016),Corna-Harison-Tang方法的基数相关误差分析,ACM Trans。数学。柔和。42, 19:1-19:20. ·Zbl 1367.65228号
[109] Jeannerod,C.-P.(2020),《(x+y)*(x-y)的相对精确度》,J.Compute。申请。数学369112613·Zbl 1480.65114号
[110] Jeannerod,C.-P.和Muller,J.-M.(2017),《关于浮点运算中计算复数平方根的相对误差》,第51届信号、系统和计算机Asilomar会议,IEEE,第737-740页。
[111] Jeannerod,C.-P.和Rump,S.M.(2018),《浮点运算的相对误差:最优边界和应用》,数学。组件87,803-819·Zbl 1380.65082号
[112] Jeannerrod,C.-P.,Kornerup,P.,Louvet,N.和Muller,J.-M.(2017a),《使用FMA的复数浮点乘法的误差界限,数学》。组件86,881-898·Zbl 1355.65063号
[113] Jeannerod,C.-P.,Louvet,N.和Muller,J.-M.(2013a),精确计算\(2\乘以2\)行列式的Kahan算法的进一步分析,数学。公司。82, 2245-2264. ·Zbl 1277.65026号
[114] Jeannerod,C.-P.,Louvet,N.和Muller,J.-M.(2013b),《关于用FMA进行复杂浮点除法的组件精度》,载于第21届IEEE计算机算术研讨会(A.Nannarelli等人,编),第83-90页。
[115] Jeannerod,C.-P.,Louvet,N.,Muller,J.-M.和Plet,A.(2016),复杂浮点反演的夏普误差界,数值。算法73,735-760·Zbl 1357.65028号
[116] Jeannerod,C.-P.,Monat,C.和Thévenoux,L.(2017b),《嵌入式处理器的更精确复数乘法》,第12届IEEE工业嵌入式系统国际研讨会,第1-4页。
[117] Jeannerod,C.-P.、Muller,J.-M.和Zimmermann,P.(2018),《关于拆分浮点数的各种方法》,第25届IEEE计算机算术研讨会,IEEE,第53-60页。
[118] Jiang,H.,Graillat,S.,Barrio,R.和Yang,C.(2016),初等对称函数的精确、有效和快速评估及其应用,Appl。数学。计算273、1160-1178·Zbl 1410.65006号
[119] Johansson,F.(2013),Arb:A C球算法库,ACM Commun。计算。阿尔盖布拉47,166-169。
[120] Joldeš,M.、Muller,J.-M.和Popescu,V.(2017),双字算术基本构建块的严格误差界限,ACM Trans。数学。软。44,1-27·Zbl 1484.65103号
[121] Joldeš,M.,Muller,J.-M.,Popescu,V.和Tucker,W.(2016),CAMPARY:Cuda多精度算术库和应用,第五届国际数学软件大会(Greuel,G.M.et al.,eds),计算机科学讲义第9725卷,Springer,pp.232-240·Zbl 1435.65012号
[122] Kahan,W.(1965),Pracniques:关于减少截断误差的进一步评论,Commun。关联计算。马赫数8,40。
[123] Kahan,W.(1981),为什么我们需要浮点运算标准?技术报告,计算机科学,加州大学伯克利分校。可在网址:http://www.cs.berkeley.edu/wkahan/iee754status/why-ieee.pdf。
[124] Kahan,W.(1987),《复杂初等函数的分支切割或对符号位的无关紧要》,载于《数值分析的最新进展》(Iserles,A.和Powell,M.J.D.编辑),牛津大学出版社,第165-211页·Zbl 0615.65014号
[125] Kahan,W.(1997),关于二进制浮点运算IEEE标准754的状态的讲义。可在网址:http://www.cs.berkeley.edu/wkahan/iee754status/IEEE754.PDF。
[126] Kahan,W.(1998),Matlab的损失是无人受益的。可在https://people.eecs.berkeley.edu/wkahan/MxMulEps.pdf。
[127] Kahan,W.(2004年A),对数太聪明了一半。可在http://http.cs.berkeley.edu/wkahan/LOG10HAF公司。德克萨斯州。
[128] Kahan,W.(2004b),《关于无超精度算法的浮点计算成本》。可在网址:http://www.cs.berkeley.edu/wkahan/Qdrtcs.pdf。
[129] Kahan,W.和Thomas,J.W.(1991),用复杂算法扩充编程语言。技术报告UCB/CSD-92-667,加州大学伯克利分校EECS系。
[130] Karpinsky,R.(1985),《PARANOIA:浮点基准测试》,BYTE10223。
[131] Knuth,D.E.(1998),《计算机编程的艺术》,第二卷,第三版,艾迪生-韦斯利出版社·Zbl 0895.65001号
[132] Kornerup,P.、Lefèvre,V.、Louvet,N.和Muller,J.-M(2012),《关于正确四舍五入和的计算》,IEEE Trans。计算61289-298。定理2和3的证明可以在https://hal.inia.fr/inia-00475279。 ·Zbl 1365.65141号
[133] Kouya,T.(2019),具有无误差变换的高效双双BLAS1函数的性能评估及其在显式外推方法中的应用,第26届IEEE计算机算术研讨会,第120-123页。
[134] Kuki,H.和Cody,W.J.(1973),浮点数字系统准确性的统计研究,Commun。关联计算。马赫数16,223-230·Zbl 0271.65031号
[135] Kulisch,U.(1971),四舍五入计算的公理方法,数值。数学18,1-17·Zbl 0243.65017号
[136] Kulisch,U.(2013),《计算机算术和有效性:理论、实现和应用》,《数学研究》第33卷,德格鲁特·Zbl 1277.65028号
[137] La Porte,M.和Vignes,J.(1974),《计算中的错误分析》,收录于《信息处理74》,北荷兰语·Zbl 0295.65035号
[138] Lange,M.(2022),《走向准确和快速求和》,ACM Trans。数学。软48,1-39·Zbl 07668772号
[139] Lange,M.和Oishi,S.(2020年),关于Dekker的FastTwoSum算法的注释,Numer。数学145,383-403·Zbl 1453.65006号
[140] Lange,M.和Rump,S.M.(2017),应用于浮点求和的实数求和误差估计,BIT Numer。数学57927-941·Zbl 1380.65083号
[141] Lange,M.和Rump,S.M.(2019),求和中扰动误差的夏普估计,数学。组件88、349-368·Zbl 1453.65097号
[142] Lange,M.和Rump,S.M.(2020),忠实四舍五入浮点计算,ACM Trans。数学。Softw.46、1-20·Zbl 1484.65350号
[143] Langlois,P.和Louvet,N.(2007),《如何使用补偿Horner算法确保可靠的多项式求值》,第18届IEEE计算机算术研讨会,第141-149页。
[144] Lawlor,O.、Govind,H.、Dooley,I.、Breitenfeld,M.和Kale,L.(2005年),存在低于正常值的浮点值时的性能退化,《高性能应用中操作系统干扰国际研讨会》。
[145] Lefèvre,V.(2013),SIPE:小整数加指数,第21届IEEE计算机算术研讨会,第99-106页。
[146] Lefèvre,V.和Muller,J.-M.(2001),以双精度正确舍入基本函数的最坏情况,第15届IEEE计算机算术研讨会,第111-118页。
[147] Lefèvre,V.,Louvet,N.,Muller,J.-M.,Picot,J.和Rideau,L.(2022),使用双字算术精确计算欧几里德规范,ACM Trans。数学。柔和。https://doi.org/10.1145/3568672。
[148] Li,X.、Demmel,J.、Bailey,D.H.、Henry,G.、Hida,Y.、Iskandar,J.,Kahan,W.、Kapur,A.、Martin,M.、Tung,T.和Yoo,D.J.(2000),《扩展和混合精度BLAS的设计、实施和测试》。技术报告45991,劳伦斯伯克利国家实验室。可在https://netlib.org/lapack/lawnspdf/lawn149.pdf。 ·Zbl 1070.65523号
[149] Lichtenau,C.、Buyuktosunoglu,A.、Bertran,R.、Figuli,P.、Jacobi,C.、Papandreou,N.、Pozidis,H.、Saporito,A.、Sica,A.和Tzortzatos,E.(2022),IBM Telum处理器上的AI加速器:工业产品,第49届ACM国际计算机架构研讨会,ACM,第1012-1028页。
[150] Lohner,R.J.(2001),《关于误差边界计算中包裹效应的普遍性》,《封闭方法的视角》(Kulisch,U.et al.,eds),施普林格,第201-216页·Zbl 0990.65073号
[151] Lynch,T.和Swartzlander,E.(1992),《计算机算术和封闭方法的形式化》(Atanassova,L.和Hertzberger,J.编辑),《爱思唯尔科学》,第137-145页。
[152] Malcolm,M.A.(1971),关于精确浮点求和,Commun。关联计算。马赫.14,731-736·兹比尔0226.68020
[153] Markstein,P.(1990),《IBM RISC System/6000处理器上基本函数的计算》,IBM J.Res.Dev.34111-119。
[154] Mascarenhas,W.F.(2016),浮点数是实数。可从arXiv:1605.09202获取。
[155] Matula,D.W.(1968),《内外转换》,Commun出版社。关联计算。马赫数11,47-50·Zbl 0165.18704号
[156] Melquiond,G.(2019年),《数值计算的形式验证》,以及其他相关文献。Orsay南巴黎大学HabilitationáDiriger des Recherches。
[157] Mezzarobba,M.(2010),《NumGfun:D有限函数的数值和分析计算包》,载于《2010年符号和代数计算国际研讨会论文集》,ACM,第139-145页·Zbl 1321.65202号
[158] Mezzarobba,M.(2020),使用生成序列对线性递归进行舍入误差分析。网址:arXiv:2011.00827·Zbl 1512.65082号
[159] Micikevicius,P.、Stosic,D.、Burgess,N.、Corna,M.、Dubey,P.和Grisenthwaite,R.、Ha,S.、Heinecke,A.、Judd,P.,Kamalu,J.、Mellempudi,N.,Oberman,S.,Shoeybi,M.,Siu,M.和H,W(2022),深度学习的FP8格式。可在https://paperswithcode.com/paper/fp8-formats用于深度学习。
[160] Möller,O.(1965),浮点加法中的准双精度,BIT5,37-50·Zbl 0131.5805号
[161] Monniaux,D.(2008),验证浮点计算的陷阱,ACM Trans。程序。语言系统30,1-41。
[162] Moore,J.S.、Lynch,T.和Kaufmann,M.(1998),AMD5K86浮点除法算法内核正确性的机械检查证明,IEEE Trans。计算第47页,913-926页·Zbl 1392.68051号
[163] Moore,R.E.(1979),区间分析的方法和应用,SIAM应用数学研究,SIAM·Zbl 0417.65022号
[164] Moore,R.E.、Kearfott,R.B.和Cloud,M.J.(2009),区间分析导论,SIAM·Zbl 1168.65002号
[165] Muller,J.-M.(2015),《关于使用Corna,Harrison和Tang方法计算(ab+cd)的误差》,ACM Trans。数学。软41,7:1-7:8·Zbl 1367.65240号
[166] Muller,J.-M.(2016),《基本函数、算法和实现》,第三版,Birkhäuser·Zbl 1357.65029号
[167] Muller,J.-M.和Rideau,L.(2022),双字算术的形式化,以及对“双字算术基本构建块的严格误差边界”的评论,ACM Trans。数学。软48,1-24·Zbl 07500134号
[168] Muller,J.-M.,Brunie,N.,De Dinechin,F.,Jeannerod,C.-P.,Joldeš,M.,Lefèvre,V.,Melquiond,G.,Revol,N.和Torres,S.(2018),浮点算术手册,第二版,Birkhäuser·Zbl 1394.65001号
[169] Neumaier,A.(1974),Rundungsfehleranalyse einiger Verfahren zur Summation endlicher Summen,ZAMM54,39-51。用德语·Zbl 0273.65032号
[170] Neumaier,A.(1990),方程组的区间方法,剑桥大学出版社·Zbl 0715.65030号
[171] Nievergelt,Y.(2003),标量融合的乘法加法指令生成的浮点矩阵算术可证明精确到倒数第二位,ACM Trans。数学。Softw.29、27-48·Zbl 1069.68505号
[172] Noune,B.,Jones,P.,Justus,D.,Masters,D.和Luschi,C.(2022),深度神经网络的8位数字格式。可从arXiv:2206.02915获取。
[173] Ogita,T.、Rump,S.M.和Oishi,S.(2005),《精确和和点积》,SIAM J.Sci。计算261955-1988·Zbl 1084.65041号
[174] Olver,F.W.J.(1983),《复杂算法的误差分析》,《复杂分析的计算方面》,北约科学系列C第102卷,D.Reidel,第279-292页·Zbl 0516.65022号
[175] Osorio,J.、Armejach,A.、Petit,E.、Henry,G.和Casas,M.(2022),BF16 FMA是DNN培训所需的全部,IEEE Trans。新兴主题计算机.10,1302-1314。
[176] Overton,M.L.(2001),IEEE浮点算法的数值计算,SIAM·Zbl 0981.68057号
[177] Ozaki,K.,Ogita,T.和Mukunoki,D.(2021),在GPU上使用快速低精度算法的区间矩阵乘法,第九届可靠工程计算国际研讨会,第419-434页。
[178] Ozaki,K.、Ogita,T.、Oishi,S.和Rump,S.M.(2012),使用矩阵乘法快速例程进行矩阵乘法的无错误转换及其应用,数值。算法59,95-118·Zbl 1244.65062号
[179] Parker,D.S.、Pierce,B.和Eggert,P.R.(2000),蒙特卡洛算法:如何用浮点赌博并获胜,计算。科学。工程2,58-68。
[180] Pichat,M.(1972),《关于漂浮物的算术修正》,编号。数学。19, 400-406. 法语·Zbl 0248.65027号
[181] Pichat,M.(1976),《错误的贡献》(Contribution a l’étude des erreurs d'arrondi en arithmétiqueávirgule flottante)。格勒诺布尔科学与医学大学和格勒诺布国立理工学院博士论文。
[182] Pion,S.(1999),De la géométrie algorithmique au calcul géome trique。尼斯索菲亚·安蒂波利斯大学博士论文。
[183] Popescu,V.(2017),《迈向快速认证的多精度图书馆》。里昂大学博士论文,编号:2017LYSEN036。
[184] (2022),《假定算术标准》。可在https://posithub.org/docs/posit_standard-2.pdf。
[185] Priest,D.M.(1991),《任意精度浮点运算的算法》,第10届IEEE计算机算术研讨会,第132-143页。
[186] Priest,D.M.(1992),《关于浮点算术的特性:数值稳定性和精确计算的成本》。加州大学伯克利分校博士论文。
[187] Priest,D.M.(2004),《复杂部门的有效扩展》,ACM Trans。数学。Softw.30389-401·Zbl 1075.65069号
[188] Revol,N.和Rouillier,F.(2005),任意精度区间算术和MPFI库的动机,可靠计算11,275-290·Zbl 1078.65543号
[189] Riedy,E.J.和Demmel,J.(2018),2018年IEEE-754提出的增强算术运算,第25届IEEE计算机算术研讨会,第45-52页。
[190] Roux,P.(2014),《基本算术运算的无害双舍入》,J.Formal。推理7131-142·Zbl 1451.65061号
[191] Rump,S.M.(2009),《最终快速准确求和》,SIAM J.Sci。计算313466-3502·Zbl 1202.65033号
[192] Rump,S.M.(2010),《验证方法:使用浮点算法的严格结果》,《数值学报》19,287-449·Zbl 1323.65046号
[193] Rump,S.M.(2012),浮点和和点积的误差估计,比特数。数学52,201-220·Zbl 1243.65047号
[194] Rump,S.M.(2015),线性代数基本算法的可计算后向误差界,非线性理论应用。IEICE6,360-363。
[195] Rump,S.M.(2017),IEEE754 precision-k base-β算法继承了precision-M base-β算术(k<M),ACM Trans。数学。软43,20:1-20:15·Zbl 1396.65177号
[196] Rump,S.M.(2019),《计算机算术的误差界限》,第26届IEEE计算机算术研讨会,第1-14页。
[197] Rump,S.M.,Ogita,T.和Oishi,S.(2008),精确浮点求和,I:忠实舍入,SIAM J.Sci。计算31189-224·Zbl 1185.65082号
[198] Rump,S.M.、Zimmermann,P.、Boldo,S.和Melquiond,G.(2009),《计算前身和后继四舍五入法》,比特数字。数学49419-431·Zbl 1196.65089号
[199] Severance,C.(1998),IEEE 754:对William Kahan的采访,Computer31,114-115。
[200] Shewchuk,J.R.(1997),自适应精度浮点算法和快速鲁棒几何谓词,离散计算。地理18,305-363·兹比尔0892.68098
[201] Shibata,N.和Petrogalli,F.(2020),SLEEF:C标准数学函数的便携式向量库,IEEE Trans。并行分配系统311316-1327。
[202] Sibidanov,A.、Zimmermann,P.和Glondu,S.(2022),《CORE-MATH项目》,第29届IEEE计算机算术研讨会,第26-34页。
[203] Smith,R.L.(1962),算法116:复数除法,Commun。关联计算。5435马赫。
[204] Steele,G.L.Jr和White,J.L.(2004),《回顾:如何准确打印浮点数》,ACM SIGPLAN通知39,372-389。
[205] Sterbenz,P.H.(1974),浮点计算,Prentice-Hall。
[206] Stewart,G.W.(1985),复数除法注释,ACM Trans。数学。Softw.11238-241·Zbl 0588.65013号
[207] Strachey,C.(1959),《关于复数平方根的计算》。J.2,89·Zbl 0089.12604号
[208] Sun,X.、Wang,N.、Chen,C.-Y.、Ni,J.、Agrawal,A.、Cui,X.,Venkataramani,S.、Maghraoui,K.El、Srinivasan,V.V.和Gopalakrishnan,K.(2020),深度神经网络的超低精度4位训练,《神经信息处理系统进展》33(Larochelle,H.等人,编),Curran Associates,第1796-1807页。
[209] Swartzlander,E.E.和Alexpoulos,A.G.(1975),符号-算术数字系统,IEEE Trans。计算。重印于E.E.Swartzlander,《计算机算术》,第1卷,IEEE,1990年。
[210] Uguen,Y.和De Dinechin,F.(2017),Kulisch蓄能器的设计空间探索。可在https://hal.archives-ouvertes.fr/hal-01488916hal-01488916。
[211] Veltkamp,G.W.(1968年),ALGOL程序voor het berekenen van een inwendig产品在dubbele precisie。技术报告22,RC-Informatie,埃因霍温技术学院。
[212] Veltkamp,G.W.(1969),ALGOL程序voor het rekenen in dubbele lente。技术报告21,RC-Informatie,埃因霍温技术学院。
[213] Wang,S.和Kanwar,P.(2019),Bfloat16:云TPU高性能的秘诀。可在https://cloud.google.com/blog/products/ai-machine-learning/bfloat16-the-secret-to-high-performance-on-cloud-tpus。
[214] Whaley,R.C.、Petitet,A.和Dongarra,J.J.(2001),软件和ATLAS项目的自动经验优化,并行计算27,3-35·Zbl 0971.68033号
[215] Wilkinson,J.H.(1960),浮点计算的误差分析,数值。数学2,319-340·Zbl 0091.29605号
[216] Wilkinson,J.H.(1961),矩阵反演直接方法的误差分析,J.Assoc.Compute。马赫数8,281-330·Zbl 0109.09005号
[217] Wilkinson,J.H.(1963),代数过程中的舍入误差,应用科学注释第32号,HMSO。也由Prentice-Hall出版。多佛转载,1994年·Zbl 1041.65502号
[218] Wilkinson,J.H.(1965),代数特征值问题,牛津大学出版社·兹比尔0258.65037
[219] Wolfe,J.M.(1964),通过编程减少截断错误,Commun。关联计算。马赫数7,355-356·Zbl 0123.13202号
[220] Yamazaki,I.、Tomov,S.和Dongarra,J.(2015),混合精度Cholesky QR分解及其对多GPU多核CPU的案例研究,SIAM J.Sci。计算表37,C307-C330·Zbl 1320.65046号
[221] Ziv,A.(1999),斜边函数的夏普ULP舍入误差界限,数学。组件68,1143-1148·Zbl 0919.65008号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。