您好,欢迎访问三七文档
D-1附录DWhatEveryComputerScientistShouldKnowAboutFloating-PointArithmetic注–本附录是对论文《WhatEveryComputerScientistShouldKnowAboutFloating-PointArithmetic》(作者:DavidGoldberg,发表于1991年3月号的《ComputingSurveys》)进行编辑之后的重印版本。版权所有1991,AssociationforComputingMachinery,Inc.,经许可重印。D.1摘要许多人认为浮点运算是一个深奥的主题。这相当令人吃惊,因为浮点在计算机系统中是普遍存在的。几乎每种语言都有浮点数据类型;从PC到超级计算机都有浮点加速器;多数编译器可随时进行编译浮点算法;而且实际上,每种操作系统都必须对浮点异常(如溢出)作出响应。本文将为您提供一个教程,涉及的方面包含对计算机系统设计人员产生直接影响的浮点运算信息。它首先介绍有关浮点表示和舍入误差的背景知识,然后讨论IEEE浮点标准,昀后列举了许多示例来说明计算机生成器如何更好地支持浮点。类别和主题描述符:(主要)C.0[计算机系统组织]:概论—指令集设计;D.3.4[程序设计语言]:处理器—编译器,优化;G.1.0[数值分析]:概论—计算机运算,错误分析,数值算法(次要)D.2.1[软件工程]:要求/规范—语言;D.3.4程序设计语言]:正式定义和理论—语义;D.4.1操作系统]:进程管理—同步。一般术语:算法,设计,语言其他关键字/词:非规格化数值,异常,浮点,浮点标准,渐进下溢,保护数位,NaN,溢出,相对误差、舍入误差,舍入模式,ulp,下溢。D-2《数值计算指南》2005年1月D.2简介计算机系统的生成器经常需要有关浮点运算的信息。但是,有关这方面的详细信息来源非常少。有关此主题的书目非常少,而且其中的一部《Floating-PointComputation》(作者:PatSterbenz)现已绝版。本文提供的教程包含与系统构建直接相关的浮点运算(以下简称为浮点)信息。它由三节组成(这三节并不完全相关)。第一节第2页的“舍入误差”讨论对加、减、乘、除基本运算使用不同舍入策略的含义。它还包含有关衡量舍入误差的两种方法ulp和相对误差的背景信息。第二节讨论IEEE浮点标准,该标准正被商业硬件制造商迅速接受。IEEE标准中包括基本运算的舍入方法。对标准的讨论借助了第2页的“舍入误差”部分中的内容。第三节讨论浮点与计算机系统各个设计方面之间的关联。主题包括指令集设计、优化编译器和异常处理。作者已尽力避免在不给出正当理由的情况下来声明浮点,这主要是因为证明将产生较为复杂的基本计算。对于那些不属于文章主旨的说明,已将其归纳到名为“详细信息”的章节中,您可以视实际情况选择跳过此节。另外,此节还包含了许多定理的证明。每个证明的结尾处均标记有符号❚。如果未提供证明,❚将紧跟在定理声明之后。D.3舍入误差将无穷多位的实数缩略表示为有限位数需要使用近似。即使存在无穷多位整数,多数程序也可将整数计算的结果以32位进行存储。相反,如果指定一个任意的固定位数,那么多数实数计算将无法以此指定位数精准表示实际数量。因此,通常必须对浮点计算的结果进行舍入,以便与其有限表示相符。舍入误差是浮点计算所独有的特性。第4页的“相对误差和Ulp”章节说明如何衡量舍入误差。既然多数浮点计算都具有舍入误差,那么如果基本算术运算产生的舍入误差比实际需要大一些,这有没有关系?该问题是贯穿本章节的核心主题。第5页的“保护数位”章节讨论保护数位,它是一种减少两个相近的数相减时所产生的误差的方法。IBM认为保护数位非常重要,因此在1968年它将保护数位添加到System/360架构的双精度格式(其时单精度已具有保护数位),并更新了该领域中所有的现有计算机。下面两个示例说明了保护数位的效用。IEEE标准不仅仅要求使用保护数位。它提供了用于加、减、乘、除和平方根的算法,并要求实现产生与该算法相同的结果。因此,将程序从一台计算机移至另一台计算机时,如果这两台计算机均支持IEEE标准,那么基本运算的结果逐位相同。这大大简化了程序的移植过程。在第10页的“精确舍入的运算”中介绍了此精确规范的其他用途。WhatEveryComputerScientistShouldKnowAboutFloating-PointArithmeticD-3D.3.1浮点格式已经提议了几种不同的实数表示法,但是到目前为止使用昀广的是浮点表示法。1浮点表示法有一个基数β(始终假定其为偶数)和一个精度p。如果β=10、p=3,则将数0.1表示为1.00×10-1。如果β=2、p=24,则无法准确表示十进制数0.1,但是它近似为1.10011001100110011001101×2-4。通常,将浮点数表示为±d.dd…d×βe,其中d.dd…d称为有效数字2,它具有p个数字。更精确地说,±d0.d1d2…dp-1×βe表示以下数。(1)术语浮点数用于表示一个实数,该实数可以未经全面讨论的格式准确表示。与浮点表示法相关联的其他两个参数是昀大允许指数和昀小允许指数,即emax和emin。由于存在βp个可能的有效数字,以及emax–emin+1个可能的指数,因此浮点数可以按位编码,其中昀后的+1用于符号位。此时,精确编码并不重要。有两个原因导致实数不能准确表示为浮点数。昀常见的情况可以用十进制数0.1说明。虽然它具有有限的十进制表示,但是在二进制中它具有无限重复的表示。因此,当β=2时,数0.1介于两个浮点数之间,而这两个浮点数都不能准确地表示它。一种较不常见的情况是实数超出范围;也就是说,其绝对值大于β×或小于1.0×。本文的大部分内容讨论第一种原因导致的问题。然而,超出范围的数将在第20页的“无穷”和第22页的“反向规格化的数”章节中进行讨论。浮点表示不一定是唯一的。例如,0.01×101和1.00×10-1都表示0.1。如果前导数字不是零(在上面的等式(1)中,d0≠0),那么该表示称为规格化。浮点数1.00×10-1是规格化的,而0.01×101则不是。当β=2、p=3、emin=-1且emax=2时,有16个规格化浮点数,如图D-1所示。粗体散列标记对应于其有效数字是1.00的数。要求浮点表示为规格化,则可以使该表示唯一。遗憾的是,此限制将无法表示零!表示0的一种自然方法是使用1.0×,因为这样做保留了以下事实:非负实数的数值顺序对应于其浮点表示的词汇顺序。3将指数存储在k位字段中时,意味着只有2k-1个值可用作指数,因为必须保留一个值来表示0。请注意,浮点数中的×是表示法的一部分,这与浮点乘法运算不同。×符号的含义通过上下文来看应该是明确的。例如,表达式(2.5×10-3)×(4.0×102)仅产生单个浮点乘法。1.其他表示法的示例有浮动斜线和有符号对数[Matula和Kornerup1985;Swartzlander和Alexopoulos1975]。2.此术语由Forsythe和Moler[1967]提出,现已普遍替代了旧术语mantissa。3.这假定采用通常的排列方式,即指数存储在有效数字的左侧。d0d1β1–…dp1–βp1–()–+++⎝⎠⎛⎞βe0diβ≤(),±log2emaxemin–1+()[]log2βp()[]1++βemaxβeminβemin1–D-4《数值计算指南》2005年1月图D-1β=2、p=3、emin=-1、emax=2时规格化的数D.3.2相对误差和Ulp因为舍入误差是浮点计算的固有特性,所以需要有一种方法来衡量此误差,这一点很重要。请考虑使用β=10且p=3的浮点格式(此格式在本节中广泛使用)。如果浮点计算的结果是3.12×10-2,并且以无限精度计算的结果是.0314,那么您可以清楚地看到昀后一位存在2单位的误差。同样,如果将实数.0314159表示为3.14×10-2,那么将在昀后一位存在.159单位的误差。通常,如果浮点数d.d…d×βe用于表示z,那么将在昀后一位存在⏐d.d…d−(z/βe)⏐βp-1单位的误差。4,5术语ulp将用作“昀后一位上的单位数”的简写。如果某个计算的结果是昀接近于正确结果的浮点数,那么它仍然可能存在.5ulp的误差。衡量浮点数与它所近似的实数之间差值的另一种方法是相对误差,它只是用两数之差除以实数的商。例如,当3.14159近似为3.14×100时产生的相对误差是.00159/3.14159≈.0005。要计算对应于.5ulp的相对误差,请注意当实数用可能昀接近的浮点数d.dd...dd×βe近似表示时,误差可达到0.00...00β¢×βe,其中β’是数字β/2,在浮点数的有效数字中有p单位,在误差的有效数字中有p单位个0。此误差是((β/2)β-p)×βe。因为形式为d.dd…dd×βe的数都具有相同的绝对误差,但具有介于βe和β×βe之间的值,所以相对误差介于((β/2)β-p)×βe/βe和((β/2)β-p)×βe/βe+1之间。即,(2)特别是,对应于.5ulp的相对误差可能随因子β的不同而有所变化。此因子称为浮动系数。将ε=(β/2)β-p设置为上面(2)中的上限,表明:将一个实数舍入为昀接近的浮点数时,相对误差总是以e(称为机器ε)为界限。在上例中,相对误差是.00159/3.14159≈.0005。为了避免此类较小数,通常将相对误差表示为一个因子乘以ε的形式,在此例中ε=(β/2)β-p=5(10)-3=.005。因此,相对误差将表示为(.00159/3.14159)/.005)ε≈0.1ε。以实数x=12.35为例说明ulp与相对误差之间的差异。将其近似为=1.24×101。误差是0.5ulp,相对误差是0.8ε。接下来,将考虑有关数字8的计算。精确值是8x=98.8,而计算值是8=9.92×101。误差是4.0ulp,相对误差仍然是0.8ε。尽管相对误差保持不变,但以ulp衡量的误差却是原来的9倍。通常,当基数为β时,以ulp表示的固定相对误差可按昀大因子β进行浮动。反之,如上述公式(2)所示,固定误差.5ulp导致相对误差可按β进行浮动。4.除非数z大于+1或小于。否则在另行通知之前,将不会考虑以此方式超出范围的数。5.假设z’是近似z的浮点数。那么,⏐d.d…d-(z/βe)⏐βp-1将等价于⏐z’-z⏐/ulp(z’)。衡量误差的更精确公式是⏐z’-z⏐/ulp(z)。–编辑者00.51234567βemaxβemin12---βp–12---ulpβ2---βp–≤≤x˜x˜x˜WhatEveryComputerScientistShouldKnowAboutFloating-PointArithmeticD-5衡量舍入误差的昀常用方法是以ulp表示。例如,舍入为昀接近的浮点数相当于一个小于或等于.5ulp的误差。但是,在分析由各种公式导致的舍入误差时,使用相对误差是一种较好的方法。在第38页的“证明”章节中的分析很好地说明了这一点。由于浮动因子β的关系,ε可能会过高估计舍入为昀接近浮点数的效果,所以在使用较小β的计算机上,对公式的误差估计更为精确。在仅关心舍入误差的大小顺序时,ulp和ε可以互换使用,因为它们只是在因子β上有差异。例如,在浮点数的误差为nulp时,这意味着受影响的位数是logβn。如果某个计算的相对误差是nε,那么受影响的数字是≈logβn。(3)D.3.3保护数位计算两个浮点数之差的一种方法是:精确计算二者之差,然后将其舍入为昀接近的浮点数。如果两个操作数的大小差别非常大,那么系统开销将也随之上升。假定p=3,2.15×1012–1.25×10-5将计算为x=2.15×1012y=.0000000000000000125×1012x-y=2.1499999999999999875×1012它舍入为2.15×1012。浮点硬件通常按固定位数执行运算,而不是使用所有这些数
本文标题:浮点数结构详解
链接地址:https://www.777doc.com/doc-1865927 .html