您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > TMS320C5000系列DSP性能介
TMS320C5000系列DSP性能介绍TMS320C5000——低功耗高性能DSP,16位定点,速度40~200MIPS。主要用途是有线和无线通信、IP、便携式信息系统、寻呼机、助听器等。目前’C5000系列中又有三种新成员,一种是’C5402,这是廉价型的DSP,目标价格是每片5美元(50K批量),速度保持100MIPS,片内存储空间稍小一些,RAM为16K、ROM为4K。主要应用对象是无线Modem、新一代PDA、网络电话和其它电话系统以及消费类电子产品。第二种是’C5420,它拥有两个DSP核,速度达到200MIPS,200K片内RAM,功耗0.32mA/MIPS,200MIPS全速工作时不超过120mW,为业内功耗最低的DSP。’C5420是当今集成度最高的定点DSP,适合于做多通道基站、服务器、Modem和电话系统等要求高性能、低功耗、小尺寸的场合。第三种是’C5416,它是TI公司0.15μm器件中的第一款,速度为160MIPS,有三个多通道缓冲串行口(McBSPs),能够直接与T1或E1线路联接,不需要外部逻辑电路,有128K片内RAM。应用对象是VoIP、通信服务器、PBX(专用小交换机)和计算机电话系统等。TMS320系列的同一代芯片具有相同的CPU结构,但根据市场的不同需要,形成新的存储器与外设的不同组合,产生了多种派生器件。TMS320C54x关键特性图2是C54x功能结构图,它的主要性能如下:⒈CPU中央处理器(CentralProcessingUnit)的缩写,即CPU,CPU是电脑中的核心配件,只有火柴盒那么大,几十张纸那么厚,但它却是一台计算机的运算核心和控制核心。电脑中所有操作都由CPU负责读取指令,对指令译码并执行指令的核心部件。CPU的主要运作原理,不论其外观,都是执行储存于被称为程式里的一系列指令。在此讨论的是遵循普遍的架构设计的装置。程式以一系列数字储存在电脑记忆体中。差不多所有的CPU的运作原理可分为四个阶段:提取(Fetch)、解码(Decode)、执行(Execute)和写回(Writeback)。先进的多总线结构:一组程序总线(PAB、PB),三组数据总线(CAB、CB,DAB、DB,EAB、EB)40位的数学逻辑单元(ALU):包括40位的桶形移位寄存器和两个独立的40位累加器1717位并行乘法器和40位专用加法器,单周期完成乘法/累加(MAC)适于Viterbi运算的比较、选择、存储单元(CSSU)指数编码器,可在单周期内计算(40位)累加器中数值的指数两个地址产生器,包括八个辅助寄存器和两个的算术单元⒉存储器可寻址存储空间达192K字(程序、数据及I/O各6464bit),C548还可扩展程序存储器(8兆字)典型C5400芯片存储器⒊片内外设软件可编程等待状态产生器可编程的块交换片内锁相环时钟产生器禁止外部总线的控制机制⒋指令集重复单条指令与重复指令块存储器块移动指令32位数运算指令可同时读取2或3个操作数的指令具有并行保存和并行加载的算术指令条件保存指令⒌功耗控制IDLE1、IDLE2和IDLE3指令可控制其进入降功耗模式可控制是否输出CLKOUT信号⒍IEEE标准的1149.1边界扫描逻辑接口TMS320C54x结构概述C54x由中央处理器CPU、存储器和片内外设组成,采用哈佛结构,有独立的程序空间、数据空间和I/O空间。图3是'C54x的内部硬件框图。对所有的'C54x器件来说,图中下半部所示的中央处理单元(CPU)是通用的。总线结构C54x包括8条16比特宽度的总线,其中:一条程序总线(PB)三条数据总线(CB、DB、EB)四条地址总线(PABCABDABEAB)ALU:算术逻辑运算单元主要由40位ALU和两个40位累加器(ACCA和ACCB)组成,如图4所示。ALU和两个累加器用来完成40位二进制补码的算术运算,也能完成布尔运算。当状态寄存储器ST1的C16位置1时,可做两个16位ALU,同时完成两个16位运算。输入:16位立即数;来自数据存储器的16位数;来自暂存器T的16位数;来自数据存储器读出的两个16位数;来自数据存储器读出的一个32位数;来自累加器(A和B)的40位数;输出:ALU的40位输出被送往累加器A或B。桶形移位器:将输入数据左移0~31位或右移0~16位,经常用作数字定标、位提取、扩展算术和溢出保护等操作。输入40位:来自累加器或经DB、CB的数据存储器;输出40位:连到ALU或经EB连到数据存储器;所移位数由指令中移位字段、ST1的ASM字段或T寄存器指定移位位数决定。乘/加模块:由乘法器、加法器、输入数据的符号控制逻辑、小数控制逻辑、零检测、舍入、溢出/饱和逻辑和16位暂存寄存器T等组成。乘法器和ALU在一个指令周期内共同完成(1717补码)乘/加(40位)运算,且可并行地作ALU运算,这些功能可用来做Euclidean距离及LMS滤波等复杂运算。乘/加模块功能方框图如图6所示。比较、选择与保存单元(CSSU):可以完成累加器的高位字和低位字之间的最大值比较(CMPS指令)。另一功能是利用优化的片内硬件资源完成数据通信、模式识别等领域中经常用到的Viterbi蝶形运算。指数编码器:用于支持单周期指令EXP的专用硬件,如图8所示。累加器中数值的指数值,以二进制补码形式(-8~31)存放于暂存器T中;CPU状态和控制寄存器:'C54x共有3个16位状态和控制寄存器(PMST、ST0、ST1)它们都是存储器映象寄存器,可以方便地写入数据、或由数据存储器对它们加载。外设C54x包括通用I/O引脚,XF和BIO定时器PLL时钟产生器HPI口8比特或16比特同步串口带缓存串口BSP多路带缓存串口McBSP时分复用串口TDM可编程等待状态产生器可编程bankswitching模块外部总线接口IEEE1149.1标准JTAG口CPUC54x的CPU结构包括:40比特的ALU,其输入来自16比特立即数、16比特来自数据存储器的数据、暂时存储器、T中的16比特数、数据存储器中两个16比特字、数据存储器中32比特字、累加器中40比特字。2个40比特的累加器,分为三个部分,保护位(39-32比特)、高位字(31-16比特)、低位字(15-0比特)。桶型移位器,可产生0到31比特的左移或0到16比特的右移。17x17比特的乘法器40比特的加法器比较选择和存储单元CSSU数据地址产生器DAGEN程序地址产生器PAGEN内部存储器·'C54x的存储器分为三个可独立选择的空间:程序空间、数据空间和I/O空间;·'C54x的片内存储器包括ROM和RAM,其中RAM又可分为SARAM和DARAM:SARAM为单寻址寄存储器,DARAM为双寻址寄存储器(一周期内可以访问两次)。ROM一般配置成程序存储空间,用于存放要执行的指令、系数表等固定操作数。也可以部分地安排到数据存储空间,由PMST的状态位和DROM决定;RAM一般安排到数据存储空间,存放执行指令所要用的数据。但也可以安排到程序空间,由PMST的状态位OVLY决定。不同'C54x系列内部存储器配置各不相同。'C54x的寻址方式TMS320C54x的指令可能含有1个存储器操作数(指令说明中用Smem表示),也可能有2个存储器操作数(指令说明中用Xmem、Ymem表示),分别称为单存储器操作数和双存储器操作数。单存储器操作数有7种寻址方式,它们是:立即寻址:操作数(常数)含在指令中;绝对寻址:指令中含有操作数的16位地址;累加器寻址:操作数地址在累加器中(A);直接寻址:指令中含有操作数地址的低7位;间接寻址:操作数的地址在辅助寄存器中,支持倒位序寻址、循环寻址等功能;存储器映像的寄存器寻址:访问存储器映像寄存器,又不影响DP或SP;堆栈寻址:访问堆栈;双存储器操作数支持一些特殊指令:如MAC、FIR等复杂指令。'C54x的六级指令流水线'C54xCPU的指令流水线有六级,每个周期有六条指令在工作,它们处于整个执行过程的不同阶段,如图9所示。流水线的工作全部为单字指令连续执行时(理想情况)如图10所示。第二部分:TMS320C54xx性能介绍(二)TMS320C55是TI公司最新推出的定点DSP芯片系列,它比'C54x的性能有很大提高,而且功耗大大降低,是目前TI公司推出的功率最小的DSP芯片,适用于便携式超低功率场合。TMS320C55x主要特点:图1是'C55x的功能结构图,它的主要特点如下:超低功耗设计:在硬件结构中采用双MAC,有4个40bit的累加器,因而在一个周期内可完成更多的任务。有更多的自动并行指令。为发挥附加的硬件功能,有的指令隐含或装有并行化的能力;另一些指令通过'C55xDSP核的最佳汇编器和C编译器自动安排成并行运行。用户可自行编程达到并行操作,以便充分利用'C55xDSP芯片的性能。附加新的指令,扩展硬件处理能力。例如双16位的算术运算、双MAC、条件移位、条件加或减、比例并选择极值、偶或奇对称的FIR滤波、并行移位和存储、寄存器比较或交换等一系列新的指令。先进的高级功率管理能力。其一是自动断电能力,'C55xDSP核连续的对内存、外设和核心功能单元进行监视,自动的对不工作单元断电;其二是用户可以自己配置IDLE休闲域,'C55x有64种休闲方式,通过改变休闲域寄存器对应的状态位就可以改变对应部件电源的通断。通过增加硬件和操作的并行性,极大的提高了处理器的处理能力。可变指令长度增加代码密度:指令长度为8/16/24/40/48bit,选择不同长度可使编码密度达到最佳和有效地利用总线;指令预取由16bit增加到32bit;片上指令缓存单元自动的不包装指令,以便最有效地利用每一周期。附加总线和扩充地址增加数据流量:'C55x有一组程序总线,3组读总线,2组写总线,每组总线中的地址线有24bit,因而极大的扩充了寻址能力。外部存储器接口性能比'C54x有很大提高:采用双字宽(32bit)及高速低价格同步存储器,使存储器操作与CPU操作具有相同的速率。同时有自动断电功能,电源只在使用时接通。指令高速缓存减少外部存储器访问:'C55x是第一个采用指令高速缓存的器件,允许几条指令同时加载到高速缓存器中,CPU不必对每条指令都去访问存储器,并且在时钟速率下利用指令,增加速度,降低功耗。改进的控制代码,改善了控制代码的密度:'C55x增加了几个控制代码的附件,包括新的指令缓存单元、数据存储器和ALU。对条件执行的两种可能性都有准备,使得一旦条件出现,DSP立即响应。高级仿真缩短调试周期:代码与'C54x兼容,维护消费者的软件投资。TMS320C55x结构概述'C55x结构主要由下列各部分组成:一个32×16-bit指令缓冲队列:缓冲可变长度指令和实现块重复操作。两个17-bit×17-bitMAC:在单周期内实现双MAC操作。一个40-bitALU:执行高精度算术和逻辑运算。一个40-bit桶形移位寄存器:可以把40-bit结果左移31位或右移32位。一个16-bitALU:和主ALU并行执行简单算术运算。四个40-bit累加器:保持计算结果和减少所需存储器数量。十二条独立总线:并行地对不同操作单元同时提供处理指令和操作数。指令缓冲单元功能它对应用程序的指令进行缓存和解码,包含了解释'C55x可变长度指令的解码逻辑。指令缓存单元使各种计算单元的任务流量维持一个常数,以便增加DSP的效率。(见图2)程序流单元功能当程序执行时,这个单元用来保存执行点的轨迹。此单元包括使循环有效的硬件以及用于预测转移、条件执行、流水线保护的专用硬件。当程序的控制发生变化时,例如转移和调用子程序时,这个硬件能使处理器所需周期数减少,从而可提高处理效率。(见图3)地址数据流单元功能在程序执行期间,这个单元提供数据访问的地址指针。此单元可以使'C55x实现有效的寻址模式。管理五条数据总线的专用硬件用来保持各个计算单元有恒定的数据流。由于有一个通用的ALU作简单的算术运算,使得地址数据流单元可进一步增加'C55x结构的指令并
本文标题:TMS320C5000系列DSP性能介
链接地址:https://www.777doc.com/doc-5030807 .html