arm9体系结构解析

合集下载

第3章 ARM9汇编指令系统

第三章
例如
例如： LDR R8，[R10] ；R8←[R10] LDRNE R2，[R5，#960]！；（有条件地） R2←[R5+960]，R5←R5+960 LDR R0，localdata ；加载一个字到R0寄存器，该字存于localdata所指地址处 STR R5，[R7]，#-8！；R5→[R7]，R7←R7-8 STRB R0，[R3，-R8 ASR #2] ；R0→[R3-R8/4]，存储R0的最低有效字节，R3和R8不变
其中：type 必须是下面所列的形式之一： SH 带符号半字（仅对LDR）； H 无符号半字； SB 带符号字节（仅对LDR）。 label 程序相对偏移表达式。偏移量必须是在当前指令的上下255字节范围内。 offset 加在Rn上的偏移量。其形式是下列两种之一： ① #expr 是取值范围为-255~+255的整数，经常是常量或常量表达式。 ② {-} Rm Rm是内含偏移量的寄存器，它不能是R15。
第三章
存储器访问指令（续）
（3）LDR和STR ----双字：加载/存储两个相邻的寄存器，64位双字。其句法有4种：
Op {cond} D Rd，[Rn] 零偏移 Op {cond} D Rd，[Rn，offset] {!} 前索引偏移 Op {cond} D Rd，label 程序相对偏移 Op {cond} D {T} Rd，[Rn]，offset 后索引偏移
第三章
存储器访问指令（续）
（1） SWP：在寄存器和存储器之间进行数据交换，其句法是： SWP {cond} {B} Rd，Rm，[Rn] 其中：B是可选后缀，若有B，则交换字节，否则交换字。该指令作用是数据从存储器加裁到Rd中，Rm中的内容存储到存储器，需交换数据存储单元的首地址在Rn中。在此，Rd和Rm可以相同，但Rn必须与Rd、Rm不同。

ARM7跟ARM9的区别跟ARM体系结构新

ARM7与ARM9的区别及ARM体系结构一、 ARM7与ARM9的区别新一代的ARM9处理器，通过全新的设计，采用了更多的晶体管，能够达到两倍以上于ARM7处理器的处理能力。

这种处理能力的提高是通过增加时钟频率和减少指令执行周期实现的。

1 时钟频率的提高ARM7处理器采用3级流水线，而ARM9采用5级流水线。

增加的流水线设计提高了时钟频率和并行处理能力。

5级流水线能够将每一个指令处理分配到5个时钟周期内，在每一个时钟周期内同时有5个指令在执行。

在同样的加工工艺下，ARM9TDMI处理器的时钟频率是ARM7TDMI的1．8～2．2倍。

2 指令周期的改进指令周期的改进对于处理器性能的提高有很大的帮助。

性能提高的幅度依赖于代码执行时指令的重叠，这实际上是程序本身的问题。

对于采用最高级的语言，一般来说，性能的提高在30％左右。

2．1 loads 指令矛n stores指令指令周期数的改进最明显的是loads指令和stores指令。

从ARM7到ARM9这两条指令的执行时间减少了30％。

指令周期的减少是由于ARM7和ARM9两种处理器内的两个基本的微处理结构不同所造成的。

(1)ARM9有独立的指令和数据存储器接口，允许处理器同时进行取指和读写数据。

这叫作改进型哈佛结构。

而ARM7只有数据存储器接口，它同时用来取指令和数据访问。

(2)5级流水线引入了独立的存储器和写回流水线，分别用来访问存储器和将结果写回寄存器。

以上两点实现了一个周期完成loads指令和stores指令。

2．2 互锁(interlocks)技术当指令需要的数据因为以前的指令没有执行完而没有准备好就会产生管道互锁。

当管道互锁发生时，硬件会停止这个指令的执行，直到数据准备好为止。

虽然这种技术会增加代码执行时间，但是为初期的设计者提供了巨大的方便。

编译器以及汇编程序员可以通过重新设计代码的顺序或者其他方法来减少管道互锁的数量。

2．3 分枝指令ARM9和ARM7的分枝指令周期是相同的。

ARM9的五级流水线

引言流水线技术通过多个功能部件并行工作来缩短程序执行时间，提高处理器核的效率和吞吐率，从而成为微处理器设计中最为重要的技术之一。

ARM7处理器核使用了典型三级流水线的冯·诺伊曼结构，ARM9系列则采用了基于五级流水线的哈佛结构。

通过增加流水线级数简化了流水线各级的逻辑，进一步提高了处理器的性能。

ARM7的三级流水线在执行单元完成了大量的工作，包括与操作数相关的寄存器和存储器读写操作、ALU 操作以及相关器件之间的数据传输。

执行单元的工作往往占用多个时钟周期，从而成为系统性能的瓶颈。

ARM9采用了更为高效的五级流水线设计，增加了2个功能部件分别访问存储器并写回结果，且将读寄存器的操作转移到译码部件上，使流水线各部件在功能上更平衡；同时其哈佛架构避免了数据访问和取指的总线冲突。

然而不论是三级流水线还是五级流水线，当出现多周期指令、跳转分支指令和中断发生的时候，流水线都会发生阻塞，而且相邻指令之间也可能因为寄存器冲突导致流水线阻塞，降低流水线的效率。

本文在对流水线原理及运行情况详细分析的基础上，研究通过调整指令执行序列来提高流水线运行性能的方法。

1ARM7／ARM9流水线技术1．1ARM7流水线技术ARM7系列处理器中每条指令分取指、译码、执行三个阶段，分别在不同的功能部件上依次独立完成。

取指部件完成从存储器装载一条指令，通过译码部件产生下一周期数据路径需要的控制信号，完成寄存器的解码，再送到执行单元完成寄存器的读取、ALU运算及运算结果的写回，需要访问存储器的指令完成存储器的访问。

流水线上虽然一条指令仍需3个时钟周期来完成，但通过多个部件并行，使得处理器的吞吐率约为每个周期一条指令，提高了流式指令的处理速度，从而可达到O．9MIPS／MHz的指令执行速度。

在三级流水线下，通过R15访问PC(程序计数器)时会出现取指位置和执行位置不同的现象。

这须结合流水线的执行情况考虑，取指部件根据PC取指，取指完成后PC+4送到PC，并把取到的指令传递给译码部件，然后取指部件根据新的PC取指。

ARM9寻址方式及指令集介绍

ARM9寻址方式及指令集介绍ARM9是一种32位精简指令集计算机（RISC）架构的微处理器。

在本文中，我们将介绍ARM9寻址方式和指令集的基本特点。

直接寻址是最简单的寻址方式，寻址单元根据操作码中给出的直接地址来访问内存。

例如，LDR指令将数据从内存中的特定地址加载到寄存器中。

直接寻址在寻址范围上有限制，因为地址是直接编码在指令中的。

间接寻址是通过一个保存数据的寄存器的地址来访问内存。

寄存器中的地址表示需要访问数据的内存地址。

例如，LDR指令可以使用R0寄存器中的地址来获取数据。

间接寻址使得程序可以动态地计算内存地址，提高了灵活性。

相对寻址是通过相对于当前指令地址的偏移量来访问内存。

偏移量在指令的操作码中给出，并且通常是一个8位或12位的整数。

相对寻址使得程序可以方便地访问位于当前指令之前或之后的内存位置。

基址寻址是通过一个基址寄存器和一个偏移量来访问内存，其中基址寄存器存储了起始地址，偏移量存储了与起始地址的相对位置。

例如，LDR指令可以使用R0寄存器作为基址寄存器，并使用R1作为偏移量。

基址寻址适用于访问数组或数据结构等连续的内存块。

核心寄存器寻址是指通过核心寄存器的内容来访问内存。

在ARM9架构中，核心寄存器包括程序计数器、堆栈指针和链接寄存器等。

这些寄存器具有特殊的寻址方式，允许对于特定的功能进行优化。

ARM9的指令集包括数据处理指令、分支和跳转指令、访存指令和特权指令等。

数据处理指令是最常用的指令类型，用于完成算术和逻辑操作。

例如，ADD指令将两个操作数相加，并将结果存储在目的寄存器中。

分支和跳转指令用于控制程序的流程。

例如，B指令可以根据条件跳转到指定的地址上。

访存指令用于读写内存和I/O端口。

例如，LDR指令可以将数据从内存加载到寄存器中，STR指令可以将寄存器中的数据存储到内存地址中。

特权指令用于进行特权级别的操作，例如，访问系统寄存器或控制外设。

这些指令一般只能由操作系统或系统软件使用。

基于ARM9的嵌入式Linux应用开发平台的分析与实现

基于ARM9的嵌入式Linux应用开发平台的分析与实现陈斌【摘要】随着经济的迅速发展以及科学技术水平的不断提高,IT行业取得了较大程度上的进步,为我国国民经济的发展以及人民生活水平的提高做出重要贡献。

尤其是近几年来,信息技术、网络技术飞速发展,IT领域不断发展与升级,在这种环境之下,嵌入式系统成为IT领域的重要焦点之一。

目前状况下,行业内存在着诸多的嵌入式系统,而在这些嵌入式系统当中,Linux最为受到青睐,这主要是因为Linux具有自身的强大优势,主要表现在三个方面,分别是元代码开放、功能强大一级级易于移植等。

就目前市场状况而言,ARM9系列的嵌入式微处理器已经成为嵌入式系统首选的处理器产品,本文就在此基础之上针对基于ARM9的嵌入式Linux应用开发平台的分析与实现进行有益探讨。

【期刊名称】《佳木斯职业学院学报》【年(卷),期】2014(000)005【总页数】2页(P1-2)【关键词】嵌入式系统 ARM9 Linux应用开发平台文件系统【作者】陈斌【作者单位】铁岭师范高等专科学校【正文语种】中文【中图分类】TP316.811.嵌入式系统模型图1显示的主要是嵌入式系统的模型结构：如果从物理层面的角度对其进行一定程度上的分析，可以将嵌入式计算系统理解成一个专用的电子系统，一般情况下，这一专用的电子系统都处于一个非电子系统环境之下，且这一系统环境具有一定的复杂性。

至于这两种系统的关系，可以对其进行一定程度的抽象化处理，即具有复杂性的非电子系统是嵌入式系统的外部环境，我们将其称为被嵌入的系统。

就一般状况而言，整个系统之中所包含的嵌入式系统为多个，同时，嵌入式系统能够与外界进行直接的通信。

对于嵌入式系统而言，它能够提供一个专门的服务给被嵌入系统，这一服务主要表现为两个方面：一方面，这一服务可以表现为对外界输入的响应；另一方面，这一服务也可以是对被嵌入系统或者与之相邻的嵌入式系统数据的响应。

就如现代机电控制系统，对于这一系统而言，它是一种分布式的系统，在这种系统环境之下，各个处理单元都是通过网络进行一定程度上的连接的。

arm cortex-a9参数

arm cortex-a9参数ARM Cortex-A9是英国ARM公司设计的一款高性能处理器，属于ARM 的第9代应用处理器。

它在功耗和性能之间取得了良好的平衡，适用于广泛的应用领域。

Cortex-A9采用了一种叫做“超标量乱序执行”的架构，具有双发射乱序执行引擎和两个整数单元，使得它能够同时执行多条指令，提高了处理器的整体性能。

此外，Cortex-A9还具备了高度可配置的内部和外部总线接口，可与其他外设和存储器进行高效的数据交换。

Cortex-A9的主要特点之一是它的多核处理能力。

它支持双核和四核配置，可实现更高的处理性能和更好的多任务处理能力。

多核技术可以将任务分配给不同的核心进行处理，提高系统的响应速度和并行处理能力，适用于高性能计算、嵌入式系统、网络设备等领域。

在性能方面，Cortex-A9具备了高达2GHz的主频，并且支持NEON 技术，可以提供类似于SSE指令集的高级SIMD(Single Instruction Multiple Data)功能。

NEON技术能够在同一时钟周期内执行多个相同类型的数据操作，提高了图像处理、多媒体应用和信号处理等领域的运算效率。

Cortex-A9还支持硬件浮点运算，拥有一个32位浮点单元，可以加速浮点运算的执行。

这对于需要进行大量浮点运算的应用程序来说，如科学计算和图形处理等，具有重要的意义。

在功耗方面，Cortex-A9采用了低功耗设计，可以根据实际需要进行动态电压调整和频率调整，以实现更好的功耗控制。

这使得它在移动设备和嵌入式系统中得到了广泛应用，能够提供高性能的同时，延长设备的电池寿命。

总的来说，ARM Cortex-A9是一款高性能处理器，具有多核处理能力、高频率运算、NEON技术支持和低功耗设计等特点。

它适用于各种应用领域，如智能手机、平板电脑、网络设备和工业控制等。

随着技术的不断发展，Cortex-A9的性能还将进一步提升，为各种应用带来更好的体验和更高的效率。

ARM7、ARM9、ARM11、ARM-Cortex的关系

ARM7、ARM9、ARM11、ARM-Cortex的关系1. ARM7、ARM9、ARM11、ARM-Cortex 的关系ARM7：ARMv4 架构，ARM9：ARMv5 架构，ARM11：ARMv6 架构，ARM-Cortex 系列：ARMv7 架构ARM7 没有MMU(内存管理单元)，只能叫做MCU（微控制器），不能运行诸如Linux、WinCE 等这些现代的多用户多进程操作系统，因为运行这些系统需要MMU，才能给每个用户进程分配进程自己独立的地址空间。

ucOS、ucLinux 这些精简实时的RTOS 不需要MMU，当然可以在ARM7 上运行。

ARM9、ARM11，是嵌入式CPU（处理器），带有MMU，可以运行诸如Linux 等多用户多进程的操作系统，应用场合也不同于ARM7。

到了ARMv7架构的时候开始以Cortex 来命名，并分成Cortex-A、Cortex-R、Cortex-M 三个系列。

三大系列分工明确：A 系列面向尖端的基于虚拟内存的操作系统和用户应用；R 系列针对实时系统；M 系列对微控制器。

简单的说Cortex-A 系列是用于移动领域的CPU，Cortex-R 和Cortex-M 系列是用于实时控制领域的MCU。

所以看上去ARM7 跟Cortex-M 很像，因为他们都是MCU，但确是不同代不同架构的MCU（Cortex-M 比ARM7 高了三代！），所以性能也有很大的差距。

此外，Cortex-M 系列还细分为M0、M3、M4 和超低功耗的M0+，用户依据成本、性能、功耗等因素来选择芯片。

想必楼主现在肯定知道了ARM7、Cortex-M 的区别，不过还是花了点时间整理在此，可以帮助后来的初学者搞明白这些基本的概念性问题2. ARM7，ARM9，cortex-m3,cortex-m4,cortex-a8 的区别arm 系列从arm11 开始，以后的就命名为cortex，并且性能上大幅度提升。

ARM体系结构

2015/9/288源自ARM920T系统结构分析
ARM9TDMI处理器一个显著的特点是采用指令和数据分离访问的方式，即采用了指令缓存（I-Cache）和数据缓存（D-Cache）。这样可以把指令访问和数据访问单独安排1级流水线。
2015/9/28
9
ARM9处理能力的提高是通过增加时钟频率和减少指令执行周期实现的。（1）时钟频率的提高 ARM9采用了五级流水线，而ARM7采用的是三级流水线，ARM9增加的流水线设计提高了时钟频率和并行处理能力。五级流水线能够将各条指令处理分配到5个时钟周期内，在每个时钟周期内同时有5条指令在执行。在同样的加工工艺下，ARM9 TDMI处理器的时钟频率是ARM7 TDMI的2倍左右。（2）指令周期的改进指令周期的改进有助于处理器性能的提高。性能提高的幅度依赖于代码执行时指令的重叠。 ① load指令和store指令指令周期数改进最明显的是load指令和store指令。 ② 互锁(interlock)技术当指令需要的数据因为以前的指令没有执行完，将产生管道互锁。管
操作系统的保护模式指令或数据预取操作中止时的模式，该模式下实现虚拟存储器或存储器保护当执行未定义的指令时进入该模式响应普通中断时的处理模式
未定义模式 IRQ模式
Und Irq
FIQ模式
Fiq
响应快速中断时的处理模式
2015/9/28
21
处理器工作模式
ARM微处理器的运行模式可以通过软件改变，也可以通过外部中断或异常处理改变。大多数的应用程序运行在用户模式下，当处理器运行在用户模式下时，某些被保护的系统资源是不能被访问的。除用户模式以外，其余的6种模式称为非用户模式或特权模式；除去用户模式和系统模式以外的5种又称为异常模式，常用于处理中断或异常，以及访问受保护的系统资源等情况。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ARM9功能框图
•
AMBA总线 AMBA（Advanced Microcontroller Bus Architecture）是ARM 公司研发的一种总线规范。
包括
–
•
AHB(Advanced High-performance Bus)：用于高性能系统模块的连接，支持突发模式数据传输和事务分割；可以有效地连接处理器、片上和片外存储器，支持流水线操作。 APB（Advanced Peripheral Bus）：用于较低性能外设的简单连接，一般是接在AHB系统总线上的第二级总线。
•
•
5 级流水线实现了以下改进：
– 改进 CPI 到约1.5
– 提高了最大时钟频率（300M）
ARM9TDMI
ARM920T
2x 16K caches MMU 支持虚拟地址和内存保护写缓冲
D Cache
GLUE
ARM9TDMI
MMU
外部存储器
I Cache
ARM9xxT
带Cache的ARM9TDMI
ARM or Thumb Inst Decode Reg Decode Reg Read Shift + ALU
Memory Access
Reg Write
FETCH
DECODE
EXECUTE
MEMORY
WRITE
流水线技术
• ARM9与ARM7比较流水线由三级变到五级，程序的执行时间Tprog Tprog=Ninst*CPI/Fclk Tunmb指令由软解码变为硬解码
价格
性能
指令集高级语言支持寻址模式
减少代码尺寸，增加指令的执行周期数
大量的混杂型指令集，有简单快速的指令，也有复杂的多周期指令，硬件完成复杂的寻址模式，支持内存到内存寻址
寄存器数目
寄存器较少
寄存器较多
CISC VS RISC
ARM9TDMI
•
Harvard架构
– 增加了可用的存储器宽度指令存储器接口数据存储器接口 – 可以实现对指令和数据存储器的同时访问
ARM存储格式
大端的数据存放格式小端的数据存放格式
word a=0x f6 73 4b cd
低地址地址A 地址A+1 地址A+2 地址A+3 高地址 f6 73 4b cd
低地址
cd
4b
地址A 地址A+1
73
f6
地址A+2
地址A+3 高地址
ARM 处理器7种工作模式
• 用户模式(usr) - 正常的程序执行模式
ARM9体系结构
内容
• • • • • • • • 计算机体系结构基础 ARM架构 ARM处理器的工作状态 ARM流水线技术 ARM体系结构的存储器格式 ARM处理器工作模式 ARM体系结构的寄存器组织 ARM处理器的异常处理
Hale Waihona Puke 体系结构冯诺依曼结构
单一存储、统一编址、分时复用
体系结构
哈佛结构
流水线技术
• 三级流水线技术
ARM9TDMI流水线技术
ARM7TDMI
Instruction Fetch ThumbARM decompress ARM decode Reg Select
Reg Read
Shift
ALU
Reg
Write
FETCH
DECODE
EXECUTE
ARM9TDMI
Instruction Fetch
–
AMBA总线
测试接口 ARM CPU 并行接口串行接口
SDRAM Control
桥
SRAM
LCD Control
Timer
UART
基于AMBA总线的典型系统
ARM工作状态
• 从编程者角度看ARM9有两种工作状态，并且可相互切换 • ARM状态，处理执行32位的ARM指令字对齐 • Thumb状态，处理执行16位的Thumb指令半字对齐如果在1K的存储空间中，可以放32条ARM指令，就可以放64条Thumb指令，因此在存放 Thunb指令时，代码密度高
处理器状态切换
• 处理器状态
使用BX指令将ARM9TDMI内核的操作状态在ARM状态和Thumb 状态之间进行切换
跳转地址标号
;从Arm状态切换到Thumb状态 LDR BX R0,=Lable+1 R0
地址最低位为1 ，表示切换到 Thumb状态地址最低位为0 ，表示切换到 ARM状态
;从Thumb状态切换到ARM状态 LDR BX R0,=Lable R0
编程模型
ARM存储器格式
ARM 的寻址空间是线性的地址空间，为232=4G • Bytes 0 to 3 存储第一个word, bytes 4 to 7存储第二个 word
• •
ARM 支持大端（ Big-endian ）和小端（ Little-endian ）的内存数据方式，可以通过硬件的方式设置（没有提供软件的方式）端模式
• 快速中断模式(fiq) - 支持高速数据传输或通道处理中断模式(irq) - 用于通用中断处理管理员模式(svc) - 操作系统的保护模式. 中止模式(abt) - 支持虚拟内存和/或内存保护系统模式(sys) - 支持操作系统的特殊用户模式未定义模式(und) - 支持硬件协处理器的软件仿真
分开存储、独立编址、两倍带宽、执行效率更高
指令集系统
嵌入式微处理器的指令系统可采用精简指令集系统RISC（Reduced Instruction Set Computer）或复杂指令集系统CISC（Complex Instruction Set Computer）
CISC RISC 由软件完成部分硬件功能，软件复杂性增加，芯片成本低使用流水线降低指令的执行周期数，增加代码尺寸简单的单周期指令，软件完成简单的寻址模式，仅允许 LOAD 和 STORE 指令存取内存，其它所有的操作都基于寄存器到寄存器由硬件完成部分软件功能，硬件复杂性增加，芯片成本高
处理器工作模式
决定可以访问的系统资源（寄存器、cache、等）
• 处理器模式分特权模式，非特权模式特权模式下，允许完全读/写CPSR寄存器
非特权模式下，只允许对CPSR的控制域进行读访问，但允许对条件标志的读/写访问
ARM微处理器：CPU模式
User模式 System 模式
特权模式可以存取系统中的任何资源程序不能访问有些受保护的资源只能通过异常的形式来改变CPU的当前运行模式与User模式的运行环境一样但是它可以不受任何限制的访问任何资源该模式主要用于运行系统中的一些特权任务