Hardware 版 (精华区)

发信人: loveit (一片冰心在玉壶), 信区: Hardware
标  题: P4大揭密
发信站: 哈工大紫丁香 (2001年03月02日09:15:28 星期五), 站内信件

P4大揭密
2001年03月01日10:17 
  PENTIUM 4是Intel公司新一代处理器。但不管你相信与否,自从200MHz 
Pentium Pro开始, Pentium II, Pentium III, Xeon, 还有 Celeron 等等处理器
都是基于P6微技术。在过去的几年里,Intel只是在这些处理器中增加了一些诸如
MMX、 SSE 和 缓存,和改进了一些制造处理器的工艺,然而以上处理器都是采用
同一个设计版本。

  我们可以探讨一下关于P4技术的核心以及技术改进:

  深管线——处理器最重要的管线之一,分支预报和防御管线在Pentium 4中是
20个进程的深度,这整整是PIII的两倍,P4还对每一个管线的复杂进程进行了简化


  改进的分支预报单元——Intel 声称NetBurst 错误预报削减了P6设计原预计
性能的33%之多。P4处理器改进了其精确度,并存储更多的关于过去分支信息在一
个更大的容量中,4K 分支目标缓冲器是PIII的8倍,这对于分支预报提供了更好的
算法。两倍时钟的运算器——NetBurst 有一对简单的算术逻辑单元(ALUs),它用
于处理特定的整数运算。这些单元运行速度是处理器的两倍。例如,在1.5GHz 
Pentium 4处理器中,他的运行速度是3GHz。两倍时钟速度是一个巧妙的设计,深
管线的P4 需要它来保持它的工控。   执行轨迹追踪缓冲——像PIII和Athlon这
些同时代的x86处理器的译码x86指令更小,处理它们之前执行bite-sized操作(
Inter 称之为微操作)。这允许x86处理器有更多RISC-like 设计,但是译码的
x86指令执行要用时间。NetBurst 的执行踪迹缓存代替常规的L1指令缓存,它储存
了micro-ops 而不是x86指令。Intel 关于踪迹缓存的准确的大小不是很好,但是
他们宣称它可以存储12,000micro-ops。

  P4的NetBurst L1 数据缓存仅仅是奔腾III 的大小的一半, 仅 8K。远小于
Athlon 的64K 数据缓冲。这个设计是因为更较小的缓存有更低的传输延迟时间,所
以Intel 选择这个缓存的大小。如果Athlon 和PIII 数据缓存是3周期传输延迟时
间,那么P4的L1数据缓存传输延迟时间是2循环。这是P4保持深管线很好的储存计
划的一部分。

  P4的 L2 缓存是 256K, 和Athlon和PIII相仿, 但是它的发热更少。P4的L2缓
存接口是256比特带宽,它在每时钟周期上发送数据。 而1.4GHz的奔腾4的带宽是
44.8GB/sec。几乎是1GHZ的PIII L2缓冲的4倍带宽。而Athlon它 L2 缓存仍然很慢
,但是我看到 AMD 工程师宣称 Athlon's L2 缓存没有实际的带宽限制。无论怎样
,P4的L2缓存仍然惊人。

  100MHz的四芯导线泵的前端总线—— NetBurst 总线每一时钟循环发送数据4
次,因此大家总是谈论"400MHz 总线" 。但我们只将其作为一个100MHz时钟频率来
谈论,P4拆分处理事务总线在400MHz可以以每秒有3.2GB 数据传输,或可以说这是
在100MHz下得到的。

  SSE2 SIMD 扩展名——一个计算低工控最好的方法是让每指令执行更多的工作
。到P4设计结束为止,Intel 增加了一套包括144条新建指令的SSE2混合。像最早
的SIMD 扩展名,SSE2涉及了多重的数据目标上立刻执行一单个的指令(从此 
SIMD)。最重要的是SSE2能处理128位和两倍精密浮点数学运算。处理更精确浮点数
的能力使SSE2成为加速多媒体主机、3D处理工程以及工作站类型任务的基础配置。
但重要的是软件是否能适当的优化利用它。

  相对简单的浮点处理器—— 奔腾 4的浮点运算单元设计和奔腾 III不同,而
是与Athlon 宿主浮点运算器有些相似。P4的FPU 无法与Athlon同样的执行工作程
序,但在一些情况下有更高的传输延迟时间。为SSE2优化的程序将能在许多情形中
绕过P4的FPU处理弱点。

  我们这些P4设计的分析断定确实相当的激进。P4的管道的深度,与它的
less-than-stellar FPU 结合,将保持它的工控或clock-for-clock 性能。和其它
的Pentium系列处理器的设计相比,特别在常规的x86运算器和浮点运算器上有较大
的倾斜,P4的性能看来就不是这样令人激动了。但是奔腾 4 平台本身是印象深刻
的,与带宽的接口可应用在整个地方。由于优化为 SSE2, 多媒体应用软件应该在
P4上运行很快。


【作者:小熊在线-译文/张莉 北京】  


--
::( o )::::::::::::  |`.             |                                
:( 0)  ):::^^::::. / | ./ /|\      \ _ /                              
:::::::::::::::::./`-|/./ || \ -==  (_)  ==-                          
:::::::::::::::: |   ||/  ||  \    /   \           东边日出西边雨     
 ≈=~_≈≈≈- \≌≌≌≌'≌≌'--/~≈≈ ~=~^~≈≈         道是无晴却有情

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.229.114]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.336毫秒