三、SSE、浮点性能翻倍-全面增至128位
Barcelona一项重要的改进就是AMD反复宣传的128位SSE执行位宽。
增强了SSE性能之后,Barcelona拥有了比K8芯片强大2倍的SSE处理性能,同时AMD也发现16位的取指令单元位宽已经成为了一个新的性能瓶颈。于是K8构架的16位取指令单元位宽也适应时代的改进为32位,这样瓶颈问题就得到了解决。在拥有了强大的执行单元后,接下来要做的就是确保及时输入足够的数据,AMD在此将L1缓存至执行单元的位宽由双路64位增强为双路128位。同样L1缓存至L2缓存及内存的位宽也同样增强到128位。
128位SSE执行单元的改进与INTEL由Yonah至Merom/CORE的改进相类似。两年前,我们曾在评测中将Yonah芯片和K8芯片运行在同一频率,结果说明Yonah的视频编码性能大幅落后于K8。虽然Yonah相对上一代的Dothan已经在SSE性能上改进了不少,但直到CORE构架的改进完成,Pentium M构架体系才真正在SSE性能方面超越了AMD的K8构架。无论是其128位SSE执行单元位宽、128位的前端接口,CORE构架的解码能力当时都大副超越了K8构架。
在前文中,我们已经介绍过AMD在K8L构架的浮点运算器方面进行性能翻倍的改进:FADD、FMUL及SSE等浮点运算器将由64位扩展到128位。同时,K8L构架的两条浮点数据传输带宽也加宽到128位,使得处理器可以与L1缓存进行128位的高速传输。相比只拥有一条浮点数据传输带的CORE构架,K8L将有一定的优势。同时,K8L构架在浮点FADD和FMUL中也将拥有128位的ADD/MUL块处理能力来面对SSE2数据。在K8构架中FSTORE单元所存在的传输及运算法则缺陷等问题也将在K8L中得到改进。K8L构架的浮点运算能力将至少比K8构架快一倍,甚至比当前最强大的CORE构架处理器还要快10%,尤其在处理没有SSE优化的X87数据时,K8L构架芯片将比CORE构架芯片快50%以上。


