五、K8L构架的浮点运算性能 - 两倍于K8构架
得益于2006年工艺的大幅度提升,AMD在K8L构架的浮点运算器方面有了进行翻倍性能加强的能力:FADD、FMUL及SSE等浮点运算器将由64位扩展到128位。同时,K8L构架的两条浮点数据传输带宽也加宽到128位,这使得处理器可以与L1缓存进行128位的高速传输。相比只拥有一条浮点数据传输带的CORE构架,K8L将有一定的优势。同时,K8L构架在浮点FADD和FMUL中也将拥有128位的ADD/MUL块处理能力来面对SSE2数据。在K8构架中FSTORE单元所存在的传输及运算法则缺陷等问题也将在K8L中得到改进。
另外,相对于K8构架的1个双精度浮点FADD和1个双精度浮点FMUL,K8L构架翻倍的增强了其浮点计算峰值的性能,并引入了新的指令集FMAC等和改进了算法法则。K8L构架相比过去K8构架的1个双精度浮点运算/时钟的能力,提高到2个双精度浮点/时钟。除去引入的新指令集的优势,K8L构架也已经把K8构架的1个双精度浮点FADD及FMUL/时钟,提高到K8L构架的2个双精度浮点FADD及FMUL/时钟。K8L构架在基于SSE/SSE2/SSE3的浮点运算运用中也会有一定程度的提高--实现了单周期执行同一并行SSE2指令的能力,这点和CORE构架是一样的,而K8构架则需要2周期。(不过在SSE浮点任务上K8L构架依然会落后于同频CORE构架处理器。)
FPU性能翻倍的同时,过去在K8构架中的两条FPU宏指令将在K8L构架中将能够融合为一条宏指令来同时分派和编译,增强了数据处理的合理性和便利性。所以128位的浮点运算单元将至少使K8L构架处理器在FPU、向量SSE数据的分派、传输、解码速度三方面同时达到现有K8构架处理器的两倍速度。
图中的FMISC(即FSTORE)单元目前计划保持为64位,AMD未来可能会考虑将其扩展为128位,这类似于处理器L2缓存为512K或1M的区别。同时可以看见图中K8L构架的FADD单元和FMUL单元都被扩展到了128位,其理论浮点处理性能可以在大量使用矢量SSE指令的情况下提高一倍。
总的来看,K8L构架的浮点运算能力将至少比K8构架快一倍,甚至比当前最强大的CORE构架处理器还要快10%,尤其在处理没有SSE优化的X87数据上,K8L将比CORE构架快50%以上。

