深入了解AMD推土机架构【Part2 服务器推土机】

如题所述


深入探索AMD服务器推土机架构:解析与挑战

本文围绕AMD的推土机架构展开,从服务器专业评测的角度剖析,特别是针对Opteron处理器的进阶版本——"打桩机"(Abu Dhabi)和"interlagos"的比较,源于The Bulldozer Aftermath: Delving Even Deeper这篇权威文章。


尽管理论上提供了33%的性能提升,但"打桩机"在实际应用中的表现却令人失望。单线程性能和能耗问题引发了业界的热议,有人质疑AMD是否复制了奔腾四的困境,批评者则针对时钟性能和核心优化提出了疑问。


尽管AMD继续倚重推土机架构,但其架构问题引起了广泛的质疑。通过深入分析SAP和SPEC CPU2006等测试,我们可以窥见其中涉及的分支预测挑战,如错误处理机制的不足,这是一项亟待优化的难题。


批评者将推土机与奔腾四进行类比,指出其设计上的缺陷和性能瓶颈。以下是两者在关键特性上的对比:



    分支预测:推土机的错误惩罚较低(少于30周期),而奔腾四高达100+周期。相比之下,Sandy Bridge通过μop缓存减少了分支误预测。
    流水线设计:推土机的深度较Pentium 4(18级)浅,接近Intel Nehalem/Sandy Bridge(小于20级),影响了单线程性能。
    解码器:推土机共享解码器以节省功耗,但对单线程性能产生影响,通过预解码技术进行了X86融合优化。
    整数核心:推土机的灵活性使其在并行处理低IPC代码时更具优势,但整数指令吞吐量有所下降。
    瓶颈与并行性能:前端性能可能限制高IPC负载,但在轻度多线程游戏中,推土机仍有所提升。

总体来看,推土机架构在并行处理和能效优化上展现了一定价值,但牺牲了单线程性能。FX处理器在多核应用中的表现平平,游戏性能提升有限。在服务器领域,皓龙6200在一些场景下优于至强5600,但至强E5的加入导致了新的竞争格局,例如在VMware测试中的表现引发了讨论。


专业测试显示,皓龙6276在服务器任务如OLAP、虚拟化和渲染上并不如Magny-Cours,但在SAP和HPC测试中,有大约20%的性能提升。SAP S&D基准揭示,处理器在数据处理速度和乱序引擎性能上要求极高,而SNB的改进预取器使得它在SPEC2006整数测试中超越了Westmere。


尽管推土机整数核心有限,但通过预读取和乱序缓冲优化,预计在SAP性能上会优于Magny-Cours。然而,实际提升并未达到理论上的33%,AMD的承诺并未完全兑现,特别是对于SPEC2006整数测试,单核性能对比中E5的优势明显。


Libquantum、OMNETPP和MCF的性能提升超过了核心数量的增长,显示出推土机在IPC方面的优势。然而,Perlbench等测试中,33%核心数的增加未能弥补IPC下降,揭示了更深层次的问题。


尽管Libquantum得分显著提高,但与E5-2660之间仍有15%的差距。分支预测的局限性和优化,如预读取改进,是关键因素。MCF得益于内存优化,OMNETPP则因低分支误预测率而受益,但整体基准性能提升有限,甚至出现了倒退。


服务器应用的需求与桌面软件不同,推土机的初衷是为服务器优化,但在指令缓存、分支误预测和主频调校上面临挑战。尽管SNB在某些方面有所改进,但缓存设计和分支预测的深层次问题还需进一步观察。


温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网