如题所述
深入探索AMD服务器推土机架构:解析与挑战
本文围绕AMD的推土机架构展开,从服务器专业评测的角度剖析,特别是针对Opteron处理器的进阶版本——"打桩机"(Abu Dhabi)和"interlagos"的比较,源于The Bulldozer Aftermath: Delving Even Deeper这篇权威文章。
尽管理论上提供了33%的性能提升,但"打桩机"在实际应用中的表现却令人失望。单线程性能和能耗问题引发了业界的热议,有人质疑AMD是否复制了奔腾四的困境,批评者则针对时钟性能和核心优化提出了疑问。
尽管AMD继续倚重推土机架构,但其架构问题引起了广泛的质疑。通过深入分析SAP和SPEC CPU2006等测试,我们可以窥见其中涉及的分支预测挑战,如错误处理机制的不足,这是一项亟待优化的难题。
批评者将推土机与奔腾四进行类比,指出其设计上的缺陷和性能瓶颈。以下是两者在关键特性上的对比:
分支预测:推土机的错误惩罚较低(少于30周期),而奔腾四高达100+周期。相比之下,Sandy Bridge通过μop缓存减少了分支误预测。
流水线设计:推土机的深度较Pentium 4(18级)浅,接近Intel Nehalem/Sandy Bridge(小于20级),影响了单线程性能。
解码器:推土机共享解码器以节省功耗,但对单线程性能产生影响,通过预解码技术进行了X86融合优化。
整数核心:推土机的灵活性使其在并行处理低IPC代码时更具优势,但整数指令吞吐量有所下降。
瓶颈与并行性能:前端性能可能限制高IPC负载,但在轻度多线程游戏中,推土机仍有所提升。
总体来看,推土机架构在并行处理和能效优化上展现了一定价值,但牺牲了单线程性能。FX处理器在多核应用中的表现平平,游戏性能提升有限。在服务器领域,皓龙6200在一些场景下优于至强5600,但至强E5的加入导致了新的竞争格局,例如在VMware测试中的表现引发了讨论。
专业测试显示,皓龙6276在服务器任务如OLAP、虚拟化和渲染上并不如Magny-Cours,但在SAP和HPC测试中,有大约20%的性能提升。SAP S&D基准揭示,处理器在数据处理速度和乱序引擎性能上要求极高,而SNB的改进预取器使得它在SPEC2006整数测试中超越了Westmere。
尽管推土机整数核心有限,但通过预读取和乱序缓冲优化,预计在SAP性能上会优于Magny-Cours。然而,实际提升并未达到理论上的33%,AMD的承诺并未完全兑现,特别是对于SPEC2006整数测试,单核性能对比中E5的优势明显。
Libquantum、OMNETPP和MCF的性能提升超过了核心数量的增长,显示出推土机在IPC方面的优势。然而,Perlbench等测试中,33%核心数的增加未能弥补IPC下降,揭示了更深层次的问题。
尽管Libquantum得分显著提高,但与E5-2660之间仍有15%的差距。分支预测的局限性和优化,如预读取改进,是关键因素。MCF得益于内存优化,OMNETPP则因低分支误预测率而受益,但整体基准性能提升有限,甚至出现了倒退。
服务器应用的需求与桌面软件不同,推土机的初衷是为服务器优化,但在指令缓存、分支误预测和主频调校上面临挑战。尽管SNB在某些方面有所改进,但缓存设计和分支预测的深层次问题还需进一步观察。