文/图 微型计算机评测室 特约作者 张山
随着互联网和移动计算的进一步发展,云以及云代表的产业链在最近几年开始呈现爆发的增长态势。无论是国家层面的“互联网+”战略,还是传统产业的互联网转型,再加上各种各样的公众云、私有云、行业云的诞生,云时代下数据的处理、存储、使用成为厂商和用户直面的核心问题。也正是看到了这个变化,英特尔希望借助最新的至强 E5-2600 v4,进一步提升性能,加强稳定性,细化功能,让英特尔在云计算时代继续维持绝对的统治力。
首先,我们先熟悉一下至强 E5- 2 6 0 0 v4家族产品的基本情况。至强 E5-2600 v4家族拥有三款不同的核心配置,分别是高核心数(High Core Count,HCC)、中等核心数(M e d i u m C o r e C o u n t,M C C)和低核心数(Lo w Core Count,LCC)。其中高核心数最高可配置24个内核(但实际产品只开启了22个)、中等核心数最高可配置14个内核、低核心产品最高可配置8个内核。TDP等数值随着核心数量和频率等不同配置方案而略有不同。技术方面,相比上代至强 E52600 v3系列,至强 E5-2600 v4系列的技术改进主要在换用了全新的Broadwell架构、制造工艺进化至14n m、核心数量从上代的18个提升至最大22个、超线程核心也顺理成章增加至44个、缓存容量进一步提升至最大55M B、首次加入了对3D堆栈式内存技术的支持,使得最大内存支持可达3TB以上,此外,诸如资源直配技术(RDT)、虚拟化增强以及TSX交易同步扩展指令集、加强的AES加密等技术也加强了新产品在新应用环境下的优势。
从工艺角度来看,至强 E5 260 0 v4家族全部采用了最新的14nm工艺,相比之前的22nm工艺而言,新的工艺线宽更小、能够在有限的面积内容纳更多的晶体管、驱动电压也有一定的降低,更节省电能。正是由于新工艺的使用,至强 E52600 v4可容纳的内核数量才从之前的最多18个提升到最大24个—不过由于细分市场和TDP等问题,英特尔在E5级别的处理器上最多只开启了22个核心,只有E7等级的处理器上用户才能得到完整的24个核心,不过此时最高T D P也会提升至165W。在应用了新工艺后,高核心数配置下,处理器面积达到了465平方毫米,晶体管数量高达72亿个;中等核心数配置的芯片面积为306平方毫米,晶体管数量为47亿个;低核心数配置的核心面积为236平方毫米,晶体管数量为34亿个。相比上一代18核的至强 E5-2600 v3核心面积高达662平方毫米而言,全新的14n m工艺带来的集成度提升有目共睹。
①与往年一样,英特尔依然强调软件定义基础设施(SDI)是云计算的基础。针对日新月异的应用趋势和需求,英特尔正在通过打造最新计算引擎,同时结合高速、低延迟英特尔固态盘及万兆以太网技术,来帮助企业便捷地构建更加高效、更加稳定、更易扩展及管理的云平台。
②除了至强E5 v4处理器,4月1日发布会上英特尔还展示了采用NVMe协议的数据中心固态盘P3320/P3520与D3700/D3600系列新品,通过为软件定义优化的数据中心基础设施,助力企业用户更快地运用云计算带来的优势,加速业务转型和基于云的服务的创新。
③由于采用了LGA2011-v3接口,至强E5 v4处理器除了可以用在上一代服务器主板上,也能搭配民用级X99主板使用—只要主板厂商提供相应的BIOS升级。
④E5 v4内存控制器有所更新,已支持DDR4 2400 ECC REG内存。
在核心改进方面,由于本次从Haswell-EP进化至Broadwell-EP属于英特尔架构改进中的“核心不变、工艺改进”的步骤,也就是传说中的“Tick”步骤,因此整体核心只是微调,架构方面的改进并不大,包括core和uncore的前端、指令解码、缓存、各种功能单元、总线、接口等,Broadwell-EP都基本维持了和Haswell-EP一样的设计。尤其是从Iv y- Br idge- EP就开始使用、在Haswell- EP上大幅度改善调整的环形总线,在Broadwell-EP上得到了全盘继承。相比之前的HaswellE P上最多挂载18个处理器核心,Broadwell-EP上最高可挂载24个处理器核心,其双向、分组环形总线的设计和缓冲器方案,使得英特尔能够在更多核芯的情况下,实现核心资源的有效调配和控制。
虽然硬件架构基本相同,但这并不意味Broadwell-EP架构没有做出改进。英特尔宣称,相比HaswellEP, Broadwell-EP的IPC性能略微提升了约5%,其中最大的变化发生在调度器和缓冲器上。BroadwellE P的乱序调度器窗口更大(从60提升至64)、允许更多的指令被重新排队,相应的提高了IPC。此外,L2 TLB也从1K增加至1.5K,减少了地址条目转换失误。在T L B方面,英特尔还增加了一个T L B页面,允许Broadwell- EP同时并行处理内存页。在计算能力方面,BroadwellEP的浮点能力得到了加强,包括浮点乘法周期从之前的5周期降低至3周期、使用了1024(10bit)分频器等。此外,Broadwell- EP还改进了分支预测单元,从之前的8路提升至10路,在微指令优化方面加强了并行性、减少指令延迟(ADC, CMOV, PCLMULQDQ的指令延迟降低至1uop)、加入了全新指令等。
总的来看,虽然每一代英特尔都没有给架构带来巨大变化,但是每一代都确确实实积攒了些许性能优势,再配合英特尔比较频繁的核心换代速度,从Nehalem开始,到随后的Sandy Bridge、Ivy Bridge、Haswell再到今天的Broadwell,如果每代的I P C增长都在5%左右的话,数代累积下来整体性能提升也是非常可观的。这一次BroadwellEP是Tick步骤,整体改善并不大,但依旧获得了IPC约5%的提升以及核心数量、频率方面的变化,可想而知下一次Skylake- EP,整体性能还会再进一步。
英特尔的至强 E5-2600 v4宣称“为云而生”,除了其强大的性能和众多核心数量外,全新技术的加入使得它更能够体现云端优势。在至强 E5-2600 V4上,Resource Director Technology也就是RDT技术的加入堪称“为云而生”。
所谓RDT技术,是指对处理器任务更为精细的调整。我们知道,云端应用基本上都是以虚拟机的方式存在的,一个处理器中可能需要运行大量的虚拟机执行完全不同的任务,这些任务之间如何调整性能分配,就是一个比较重要的问题。在IaaS领域,基础IT资源对上层应用需求的自动化协同是非常重要的,这个过程往往被称之为“编排”。但是问题在于,这种编排的粒度是非常粗的,最多就止步于虚拟机逻辑资源的供给。对一些要求更高的任务而言,如何保证资源的倾斜和有效的供给并保证任务的顺利完成,就显得非常重要,尤其是处理器的缓存这样敏感而极为稀缺的资源,很多编排层是无能为力的。在这种情况下,英特尔推出了R DT技术,希望可以解决这个问题。
R DT技术有四个功能模块,分别是CMT缓存监测技术、CAT缓存分配技术、M B M内存带宽监测技术、C D P代码和数据分区技术。配合这四大技术,RDT就可以直接调整线程(逻辑处理器),相当于给虚拟机的虚拟处理器分配真是的CPU资源,然后再由编排软件进行缓存的调控。结合CMT和CAT,缓存可是做到实时监测和使用,能够让处理器的资源向虚拟机中最重要、最紧迫的任务分配。在实际处理过程中,R DT可以为每一个线程分配一个资源监测I D,这个I D可以用来监测每个线程的内存带宽,CAT也为每个线程准备了16个优先级,用户可以通过分配不同的优先级来保障任务的进行。进一步来看,目前的至强 E5-2600 V4做到了对缓存的分配使用,并加入了对内存带宽的监测,下一代处理器中,英特尔可能加入对内存带宽的分配和使用,这样一来无论缓存还是内存带宽,都可以处在用户的监控和分配下,对云端应用的响应速度和优先排序都能给予极大的帮助。
RDT的出现,使得云端应用能够更为方便智能的获取硬件资源,而不是像以往那样被动的排序等待。利用R DT,用户可以制定更为惊喜的服务质量体系,并且可以设定更为实际的云平台服务等级协议等,这对目前快速发展的云应用具有相当重要的商业意义。
至强 E5- 2600 v4在云端优化方面可谓不遗余力,除了之前的R DT外,英特尔在新产品上又加入了进一步的网络功能虚拟化和软件定义网络两大功能,进一步加强处理器在云应用场景和虚拟化场景下的能力。
我们先来看第一个功能,网络功能虚拟化(NFV),这个功能主要是针对外部设备向虚拟CPU或者逻辑CPU发起中断请求导致的系统资源开销过大而设计。一般来说,在一个虚拟机系统中,外部设备往往会向虚拟处理器或者下属的逻辑处理器发出中断指令,中断指令的等级比较高,只要接到中断需求后,虚拟机就会响应中断操作,并通过虚拟机管理器接管逻辑处理器,在中断处理完毕后,虚拟机管理器才会释放逻辑处理器给虚拟机。这个过程比较复杂,同时也很耗费系统资源。如果外部设备不断的提出终端需求,整个系统运行速度就会受到严重影响。
为了解决这个问题,英特尔提出了Posted Interrupts技术,这个技术的原理是在接到中断需求后,先不告诉虚拟机,先记录在内存中,并直接发给逻辑处理器,然后再根据此中断的情况判断是否需要通知虚拟机和虚拟机管理器来接管,如果处理器忙碌,也会延迟中断,或者执行中断迁移至空闲处理器。总的来说,这个技术的出现,可以保证逻辑处理器在处理重要任务时不会由于中断而随意停止,影响重要任务的处理速度,同时也节约了系统资源避免了无谓的浪费。根据英特尔的数据,在电信服务器中使用了Posted Interrupts后,电信应用的延迟可以从之前的4us到47us降低至2.4us到5.2us,效果相当明显。
除了Posted Interrupts外,英特尔还提出了虚拟环境下的内存修改日志功能,也就是P M L。这项功能的主要作用在于减少由于内存扫描带来的VM Exit/Entry状态,并加速V M迁移。一般来说,V M会经常扫描内存页面,确定在内存和磁盘交换数据时哪些内存页面可用,这个过程可能会带来VM Exit/Entry,影响虚拟机性能。PM L功能可以随时记录虚拟机内存页的修改状态,如果某些页面发生更改,PML直接给予标记并写入页面修改日志,这样一来,不需要虚拟机管理器的参与,也避免了V M E x i t/Ent r y的发生,提升了效能。
说完了一些基本规格和架构,接下来继续来看产品。英特尔本次发布的至强 E5-2600 V4家族共有27款产品,其中面向主流服务器的型号为16款;面向注重高频率、对多核心不敏感的市场的为3款;面向低功耗市场的有2款;面向工作站应用的为1款;面向存储和通信市场的为5款。
规格方面,至强 E 5 - 2 6 0 0 V4家族产品的频率跨度范围为1.6GHz~3.5GHz,核心数量从最多22个到最少4个,缓存容量从最大55M B到最少10M B,T D P功耗最高为145W,最低只有50W。各种复杂的核心数量、硬件规格和频率、T D P配置,形成了至强 E5-2600 v4庞大的家族。总的来说,至强 E52600 V4家族的产品数量众多,甚至比整个民用市场高中低的产品数量总和还要多,这也充分说明了英特尔细分市场的策略和整个企业级、服务器市场的复杂性。
至强 E5-2600 v4维持了英特尔在服务器市场一贯的强势地位,并且带来了诸多新的特性,全新的处理器和特性有助于英特尔在云计算时代进一步拓宽市场、加强优势地位并获得更多企业的青睐。那么回头看具体的处理器产品,相比上一代即至强E5 v3,至强E5 v4在性能上具备怎样的优势?
为了一探究竟,MC评测室在同一台英特尔双路服务器上分别安装了至强E5 v3的旗舰型号E5 2699 v3和至强E5 v4的旗舰型号即至强E5 2699 v4;内存统一为8条32GB DDR4 2400组成的256GB四通道内存——由于E5 v3的内存控制器最大支持DDR4 2133,因此测试时内存工作在DDR4 2133频率;在升级完厂商提供的最新BIOS之后,该服务器搭载的S2600W T主板可以正常识别总计44核心、88线程的的双路E5 2699 v4处理器。
测试环境及软件
本次测试以行业公允的SPEC cpu2006为主要考察对象。SPEC c p u2006 是一个应用广泛的大型 CPU 性能测试项目。它是由多个机构组成的非营利性组织建立并维护的一套用于评估计算机系统的标准。为了运行SPEC cpu2006测试,我们为测试平台安装了W i n d ow s S e r v e r 2012 R 2系统,还安装了Visual Studio、C++/For tran Compiler编译器。SPEC Cpu2006 采用最新的v1.2版本,此外我们还额外加入了SiSoftware Sandra、CineBench R15测试以观察新老两代E5 2699在内存带宽、内存延迟等项目的差异。
对于SPEC cpu2006测试,我们一般关心 SPECint_base2006 和 S P E C f p _ b a s e 2 0 0 6、S P EC i n t_r a te_b a s e2006 和 SPECfp_rate_base2006 这 4 个得分,前一组(_base)得分衡量平台完成单个任务的快慢,后一组(_ rate_base)得分衡量平台的运算吞吐性能。此外,SPEC CPU 测试还会给出两种类型的结果:Base 基准测试结果和 Peak 峰值测试结果,Base 测试要求编译器套件按照指定的规则进行优化,而 Peak 测试则可以允许使用更多地优化技术,作为平台对比,我们均选择 Base 测试结果。最终测试结果显示新一代至强E5处理器比上一代产品在性能方面有显著提升,例如在S P EC cpu2006 int rate性能测试中,E5 2699 v4的性能得分1690,比上一代型号E5-2699 v3的1261高出了429,性能提升了约3 4%。通过对比,E5 2699 v3 的单个任务处理能力相比上一代产品分别提升14.9%(S PEC i nt_b a se2006得分)和25%(SPECfp_base2006得分),由于该项测试大部分时候仅使用到单个核心(处理器运行在最高睿频),E5 2699 v4(3.5GHz)相比 E5 2699 v3(3.6GHz),在频率稍低的情况下,性能却有所提升,证明了 Broadwell- EP 的架构优势确实存在;在多核心满载测试时,两者都工作在2.8GHz频率,但凭架构以及更多核心的优势,E5 2699 v4依然获得了30%左右的综合性能提升。
而从SiSof t ware Sandra和CineBench R15的测试结果我们可以一窥至强E5处理器与普通家用处理器在性能上的巨大差异,以及E5 v4相比上一代产品在内存带宽、延迟、内联核带宽等方面可观的的提升幅度。E5 v4的DDR4 2400内存控制器比前一代产品的DDR4 2133控制器在内存带宽上取得了约14%的优势;而新一代Broadwell-EP的三级缓存性能更是比前一代产品有了40%的提升。
至强E5v4处理器的前沿应用实例
单纯的基准性能分析看起来难免略显枯燥,接下来让我看来看看至强E5 v4处理器在最终行业用户手中发挥出的实际作用。
中国移动:RDT助力展望
“从4G跨到5G和我们之前的端到端的跨越,他们是有区别的,最大的区别是在于我们新的技术并不是无线电方向的,现在我们发现这些新的演进并不是硬件的,而是软件的,而是云端的。正是因为我们不仅仅需要非常完美的基站的功能,能够非常好的一些虚机的功能。我们希望这些基站在未来能够成为一个小的数据中心,成为一个小的虚拟机,与此同时这些网络上的虚机和基站,在这些基站上我们需在上面施加更多的应用。这样的功能是需要我们减少它的延迟时间,能够让它们更加的灵活,能够更好的去调节一些本地的需求。”
“基于我们的经验,是否能够减缓延迟是对我们很大的挑战。与此同时,这些虚机以及它的应用需要我们的关注,这些软件、这些CET和CMT的技术都是利用了RDT(来自至强E5 v4处理器)的技术。有了和英特尔的深度合作伙伴关系,我认为它会给我们带来一个全新的合作愿景,我们可以去从头看到这些表现和性能,不管是吞吐量还是丢包率,我们会发现他们有非常大的提升,提升率在10%- 30%,当然这是取决于我们所遇到的困难,取决于我们所处在不同的条件和场景下。总的来说平均提升了18%,提升上限是50%,这是一块巨大的数字,非常了不起的数字。”
百度开放云:底层技术+创新能力=收益
“总结一下,英特尔的底层的技术和我们软硬件优化协同技术和我们联合起来在数据中心的创新能力,这几点结合起来,在百度的数据中心,在性能、功耗、TCO和我们业务场景上都产生了非常大的一个收益。”
写在最后
4月份举行的IDF上,英特尔表示将为一小部分客户测试其首批集成F P G A和至强处理器的解决方案。这种将Altera Arria 10 FPGA和英特尔至强处理器E5 v4产品封装在一起的芯片这种定制处理器的接口延迟更低,一致性更好—对下一代网络设备、通信基础设施和数据中心的负载加速具有革命性意义。这种定制处理器的性能很强悍,在业界标准的FPGA加速测试中其性能可获得10倍提升,在此不做赘述。从初代E5到如今的E5 v4,英特尔在能效、稳定性、功能和智能化革新方面一直在前进。处理器作为云时代的基石,也是英特尔Cloud For All即“云承万物”理念的有力支撑。无论是架构改进、规格提升,还是看实际性能表现、用户反馈,至强E5 v4交出的答卷无疑是令人满意的。除了“中流砥柱”E5系列,英特尔还通过各个级别、定位清晰的庞大家族式产品线完成了x86阵营对ARM等阵营的卡位阻击。
在“生态”概念大行其道的今天,至强E5 v4对英特尔生态系统而言无疑又是一次有益的添砖加瓦。而无论是定制化至强处理器,还是通过与合作伙伴共同打造高性能计算平台,英特尔在下一代大数据、云计算、机器学习以及虚拟应用环境之路上的耕耘无疑已经更加深化。