在2016中科曙光技术创新大会上,一张展示了每秒超算速度是在数字1后面带18个0的照片,十分直观地冲击了观众对E级计算的想象。
作为体现一个国家综合国力和科技创新能力的重要标志,各国在超算领域的竞争日趋激烈,对E级超算的争夺,无不掺杂着国家战略的意味。中科曙光正在进行的E级超算“原型系统研制”是在E级超算项目正式进入日程之前的预研工作。在国家“十三五”高性能计算专项课题中,中科曙光、国防科技大学以及江南计算技术研究所同时获批牵头E级超算的原型系统研制项目,形成了中国E级超算“三头并进”的局面。
目前,美国、欧洲、日本等国家和地区都提出了自己的E级超算研发计划。欧洲和日本将相应计划的完成时间表设定在了2020年。中国也将百亿亿次超级计算机及相关技术的研究写入了国家“十三五”规划,希望在2020年左右实现这一宏伟研究计划。出人意料的,在几个制定了相关计划的国家中,只有美国相对“悲观”,他们预计百亿亿次超级计算机的建成或许需要到2022年。
TOP500的发起人,美国橡树岭国家实验室及田纳西大学教授Jack Dongarra认为,虽然超级计算机在过去20多年取得了快速发展,但随着计算机技术的进步,作为TOP500排名依据的LINPACK测试如今也暴露出一些问题,如与实际应用的关联已不紧密,只能反映出异构系统大约1/2或2/3的峰值,对架构创新的激励作用日益降低,系统整体可用性越来越不可测,被当作市场营销的工具,资源浪费日益增高等等。他指出如果采用目前榜单的技术构建的E级超算能耗将高达534MW,拥有4亿线程,造价高达150亿美元,这是没有任何一个国家和机构能够使用的如此昂贵、复杂的设备。
因此,百亿亿次超级计算机的建造难度并不仅仅在于速度的提升,更在于对大规模超算设备的功耗要求。按照由美国倡导的国际公认标准,E级超算的功耗应低于20MW。按照这一功耗目标要求,未来的E级超级计算机的能效比要达到50 GFlops/W。即便是在Green500第三位、创造了大规模高性能计算机效能比的最好成绩的“神威·太湖之光”每瓦性能只有6 GFlops,仍相差一个数量级。
这将是一堵难以逾越的高墙,在中科院计算所研究员、中国计算机学会高性能计算专委会秘书长张云泉看来,“现在大家希望采用异构加速或异构综合的方式来降低功耗的要求,但由此却带来了编程的困难。因此,研发E级超算实际上面临着编程墙、功耗墙、可靠性墙和存储墙几个‘大墙’的围堵。”
因此,E级超级计算机需要从同步还原算法、通讯还原算法、混合精度方法、自动调整、故障恢复、结果再现性等方面入手;还需要基础研究、关键技术研究和应用示范全链条的创新。在新型体系结构、高速互连、高能效节点设计、大规模并行计算机系统软件、大规模并行编程模型与算法、系统管理和容错等基础研究和关键技术研究的基础上,最终研发LINPACK效率超过60%、每瓦性能30GFlops、内存10PB量级、存储EB量级的百亿亿次超级计算机。