|
需求分析 华中科技大学煤燃烧实验室是国家重点实验室,一向致力于煤燃烧及污染防治理论与技术的研究和开发, 在本学科前沿领域开展了富有特色的研究工作,取得了一些创新性的研究成果。近期实验室需要搭建一套高性能计算系统,用以承载实验室对流体力学计算、燃烧机理、燃烧技术开发等能源与环境相关领域的教学科研工作。
华中科技大学煤燃烧国家重点实验室根据自己的需求,采用了基于Woodcrest双核计算节点平台+Infiniband高速互联计算网络的天梭TS10000系统。浪潮天梭TS10000将用作计算流体力学研究,通过对送风方式、送风口位置、风道结构等课题的研究,进一步减少燃烧污染、提高燃烧效率;进行燃烧过程诊断控制和模拟仿真研究,在深入了解燃烧过程和机理的前提下,利用燃烧模型和控制软件,再现温度场变化,从而对燃烧过程进行精确的模拟诊断。
解决方案 方案中的天梭TS10000高性能服务器系统将智能化管理软件、高可用性和高可靠性的底层硬件系统,以及模块化横向扩展的技术接口有机整合,用户随时根据应用需求对服务器系统包括高速互联单元、计算单元、存储单元、通讯单元等进行便利的调整与扩充,使服务器系统的整体性能与用户的应用需求完全匹配。
方案采用Woodcrest+Infiniband系统平台,由16个计算节点、1个管理节点、1个工作站搭建基础硬件系统。系统采用的16节点NF190D每台均配置2颗2.0GHz Intel Xeon Woodcrest处理器,建成的高性能计算系统能够提供峰值5120亿次的高性能浮点运算能力,满足用户以适合的成本对高性能计算的要求。该系统配置了NF280D作为主节点,负责集群的登陆、安装部署及管理工作。以百兆交换网络来搭建,作为系统化管理网络,承担系统登陆和监控管理任务。用户远程登录到系统的主节点,将自己的计算任务编写成作业脚本提交给作业调度系统,作业调度系统将作业分发到各个计算节点来计算。同时它也对各种管理措施进行控制,是管理网络的控制点,可监控集群中各个节点和网络的运行状况。如果系统由几十甚至上百个节点组成时,逐个节点去维护将花费大量的时间与人力,通过管理节点和集群监管软件可以通过单一节点对整个集群系统进行有效的管理,减小后期使用和维护成本。
集群系统能够缩短程序的运行时间,将串行程序并行化,让原来在单CPU上运行的程序运行在多CPU上。并行程序在执行的过程中会有大量的节点间通讯,传递原始数据与中间计算结果,所以计算网络的性能会对集群系统的性能产生很大的影响。考虑到实际应用情况,计算节点之间数据通信量大,要求节点间通信高带宽、低延迟,集群各节点间的并行通讯采用InfiniBand高速互联技术来构建计算节点间的并行通讯网络。通过对用户计算流体力学的NPB测试程序,进行测试验证。NPB的测试目标是找到一个好的并行算法来减少进程间通信量。通过提高通讯带宽和降低延迟可以大大提高性能测试结果,对于带宽敏感的应用性能可以高于Myrinet 2~10倍,PCI Express将会将这个倍数进一步拉大(可以达到20Gb);延迟测试应用MPI作为应用程序接口,通过多次循环得出单向平均延迟数,延迟越低说明初始化传送数据时间越少,比Myrinet要低1.4us。从并行测试结果可以看出,当系统不断扩展的情况下InfiniBand拥有更好的性能以满足通信量不断增大的需求。在IS和MG两个测试中InfiniBand相对于QsNet和Myrinet都有更好的扩展性,见图1。
 |
为了提高系统的可管理性和应用性能,系统采用了浪潮天梭监控管理软件、浪潮天梭并行文件系统、Intel编译器及调优工具等软件。高效的Intel编译器、数学核心库MKL和VTUNE性能调优工具,与Intel处理器协同工作。Intel C/C++ Intel fortran编译器,兼容GCC编译器,可以自动指令向量化,支持SSE3指令集和OpenMP;Intel MKL数学库,是高性能的数学函数库,能快速处理复杂的数学问题;VTUNE性能调优工具,可以基于时间和事件采样,进行热点程序代码分析,调用图形仿真,提出内核级的调优建议; Cluster tools可以对集群运行状况进行跟踪分析。方案拓扑见图2,配置见表。
 |
系统特点 高性能 系统采用先进的Intel Xeon Woodcrest平台作为计算节点,从而拥有更优异的FSB,Woodcrest的L2 Cache支持2个处理器核心共享4MB L2 Cache方式,大大减少通过FSB进行cache数据的交换,提高了效率;高主频、SSE3指令集和DDRII内存也为系统带来高性能;采用Infiniband高速互联体系,点对点带宽高达10Gbps,并可系统内平滑升级到20Gpbs,具有低延迟特性;10Gbps/20Gbps带宽的PCI-E总线为TS10000系统节点间的I/O系统带来更高的带宽和效率; Intel Woodcrest系列处理器功耗低、高效节能;应用软件性能在Intel平台上的长期开发合作中得以充分发挥。
高可靠 集群节点关键部件采用模块化冗余设计,支持内存镜像、内存热备技术,数据通讯系统采用一致性散热体系。设备驱动、开发工具成熟可靠,监控管理工具能够实时监控硬件环境、操作系统、软件和系统性能信息,能及时预警系统状态,以便管理员采取保护措施。由Woodcrest+Infiniband构建的基础硬件配合Intel高性能计算工具形成的天梭TS10000是一套稳定、高效、可靠的软硬一体化系统。
可扩展 本系统所选交换系统设备可直接扩展到24个节点,只需增加相应的 Infiniband设备和节点机;在扩展到24~72个节点规模时,可以通过增加交换机进行胖数互联,保证一定带宽情况下进行系统规模的扩展,升级扩容省时省力。在功能扩展方面,数据库节点可以方便的扩展为基于Infiniband架构的Oracle RAC并行数据库系统。Infiniband技术改变了传统的服务器与IO系统的互连方式,把IO子系统彻底从服务器主机中解放出来,主机对IO设备的访问方式为独占式而非共享式,这极大改善了IO访问的瓶颈,Infiniband技术对传统服务器与IO外设互联的改变可以用“三网合一”来描述,其交换式IO总线体系架构在商业计算应用领域具有较大潜力。
浪潮天梭TS10000产品是适合于超大规模、超高性能科学计算应用的高性能服务器集群。天梭TS10000成功应用于华中科技大学煤燃烧实验室,对我国污染防治技术研究工作起到重要的支撑和推进作用。
|