|
近日,浪潮基于infiniband高速互联技术构建的天梭TS10000高性能计算系统成功应用河南大学计算物理学应用研究项目。这是天梭TS10000在夯实计算物理学领域的应用基础,扩大天梭高速互联计算系统应用范围,积累高性能计算科学行业经验的又一应用。
需求分析 随着计算机技术的发展,计算物理学已经成为物理学中的重要分支。材料的许多物性可以通过理论计算来预测,为设计新型材料提供理论基础。河南大学物理与电子学院目前在凝聚态物理学科方面的科研计算能力,无法满足日益快速发展的科研要求,严重制约了学科的发展。随着理论计算方法的多元化,计算机的高性能计算能力所发挥的作用越来越重要。
在了解到该校用户目前需要大幅度提高计算能力,快速跟上凝聚态物理学科的科研现状和未来学科发展的应用需求后,浪潮工程师对客户的应用模式进行了深入挖掘和多次探讨,发现用户在凝聚态物理研究的实验和大规模理论计算实践中常用到配套软件为第一原理分子动力学计算的软件包VASP和WIEN2k。这两种技术都可以相当程度地减少过渡金属或第一行元素的每个原子所必需的平面波数量。力与张量可以用VASP很容易地计算,用于把原子衰减到其瞬时基态中。VASP对节点之间通讯速度要求非常高,而完成这些数据的处理将不得不用到网络速度更高、延迟更优的超级计算机。采用infiniband高速互联机群系统对用户VASP的并行计算将十分有利。
解决方案 在半年多的沟通中,用户方多次组织应用测试。浪潮详细剖析客户的应用模式和需求,快速部署高效的测试方案,以Intel四核45nm制成工艺技术的服务器送测,配置基于infiniband高速互联网络的天梭TS10000机群方案,力求从系统性能、功耗节省、高带宽、低延迟的高速互联技术等方面突出优势,从技术实施服务、品牌影响力上全面突破。测试结果表明,浪潮产品稳定,性能表现和功耗方面都达到了客户的预期标准。

方案采用45纳米技术Intel Xeon 四核处理器平台+Infiniband系统组成。由64位IA架构及双内核处理器技术的NF190DS组成计算节点,主要负责系统内的核心计算任务,以提高计算单元本身的性能和计算效率。计算单元采用系统可靠性、可用性技术,包括关键部件的冗余技术、在线热更换、热插拔技术,提高了服务器整体系统的可用性。通过高速网络的接口技术,提高与I/O单元数据交换的带宽,单链路带宽达到30Gbps,降低通信延迟。强大的单点处理能力结合节点间高速的数据交换系统,使得TS10000系统软件的性能得到了最大限度的发挥,而且上层应用的变化,可以智能的自我调节,以达到最佳的运行状态。
针对客户应用VASP软件,浪潮工程师进行了深入研究。VASP并行程序在执行的过程中会有大量的节点间通讯,传递原始数据与中间计算结果,所以计算网络的性能会对集群系统的整体性能产生很大的影响。考虑到实际应用情况,计算节点之间数据通信量大,要求节点间通信高带宽、低延迟,集群各节点间的并行通讯采用InfiniBand高速互联技术来构建计算节点间的并行通讯网络。
天梭TS10000采用的高速交换单元为SilverStorm InfinIO9000系列交换机,InfinIO 9000模块化交换机系列由9100和9200组成,他们都能同时支持10G-20Gb的Infiniband连接、光纤网络和以太网网络的接入,通过提高通讯带宽和降低延迟可以大大提高集群性能。对于带宽敏感的应用性能可以高于Myrinet 2~10倍,PCI Express会将这个倍数进一步拉大(可以达到20Gb)。当系统不断扩展的情况下,InfiniBand拥有更好的性能以满足通信量不断增大的需求。InfiniBand可以在相同时间内完成更多的计算任务,合理规模的网络单元设计可以在最低的端口价格条件下,达到优化线缆数量,减少占用空间,优化投资保护等多赢的效果。
本次项目采用SilverStorm 9024交换机,支持12个扩展插槽、具备很高的可靠性,配备冗余的管理、电源和风扇;交换机的内部软件可以很方便的升级,Infiniview管理软件的冗余可以在同一台交换机中实现,也可以在多台交换机中实现; 整套天梭TS10000系统配置的InfiniBand交换机,完全满足HPC网络对高速互联的所有需要;对用户来说,减少了设备的投入,简化了网络的结构和管理难度。
集群管理节点采用NF290D负责集群的登陆、安装部署及管理工作,以百兆交换网络作为系统化管理网络。用户远程登录到系统的管理节点,将自己的计算任务编写成作业脚本提交给作业调度系统,作业调度系统作业分发到各个计算节点来计算。同时它也对各种管理措施进行控制,是管理网络的控制点,监控集群中各个节点和网络的运行状况。通常天梭集群监控管理软件TSMM2.0也运行在这个节点上。如果系统节点组成庞大,逐个节点去维护将花费大量的时间与人力,通过管理节点和集群监管软件可以通过单一节点对整个集群系统进行有效的管理,减少维护成本。
项目采用的浪潮基于infiniband高速互联技术构建的天梭TS10000集群系统,采用Intel IA架构的45nm制程工艺、四核处理器为核心的计算节点,具有超强计算性能;配置业界领先的互联技术InfiniBand,节点互连带宽高达10G~30Gbit/S,延迟低至4.5~6us,加速节点间数据交换、增强I/O通讯速率、大幅提升系统的通讯带宽。通过构建软硬件一体化的高性能计算机群,使VASP软件的并行效率得到大幅度提升,大大缩短程序的运行时间。对客户凝聚态物理学研究方向所涉及的大规模并行算法和并行调度等问题提供了高性能、可扩展、高可靠的计算平台。方案拓扑图如右图所示。
系统特点 高性能。整体集群系统采用Infiniband高速互联网络结构,以高性能数据交换系统连接事务处理单元、存储单元和网络通讯单元为一体。各模块间互相通信的高速网络具有高带宽、低延迟优势,能保证各个模块间的无阻塞通信,使之不会因为通信信道的占用而不能完成或较低效率完成通信任务,从而保障了信息处理的高效率,为执行关键任务应用带来高性能设计。
可扩展。本系统所选交换系统设备可扩展到24~72个节点规模,可以通过增加交换机进行胖数互联,保证一定带宽情况下进行系统规模的扩展,升级扩容省时省力。Infiniband技术改变了传统的服务器与IO系统的互连方式,把IO子系统彻底从服务器主机中解放出来,主机对IO设备的访问方式为独占式而非共享式,这极大改善了IO访问的瓶颈问题。
高可靠。集群节点关键部件采用模块化冗余设计,支持内存镜像、内存热备技术,数据通讯系统采用一致性散热体系。设备驱动、开发工具成熟可靠,监控管理工具能够实时监控硬件环境、操作系统、软件和系统性能信息,能及时预警系统状态,以便管理员采取保护措施。 |