|
需求分析 近日,浪潮已成功完成西安交通大学电信学院项目的实施工程。西安交大选用浪潮天梭TS10000高性能计算机群,用于构建电信学院实验室的专用计算平台,有效满足了其对高性能并行计算能力、海量级存储系统、软硬件一体化等方面的需求。
西安交通大学电信学院实验室在承担国家、学校的各项学术研究,及院系教师教学、学生模拟实验等大量的信息数据处理工作中发现,数据量的不断增长,对IT基础设施的性能提出较高的要求,对存储系统的需求也上升到了海量级。为此,采用了天梭TS10000高性能服务器,利用先进的并行文件系统Lustre进行分布式部署,解决集群中的文件系统IO瓶颈,从而形成海量级网络存储空间,满足了对信息数据处理和存储的应用需求。 解决方案 浪潮天梭TS10000高性能服务器采用并行计算环境,通过网络连接一组服务器、网络设备、存储器,基于弹性部署理念的设计风格,易扩展、高可用、高可靠等产品特性,构建起信息数据的中心,以满足数据处理、交换和存储等科研应用。
根据对高性能计算的要求,系统采用了基于Intel 四核处理器的天梭TS10000高性能计算集群产品。针对对海量级存储系统的需求,特别设计了以集群文件系统Lustre分布部署的方式,来提高数据传输速率,增加带宽,计算集群可以通过多条路径访问、调用、处理共享存储上的数据,整合分布于集群中各节点的存储数据。本着应用和节省成本的原则,天梭TS10000高性能计算产品定位为中心计算平台解决方案,以超强的计算能力、并行文件应用架构,来适应大容量并行应用领域对科学计算的特殊需求。
本系统采用Intel四核+千兆以太网络构成。包含12台四核NF190D作为并行计算节点,6台四核NF280D作并行文件系统使用;同时配备天梭专用集群机柜、天梭TSMM2.0管理软件、并行环境、编译器、数学库、作业分配系统等,充分发挥四核Intel硬件系统的性能,并极大简便管理员操作。同时设备连接48端口、交换容量达到96Gbit/s、支持VLAN的Quidway S5100-48P-EI千兆以太网交换机作为计算网络;一台NF280D兼作管理节点,连接百兆管理网络;共同构建出一套高性价比的天梭TS10000集群系统。
四核处理器对性能的大幅提升 该系统计算性能卓越,多核64位计算能力可支持高强度的工作负荷和大型数据集中;高达21GB/秒数据吞吐能力的专用双独立前端总线(FSB),可增强基于Clovertown四核英特尔至强处理器的双路平台的性能;大容量的高速缓存内置、数据吞吐率高的FBDIMM 技术,以及高达72GB的内存容量,可支持处理更大的数据集,使更重要的数据更靠近处理内核,增强了内存的可靠性和可用性。见图1。

Lustre并行文件系统实现海量存储 Lustre是一种高可靠、可灵活扩展、高安全性的新一代集群文件系统。其原理在于将分布于集群各个节点中的存储,用统一的机制进行管理、分配,将一个任务平均划分成若干份,并让各个节点去同时执行,在通信过程中分析要交换的数据和任务的协调情况,并将较小的问题组合到一起以提高性能和减少任务开销,从而构建出海量级的共享存储;以多路并行存取的方式,大幅提升系统与共享存储间的通讯带宽。因此,Lustre可支持多达10000个节点PetaByte级的存储量,并提供100GB/s的传输速率,其设计过程中集成的优越的安全性和便捷的管理性更为在集群中大规模应用奠定了基础。
本次天梭TS10000高性能服务器以Lustre集群文件系统将6台数据存储节点中18TB的磁盘空间搭建成海量级系统共享存储,由于Lustre本身的安全管理机制以及各数据存储节点均采用RAID5磁盘技术,建成的天梭TS10000集群系统将为用户科研应用提供更高速的数据通讯带宽和安全的数据保护,而系统整体拥有成本却控制在满意的范围内。
为硬件平台提供优化的软件环境 为了使硬件平台能够充分发挥效率,浪潮工程师开发使用了一套针对于该硬件平台的并行软件,并搭建并行环境,为用户的并行计算应用提供完全、平稳、高效的软硬件一体化集群系统。
RedHat Linux AS 4.0——浪潮TS10000集群采用了当前最主流的集群操作系统-Linux。对于公开源码的一款操作系统,它具有非常完善、全面的应用服务。并且针对于Clovertown四核,最新的Linux AS 4.0内核较以前版本有了非常大的改进,不仅更好兼容硬件平台,也使基于该操作系统开发的很多应用得到更完善的接口和更高的使用效率。
Intel C/Fortran/MKL/Vtune针对四核平台优化的编译器、数学调优软件等——充分释放处理器的强大性能,使用户本身和更专业的应用,经过此编译器编译后,能够高效的在四核平台上运行。用户也可以调用Intel专门针对于四核的数学库,使自己的应用能够更加优化,提高用户应用的运行性能;通过Intel的调优工具,我们可以清楚的了解到应用程序在运行时的瓶颈,就可以进行针对性的性能调优,以达到用户应用跑出更高效率的目的。
浪潮天梭集群作业调度系统——浪潮天梭TS10000产品采用OpenPBS(Torque,Torque为OpenPBS的最新升级版本,在可用性和稳定性上做了较多的改进)。作为集群作业调度系统,作业管理又称为工作负载管理,负载共享或负载管理。它有效地管理系统中的各种资源,以及用户提交的作业,目的是为了充分利用集群的软硬件资源及宝贵的CPU时间,合理地调度作业、高效地管理集群,使系统具有高吞吐率和利用率。系统拓扑图见图2。

系统特点 1、 高性能。基于四核处理器的双路集群平台,帮助用户在要求苛刻的应用中最大限度地提高性能密度和性能功耗比。凭借64位带来的增强性能和扩展空间、多核计算、英特尔虚拟化技术,提升了系统平台的高性能计算能力。该平台可支持用户改进空间和资产利用率,帮助减少散热问题。英特尔酷睿微体系结构与高性能设计和节能技术相结合,为构建全新的高效能平台提供了强大的基础。
2、 海量存储。通过Lustre并行文件系统分布部署的方法,将集群节点统一调度、管理;多路并行存取的文件架构,增强I/O通讯速率、大幅提升系统与共享存储间的通讯带宽。先进的存储技术以及全新的安全特性,优化了大规模的存储系统,满足客户对海量级存储的需求。
3、 灵活易用。具有软硬一体化的天梭集群系统具备出色的灵活性和适应性,可根据用户的基础设施和不断扩展的业务需求灵活部署。更多处理资源、硬件,辅助英特尔内置的平台技术和软件优化工具,可优化用户数据中心,进而改进业务服务和用户工作效率。
配置清单如下。

|