科研,是科技持续发展的引擎。科研机构需要怎样的支撑?除了经费和人才外,对高性能计算有着更高的需求,其强大的算力能够支撑大量的科研项目,进而缩短研发周期,推动高效创新。
当前,随着数字经济的蓬勃发展,数据量的暴增,高性能计算正逐渐向新兴的大数据、深度学习以及云计算等方向进行融合和演进,以支撑人工智能、基因测序、仿真模拟等诸多领域的研究,HPC&AI的强大智能计算能力正推动民生与数字经济的不断升级,成为构建下一代基于数据产业和科学计算的基石,是开启未来数据文明的秘钥。
近日,宝德为中国科学院(简称“中科院”)某研究院,量身定制的HPC&AI融合集群解决方案,凭借众多优势以及良好的经济效益,在深圳市高校教育信息化学会举办的新基建下智慧校园建设发展论坛上,通过严格把关、层层甄选,获评优秀案例大奖。
作为我国自然科学最高学术机构、科学技术最高咨询机构、自然科学与高技术综合研究发展中心,中科院的高性能计算之路已经走过了近三十年,在应用水平、计算规模和科研成果上都位列前沿,当然,这也决定了中科院对于伙伴的选择更为苛刻。
本次获奖案例中,宝德基于高可靠、易扩展和开放的架构设计,为中科院某研究院搭建集实时计算、数据分析和大数据存储于一体的遥感数据综合分析管理平台,实现高性能计算和人工智能的结合应用,既提供澎湃的算力,又带来更多智能化的体验,使得遥感数据处理速度提升120%,日处理数据量达到25TB,实际使用效益深厚院方满意和认可。方案中系统主要分为三个层次设计:网络层、存储层和应用层。网络层主要提供终端与服务器、服务器与服务器之间的网络物理硬件连接;存储层主要提供应用层所使用数据的读取和存储;应用层主要提供各种应用请求、计算服务器和存储服务器之间的数据交换等。同时,方案主要通过构建业务节点、计算节点、分布式存储资源池以及磁带库,提供高达93.6TFlops以上的计算能力,SSD分布式存储可用容量664TB,HDD分布式存储可用容量4500TB,磁带库裸容量12PB的高性能计算集群,满足院方当前科研发展对于高性能计算力以及高速存储IO带宽的需求。1、系统基于先进的万兆以太网络构建核心骨干网,通过使用企业级万兆核心交换机实现核心网络系统的架构设计,保证所有功能节点和存储节点之间以万兆网络以上的线性速率进行数据传输,大幅度提升传输带宽,同时具备高冗余性和容错性。2、高性能在线计算集群部分基于100Gb Infiniband高速网络,通过RDMA技术可以加快HPC&AI计算节点之间的MPI数据通信和与存储之间的数据传输,实现数据的实时快速读写计算,并提升遥感图形机器视觉处理能力,实现自动识别和分析空间遥感图像。3、 采用两套分布式存储系统,均基于全对称分布式设计,SSD高速在线分布式存储基于100Gb Infiniband提供存储节点数据通信,HDD近线存储基于万兆以太网提供存储节点数据通信存储之间,并采用纠删码和网络冗余设计,保证存储系统的整体容错率。4、提供高可用业务服务器解决方案以及管理登录节点双机备份配置,保证集群系统高可用;Web服务器、数据库服务器、综合业务服务器也通过冗余配置,并与万兆核心骨干网络相连,搭配高性能磁盘阵列,实现综合业务应用高可用。5、采用综合业务节点冗余配置搭配大容量磁带库,实现冷数据的传输和长期稳定保存。以综合业务节点作为备份管理端,将HDD近线存储空间以NAS形式挂载到综合业务节点,配合备份软件备份机制,将NAS里的文件备份到磁带库,实现数据的离线保存。综合以上设计和优势,宝德HPC&AI融合集群解决方案帮助中科院某研究院实现对遥感大数据的实时分析,并结合人工智能技术,快速获取地表形态变化,以支撑多领域科学研究。在高性能计算领域,宝德已经拥有二十余年的精耕细作和技术积累,当前,伴随着数字经济进入全面渗透、融合阶段,宝德的高性能计算更是走上了一条“融合创新发展”之路,此次为中科院某研究院打造的HPC&AI融合集群解决方案,是宝德综合能力的展现也是二十余年底蕴的释放。面向未来,宝德亦持续赋能高科技研发领域,进一步助推我国科技和数字经济的进步与发展。