万亿大模型存力受限?宝德自研AI数据湖存储来破局

时间:2023-08-01来源:本站

近年来,随着人工智能模型产业的快速发展,尤其是在Transformer结构出现以后,AI大模型规模逐步提升。ChatGPT的问世,更是掀起了一场“百模大战”,大模型参数量实现了从亿级到万亿级的突破。
而大模型所谓的“大”,体现在模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类更复杂,数据数量更丰富。模型规模的提升,带来了AI相关海量数据的增长,也带来了存储和处理这些数据的难题。大模型训练不仅受限于海量的算力, 更受限于巨大的存力瓶颈。

大模型时代,AI存力与算力同样不容忽视

数据存力是算力价值的前提和基础,只有数据存得好、算得快、传得稳,整个算力基础设施才能够发挥数据要素的价值,才能更好地支持大模型中的信息实时传输和高效率读写。随着算力需求的迅速提升,支撑起庞大AI算力的存储系统也亟待升级。如若存储系统的性能无法匹配强大的算力,那么GPU/CPU算力将会由于数据无法跟上而处于等待状态,将会严重浪费庞大、昂贵的算力基础资源投资。
当前,大模型应用场景对数据存储提出了以下挑战:

1

数据归集速度慢且来源复杂,预处理阶段难以实现统一访问。数据类型多元复杂,服务协议多样,传统存储面向单一数据类型设计,难以以统一的方式进行访问和处理,数据归集流程慢。


2

海量小文件数据加载慢,存储性能不足导致算力无法充分发挥。大模型对存储系统的读写性能要求较高,特别是在训练过程中需要频繁地读取和写入数据,而且需要支持快速的随机访问。数据通常以图片、文档等小文件的形式存在,由于这些小文件的数量巨大,传统存储系统可能无法高效地处理这些数据,导致加载速度缓慢。


3

宝贵的研究数据,在各个阶段面临可靠性和安全性问题。大模型通常使用敏感数据进行训练和推断,在存储时需要保证数据的安全性和完整性,防止数据外泄、篡改或被恶意攻击。一旦存储数据损坏或丢失,可能会导致训练结果的丢失或者准确性下降。


4

大容量存储需求。大模型需要处理大量的数据,包括输入数据和模型参数。这些数据往往非常庞大,需要大量的存储空间来保存。

为了解决大模型时代的数据存储难题,并适应AI大模型的发展需求,宝德重磅推出了完全自研的AI数据湖存储——PLStor GS9200来破局!      
宝德PLStor GS9200是一款面向大模型多应用场景,以性能为中心,具备高可靠、简单易用和丰富企业级功能等优势的领先并行存储系统。其存储集群支持无上限的大规模扩展,可以轻松扩展到EB级别,并能够承载上万台AI/异构算力服务器,满足大容量存储需求。    


极致性能

海量小文件高吞吐量、计算客户端高读写


宝德PLStor GS9200提供了业内领先的基于os内核程序优化设计的原生客户端,以一客户端对多台存储节点的方式并行读写数据,支持RDMA技术。整个系统能提供上TB/s级的吞吐带宽。

在实际运行中,宝德PLStor GS9200的单台计算节点能够充分利用自身的网络吞吐极限能力,进行数据读写。例如,配置了400Gbps Infiniband网络的PLStor GS9200单台节点可以获得≥45GB/s的读写带宽。宝德PLStor GS9200在性能测试中表现出色,相比于业内友商和开源系统,每块Nvme-SSD在该系统中可以提供超过4.3GB/s的读写性能,提升了150%;而每块SATA硬盘的读写性能超过120MB/s,提升了80%。



存算融合

多级存储满足不同阶段的数据存储需求


宝德PLStor GS9200采用存算融合的设计,可以整合计算节点内的存储资源,构建全局命名空间的近线存储池。这使得AI计算可以像访问本地资源一样访问并行文件系统,实现文件共享和高并发读写访问。通过存算融合的部署方案,可以实现灵活配置数量来扩展GPU/CPU计算资源和存储资源,以满足动态扩展的业务需求。



数据安全无小事,软硬实力两手抓


宝德PLStor GS9200保证并行存储系统在数据安全性、高并发读写、高空间利用率三者皆得。它采用N+M纠删码来设置数据保护等级,并具备自动故障检测与恢复机制,实现硬件系统故障自动快速恢复重建。系统同时支持智能快照功能,可以创建多达无限数量的基于增量历史时间点拷贝。当发生数据“软”故障,比如软件程序导致的数据损坏、病毒破坏、意外删除等,可以通过对合适的时间点标记进行“回滚”来快速恢复数据。此外,系统还支持权限控制列表ACL等功能,以及更多可灵活配置的文件访问权限控制选项,以满足不同场景下的数据安全存储和访问需求。



数据湖存储多协议互通,实现平台高效管理


宝德PLStor GS9200数据湖存储支持块、文件、对象、大数据等存储协议,并且支持POSI/NFS/CIFS/HDFS/S3/Swift等多种协议互通,可同时访问同一文件,避免因访问协议不同造成的数据拷贝。它还支持多协议同时读写,无明显语义损失,支持文件修改写、对象多段上传等常用语义,无需配置额外的网关。同时数据可根据应用需要在数据湖中进行可视的流动,简化数据归集流程,实现统一平台管理,大大提升业务与管理效率。

当前,万亿级AI大模型之战已经打响。面对万亿级参数量和PB级数据量带来的挑战,宝德PLStor GS9200并行存储系统凭借更高的可靠性、读写性能、兼容能力等优势,完美替代了传统的文件系统,支撑了大量人工智能、商用HPC项目的数据存储应用,并成功促进了超过五千台计算节点客户端、超过五百台存储节点的单一文件系统、超过100PB裸容量的单一存储池等诸多大规模项目落地,助力AI大模型等更多应用加速。
未来,宝德将持续技术创新,提供多样化的存储产品与方案,并积极携手更多合作伙伴,共同推进AI赋能千行百业,助力开启AI大模型时代新局面。
热门推荐