时间:2023-08-01来源:本站
大模型时代,AI存力与算力同样不容忽视
1
数据归集速度慢且来源复杂,预处理阶段难以实现统一访问。数据类型多元复杂,服务协议多样,传统存储面向单一数据类型设计,难以以统一的方式进行访问和处理,数据归集流程慢。
2
海量小文件数据加载慢,存储性能不足导致算力无法充分发挥。大模型对存储系统的读写性能要求较高,特别是在训练过程中需要频繁地读取和写入数据,而且需要支持快速的随机访问。数据通常以图片、文档等小文件的形式存在,由于这些小文件的数量巨大,传统存储系统可能无法高效地处理这些数据,导致加载速度缓慢。
3
宝贵的研究数据,在各个阶段面临可靠性和安全性问题。大模型通常使用敏感数据进行训练和推断,在存储时需要保证数据的安全性和完整性,防止数据外泄、篡改或被恶意攻击。一旦存储数据损坏或丢失,可能会导致训练结果的丢失或者准确性下降。
4
大容量存储需求。大模型需要处理大量的数据,包括输入数据和模型参数。这些数据往往非常庞大,需要大量的存储空间来保存。
极致性能
海量小文件高吞吐量、计算客户端高读写
宝德PLStor GS9200提供了业内领先的基于os内核程序优化设计的原生客户端,以一客户端对多台存储节点的方式并行读写数据,支持RDMA技术。整个系统能提供上TB/s级的吞吐带宽。
在实际运行中,宝德PLStor GS9200的单台计算节点能够充分利用自身的网络吞吐极限能力,进行数据读写。例如,配置了400Gbps Infiniband网络的PLStor GS9200单台节点可以获得≥45GB/s的读写带宽。宝德PLStor GS9200在性能测试中表现出色,相比于业内友商和开源系统,每块Nvme-SSD在该系统中可以提供超过4.3GB/s的读写性能,提升了150%;而每块SATA硬盘的读写性能超过120MB/s,提升了80%。
存算融合
多级存储满足不同阶段的数据存储需求
宝德PLStor GS9200采用存算融合的设计,可以整合计算节点内的存储资源,构建全局命名空间的近线存储池。这使得AI计算可以像访问本地资源一样访问并行文件系统,实现文件共享和高并发读写访问。通过存算融合的部署方案,可以实现灵活配置数量来扩展GPU/CPU计算资源和存储资源,以满足动态扩展的业务需求。
数据安全无小事,软硬实力两手抓
宝德PLStor GS9200保证并行存储系统在数据安全性、高并发读写、高空间利用率三者皆得。它采用N+M纠删码来设置数据保护等级,并具备自动故障检测与恢复机制,实现硬件系统故障自动快速恢复重建。系统同时支持智能快照功能,可以创建多达无限数量的基于增量历史时间点拷贝。当发生数据“软”故障,比如软件程序导致的数据损坏、病毒破坏、意外删除等,可以通过对合适的时间点标记进行“回滚”来快速恢复数据。此外,系统还支持权限控制列表ACL等功能,以及更多可灵活配置的文件访问权限控制选项,以满足不同场景下的数据安全存储和访问需求。
数据湖存储多协议互通,实现平台高效管理
宝德PLStor GS9200数据湖存储支持块、文件、对象、大数据等存储协议,并且支持POSI/NFS/CIFS/HDFS/S3/Swift等多种协议互通,可同时访问同一文件,避免因访问协议不同造成的数据拷贝。它还支持多协议同时读写,无明显语义损失,支持文件修改写、对象多段上传等常用语义,无需配置额外的网关。同时数据可根据应用需要在数据湖中进行可视的流动,简化数据归集流程,实现统一平台管理,大大提升业务与管理效率。