以客户为中心,提供定制化或一站式的全栈解决方案,赋能千行百业
宝德依托强大的研发能力以及丰富的行业经验,针对机器/深度学习科研、实训教学等场景提供一站式解决方案。基于新的设计理念,打造出一款功能完善的PLStack人工智能管理平台,平台能提供端到端的流程化管理,涵盖数据标注、算法开发、模型训练、模型管理、模型服务等AI完整生命周期流程支持。
PLStack平台采用容器轻量级虚拟化方式作为基础,实现对多集群多节点的GPU、CPU、内存、存储等基础设施资源池化;基于Kubernetes定制化开发的编排调度工具,实现资源高效灵活调度;同时企业级设计理念使平台具备多租户多层级用户管理、权限管理、资源管理、vGPU等丰富的平台能力,全方位满足用户对AI开发平台高可用、高可靠、高稳定要求。大大缓解深度学习算法训练的瓶颈,从而释放人工智能的全新能力,让用户不再因为GPU的昂贵望而却步。
平台为用户提供简洁的WEB界面,丰富的功能以及多样化工具。如开发模块提供一键式环境生成、在线交互式开发工具Mlab;模型训练提供参数调优、分布式并行训练等;模型服务提供在线模型部署推理、模型服务调用;平台同时集成数据标注工具、镜像仓库等,实现一站式AI开发。
同时深度学习框架镜像以插件的方式接入系统,集成了多种业界常用框架,如 Tensorflow,PyTorch ,Caffe和 MXnet等,支持自定义扩展,极大提升整体系统的扩展性和可维护性。
PLStack AI平台整体分为三层:基础设施层、资源调度层、平台功能层,架构如下图:
基础设施层主要包括物理机、虚拟机、存储设备、网络设备、一体机等资源,为业务提供基础算力支撑。
资源调度层借助Docker引擎实现CPU、GPU、内存、存储等资源的轻量级虚拟化,基于Kubernetes 定制化研发实现对任务和资源的灵活编排调度,具有多租户隔离、任务资源逻辑隔离等特点,结合高可靠的存储服务、分布式并行训练服务等功能组件,为上层业务功能模块提供坚实的基石。
平台功能层提供端到端 AI科研流程支撑,其中用户端包含了开发模块、AI框架、训练模块、数据管理模块、模型服务模块、镜像仓库、工单管理等;管理端包含计量计费、多租户管理、告警监控设置、平台运营运维等。
PLStack平台由管理端和业务端两个系统组成。管理端为平台管理员视图,包括资源总览、业务管理、产品管理、运维管理、配置管理、财务管理、安全中心等7个模块;业务视图为普通用户视图,包括账号中心、资源总览、开发环境、模型训练、存储管理、模型服务、模型管理、镜像仓库等八个模块。如下图所示。
宝德人工智能集群方案通过分析用户的研究方向和实际需求,利用PLStack AI管理软件平台再结合宝德最新一代服务器,打造了一套计算能力强、资源利用率高、管理便捷和具有超高安全性的AI集群平台。
1、提供对容器+镜像的管理,支持网页端容器全生命周期管理,对异构资源进行高效管理、调度、监控。
2、多数据中心管理,用户可以选择使用某一数据中心的资源;同时具备3层组织架构管理,如管理员、组织管理员、成员等,通过设定对组织及用户进行资源配额;
3、平台集成多种深度学习各种框架(如TensorFlow,pytorch,caffe,keras等)用户模型开发、模型训练等;支持自定义框架扩展;
4、平台具备多种计费模式;提供完整的计量计费功能,管理可通过计费模块对GPU、CPU、内存等资源进行费用设定,根据用户使用时长进行计费;
5、支持多个物理区域的GPU卡资源统一纳管,统一分配;支持单机单卡,单机多卡,多机多卡以及单GPU卡多用户共享方式分配资源;以任务方式分配计算资源;任务完成计算资源回收;
6、支持管理集群中GPU服务器及GPU卡的运行状况,资源使用情况,包含GPU总数/使用数,GPU核心平均利用率,GPU显存平均利用率等
7、支持用户按需设置深度学习环境,包括深度学习框架,网络模型,GPU及CPU资源;训练完成销毁运行环境,释放计算资源;支持快速创建深度学习环境,应用程序及硬件资源相互隔离,独立运行;
8、内置上百种各种优化AI算法,可满足多个业务场景需求,降低用户门槛,提升AI开发效率
9、提供web端高效协同AI算法模型开发工具,提供Jupyter lab和jupyter notebook的集成,支持AI相关数据集成到Jupyter中;。
10、支持web及shell提交训练任务,支持用户可以实时查看自己任务的运行结果;
11、支持可视化作业管理、版本管理、克隆任务(参数管理)等功能,基于参数管理可以快速创建任务,提升模型训练任务的迭代效率;
12、支持基于常用的AI算法框架及准备好的算法可以进行多版本任务参数调优,优化并增强机器学习全生命周期管理流程;
13、集群可实现分布式并行训练功能;支持动态申请分布式训练所需要的GPU数量和节点数量,且平台可以实时监控每个节点的运行情况;
14、具备本地镜像仓库,支持镜像分组管理及分享,允许用户上传自定义镜像,支持将用户环境一键打包至镜像仓库,且支持将权限设置为公有或者私有;
15、支持对多版本的模型统一管理功能,可以集中管理所有在模型训练中得到的模型,导入并管理在本地开发的模型,满足模型需要不断迭代和调试的管理需求;
16、提供scp访问/Web访问/扩容/重命名/修改密码/共享存储/删除等功能;能支持个人用户上传数据集之后可由多用户同时调用
异构硬件融合和算力优化,支持多种CPU和GPU卡,同时集成多种主流的深度学习框架和交互式IDE开发环境。
借助容器、K8S等云计算技术打造的AI平台再结合超强算力的 GPU 集群,提供高并行、高吞吐、低时延的极致性能,在科学计算表现中性能比传统架构提高 50 倍以上。
弹性计算资源和算力优化管理,vGPU技术、GPU共享、多机多卡分布式并行训练、多层级组织架构、组织及用户资源配额等。
平台预置TensorFlow 、 PyTorch、Caffe 等多种深度学习开源框架,无需安装配置环境,一键快速提交训练任务。同时数据模型分析交互式开发工具 MLab,还支持一键添加代码和数据集。
高效的资源优化调度和管理显著地降低资源使用和运维成本,多种计费模式极大地降低前期投入。
平台完善的环境隔离及网络监控服务,保障用户数据和服务安全无虞。