提供数据管理、模型开发与训练、模型推理和应用服务四大核心功能,打造大模型“训推用”全栈工具链
具备数据标注审核、数据加速、数据共享功能。数据标注可对指令微调、问答对、RLHF、预训练语料等数据格式进行标注审核与结果导出。数据加速可将数据转存到高速缓存中,提高数据吞吐性能,提升训练效率
开发机提供JupyterLab和VSCode集成开发环境,内置多款系统镜像和基座大模型,可挂载数据集、模型进行在线编码。集成全流程的AI工程化能力,并适配开源主流的分布式训练框架和高效的AI训练加速引擎
面向需要调用预置模型服务或自有模型服务的用户,一站式智算服务平台模块提供全流程工具链,包括模型精调、评估、部署、体验四大产品功能,支持推理加速、量化压缩、服务封装等核心能力
智能体应用服务平台,集成插件集、知识库、提示词工程、Workflow编排器等组件,提供友好的用户界面,用户可轻松地依照个人需求,选择合适的模板快速搭建Bot
自研训练框架打造核心加速算子集合,支持多维度混合全自动并行,提供万卡级超大规模异构模型训练能力,自动兼容英伟达和国产芯片,实现与头部训推框架的无缝对接,覆盖目前行业全部主流开源大模型
通过 3D 并行加速优化(流水线并行、模型并行、数据并行),将训练性能提升20%。推理能力方面,在国产昇腾上的推理性能达到英伟达 A100的80%以上
平台进行万卡纳管调度,建立弹性扩缩容,大大提升算力利用率,并确保容器运行环境的稳固和数据的安全。采用多种策略和技术,能够减少故障恢复的时间和资源消耗,提高系统的可靠性
实现容器故障动态感知和任务断点续训。达到1分钟检测、10分钟定位、30 分钟恢复,支持多种训练框架,覆盖70%的故障场景,最小化对用户的影响,保障业务的连续性
支持公有云、混合云和轻量化部署的多模式交付能力,提供安全、灵活、可扩展的技术解决方案,满足用户多样化的业务及运维需求
基于公共资源池,提供训练和推理服务 即开即用,弹性计费,灵活可靠 全天候7x24小时专业服务
适配国产芯片,支持多种异构算力 面向大规模算力运营场景,提供端到端解决方案 全栈I+P智算系统交付,资源数据安全可控
支持国产芯片及A100,支持云主机、裸金属纳管 面向小规模训推一体项目,部署仅需200核 与IaaS层低耦合,支持服务器裸机纳管
通过用户级别封禁策略保障模型服务内容安全,限制恶意攻击对平台的伤害,包含黑名单管理、白名单管理、AK黑名单管理、风险词表热更新等功能
支持精准匹配、包含匹配和模式匹配三种规则类型,输入相关语句即可完成黑名单操作
支持精准匹配和模式匹配两种规格类型,输入相关语句即可完成白名单操作
支持有期限封禁(1天、2天、3天、1周)和永久封禁两种策略类型,输入AK即可完成封禁管理
支持对黑名单词表、白名单词表和敏感名单词表进行热更新,上传词表文件即可完成风险词表热更新
简单易用
开通后无需额外的配置或调试,3步操作实现零代码多机多卡微调,减少安装组件、下载模型和数据的重复操作
功能全面
集成多种加速及并行技术,满足模型训练推理业务需求。支持断点续训、优雅容错等管理功能
性能优异
万卡算力集群纳管,训推综合性能提升30%。相对于裸机运行,稳定运行时长提升50%
生态开放
引入20+生态大模型、闭源模型和电信大模型。专业团队开发模型及算子库,助力客户完成昇腾迁移适配