面向模型开发、训练编排、数据管理、模型服务和安全审计的一体化智算平台。

服务内容

平台概述

启研HPCAI调度平台是一个集成化的人工智能资源调度与任务管理平台，其核心价值在于通过容器化技术实现底层算力资源的深度池化与高效分配。平台通过统一的资源监控大屏，实时动态调度 CPU、GPU 及内存资源，支持从单机到大规模集群的弹性扩展。无论是交互式的开发环境、复杂的模型训练任务，还是高并发的推理服务，平台都能根据任务优先级和资源负载自动完成任务指派与环境部署，极大化地提升了硬件基础设施的周转效率与算力产出。

平台概述

在功能架构上，平台围绕“调度”构建了完整的 AI 生产链路，涵盖了从原始数据集的版本化管理、集成式数据标注服务，到支持主流框架的分布式训练编排。它不仅为算法工程师提供了开箱即用的开发空间，还通过严密的安全审计系统对资源调用、模型操作及代码获取进行全生命周期的行为追踪。这种“算力调度+流程管理”的双轮驱动模式，有效解决了企业在 AI 研发过程中面临的环境配置复杂、算力分配不均及资产管理混乱等痛点，为大模型时代的科研与业务迭代提供了坚实的底座支持。

资产与资源概览 (Dashboard)

资源监控：实时统计 GPU、CPU、内存及存储的使用情况（图片 1）。新手引导：明确展示了 AI 开发的五个标准步骤：数据处理、模型开发、模型训练、模型管理、模型服务。

模型开发与环境管理 (Development Environment)

交互式开发：提供集成了 PyTorch、TensorFlow 等框架的开发环境（Notebook/容器化环境）。远程访问：支持通过 SSH（Xshell, OpenSSH）或 Web 方式远程连接开发机。硬件配置自定义：用户可以灵活选择计算节点配置，例如显卡型号（RTX-4090）、核数和内存。

模型训练 (Model Training)

任务编排：支持新建训练任务，配置启动文件、运行参数及启动命令。可视化监控：集成了 Tensorboard，用于实时观察训练指标曲线。超参调优：菜单栏显示支持“超参调优”功能，用于自动化寻找最优模型参数。

数据管理 (Data Management)

数据集管理：支持创建、导入和版本化管理数据集。数据标注：集成了标注工具（如 label-studio），支持在线标注服务，并能监控标注环境的 CPU/内存占用。存储管理：支持挂载外部文件存储，确保数据的持久化。

模型服务与部署 (Model Serving)

在线推理：能够将训练好的模型发布为推理服务，实现模型从实验室到生产环境的转化。镜像仓库：管理自定义的 Docker 镜像，方便环境的快速复现和迁移。

安全与审计 (Security & Audit)

操作审计：详细记录了所有用户的操作日志（如：删除模型、创建服务、获取代码等），包含操作 IP、地域、耗时及结果，确保平台使用的合规性与可追溯性。

AI 调度平台场景

典型挑战

服务方案

智算平台任务配图

启研人工智能调度平台

资源总览与新手引导

模型开发环境

开发实例与远程访问

服务内容

平台概述

平台概述

资产与资源概览 (Dashboard)

模型开发与环境管理 (Development Environment)

模型训练 (Model Training)

数据管理 (Data Management)

模型服务与部署 (Model Serving)

安全与审计 (Security & Audit)