SciFlow
Early Access

无需与集群较劲,即刻启动研究用 GPU 工作空间

SciFlow 为科研团队和 AI 团队提供自助式控制平面:模板化 GPU 实例、组织配额、镜像提交与用量可视化,全部基于 Kubernetes。

底层架构
Kubernetes
控制平面
Rust 服务
身份认证
OIDC / Authentik

启动实例

PyTorch + Jupyter

立即启动
H100
A100
L40S
模板pytorch:2.4 + jupyter
计费组织视觉实验室
GPU 规格1 × H100 (1/1)
自动停止12 小时
痛点

研究算力不该依赖于 Slack 消息和手动 kubectl

大多数团队都在重复造轮子——一次写在脚本里,一次留在工单里。SciFlow 替你把这两层都做掉。

GPU 公平共享很难

缺少真正的准入层时,谁声音大谁就抢到资源,排队全靠 Slack 群里催。

研究者需要环境,而不是裸 Pod

科研工作需要长生命周期的 SSH 或 Jupyter 工作空间,而非绑定 Pod 规约的短命容器。

镜像保存与复用全靠手工

把当前可用环境留给下一次实验,往往意味着一堆脚本、Registry 操作和复制粘贴的命令。

管理员看不到配额和用量

组织配额、成员配额和 GPU 用量统计散落在表格和各种监控面板里,难以汇总。

产品能力

面向交互式 GPU 研究的控制平面

六大产品能力,替代当下大多数集群依赖的脚本、面板和人工审批的拼凑方案。

模板化实例

基于版本化模板启动长生命周期的 SSH、Jupyter 或自定义入口环境。

组织级配额

用户可选择计费的组织,管理员负责管理成员配额和按 GPU 类型分配的整数预算。

队列优先准入

拒绝非法请求,对暂时无容量的合法请求进行排队,避免用空 Pod 抢占 GPU。

运行中环境一键提交镜像

把已配置好的工作负载保存为可复用镜像,作为后续模板和可复现实验的基础。

账户级密钥管理

SSH 密钥与 API 密钥归属于账户,在启动时注入实例,而不是埋藏在模板里。

用量与计费报表

为集群管理员和财务提供用量记录、计费摘要、GPU 核算与定时汇总。

工作流

几分钟内从想法到运行中的 GPU 工作空间

从挑选模板到保存可复用镜像的稳定路径——研究者本来就在走这条流程,只是从未被产品化。

  1. 01

    挑选模板

    选择一个版本化模板——镜像、启动模式、启动脚本、端口与环境变量。

  2. 02

    选择 GPU 规格和组织

    确定 GPU 类型与切分粒度,并选择本次启动要计费到哪个组织。

  3. 03

    自动启动或排队

    准入层实时计算配额。容量充足则立即启动,否则按公平规则排队。

  4. 04

    把环境保存为镜像

    把当前运行中的工作负载提交回镜像,给下一个实验直接复用。

管理员 · 配额

集群概览

实时

GPU 总数

24

使用中

11

排队中

3

组织H100A100队列
视觉实验室4 / 62 / 41
NLP 组1 / 23 / 30
机器人组0 / 11 / 22
面向管理员

不仅服务个人用户,也是平台团队的工具

SciFlow 让平台管理员获得所需的控制权和可观测性,同时不强制底层集群采取僵化的部署结构。

  • 创建组织并指定组织管理员
  • 按 gpu_type 设置组织级 GPU 配额
  • 以 1/8 GPU 粒度设置成员配额
  • 查看队列状态与运行时状态
  • 把 Kubernetes 当作通用执行池
  • 避免把物理节点硬绑到组织上
架构

为 Kubernetes 设计的 Rust 控制平面

五个职责清晰的服务。Authentik 在边缘负责登录,SciFlow 负责授权、配额与运行时。

P

Policy

本地用户投影、配额账本与准入决策都在这里。

O

Orchestrator

模板、实例生命周期、队列状态与运行时状态。

I

Images

镜像元数据、提交操作以及 Registry 元数据归属。

O

Operations

持久化 Worker、重试、对账与节点本地执行。

R

Reporting

用量记录、计费摘要与 GPU 核算汇总。

SciFlow 范围之外

身份、入口与 Postgres

Authentik、oauth2-proxy 和集群基础设施由独立的 FluxCD 仓库管理——SciFlow 只关注应用层。

适合谁

为认真做研究基础设施的团队而生

高校 AI 实验室

在学生与项目之间共享 GPU,并保留合理的配额边界。

内部 ML 平台团队

用自助式产品替代漫长的工单流程。

GPU 集群管理员

组织与成员配额一目了然,不需要再用空 Pod 占位。

创业期研究团队

每个实验都有可复现的模板和保存好的镜像。

共享计算环境

通过显式排队与租约实现组织级公平。

让你的研究集群拥有自助式 GPU 计算能力

SciFlow 帮助团队启动、治理和复用交互式 GPU 环境,而无需把 Kubernetes 直接暴露给最终用户。