Distributed LLM training – Launch multi-node, multi-GPU training jobs across NVLink-connected clusters using Hopper or Blackwell GPUs.
Model serving with auto-scaling – Deploy HuggingFace or custom models as REST API endpoints with replica scaling managed by Lepton.
MLOps pipeline integration – Connect Lepton's compute layer into existing MLOps workflows via API, enabling automated training and deployment pipelines.
Fine-tuning with managed environments – Use pre-configured CUDA environments to fine-tune foundation models (e.g., Llama, Mistral) without environment setup overhead.
GPU resource orchestration – Leverage NVIDIA Run:ai integration for intelligent GPU scheduling, workload prioritization, and utilization optimization across teams.

NVIDIA DGX Cloud Lepton