CoreWeave GPU集群故障排查

v20260423

coreweave-common-errors

本指南旨在为用户提供一套完整的CoreWeave基础设施故障排除流程。它专门用于诊断和修复在使用Kubernetes部署AI/ML工作负载时遇到的核心问题，包括GPU资源调度、Pod状态异常、CUDA内存不足以及网络通信超时等。

CoreWeave GPU Kubernetes CUDA 故障排查人工智能机器学习深度学习

123 次下载

概览

CoreWeave Common Errors

kubectl describe pod <pod-name> | grep -A5 Events
# "0/N nodes are available: insufficient nvidia.com/gpu"

Fix: Check GPU availability: kubectl get nodes -l gpu.nvidia.com/class=A100_PCIE_80GB. Try a different GPU type or region.

torch.cuda.OutOfMemoryError: CUDA out of memory

Fix: Reduce batch size, enable gradient checkpointing, or use a larger GPU (A100-80GB instead of 40GB).

Fix: Create an imagePullSecret:

kubectl create secret docker-registry regcred \
  --docker-server=ghcr.io \
  --docker-username=$GH_USER \
  --docker-password=$GH_TOKEN

NCCL error: unhandled system error

Fix: Ensure all GPUs are on the same node (NVLink). For multi-node, use InfiniBand-connected nodes.

Fix: Check storage class availability: kubectl get sc. Use CoreWeave storage classes like shared-hdd-ord1 or shared-ssd-ord1.

Fix: List valid GPU class labels:

kubectl get nodes -o json | jq -r '.items[].metadata.labels["gpu.nvidia.com/class"]' | sort -u

Fix: Check Service and Endpoints:

kubectl get svc,endpoints <service-name>

For diagnostics, see coreweave-debug-bundle.

信息

Category 编程开发

Name coreweave-common-errors

版本 v20260423

大小 2.13KB

Source jeremylongshore/claude-code-plugins-plus-skills

更新时间 2026-04-26