登录
下载
Skill UI
浏览并发现
9979+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
训练
,共找到
160
条记录
默认排序
最新上传
最多下载
GPU实例管理与机器学习工作流
vastai-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
443
这是一个完整的GPU计算资源工作流。它帮助用户在Vast.ai上执行端到端的工作流:从根据规格和价格搜索最佳GPU资源,到创建实例,执行复杂的模型训练或推理任务,收集模型成果,并最重要的是销毁实例以停止计费。适用于AI模型训练和计算任务。
查看详情
Vast.ai分布式训练与成本管理
vastai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
439
这是一个高级工作流,用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计,能自动处理Spot机中断和使用检查点进行作业恢复。同时,该工作流提供全面的成本分析功能,帮助用户跟踪账单历史,优化GPU支出,并安全地销毁集群以停止计费。
查看详情
Vast.ai GPU成本优化指南
vastai-cost-tuning
jeremylongshore/claude-code-plugins-plus-skills
191
本工具包旨在帮助用户优化Vast.ai上的GPU云资源使用成本。它提供了选择成本效益最高GPU型号、利用抢占式(Spot)实例以及设置自动销毁机制的完整指南。通过检测闲置计算资源和监控运行费用,确保AI模型训练和推理作业能够高效、经济地完成。
查看详情
机器学习训练数据安全管理
vastai-data-handling
jeremylongshore/claude-code-plugins-plus-skills
158
本指南提供了在云端GPU实例(如Vast.ai)上安全管理训练数据和模型工件的完整流程。它涵盖了数据传输(SCP、压缩、云存储)、AES-256加密实现、模型检查点到S3的持久化,以及实例销毁前的安全数据清理,确保了整个机器学习项目的合规性和数据完整性。
查看详情
Vast.ai GPU实例故障处理手册
vastai-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
199
本手册提供了一套完整的Vast.ai云GPU实例故障应急响应流程。它系统性地涵盖了包括抢占、训练任务崩溃和GPU硬件故障等常见场景。用户可以遵循手册中的排查、缓解、恢复和事后分析步骤,最大程度地减少停机时间,保障计算任务的持续性。
查看详情
GPU工作负载迁移:Vast.ai实战指南
vastai-migration-deep-dive
jeremylongshore/claude-code-plugins-plus-skills
124
本指南详细介绍了GPU工作负载的迁移流程,指导用户如何将深度学习训练环境从AWS、GCP等主流云平台或其它GPU云迁移到Vast.ai。内容涵盖成本对比分析、Docker镜像适配、云凭证处理以及完整的验证和回滚步骤,是进行复杂计算资源迁移的实战手册。
查看详情
AI深度学习GPU性能优化
vastai-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
77
这是一份关于深度学习工作流和云GPU平台性能优化的综合指南。内容涵盖了如何通过性能/金钱比选择最佳实例、减少启动延迟、精细调优数据管道(如DataLoader和pin_memory),以及使用PyTorch和Bash脚本实现多GPU分布式训练,以最大化计算资源的利用率和训练效率。
查看详情
Vast.ai GPU计算工作流架构
vastai-reference-architecture
jeremylongshore/claude-code-plugins-plus-skills
482
本指南提供了在Vast.ai上运行复杂GPU计算工作流的生产级参考架构。它详细介绍了三层架构模式(编排器、GPU工作节点、存储),指导用户设计故障容错的ML/AI训练管线、作业队列和持久化检查点管理,确保系统的高可靠性与可扩展性。
查看详情
Vast.ai 安全基础与最佳实践
vastai-security-basics
jeremylongshore/claude-code-plugins-plus-skills
489
本技能提供了使用Vast.ai云环境时的安全最佳实践指南。内容涵盖API密钥管理、强化SSH访问安全、数据销毁前的安全清理,以及网络传输规范。适用于构建和维护安全、可靠的AI开发和模型训练环境。
查看详情
火山引擎LLM强化训练
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
398
使用火山引擎 verl 训练 LLM 的强化学习指南,涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。
查看详情
wandb实验日志记录
wandb-experiment-logger
jeremylongshore/claude-code-plugins-plus-skills
201
在机器学习训练中自动处理 wandb 实验日志任务,提供流程指导、最佳实践、代码配置示例及校验,确保数据准备、模型训练、超参调优与实验追踪一致。
查看详情
分子机器学习工具集
deepchem
K-Dense-AI/claude-scientific-skills
229
DeepChem 是面向化学与生物的 Python 机器学习库,提供分子特征化、数据加载、拆分和模型训练能力,可快速用于属性、毒性、蛋白质或材料性质预测。
查看详情
上一页
1
2
3
...
5
6
7
8
9
10
11
12
13
14
下一页
语言
简体中文
English