下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索评估，共找到 81 条记录

默认排序最新上传最多下载

室内安全隐患检测基准

SharpAI/DeepCamera

本基准测试用于评估视觉语言模型（VLM）从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景，旨在模拟真实世界的固定安防监控，提供VLM实用安全检测能力的严格衡量标准。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

AI/LLM安全红队测试指南

offensive-ai-security

SnailSploit/Claude-Red

提供一套完整的AI/LLM系统安全渗透测试方法论，用于评估大型语言模型和AI应用的鲁棒性。涵盖提示词注入、越狱、数据投毒、模型提取等高级攻击向量，适用于进行AI系统的红队演练和安全评估。

提示词与技能优化器

prompt-improver

jeremylongshore/claude-code-plugins-plus-skills

本技能用于全面分析和改进插件提示词、技能定义及命令指令。它从清晰度、安全性、有效性、完整性和简洁性五个维度进行评估，提供详细的评分卡和可操作的重写建议，确保内容符合最佳实践，提升AI性能。

智能家居视频异常检测基准

smarthome-video-anomaly-benchmark

SharpAI/DeepCamera

本基准测试套件专用于评估视觉语言模型（VLM）在智能家居视频异常检测方面的能力。它基于真实的家庭数据集，覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解，是检验AI系统视频理解能力和实时监测准确性的专业级工具。

云攻击方法论

offensive-cloud

SnailSploit/Claude-Red

面向 AWS、Azure、GCP 的云安全攻击与渗透方法论，涵盖身份识别、凭据收集、枚举、提权、持久化、数据外传、横向移动、无服务器与云上 Kubernetes 攻击及规避检测，适用于授权评估。

AI项目治理与可行性评估

alirezarezvani/claude-skills

这是一个模拟首席AI官（CAIO）的严格审查流程，用于评估任何涉及AI的商业计划。在使用AI功能前，该工具强制要求用户评估六个核心维度：效果评估标准、幻觉和错误率风险、欧盟AI法合规性、模型构建方案（API/自建）、成本经济性以及所需团队配置。确保AI项目落地安全、合规且具有经济可行性。

欧盟AI法案合规性评估

ai-act-readiness

alirezarezvani/claude-skills

这是一个全面的合规性评估工具，用于在AI系统进入欧盟市场前进行压力测试。它根据欧盟AI法案要求，涵盖了六个核心问题，包括禁止应用、高风险分类、符合性评估流程、角色义务、透明度披露以及通用目的AI（GPAI）的系统性风险检测，确保系统满足严格的法律要求。

日语NLP挑战与局限性报告

research-issues

taishi-i/awesome-japanese-nlp-resources

该技能用于深入调研指定主题在日语自然语言处理（NLP）领域当前的挑战、局限性和尚未解决的问题。它结合了本地数据集和实时网络搜索，生成详细的“问题报告”，帮助用户了解该领域的技术瓶颈、评估现有成熟度并挖掘未来研究方向。

上一页 1 2 3 4 5 67

语言