登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
评估
,共找到
81
条记录
默认排序
最新上传
最多下载
室内安全隐患检测基准
homesafe-bench
SharpAI/DeepCamera
444
本基准测试用于评估视觉语言模型(VLM)从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景,旨在模拟真实世界的固定安防监控,提供VLM实用安全检测能力的严格衡量标准。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
AI/LLM安全红队测试指南
offensive-ai-security
SnailSploit/Claude-Red
479
提供一套完整的AI/LLM系统安全渗透测试方法论,用于评估大型语言模型和AI应用的鲁棒性。涵盖提示词注入、越狱、数据投毒、模型提取等高级攻击向量,适用于进行AI系统的红队演练和安全评估。
查看详情
提示词与技能优化器
prompt-improver
jeremylongshore/claude-code-plugins-plus-skills
90
本技能用于全面分析和改进插件提示词、技能定义及命令指令。它从清晰度、安全性、有效性、完整性和简洁性五个维度进行评估,提供详细的评分卡和可操作的重写建议,确保内容符合最佳实践,提升AI性能。
查看详情
智能家居视频异常检测基准
smarthome-video-anomaly-benchmark
SharpAI/DeepCamera
102
本基准测试套件专用于评估视觉语言模型(VLM)在智能家居视频异常检测方面的能力。它基于真实的家庭数据集,覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解,是检验AI系统视频理解能力和实时监测准确性的专业级工具。
查看详情
云攻击方法论
offensive-cloud
SnailSploit/Claude-Red
205
面向 AWS、Azure、GCP 的云安全攻击与渗透方法论,涵盖身份识别、凭据收集、枚举、提权、持久化、数据外传、横向移动、无服务器与云上 Kubernetes 攻击及规避检测,适用于授权评估。
查看详情
AI项目治理与可行性评估
caio-review
alirezarezvani/claude-skills
388
这是一个模拟首席AI官(CAIO)的严格审查流程,用于评估任何涉及AI的商业计划。在使用AI功能前,该工具强制要求用户评估六个核心维度:效果评估标准、幻觉和错误率风险、欧盟AI法合规性、模型构建方案(API/自建)、成本经济性以及所需团队配置。确保AI项目落地安全、合规且具有经济可行性。
查看详情
欧盟AI法案合规性评估
ai-act-readiness
alirezarezvani/claude-skills
386
这是一个全面的合规性评估工具,用于在AI系统进入欧盟市场前进行压力测试。它根据欧盟AI法案要求,涵盖了六个核心问题,包括禁止应用、高风险分类、符合性评估流程、角色义务、透明度披露以及通用目的AI(GPAI)的系统性风险检测,确保系统满足严格的法律要求。
查看详情
日语NLP挑战与局限性报告
research-issues
taishi-i/awesome-japanese-nlp-resources
231
该技能用于深入调研指定主题在日语自然语言处理(NLP)领域当前的挑战、局限性和尚未解决的问题。它结合了本地数据集和实时网络搜索,生成详细的“问题报告”,帮助用户了解该领域的技术瓶颈、评估现有成熟度并挖掘未来研究方向。
查看详情
上一页
1
2
3
4
5
6
7
语言
简体中文
English