登录
下载
Skill UI
浏览并发现
9785+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
行为测试
,共找到
3
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
AI模型行为透视检测
bdistill-behavioral-xray
sickn33/antigravity-awesome-skills
460
本技能可系统性地探测AI模型的六大行为模式,包括推理能力、拒绝边界、格式化习惯和知识接地性。它生成包含雷达图和可操作洞察的HTML报告,帮助用户了解模型的真实行为,用于模型选型比较、安全审计或红队测试。
查看详情
智能家居视频异常检测基准
smarthome-video-anomaly-benchmark
SharpAI/DeepCamera
102
本基准测试套件专用于评估视觉语言模型(VLM)在智能家居视频异常检测方面的能力。它基于真实的家庭数据集,覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解,是检验AI系统视频理解能力和实时监测准确性的专业级工具。
查看详情
1
语言
简体中文
English