登录
下载
Skill UI
浏览并发现
9785+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
打分
,共找到
5
条记录
默认排序
最新上传
最多下载
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
Clarvia工具就绪度评估
clarvia-aeo-check
sickn33/antigravity-awesome-skills
416
该技能利用Clarvia AEO(智能体体验优化)评估任何工具(MCP服务器、API或CLI)的智能体就绪度。它从API可访问性、数据结构、智能体兼容性等多个维度对上万个工具进行打分,确保集成到AI Agent工作流中的组件具备足够的高质量和可靠性。
查看详情
Arize LLM评估与监控
arize-evaluator
github/awesome-copilot
271
本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器(包括提示词模板、分类选项和模型),并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分,并实现持续监控,确保LLM性能的完整追溯。
查看详情
智能体技能优化与诊断
skill-optimizer
sickn33/antigravity-awesome-skills
141
本技能用于对AI智能体的技能库进行全面的诊断和优化。它通过分析历史会话记录和静态技能文件,从8个维度为每个技能打分。它可以识别低触发率、用户反应不佳和流程未完成等问题,生成优先级的优化报告(P0/P1/P2),从而显著提升智能体的决策能力和可靠性。
查看详情
1
语言
简体中文
English