下载

Skill UI

浏览并发现 9785+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索打分，共找到 5 条记录

默认排序最新上传最多下载

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

Clarvia工具就绪度评估

clarvia-aeo-check

sickn33/antigravity-awesome-skills

该技能利用Clarvia AEO（智能体体验优化）评估任何工具（MCP服务器、API或CLI）的智能体就绪度。它从API可访问性、数据结构、智能体兼容性等多个维度对上万个工具进行打分，确保集成到AI Agent工作流中的组件具备足够的高质量和可靠性。

Arize LLM评估与监控

arize-evaluator

github/awesome-copilot

本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器（包括提示词模板、分类选项和模型），并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分，并实现持续监控，确保LLM性能的完整追溯。

智能体技能优化与诊断

skill-optimizer

sickn33/antigravity-awesome-skills

本技能用于对AI智能体的技能库进行全面的诊断和优化。它通过分析历史会话记录和静态技能文件，从8个维度为每个技能打分。它可以识别低触发率、用户反应不佳和流程未完成等问题，生成优先级的优化报告（P0/P1/P2），从而显著提升智能体的决策能力和可靠性。

1

语言