下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索能力评估，共找到 46 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

面试系统与招聘流程设计

interview-system-designer

alirezarezvani/claude-skills

本技能用于设计、规划和校准全流程的职位面试系统和招聘流程。它可以帮助用户构建结构化的能力评估体系，生成针对性的面试问题，有效降低面试官偏差，确保招聘过程的客观性、一致性，并使其与岗位核心能力要求保持高度一致。适用于HR、招聘经理和人才发展专业人员。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

MLflow 生命周期管理平台

Orchestra-Research/AI-Research-SKILLs

MLflow 提供实验跟踪、模型注册、版本控制与部署能力，帮助团队在 PyTorch、TensorFlow 等多框架下复现实验、评估对比模型并持续交付。

OpenRouter LLM动态路由规则引擎

openrouter-routing-rules

jeremylongshore/claude-code-plugins-plus-skills

本技能提供了一个复杂的配置驱动规则引擎，用于管理OpenRouter的API调用。它通过评估用户层级、剩余预算、任务类型、是否需要工具调用、延迟要求等多个维度，动态选择最合适的语言模型。这对于构建生产级、具备成本控制和性能优化能力的LLM编排系统至关重要。

AI代码审查专家

performance-testing-review-ai-review

sickn33/antigravity-awesome-skills

这是一个综合型的代码审查专家工具，结合了自动静态分析（如SonarQube, CodeQL, Semgrep）和先进的AI能力。它能够对代码进行多层级审查，全面评估安全漏洞、性能瓶颈、架构一致性及可维护性，适用于任何编程语言的CI/CD流程。

产品OKR瀑布及战略规划工具

product-strategist

alirezarezvani/claude-skills

专为产品负责人设计，提供端到端的OKR（目标和关键结果）瀑布生成能力。用户可以在季度规划周期内，定义公司战略，将高层目标层层分解至产品和团队，并实时评估各层级的战略一致性和平衡性，确保组织目标对齐和高效执行。

量化金融模型与交易分析

sickn33/antigravity-awesome-skills

本技能模拟量化分析师的角色，提供构建复杂金融模型、回测交易策略和深入分析市场数据的能力。它涵盖了投资组合优化（如马可维茨模型）、关键风险指标（如VaR、夏普比率）的计算，以及统计套利等前沿领域。适用于需要进行严谨数据分析、回测和风险评估的量化金融专业人士。

DevSecOps安全审计专家

security-auditor

sickn33/antigravity-awesome-skills

本技能模拟DevSecOps领域专家安全审计师的能力。它能够指导用户进行全流程的安全审计，覆盖从威胁建模到漏洞评估的各个环节。功能包括但不限于应用层安全测试（SAST/DAST）、云安全态势管理、零信任架构验证，以及确保系统符合GDPR、HIPAA、PCI-DSS等国际合规标准，确保安全内嵌于整个开发生命周期。

12 3 4 下一页

语言