登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
能力评估
,共找到
46
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
面试系统与招聘流程设计
interview-system-designer
alirezarezvani/claude-skills
366
本技能用于设计、规划和校准全流程的职位面试系统和招聘流程。它可以帮助用户构建结构化的能力评估体系,生成针对性的面试问题,有效降低面试官偏差,确保招聘过程的客观性、一致性,并使其与岗位核心能力要求保持高度一致。适用于HR、招聘经理和人才发展专业人员。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
91
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
MLflow 生命周期管理平台
mlflow
Orchestra-Research/AI-Research-SKILLs
126
MLflow 提供实验跟踪、模型注册、版本控制与部署能力,帮助团队在 PyTorch、TensorFlow 等多框架下复现实验、评估对比模型并持续交付。
查看详情
OpenRouter LLM动态路由规则引擎
openrouter-routing-rules
jeremylongshore/claude-code-plugins-plus-skills
423
本技能提供了一个复杂的配置驱动规则引擎,用于管理OpenRouter的API调用。它通过评估用户层级、剩余预算、任务类型、是否需要工具调用、延迟要求等多个维度,动态选择最合适的语言模型。这对于构建生产级、具备成本控制和性能优化能力的LLM编排系统至关重要。
查看详情
AI代码审查专家
performance-testing-review-ai-review
sickn33/antigravity-awesome-skills
392
这是一个综合型的代码审查专家工具,结合了自动静态分析(如SonarQube, CodeQL, Semgrep)和先进的AI能力。它能够对代码进行多层级审查,全面评估安全漏洞、性能瓶颈、架构一致性及可维护性,适用于任何编程语言的CI/CD流程。
查看详情
产品OKR瀑布及战略规划工具
product-strategist
alirezarezvani/claude-skills
279
专为产品负责人设计,提供端到端的OKR(目标和关键结果)瀑布生成能力。用户可以在季度规划周期内,定义公司战略,将高层目标层层分解至产品和团队,并实时评估各层级的战略一致性和平衡性,确保组织目标对齐和高效执行。
查看详情
量化金融模型与交易分析
quant-analyst
sickn33/antigravity-awesome-skills
60
本技能模拟量化分析师的角色,提供构建复杂金融模型、回测交易策略和深入分析市场数据的能力。它涵盖了投资组合优化(如马可维茨模型)、关键风险指标(如VaR、夏普比率)的计算,以及统计套利等前沿领域。适用于需要进行严谨数据分析、回测和风险评估的量化金融专业人士。
查看详情
DevSecOps安全审计专家
security-auditor
sickn33/antigravity-awesome-skills
72
本技能模拟DevSecOps领域专家安全审计师的能力。它能够指导用户进行全流程的安全审计,覆盖从威胁建模到漏洞评估的各个环节。功能包括但不限于应用层安全测试(SAST/DAST)、云安全态势管理、零信任架构验证,以及确保系统符合GDPR、HIPAA、PCI-DSS等国际合规标准,确保安全内嵌于整个开发生命周期。
查看详情
1
2
3
4
下一页
语言
简体中文
English