下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索打分，共找到 8 条记录

默认排序最新上传最多下载

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

自动研究论文迭代评审

auto-review-loop-llm

wanshuiyin/Auto-claude-code-research-in-sleep

该技能提供一个自主的、迭代式的研究论文评审循环，模拟了严格的同行评审过程。它利用外部兼容OpenAI的LLM API，对研究内容进行反复打分、批判和弱点识别。该流程将持续迭代改进内容，直到LLM给出积极评估或达到最大轮次限制。非常适用于学术论文撰写、技术文档和复杂提案的深度打磨。

安全事件分级手册

triaging-security-incident-with-ir-playbook

mukul975/Anthropic-Cybersecurity-Skills

引导SOC分析员按流程处理安全告警：接收确认、丰富情报、判定类别、打分评级、启动响应手册并调度团队，保证快速且可复用的事件响应。

Clarvia工具就绪度评估

clarvia-aeo-check

sickn33/antigravity-awesome-skills

该技能利用Clarvia AEO（智能体体验优化）评估任何工具（MCP服务器、API或CLI）的智能体就绪度。它从API可访问性、数据结构、智能体兼容性等多个维度对上万个工具进行打分，确保集成到AI Agent工作流中的组件具备足够的高质量和可靠性。

识别语音钓鱼中的深度伪造音频

detecting-deepfake-audio-in-vishing-attacks

mukul975/Anthropic-Cybersecurity-Skills

通过提取 MFCC 与频谱特征，对批量语音数据进行打分并生成取证报告，帮助事件响应、红蓝对抗或反语音钓鱼调查识别 AI 生成音频。

Arize LLM评估与监控

arize-evaluator

github/awesome-copilot

本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器（包括提示词模板、分类选项和模型），并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分，并实现持续监控，确保LLM性能的完整追溯。

智能体技能优化与诊断

skill-optimizer

sickn33/antigravity-awesome-skills

本技能用于对AI智能体的技能库进行全面的诊断和优化。它通过分析历史会话记录和静态技能文件，从8个维度为每个技能打分。它可以识别低触发率、用户反应不佳和流程未完成等问题，生成优先级的优化报告（P0/P1/P2），从而显著提升智能体的决策能力和可靠性。

1

语言