下载

Skill UI

浏览并发现 10192+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索指标评估，共找到 66 条记录

默认排序最新上传最多下载

网络流量安全分析自动化

performing-network-traffic-analysis-with-tshark

mukul975/Anthropic-Cybersecurity-Skills

本技能利用tshark和pyshark自动化进行深度网络抓包（PCAP）分析。它适用于安全评估和事件响应场景，能够提取协议统计信息，识别可疑网络流（如端口扫描、心跳信标），并全面提取攻击指标（IOCs），包括IP、域名和URL。尤其擅长检测DNS隧道等复杂网络异常行为。

CVSS漏洞评分与优先级排序

prioritizing-vulnerabilities-with-cvss-scoring

mukul975/Anthropic-Cybersecurity-Skills

本技能详细介绍了通用漏洞评分系统（CVSS v4.0），这是行业标准的漏洞严重性评估框架。内容涵盖了基础指标、威胁指标和环境指标的计算方法，并指导用户如何结合EPSS、CISA KEV等实时威胁情报，实现系统化、可操作的漏洞风险分级和优先修复。

并行代理竞赛平台

alirezarezvani/claude-skills

AgentHub 在独立 git 工作树里并行运行多个智能体，通过指标或 LLM 评估结果，选出最优分支合并，适用于代码优化、内容变体或多策略探索。

评估和排名智能体结果

alirezarezvani/claude-skills

用于评估和对一个智能体工作流（AgentHub）中多个智能体的输出结果进行排名。它支持基于指标的评估（如运行特定命令衡量性能），以及高级LLM判官模式。该模式根据正确性、简洁性和整体质量等多维度进行定性比较，帮助用户确定最佳的最终提交结果。

编码代理性能对比评估

affaan-m/everything-claude-code

本工具是一个轻量级的CLI，用于系统性地对多个编码AI代理（如Claude Code, Aider等）进行“过招”评测。用户通过定义YAML任务，指定代码修改、测试和判断标准，从而量化地获取诸如通过率、API成本、耗时和一致性等关键指标，帮助团队做出基于数据的最佳代理选择。

交互式训练健康监测

wanshuiyin/Auto-claude-code-research-in-sleep

这是一个交互式的训练监控工具，用于定期检查深度学习模型的运行状态和指标健康度。它会分析损失曲线、评估指标、梯度变化等关键指标，自动识别NaN值、发散、平台期等异常情况。根据检测结果，提供继续、等待或停止训练的决策建议，确保计算资源不会浪费在失败的模型上。

Arize LLM评估与监控

arize-evaluator

github/awesome-copilot

本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器（包括提示词模板、分类选项和模型），并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分，并实现持续监控，确保LLM性能的完整追溯。

技术SEO审计与性能检测

sickn33/antigravity-awesome-skills

这是一项全面的技术SEO审计工具，旨在检测网站在抓取性、索引性、安全配置、URL结构和性能等所有关键方面的健康状况。它深入分析核心网络指标（如LCP, INP, CLS），并评估JavaScript渲染和结构化数据的正确实现，确保网站达到最佳的搜索引擎可见性。

Python生存分析与时间事件建模

scikit-survival

K-Dense-AI/scientific-agent-skills

scikit-survival是一个基于scikit-learn的专业Python库，专注于时间事件的生存分析。它解决了处理删失数据（如右删失）这一关键挑战，提供了多种高级模型选择，包括Cox比例风险模型、随机生存森林、梯度提升和生存SVM。用户可以使用C指数和Brier分数等指标评估模型性能，适用于医学、可靠性工程和生物统计等领域的研究。

Clari营收分析与仪表板

clari-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

该工作流用于构建基于Clari导出的数据的深度营收分析仪表板。它能够计算关键指标，如预测准确性、销售线索覆盖率和代表业绩变动，帮助财务分析师和销售经理评估营收健康状况和预测可靠性。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

首席AI官AI计划深度审核

alirezarezvani/claude-skills

这是一套极具深度的AI计划审核流程，模拟首席AI官（CAIO）的严格质询。它从六个关键维度对任何AI方案进行压力测试：包括评估指标定义、故障模式预案、国际合规性、技术选型、成本模型和所需团队角色。适用于确保AI功能在投入使用或重大投资前，具备稳健性、安全性与商业可行性。

上一页 1 2 3 456 下一页

语言