登录
下载
Skill UI
浏览并发现
10192+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
指标评估
,共找到
66
条记录
默认排序
最新上传
最多下载
网络流量安全分析自动化
performing-network-traffic-analysis-with-tshark
mukul975/Anthropic-Cybersecurity-Skills
60
本技能利用tshark和pyshark自动化进行深度网络抓包(PCAP)分析。它适用于安全评估和事件响应场景,能够提取协议统计信息,识别可疑网络流(如端口扫描、心跳信标),并全面提取攻击指标(IOCs),包括IP、域名和URL。尤其擅长检测DNS隧道等复杂网络异常行为。
查看详情
CVSS漏洞评分与优先级排序
prioritizing-vulnerabilities-with-cvss-scoring
mukul975/Anthropic-Cybersecurity-Skills
74
本技能详细介绍了通用漏洞评分系统(CVSS v4.0),这是行业标准的漏洞严重性评估框架。内容涵盖了基础指标、威胁指标和环境指标的计算方法,并指导用户如何结合EPSS、CISA KEV等实时威胁情报,实现系统化、可操作的漏洞风险分级和优先修复。
查看详情
并行代理竞赛平台
agenthub
alirezarezvani/claude-skills
469
AgentHub 在独立 git 工作树里并行运行多个智能体,通过指标或 LLM 评估结果,选出最优分支合并,适用于代码优化、内容变体或多策略探索。
查看详情
评估和排名智能体结果
eval
alirezarezvani/claude-skills
155
用于评估和对一个智能体工作流(AgentHub)中多个智能体的输出结果进行排名。它支持基于指标的评估(如运行特定命令衡量性能),以及高级LLM判官模式。该模式根据正确性、简洁性和整体质量等多维度进行定性比较,帮助用户确定最佳的最终提交结果。
查看详情
编码代理性能对比评估
agent-eval
affaan-m/everything-claude-code
430
本工具是一个轻量级的CLI,用于系统性地对多个编码AI代理(如Claude Code, Aider等)进行“过招”评测。用户通过定义YAML任务,指定代码修改、测试和判断标准,从而量化地获取诸如通过率、API成本、耗时和一致性等关键指标,帮助团队做出基于数据的最佳代理选择。
查看详情
交互式训练健康监测
training-check
wanshuiyin/Auto-claude-code-research-in-sleep
53
这是一个交互式的训练监控工具,用于定期检查深度学习模型的运行状态和指标健康度。它会分析损失曲线、评估指标、梯度变化等关键指标,自动识别NaN值、发散、平台期等异常情况。根据检测结果,提供继续、等待或停止训练的决策建议,确保计算资源不会浪费在失败的模型上。
查看详情
Arize LLM评估与监控
arize-evaluator
github/awesome-copilot
271
本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器(包括提示词模板、分类选项和模型),并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分,并实现持续监控,确保LLM性能的完整追溯。
查看详情
技术SEO审计与性能检测
seo-technical
sickn33/antigravity-awesome-skills
315
这是一项全面的技术SEO审计工具,旨在检测网站在抓取性、索引性、安全配置、URL结构和性能等所有关键方面的健康状况。它深入分析核心网络指标(如LCP, INP, CLS),并评估JavaScript渲染和结构化数据的正确实现,确保网站达到最佳的搜索引擎可见性。
查看详情
Python生存分析与时间事件建模
scikit-survival
K-Dense-AI/scientific-agent-skills
365
scikit-survival是一个基于scikit-learn的专业Python库,专注于时间事件的生存分析。它解决了处理删失数据(如右删失)这一关键挑战,提供了多种高级模型选择,包括Cox比例风险模型、随机生存森林、梯度提升和生存SVM。用户可以使用C指数和Brier分数等指标评估模型性能,适用于医学、可靠性工程和生物统计等领域的研究。
查看详情
Clari营收分析与仪表板
clari-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
168
该工作流用于构建基于Clari导出的数据的深度营收分析仪表板。它能够计算关键指标,如预测准确性、销售线索覆盖率和代表业绩变动,帮助财务分析师和销售经理评估营收健康状况和预测可靠性。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
首席AI官AI计划深度审核
caio-review
alirezarezvani/claude-skills
176
这是一套极具深度的AI计划审核流程,模拟首席AI官(CAIO)的严格质询。它从六个关键维度对任何AI方案进行压力测试:包括评估指标定义、故障模式预案、国际合规性、技术选型、成本模型和所需团队角色。适用于确保AI功能在投入使用或重大投资前,具备稳健性、安全性与商业可行性。
查看详情
上一页
1
2
3
4
5
6
下一页
语言
简体中文
English