下载

Skill UI

浏览并发现 9987+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型评估，共找到 87 条记录

默认排序最新上传最多下载

Arize实验评估与管理

arize-experiment

github/awesome-copilot

本技能提供了一套完整的Arize实验管理工具，用于AI模型性能的评估、比较和分析。用户可以使用它来创建、列出、获取和导出实验结果，支持进行模型基准测试和A/B测试，确保模型在特定数据集上的准确性。

Arize数据集管理与查询

github/awesome-copilot

该技能提供了一套完整的Arize数据集管理能力，支持数据集的创建、版本化、查询和导出。用户可以通过`ax` CLI执行数据集的CRUD操作、追加示例记录，并以JSON、CSV等格式导出数据。特别适用于需要为模型开发和测试准备测试数据、生成评估样本或获取黄金数据集的场景。

Arize LLM评估与监控

arize-evaluator

github/awesome-copilot

本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器（包括提示词模板、分类选项和模型），并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分，并实现持续监控，确保LLM性能的完整追溯。

LLM应用评估驱动开发

eval-driven-dev

github/awesome-copilot

本技能指导用户为基于大型语言模型（LLM）的Python应用搭建自动化评估流水线。核心流程包括定义评估标准、仪器化应用、构建黄金数据集和运行真实评估。它专注于测试应用自身的逻辑和流程，确保LLM应用的质量和鲁棒性，适用于QA、基准测试和提升LLM服务质量。

Monte Carlo 数据防护

monte-carlo-prevent

sickn33/antigravity-awesome-skills

在修改 dbt 模型或 SQL 管道前，先展现 Monte Carlo 的数据观测上下文（表健康、血缘、告警、监控即代码），帮助开发者评估风险再动手。

Power BI数据模型设计审查

power-bi-model-design-review

github/awesome-copilot

这是一个全面的Power BI数据模型设计审查工具。它旨在指导用户评估数据模型的架构完整性、关系设计质量、存储模式选择、数据质量和性能优化。适用于任何需要确保BI模型具备高性能、高可维护性和高扩展性的场景。

程序化SEO规划与审计

seo-programmatic

sickn33/antigravity-awesome-skills

用于规划和审计从结构化数据源（如CSV、JSON、API）大规模生成的内容。它提供了一套完整的程序化SEO框架，指导用户设计内容模板、URL结构和内部链接模型。核心功能包括进行数据质量评估、设置内容唯一性门槛，以防止内容稀疏、避免搜索引擎惩罚，确保大规模内容的高价值和可读性。

PyTDC：药物发现AI数据集

K-Dense-AI/scientific-agent-skills

PyTDC（治疗性数据中心）是一个开放科学平台，为药物研发和开发流程提供完整的、可用于AI训练的数据集和基准测试。它支持单实例预测（如ADME、毒性）、多实例预测（DTI、DDI）以及分子生成等任务，是进行生物医学属性预测和模型性能评估的理想工具。

Python机器学习开发指南

K-Dense-AI/scientific-agent-skills

本技能提供使用scikit-learn进行全流程机器学习任务的综合指南。它涵盖了从数据预处理到模型构建的全过程，支持监督学习（分类、回归）、无监督学习（聚类、降维）和模型性能评估，帮助用户构建工业级ML流水线。

Python生存分析与时间事件建模

scikit-survival

K-Dense-AI/scientific-agent-skills

scikit-survival是一个基于scikit-learn的专业Python库，专注于时间事件的生存分析。它解决了处理删失数据（如右删失）这一关键挑战，提供了多种高级模型选择，包括Cox比例风险模型、随机生存森林、梯度提升和生存SVM。用户可以使用C指数和Brier分数等指标评估模型性能，适用于医学、可靠性工程和生物统计等领域的研究。

敏感信息泄露检测

data-leakage-detection

Tencent/AI-Infra-Guard

这是一个用于安全审计的框架，旨在系统性地检测大型语言模型（LLM）是否存在敏感信息泄露。它通过分阶段、递进式的对话探针，测试和捕获包括系统提示词、API密钥、个人身份信息（PII）以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。

GateGuard：预执行逻辑门控

affaan-m/everything-claude-code

这是一个强大的预执行钩子，用于在AI代理修改代码、创建文件或执行危险命令前强制进行严格的验证。它不依赖于AI的自我评估，而是强制模型收集事实（如依赖模块、数据结构等），极大地提高了代码的可靠性和设计深度。适用于复杂的代码库和高风险的开发流程。

上一页 1 2 3 4 567 8 下一页

语言