登录
下载
Skill UI
浏览并发现
9987+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型评估
,共找到
87
条记录
默认排序
最新上传
最多下载
Arize实验评估与管理
arize-experiment
github/awesome-copilot
327
本技能提供了一套完整的Arize实验管理工具,用于AI模型性能的评估、比较和分析。用户可以使用它来创建、列出、获取和导出实验结果,支持进行模型基准测试和A/B测试,确保模型在特定数据集上的准确性。
查看详情
Arize数据集管理与查询
arize-dataset
github/awesome-copilot
132
该技能提供了一套完整的Arize数据集管理能力,支持数据集的创建、版本化、查询和导出。用户可以通过`ax` CLI执行数据集的CRUD操作、追加示例记录,并以JSON、CSV等格式导出数据。特别适用于需要为模型开发和测试准备测试数据、生成评估样本或获取黄金数据集的场景。
查看详情
Arize LLM评估与监控
arize-evaluator
github/awesome-copilot
271
本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器(包括提示词模板、分类选项和模型),并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分,并实现持续监控,确保LLM性能的完整追溯。
查看详情
LLM应用评估驱动开发
eval-driven-dev
github/awesome-copilot
418
本技能指导用户为基于大型语言模型(LLM)的Python应用搭建自动化评估流水线。核心流程包括定义评估标准、仪器化应用、构建黄金数据集和运行真实评估。它专注于测试应用自身的逻辑和流程,确保LLM应用的质量和鲁棒性,适用于QA、基准测试和提升LLM服务质量。
查看详情
Monte Carlo 数据防护
monte-carlo-prevent
sickn33/antigravity-awesome-skills
459
在修改 dbt 模型或 SQL 管道前,先展现 Monte Carlo 的数据观测上下文(表健康、血缘、告警、监控即代码),帮助开发者评估风险再动手。
查看详情
Power BI数据模型设计审查
power-bi-model-design-review
github/awesome-copilot
264
这是一个全面的Power BI数据模型设计审查工具。它旨在指导用户评估数据模型的架构完整性、关系设计质量、存储模式选择、数据质量和性能优化。适用于任何需要确保BI模型具备高性能、高可维护性和高扩展性的场景。
查看详情
程序化SEO规划与审计
seo-programmatic
sickn33/antigravity-awesome-skills
268
用于规划和审计从结构化数据源(如CSV、JSON、API)大规模生成的内容。它提供了一套完整的程序化SEO框架,指导用户设计内容模板、URL结构和内部链接模型。核心功能包括进行数据质量评估、设置内容唯一性门槛,以防止内容稀疏、避免搜索引擎惩罚,确保大规模内容的高价值和可读性。
查看详情
PyTDC:药物发现AI数据集
pytdc
K-Dense-AI/scientific-agent-skills
438
PyTDC(治疗性数据中心)是一个开放科学平台,为药物研发和开发流程提供完整的、可用于AI训练的数据集和基准测试。它支持单实例预测(如ADME、毒性)、多实例预测(DTI、DDI)以及分子生成等任务,是进行生物医学属性预测和模型性能评估的理想工具。
查看详情
Python机器学习开发指南
scikit-learn
K-Dense-AI/scientific-agent-skills
179
本技能提供使用scikit-learn进行全流程机器学习任务的综合指南。它涵盖了从数据预处理到模型构建的全过程,支持监督学习(分类、回归)、无监督学习(聚类、降维)和模型性能评估,帮助用户构建工业级ML流水线。
查看详情
Python生存分析与时间事件建模
scikit-survival
K-Dense-AI/scientific-agent-skills
365
scikit-survival是一个基于scikit-learn的专业Python库,专注于时间事件的生存分析。它解决了处理删失数据(如右删失)这一关键挑战,提供了多种高级模型选择,包括Cox比例风险模型、随机生存森林、梯度提升和生存SVM。用户可以使用C指数和Brier分数等指标评估模型性能,适用于医学、可靠性工程和生物统计等领域的研究。
查看详情
敏感信息泄露检测
data-leakage-detection
Tencent/AI-Infra-Guard
58
这是一个用于安全审计的框架,旨在系统性地检测大型语言模型(LLM)是否存在敏感信息泄露。它通过分阶段、递进式的对话探针,测试和捕获包括系统提示词、API密钥、个人身份信息(PII)以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。
查看详情
GateGuard:预执行逻辑门控
gateguard
affaan-m/everything-claude-code
80
这是一个强大的预执行钩子,用于在AI代理修改代码、创建文件或执行危险命令前强制进行严格的验证。它不依赖于AI的自我评估,而是强制模型收集事实(如依赖模块、数据结构等),极大地提高了代码的可靠性和设计深度。适用于复杂的代码库和高风险的开发流程。
查看详情
上一页
1
2
3
4
5
6
7
8
下一页
语言
简体中文
English