下载

Skill UI

浏览并发现 9987+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型内部，共找到 5 条记录

默认排序最新上传最多下载

远程模型可解释性工具

nnsight-remote-interpretability

Orchestra-Research/AI-Research-SKILLs

通过 nnsight 的 trace 与激活接口，有效分析或干预 PyTorch 模型内部，支持在本地小模型和借助 NDIF 的 70B+ 远程模型上执行，可对激活进行保存、替换和对比。

稀疏自编码器：模型可解释性分析

sparse-autoencoder-training

Orchestra-Research/AI-Research-SKILLs

本工具提供稀疏自编码器（SAE）的训练和分析框架。SAEs能够将大型语言模型内部密集的、多义的激活信号分解为稀疏、单义的特征。适用于需要发现模型学到的离散可解释概念、研究特征叠加性，或分析模型内部特定安全相关行为（如偏见或欺骗）的场景。

变换器机制可解释性分析

transformer-lens-interpretability

Orchestra-Research/AI-Research-SKILLs

这是一个用于大型语言模型的机制可解释性研究库。它允许用户通过HookPoints和激活缓存来深入检查和操作Transformer模型的内部机制，例如注意力模式、残差流和MLP输出。该工具对于逆向工程模型算法、执行因果追踪和分析模型内部电路至关重要。

认知智能体心智状态建模

bdi-mental-states

sickn33/antigravity-awesome-skills

该技能用于构建认知智能体（Cognitive Agent）的BDI模型。它能够实现外部知识（如RDF）到智能体内部心智状态（信念、欲望、意图）的转换，并支持可追溯、可解释的推理过程。适用于多智能体系统、复杂任务规划以及将正式知识图谱融入大型语言模型（LLM）的场景。

敏感信息泄露检测

data-leakage-detection

Tencent/AI-Infra-Guard

这是一个用于安全审计的框架，旨在系统性地检测大型语言模型（LLM）是否存在敏感信息泄露。它通过分阶段、递进式的对话探针，测试和捕获包括系统提示词、API密钥、个人身份信息（PII）以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。

1

语言