登录
下载
Skill UI
浏览并发现
9987+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型内部
,共找到
5
条记录
默认排序
最新上传
最多下载
远程模型可解释性工具
nnsight-remote-interpretability
Orchestra-Research/AI-Research-SKILLs
409
通过 nnsight 的 trace 与激活接口,有效分析或干预 PyTorch 模型内部,支持在本地小模型和借助 NDIF 的 70B+ 远程模型上执行,可对激活进行保存、替换和对比。
查看详情
稀疏自编码器:模型可解释性分析
sparse-autoencoder-training
Orchestra-Research/AI-Research-SKILLs
251
本工具提供稀疏自编码器(SAE)的训练和分析框架。SAEs能够将大型语言模型内部密集的、多义的激活信号分解为稀疏、单义的特征。适用于需要发现模型学到的离散可解释概念、研究特征叠加性,或分析模型内部特定安全相关行为(如偏见或欺骗)的场景。
查看详情
变换器机制可解释性分析
transformer-lens-interpretability
Orchestra-Research/AI-Research-SKILLs
259
这是一个用于大型语言模型的机制可解释性研究库。它允许用户通过HookPoints和激活缓存来深入检查和操作Transformer模型的内部机制,例如注意力模式、残差流和MLP输出。该工具对于逆向工程模型算法、执行因果追踪和分析模型内部电路至关重要。
查看详情
认知智能体心智状态建模
bdi-mental-states
sickn33/antigravity-awesome-skills
141
该技能用于构建认知智能体(Cognitive Agent)的BDI模型。它能够实现外部知识(如RDF)到智能体内部心智状态(信念、欲望、意图)的转换,并支持可追溯、可解释的推理过程。适用于多智能体系统、复杂任务规划以及将正式知识图谱融入大型语言模型(LLM)的场景。
查看详情
敏感信息泄露检测
data-leakage-detection
Tencent/AI-Infra-Guard
58
这是一个用于安全审计的框架,旨在系统性地检测大型语言模型(LLM)是否存在敏感信息泄露。它通过分阶段、递进式的对话探针,测试和捕获包括系统提示词、API密钥、个人身份信息(PII)以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。
查看详情
1
语言
简体中文
English