登录
下载
Skill UI
浏览并发现
10393+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
DI
,共找到
654
条记录
默认排序
最新上传
最多下载
基于护栏的LLM防御系统
defending-llms-with-guardrails
mukul975/Anthropic-Cybersecurity-Skills
294
本技能详细介绍了为生产级大型语言模型(LLM)部署运行时安全防御机制。它涵盖了使用多个主流护栏系统(如Llama Guard、NeMo Guardrails和LLM Guard),用于检测和阻止对抗性攻击,包括越狱(Jailbreaks)、提示注入和有害内容。旨在为实际部署提供一套全面的、深度防御的安全策略。
查看详情
检测间接提示注入载荷
detecting-indirect-prompt-injection
mukul975/Anthropic-Cybersecurity-Skills
429
本工具旨在检测和防御隐藏在不可信多模态内容(如网页、PDF、图片)中的提示注入攻击。它通过结合内容标准化、启发式分析和深度学习模型,扫描混淆的载荷(如隐藏CSS、元数据、零宽字符),确保大型语言模型(LLM)智能体接收的输入是经过清洗和验证的。
查看详情
通过API检测模型提取攻击
detecting-model-extraction-attacks
mukul975/Anthropic-Cybersecurity-Skills
103
本技能提供一套完整的框架,用于检测模型窃取、成员推断和模型反演等高级AI攻击。其核心在于监测推理API的查询模式、分析置信度暴露,并实施防御机制,以保护模型知识产权和训练数据隐私。
查看详情
PyRIT:多轮LLM对抗攻击编排
orchestrating-llm-attacks-with-pyrit
mukul975/Anthropic-Cybersecurity-Skills
282
PyRIT是一个开源的AI红队测试工具,用于自动化地对对话式大语言模型(LLM)进行多轮对抗性测试。它模拟了真实攻击者的行为,通过“攻击模型”和“评分模型”的协作循环,实现渐进式(Crescendo)或分支式(TAP)的攻击链。该工具旨在检测LLM在状态化对话中可能存在的复杂安全漏洞,例如提示注入和越狱。
查看详情
大型语言模型安全红队测试
red-teaming-llms-with-garak
mukul975/Anthropic-Cybersecurity-Skills
339
本技能利用NVIDIA的Garak框架,对大型语言模型(LLMs)进行全面的红队安全测试。它通过发送数千条对抗性提示词,检测模型是否存在越狱、提示注入、数据泄露或生成有害内容等关键安全漏洞。适用于模型部署前后的安全基线验证和AI风险评估。
查看详情
智能体AI工具调用安全防护
securing-agentic-ai-tool-invocation
mukul975/Anthropic-Cybersecurity-Skills
266
本技能提供了一套纵深防御框架,用于保护自主AI智能体工具调用过程。它核心实现了工具白名单、最小权限身份绑定和人工干预(HITL)机制,旨在防御提示注入和工具投毒等高级威胁,适用于需要严格合规和审计流程的AI应用场景。
查看详情
上一页
1
2
3
...
52
53
54
55
语言
简体中文
English