下载

Skill UI

浏览并发现 10393+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 DI ，共找到 654 条记录

默认排序最新上传最多下载

基于护栏的LLM防御系统

defending-llms-with-guardrails

mukul975/Anthropic-Cybersecurity-Skills

本技能详细介绍了为生产级大型语言模型（LLM）部署运行时安全防御机制。它涵盖了使用多个主流护栏系统（如Llama Guard、NeMo Guardrails和LLM Guard），用于检测和阻止对抗性攻击，包括越狱（Jailbreaks）、提示注入和有害内容。旨在为实际部署提供一套全面的、深度防御的安全策略。

检测间接提示注入载荷

detecting-indirect-prompt-injection

mukul975/Anthropic-Cybersecurity-Skills

本工具旨在检测和防御隐藏在不可信多模态内容（如网页、PDF、图片）中的提示注入攻击。它通过结合内容标准化、启发式分析和深度学习模型，扫描混淆的载荷（如隐藏CSS、元数据、零宽字符），确保大型语言模型（LLM）智能体接收的输入是经过清洗和验证的。

通过API检测模型提取攻击

detecting-model-extraction-attacks

mukul975/Anthropic-Cybersecurity-Skills

本技能提供一套完整的框架，用于检测模型窃取、成员推断和模型反演等高级AI攻击。其核心在于监测推理API的查询模式、分析置信度暴露，并实施防御机制，以保护模型知识产权和训练数据隐私。

PyRIT：多轮LLM对抗攻击编排

orchestrating-llm-attacks-with-pyrit

mukul975/Anthropic-Cybersecurity-Skills

PyRIT是一个开源的AI红队测试工具，用于自动化地对对话式大语言模型（LLM）进行多轮对抗性测试。它模拟了真实攻击者的行为，通过“攻击模型”和“评分模型”的协作循环，实现渐进式（Crescendo）或分支式（TAP）的攻击链。该工具旨在检测LLM在状态化对话中可能存在的复杂安全漏洞，例如提示注入和越狱。

大型语言模型安全红队测试

red-teaming-llms-with-garak

mukul975/Anthropic-Cybersecurity-Skills

本技能利用NVIDIA的Garak框架，对大型语言模型（LLMs）进行全面的红队安全测试。它通过发送数千条对抗性提示词，检测模型是否存在越狱、提示注入、数据泄露或生成有害内容等关键安全漏洞。适用于模型部署前后的安全基线验证和AI风险评估。

智能体AI工具调用安全防护

securing-agentic-ai-tool-invocation

mukul975/Anthropic-Cybersecurity-Skills

本技能提供了一套纵深防御框架，用于保护自主AI智能体工具调用过程。它核心实现了工具白名单、最小权限身份绑定和人工干预（HITL）机制，旨在防御提示注入和工具投毒等高级威胁，适用于需要严格合规和审计流程的AI应用场景。

上一页 1 2 3...52 53 5455

语言