下载

Skill UI

浏览并发现 6004+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 LLM测试，共找到 9 条记录

默认排序最新上传最多下载

LLM 代理评估

agent-evaluation

sickn33/antigravity-awesome-skills

基于行为合约、统计分布和对抗测试的 LLM 代理评估，发现基准未暴露的生产风险，聚焦可靠性与能力。

引导式模糊测试词典

fuzzing-dictionary

trailofbits/skills

模糊测试词典通过领域关键词、魔法数、协议命令等令牌，帮助解析器、协议或格式代码更容易覆盖深层路径，适合与 libFuzzer/AFL++/cargo-fuzz 等结合，并通过字典参数注入有效输入。

LangChain CI 集成

langchain-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

在 GitHub Actions 中配置 LangChain 的 CI/CD，依赖模拟单元测试、RAG 验证以及受限的真实 LLM 集成测试，还包括 agent 与工具的测试流程。

Langfuse评估与打分流程

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

使用Langfuse核心流程B收集用户反馈、自动化评估函数、LLM裁判评分，并对比提示以实现AI产出质量打分和AB测试。

LangSmith LLM 观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 是用于调试、评估与监控 LLM 应用的观测平台，可追踪调用、构建评测数据集、监控生产指标与成本，助力回归测试与运维协作。

高级提示工程实践

prompt-engineer

Jeffallan/claude-skills

引导团队设计、优化与评估大模型提示，涵盖结构化输出、系统角色与防护、思维链等技巧，并通过测试与性能度量保证可靠性。

自动化假设发现

K-Dense-AI/claude-scientific-skills

通过结合大语言模型的表格数据洞察与文献综述，自动生成并测试假设，适用于欺骗检测、内容分析等领域，让科研人员系统探索、验证多种假设并产出高多样性的研究想法。

AgentHub 多智能体协作

alirezarezvani/claude-skills

AgentHub 通过在独立的 git worktree 中并行运行多个智能体，评估分支结果并合并最优方案，适用于代码优化、重构、测试覆盖、修复缺陷或内容变体等需要多策略竞争的任务。

类型安全的AI代理

sickn33/antigravity-awesome-skills

PydanticAI 将 Pydantic 的类型校验带到 LLM 代理中，通过结构化输出、依赖注入与多模型接入，让 Python 团队在构建、测试和复用智能客服或流程机器人时保持正确性与可测性。

1

语言