登录
下载
Skill UI
浏览并发现
6004+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
LLM测试
,共找到
9
条记录
默认排序
最新上传
最多下载
LLM 代理评估
agent-evaluation
sickn33/antigravity-awesome-skills
97
基于行为合约、统计分布和对抗测试的 LLM 代理评估,发现基准未暴露的生产风险,聚焦可靠性与能力。
查看详情
引导式模糊测试词典
fuzzing-dictionary
trailofbits/skills
128
模糊测试词典通过领域关键词、魔法数、协议命令等令牌,帮助解析器、协议或格式代码更容易覆盖深层路径,适合与 libFuzzer/AFL++/cargo-fuzz 等结合,并通过字典参数注入有效输入。
查看详情
LangChain CI 集成
langchain-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
377
在 GitHub Actions 中配置 LangChain 的 CI/CD,依赖模拟单元测试、RAG 验证以及受限的真实 LLM 集成测试,还包括 agent 与工具的测试流程。
查看详情
Langfuse评估与打分流程
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
400
使用Langfuse核心流程B收集用户反馈、自动化评估函数、LLM裁判评分,并对比提示以实现AI产出质量打分和AB测试。
查看详情
LangSmith LLM 观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
168
LangSmith 是用于调试、评估与监控 LLM 应用的观测平台,可追踪调用、构建评测数据集、监控生产指标与成本,助力回归测试与运维协作。
查看详情
高级提示工程实践
prompt-engineer
Jeffallan/claude-skills
313
引导团队设计、优化与评估大模型提示,涵盖结构化输出、系统角色与防护、思维链等技巧,并通过测试与性能度量保证可靠性。
查看详情
自动化假设发现
hypogenic
K-Dense-AI/claude-scientific-skills
139
通过结合大语言模型的表格数据洞察与文献综述,自动生成并测试假设,适用于欺骗检测、内容分析等领域,让科研人员系统探索、验证多种假设并产出高多样性的研究想法。
查看详情
AgentHub 多智能体协作
agenthub
alirezarezvani/claude-skills
282
AgentHub 通过在独立的 git worktree 中并行运行多个智能体,评估分支结果并合并最优方案,适用于代码优化、重构、测试覆盖、修复缺陷或内容变体等需要多策略竞争的任务。
查看详情
类型安全的AI代理
pydantic-ai
sickn33/antigravity-awesome-skills
344
PydanticAI 将 Pydantic 的类型校验带到 LLM 代理中,通过结构化输出、依赖注入与多模型接入,让 Python 团队在构建、测试和复用智能客服或流程机器人时保持正确性与可测性。
查看详情
1
语言
简体中文
English