下载

Skill UI

浏览并发现 9916+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索媒体，共找到 22 条记录

默认排序最新上传最多下载

Azure AI实时语音对话SDK

azure-ai-voicelive-java

sickn33/antigravity-awesome-skills

这是一个用于Java开发的SDK，用于实现与Azure AI助手的实时、双向语音对话。它通过WebSocket技术支持低延迟流媒体通信，并集成了高级功能，如语音活动检测、降噪处理和多种AI音色选择。非常适用于构建专业的语音机器人和交互式语音应用。

Azure 实时语音AI开发SDK

azure-ai-voicelive-py

sickn33/antigravity-awesome-skills

该SDK用于构建实时、双向的语音AI应用，通过WebSocket支持实时的语音流媒体通信。它允许开发者将麦克风音频输入模型，并接收合成语音输出。适用于开发智能语音助手、交互式语音系统和呼叫中心解决方案。

AI图像与视频生成

sickn33/antigravity-awesome-skills

利用fal.ai AI模型，本技能可以实现高质量的图像和视频内容生成。适用于所有需要创意视觉素材、进行多媒体内容创作或概念原型设计的场景。核心功能是将文本描述转化为复杂的视觉媒体。

谷歌相册自动化

googlephotos-automation

ComposioHQ/awesome-claude-skills

通过 Rube MCP（Composio）对接谷歌相册系列工具，可列出/创建/更新相册、上传或批量创建媒体、搜索素材并批量添加内容，结合 schema 检索确保工具调用正确和高效编排。

Groq多模态工作流：语音、图像、语音合成

groq-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

该工作流是基于Groq的综合多模态解决方案，超越了基础的聊天补全功能。它支持超快速的音频转录（Whisper），利用视觉模型进行图像理解，以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。

Vertex AI 媒体大师

vertex-ai-media-master

jeremylongshore/claude-code-plugins-plus-skills

自动化调用 Vertex AI 的多模态能力，处理视频、音频、图像并生成营销素材，实现一键跨渠道内容生产。

MuAPI 媒体编辑增强

muapi-media-editing

SamurAIGPT/Generative-Media-Skills

利用 Flux Kontext、GPT-4o、Midjourney 等 AI 模型对图像和视频进行提示式编辑，支持放大、背景去除、人脸互换、口型同步与动态特效等一键增强功能。

视频媒体AI生成与编辑

sickn33/antigravity-awesome-skills

这是一个全面的视频内容创作工具，支持从YouTube、本地文件等多种来源上传视频。它提供实时流媒体、语义搜索和复杂的编辑工作流。核心功能包括AI转录、自动字幕生成、精细剪辑，并能利用AI能力生成图像、背景音乐、音效和配音，是内容创作者和媒体工作者的理想选择。

逼真AI人像照片生成器

ai-studio-image

sickn33/antigravity-awesome-skills

这是一个专业的图像生成技能，利用Google AI Studio（Gemini）创建具有超写实感的、人像化的图片。它模拟了真实手机摄影的细节，包括自然光线、轻微的噪点和景深效果，使生成的图片看起来就像是用真实相机拍摄的。适用于社交媒体营销和教育内容创建。

深度伪造检测与媒体溯源

resemble-detect

Prat011/awesome-llm-skills

该技能提供全面的媒体情报分析能力，用于检测音频、图像、视频和文本中的合成操纵和AI生成内容。它可以进行深度伪造检测、追踪内容原始生成来源、应用与检测水印，并验证说话人身份，确保媒体的真实性和可信度。

ElevenLabs TTS性能优化指南

elevenlabs-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了优化ElevenLabs TTS性能的完整技术方案。内容涵盖了如何通过模型选择（如Flash模型）、利用流媒体（Streaming）接口以及优化音频格式，来显著降低语音生成延迟和提高数据吞吐量。适用于实时对话、IVR系统和高并发的语音内容生成场景。

ElevenLabs TTS云端部署指南

elevenlabs-deploy-integration

jeremylongshore/claude-code-plugins-plus-skills

本技能提供将 ElevenLabs TTS 应用部署到主流云平台（如 Vercel, Fly.io, Cloud Run）的完整指南。内容涵盖了服务器无服务器部署、容器化部署、密钥安全管理、以及实现实时流媒体音频流的最佳实践，适用于构建生产级的语音合成应用。

语言