登录
下载
Skill UI
浏览并发现
9785+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
语音转文本
,共找到
12
条记录
默认排序
最新上传
最多下载
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure语音转文本API
azure-speech-to-text-rest-py
sickn33/antigravity-awesome-skills
60
这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求,对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK,适用于需要快速集成语音识别功能的开发场景,并支持分块传输以降低延迟。
查看详情
Deepgram SDK安装与认证
deepgram-install-auth
jeremylongshore/claude-code-plugins-plus-skills
89
本技能提供了针对Node.js和Python环境的Deepgram SDK的完整安装和配置指南。内容涵盖了安全的环境变量API密钥管理、客户端初始化以及连接验证。适用于需要将Deepgram强大的语音转文本(STT)和文本转语音(TTS)功能集成到新项目中的开发者。
查看详情
文本语音音频处理
fal-audio
sickn33/antigravity-awesome-skills
83
本技能利用fal.ai模型提供双向音频处理能力。它支持文本转语音(TTS),将文字转换为自然语音;以及语音转文本(STT),将语音准确转录为文字。适用于需要处理音频输入分析或合成语音输出的场景,如语音助手、内容数字化或多语言应用。
查看详情
Groq多模态工作流:语音、图像、语音合成
groq-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
122
该工作流是基于Groq的综合多模态解决方案,超越了基础的聊天补全功能。它支持超快速的音频转录(Whisper),利用视觉模型进行图像理解,以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。
查看详情
实时音频叙述生成
podcast-generation
sickn33/antigravity-awesome-skills
410
通过 Azure OpenAI 的 Realtime Mini 接口,将文本提示实时转为 PCM 音频、转换为 WAV 并以 base64 形式返给前端播放,支持虚拟主播语音选项和字幕输出,适用于播客或音频故事生成。
查看详情
ElevenLabs TTS与声音克隆工作流
elevenlabs-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
190
本流程实现了基于ElevenLabs的文本转语音(TTS)和声音克隆功能。用户可以利用该流程生成高质量、可控的语音内容,包括高级音色和风格调节。它支持从音频样本进行即时声音克隆,并提供WebSocket流式传输,适用于构建实时聊天机器人、直播或需要低延迟音频的应用场景。
查看详情
高级音频处理与语音合成
elevenlabs-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
232
本工作流提供了一套全面的专业音频处理解决方案。它集成了语音到语音转换(变声器)、文本生成音效、音频降噪隔离和语音转文字转录等多个高级功能。适用于内容创作、播客制作、音频编辑等需要高质量声音处理的场景。
查看详情
ElevenLabs语音合成API指南
elevenlabs-hello-world
jeremylongshore/claude-code-plugins-plus-skills
224
本技能提供了一份完整的ElevenLabs语音合成API使用指南。内容涵盖使用TypeScript、Python和cURL等多种方式,实现文本到语音的高质量转换。用户可以学习如何精细控制语音参数、选择不同模型(如低延迟流式传输),适用于各类需要高质量语音内容生成的应用开发。
查看详情
ElevenLabs API认证与配置
elevenlabs-install-auth
jeremylongshore/claude-code-plugins-plus-skills
255
本指南详细介绍了如何在Node.js和Python环境中安装并配置ElevenLabs SDK。内容涵盖了如何使用环境变量设置API密钥、初始化客户端连接,并通过列出可用音色等方式进行连接验证。适用于所有需要集成高级文本转语音(TTS)或语音合成功能的开发场景。
查看详情
Wispr Flow语音转文本API调优
wispr-cost-tuning
jeremylongshore/claude-code-plugins-plus-skills
331
该技能提供使用Wispr Flow进行语音转文本API集成的成本优化和技术指南。内容涵盖WebSocket流式传输、REST API使用、上下文理解(如编程代码)和错误处理的最佳实践,帮助开发者构建高级语音应用。
查看详情
1
语言
简体中文
English