登录
下载
Skill UI
浏览并发现
9126+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
语音转文本
,共找到
36
条记录
默认排序
最新上传
最多下载
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure语音转文本API
azure-speech-to-text-rest-py
sickn33/antigravity-awesome-skills
60
这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求,对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK,适用于需要快速集成语音识别功能的开发场景,并支持分块传输以降低延迟。
查看详情
Deepgram API 错误排查指南
deepgram-common-errors
jeremylongshore/claude-code-plugins-plus-skills
245
本指南全面收录了Deepgram API的常见错误代码(HTTP/WebSocket),提供了从API密钥验证、音频格式优化到代码重试机制的排障流程。是开发人员进行语音转文本(STT)服务集成的必备参考资料。
查看详情
Deepgram语音转录快速上手
deepgram-hello-world
jeremylongshore/claude-code-plugins-plus-skills
84
本示例提供了一个关于Deepgram语音转文本的最小化工作示例。它展示了如何使用TypeScript和Python两种语言,从URL或本地文件对音频进行转录。用户可以学习基本API模式,包括使用高级功能如说话人识别(Diarization)和选择最佳模型(如nova-3),非常适合初次集成和测试Deepgram服务。
查看详情
Deepgram SDK安装与认证
deepgram-install-auth
jeremylongshore/claude-code-plugins-plus-skills
89
本技能提供了针对Node.js和Python环境的Deepgram SDK的完整安装和配置指南。内容涵盖了安全的环境变量API密钥管理、客户端初始化以及连接验证。适用于需要将Deepgram强大的语音转文本(STT)和文本转语音(TTS)功能集成到新项目中的开发者。
查看详情
Deepgram SDK 生产最佳实践
deepgram-sdk-patterns
jeremylongshore/claude-code-plugins-plus-skills
421
为使用 TypeScript 和 Python 集成 Deepgram 提供了生产级别的代码模式和最佳实践。本指南涵盖了单例客户端管理、Aura 文本转语音合成,以及复杂的音频智能流程(如摘要、话题和情感分析)。适用于任何需要构建健壮、标准化的 Deepgram 集成系统,或进行代码重构和版本升级的开发者。
查看详情
ElevenLabs 语音自动化
elevenlabs-automation
ComposioHQ/awesome-claude-skills
231
通过 Composio MCP 一键驱动 ElevenLabs 文本转语音工作流:生成语音、查看音色/模型、核对订阅额度、流式播放并重取历史音频。
查看详情
文本语音音频处理
fal-audio
sickn33/antigravity-awesome-skills
83
本技能利用fal.ai模型提供双向音频处理能力。它支持文本转语音(TTS),将文字转换为自然语音;以及语音转文本(STT),将语音准确转录为文字。适用于需要处理音频输入分析或合成语音输出的场景,如语音助手、内容数字化或多语言应用。
查看详情
Groq多模态工作流:语音、图像、语音合成
groq-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
122
该工作流是基于Groq的综合多模态解决方案,超越了基础的聊天补全功能。它支持超快速的音频转录(Whisper),利用视觉模型进行图像理解,以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。
查看详情
实时音频叙述生成
podcast-generation
sickn33/antigravity-awesome-skills
410
通过 Azure OpenAI 的 Realtime Mini 接口,将文本提示实时转为 PCM 音频、转换为 WAV 并以 base64 形式返给前端播放,支持虚拟主播语音选项和字幕输出,适用于播客或音频故事生成。
查看详情
智能会议转录与总结
twinmind-hello-world
jeremylongshore/claude-code-plugins-plus-skills
482
本技能用于录制和处理各类会议(如Zoom/Meet/Teams)或语音备忘录。它能生成带有时间戳的完整转录文本,并利用高级AI自动提取结构化的会议摘要、可执行任务清单(包含负责人和截止日期)和关键讨论点,帮助用户高效记录和跟进项目进展。
查看详情
1
2
3
下一页
语言
简体中文
English