登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
语音识别
,共找到
22
条记录
默认排序
最新上传
最多下载
Azure呼叫自动化(Java)
azure-communication-callautomation-java
sickn33/antigravity-awesome-skills
265
该Java SDK用于构建复杂的服务器端呼叫自动化工作流,基于Azure通信服务。它支持实现IVR系统、动态呼叫路由、媒体播放(TTS/音频)、语音识别、DTMF录音、呼叫录制和参与者管理。适用于构建智能客服机器人或自动化通知系统。
查看详情
Azure呼叫自动化(Java)
azure-communication-callautomation-java
sickn33/antigravity-awesome-skills
265
该Java SDK用于构建复杂的服务器端呼叫自动化工作流,基于Azure通信服务。它支持实现IVR系统、动态呼叫路由、媒体播放(TTS/音频)、语音识别、DTMF录音、呼叫录制和参与者管理。适用于构建智能客服机器人或自动化通知系统。
查看详情
Azure语音转文本API
azure-speech-to-text-rest-py
sickn33/antigravity-awesome-skills
60
这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求,对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK,适用于需要快速集成语音识别功能的开发场景,并支持分块传输以降低延迟。
查看详情
Deepgram实时流式语音转录
deepgram-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
451
本指南展示了如何使用Deepgram的WebSocket API实现稳定、低延迟的实时流式语音转录。内容涵盖了麦克风输入采集、说话人指纹识别(diarization)、语句结束检测以及自动重连机制。适用于构建专业的语音助手、直播字幕系统或实时语音AI应用。
查看详情
Deepgram语音转录快速上手
deepgram-hello-world
jeremylongshore/claude-code-plugins-plus-skills
84
本示例提供了一个关于Deepgram语音转文本的最小化工作示例。它展示了如何使用TypeScript和Python两种语言,从URL或本地文件对音频进行转录。用户可以学习基本API模式,包括使用高级功能如说话人识别(Diarization)和选择最佳模型(如nova-3),非常适合初次集成和测试Deepgram服务。
查看详情
Deepgram本地开发调试流程
deepgram-local-dev-loop
jeremylongshore/claude-code-plugins-plus-skills
106
本指南旨在为Deepgram的语音识别应用建立一套完整的本地开发工作流。它指导用户如何设置测试音频夹具、模拟API响应(Mocking),并利用Vitest等工具进行单元和集成测试。适用于构建或调试依赖Deepgram服务的高效开发环境。
查看详情
Deepgram SDK升级与迁移指南
deepgram-upgrade-migration
jeremylongshore/claude-code-plugins-plus-skills
365
本指南为开发者提供了Deepgram SDK从旧版本(v3/v4)迁移到新版本(v5)的完整路线图。它详细介绍了版本升级的破坏性变更,包括API对比和最佳实践代码,并指导用户完成模型从Nova-2到Nova-3的升级,确保语音识别和文本合成流程的平稳过渡。
查看详情
音素级发音训练工作流
speak-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
100
该工作流提供专业的音素级发音分析,能够深入识别用户语音中的薄弱环节,而不仅仅是给出整体分数。它通过运行自适应训练循环,生成详细的弱点报告,并提供针对性的练习短语,从而帮助用户系统性地纠正口音并提升语言流利度。
查看详情
配置Speak语言学习API
speak-install-auth
jeremylongshore/claude-code-plugins-plus-skills
264
本指南详细指导如何配置Speak语言学习平台的集成环境。涵盖了SDK安装、API凭证设置,以及建立连接所需的步骤。适用于开发需要实时语音识别、发音反馈和多语言AI辅导功能的应用程序。
查看详情
Whisper 多语种语音识别
whisper
Orchestra-Research/AI-Research-SKILLs
298
Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型,支持 99 种语言、批量/流式转录及 GPU 加速,非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。
查看详情
实时多模态AI智能体构建
daily
sickn33/antigravity-awesome-skills
472
这是一个用于构建生产级、低延迟的实时多模态AI智能体框架。它允许开发者在一个统一的管道中编排复杂的AI流程,无缝处理实时音频、视频和文本数据。核心功能包括集成多种AI服务(如LLM、语音识别、TTS),管理对话上下文,并支持函数调用,适用于构建高级交互式AI应用。
查看详情
Pipecat低延迟语音助手构建教程
pipecat-friday-agent
sickn33/antigravity-awesome-skills
344
本技能提供了一个完整的F.R.I.D.A.Y.(铁人战甲风格)语音助手的构建蓝图。它利用Pipecat框架,构建了一个低延迟的语音管道,流程包括语音识别(STT)、大型语言模型(LLM)和文本转语音(TTS),支持集成Gemini和OpenAI等多个AI服务商,适用于构建实时、多模态的对话系统。
查看详情
1
2
下一页
语言
简体中文
English