下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索语音识别，共找到 8 条记录

默认排序最新上传最多下载

Azure语音转文本API

azure-speech-to-text-rest-py

sickn33/antigravity-awesome-skills

这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求，对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK，适用于需要快速集成语音识别功能的开发场景，并支持分块传输以降低延迟。

Deepgram实时流式语音转录

deepgram-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本指南展示了如何使用Deepgram的WebSocket API实现稳定、低延迟的实时流式语音转录。内容涵盖了麦克风输入采集、说话人指纹识别（diarization）、语句结束检测以及自动重连机制。适用于构建专业的语音助手、直播字幕系统或实时语音AI应用。

音素级发音训练工作流

speak-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

该工作流提供专业的音素级发音分析，能够深入识别用户语音中的薄弱环节，而不仅仅是给出整体分数。它通过运行自适应训练循环，生成详细的弱点报告，并提供针对性的练习短语，从而帮助用户系统性地纠正口音并提升语言流利度。

配置Speak语言学习API

speak-install-auth

jeremylongshore/claude-code-plugins-plus-skills

本指南详细指导如何配置Speak语言学习平台的集成环境。涵盖了SDK安装、API凭证设置，以及建立连接所需的步骤。适用于开发需要实时语音识别、发音反馈和多语言AI辅导功能的应用程序。

Whisper 多语种语音识别

Orchestra-Research/AI-Research-SKILLs

Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型，支持 99 种语言、批量/流式转录及 GPU 加速，非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。

实时多模态AI智能体构建

sickn33/antigravity-awesome-skills

这是一个用于构建生产级、低延迟的实时多模态AI智能体框架。它允许开发者在一个统一的管道中编排复杂的AI流程，无缝处理实时音频、视频和文本数据。核心功能包括集成多种AI服务（如LLM、语音识别、TTS），管理对话上下文，并支持函数调用，适用于构建高级交互式AI应用。

识别语音钓鱼中的深度伪造音频

detecting-deepfake-audio-in-vishing-attacks

mukul975/Anthropic-Cybersecurity-Skills

通过提取 MFCC 与频谱特征，对批量语音数据进行打分并生成取证报告，帮助事件响应、红蓝对抗或反语音钓鱼调查识别 AI 生成音频。

高级音频转录与智能分析

assemblyai-hello-world

jeremylongshore/claude-code-plugins-plus-skills

本指南展示了使用AssemblyAI进行高级音频处理的全面方法。它不仅支持基础的语音转录，更集成了多项先进的AI功能，包括说话人识别（Diarization）、情绪分析、关键短语提取、实体检测，以及强大的LLM驱动的摘要和问答功能（LeMUR）。适用于需要对音频内容进行深度理解和分析的场景。

1

语言