下载

Skill UI

浏览并发现 9747+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索语音转录，共找到 14 条记录

默认排序最新上传最多下载

Azure AI语音转录服务SDK

azure-ai-transcription-py

sickn33/antigravity-awesome-skills

这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分（Diarization）的转录，适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。

Azure AI语音转录服务SDK

azure-ai-transcription-py

sickn33/antigravity-awesome-skills

这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分（Diarization）的转录，适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。

Azure语音转文本API

azure-speech-to-text-rest-py

sickn33/antigravity-awesome-skills

这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求，对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK，适用于需要快速集成语音识别功能的开发场景，并支持分块传输以降低延迟。

Deepgram实时流式语音转录

deepgram-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本指南展示了如何使用Deepgram的WebSocket API实现稳定、低延迟的实时流式语音转录。内容涵盖了麦克风输入采集、说话人指纹识别（diarization）、语句结束检测以及自动重连机制。适用于构建专业的语音助手、直播字幕系统或实时语音AI应用。

文本语音音频处理

sickn33/antigravity-awesome-skills

本技能利用fal.ai模型提供双向音频处理能力。它支持文本转语音（TTS），将文字转换为自然语音；以及语音转文本（STT），将语音准确转录为文字。适用于需要处理音频输入分析或合成语音输出的场景，如语音助手、内容数字化或多语言应用。

Fireflies会议记录分析提取

fireflies-core-workflow-a

jeremylongshore/claude-code-plugins-plus-skills

该工作流通过GraphQL连接Fireflies.ai API，获取详细的会议转录记录。它能够处理发言人区分的语音数据，并提取结构化的关键洞察，包括行动项、关键主题、情绪分析和发言人贡献度。适用于构建完整的会议情报系统，实现从会议录音到可执行知识点的自动化提取。

Groq多模态工作流：语音、图像、语音合成

groq-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

该工作流是基于Groq的综合多模态解决方案，超越了基础的聊天补全功能。它支持超快速的音频转录（Whisper），利用视觉模型进行图像理解，以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。

TwinMind AI会议参考架构

twinmind-reference-architecture

jeremylongshore/claude-code-plugins-plus-skills

本文档提供了基于TwinMind的AI会议系统生产级参考架构。它指导用户如何实现完整的会议流程自动化，包括高精度语音转录、智能总结、行动项提取、记忆存储和日历集成等功能。适用于搭建或管理高效率、全自动化的会议AI解决方案。

语音 AI 引擎开发

voice-ai-engine-development

sickn33/antigravity-awesome-skills

指导如何基于异步队列流水线构建具备实时转录、LLM 应答与可中断 TTS 的多厂商语音 AI 引擎。

Whisper 多语种语音识别

Orchestra-Research/AI-Research-SKILLs

Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型，支持 99 种语言、批量/流式转录及 GPU 加速，非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。

实时语音转写与AI深度分析

assemblyai-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本工作流提供完整的音频处理能力，涵盖实时流式转写（适用于直播字幕和语音助手）和基于LeMUR的深度后处理。用户可以使用它来总结会议内容、根据转录稿件回答问题、提取待办事项，或对录制音频运行自定义LLM分析。

环境式临床文档自动化

abridge-core-workflow-a

jeremylongshore/claude-code-plugins-plus-skills

本工作流实现了Abridge端到端的临床文档记录流程。它能够捕获病患诊疗过程中的环境语音，进行实时语音转录，利用生成式AI将口述内容结构化为标准医疗记录（如SOAP、病史记录）。此外，还能自动生成诊断和操作编码（ICD-10, CPT），并将结构化数据直接推送到电子病历系统，大幅减少人工录入时间。

语言