登录
下载
Skill UI
浏览并发现
9747+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
语音转录
,共找到
14
条记录
默认排序
最新上传
最多下载
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure AI语音转录服务SDK
azure-ai-transcription-py
sickn33/antigravity-awesome-skills
479
这是一个基于Python的Azure AI语音转写SDK。它支持实时流式和批处理两种模式的语音转文本功能。该工具可以实现带时间戳和说话人区分(Diarization)的转录,适用于自动化会议记录、播客内容处理、视频字幕生成等专业场景。
查看详情
Azure语音转文本API
azure-speech-to-text-rest-py
sickn33/antigravity-awesome-skills
60
这是一个使用Python和REST API实现的Azure语音转文本功能。它允许用户通过HTTP请求,对时长不超过60秒的音频文件进行语音识别转录。该工具无需依赖官方SDK,适用于需要快速集成语音识别功能的开发场景,并支持分块传输以降低延迟。
查看详情
Deepgram实时流式语音转录
deepgram-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
451
本指南展示了如何使用Deepgram的WebSocket API实现稳定、低延迟的实时流式语音转录。内容涵盖了麦克风输入采集、说话人指纹识别(diarization)、语句结束检测以及自动重连机制。适用于构建专业的语音助手、直播字幕系统或实时语音AI应用。
查看详情
文本语音音频处理
fal-audio
sickn33/antigravity-awesome-skills
83
本技能利用fal.ai模型提供双向音频处理能力。它支持文本转语音(TTS),将文字转换为自然语音;以及语音转文本(STT),将语音准确转录为文字。适用于需要处理音频输入分析或合成语音输出的场景,如语音助手、内容数字化或多语言应用。
查看详情
Fireflies会议记录分析提取
fireflies-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
394
该工作流通过GraphQL连接Fireflies.ai API,获取详细的会议转录记录。它能够处理发言人区分的语音数据,并提取结构化的关键洞察,包括行动项、关键主题、情绪分析和发言人贡献度。适用于构建完整的会议情报系统,实现从会议录音到可执行知识点的自动化提取。
查看详情
Groq多模态工作流:语音、图像、语音合成
groq-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
122
该工作流是基于Groq的综合多模态解决方案,超越了基础的聊天补全功能。它支持超快速的音频转录(Whisper),利用视觉模型进行图像理解,以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。
查看详情
TwinMind AI会议参考架构
twinmind-reference-architecture
jeremylongshore/claude-code-plugins-plus-skills
427
本文档提供了基于TwinMind的AI会议系统生产级参考架构。它指导用户如何实现完整的会议流程自动化,包括高精度语音转录、智能总结、行动项提取、记忆存储和日历集成等功能。适用于搭建或管理高效率、全自动化的会议AI解决方案。
查看详情
语音 AI 引擎开发
voice-ai-engine-development
sickn33/antigravity-awesome-skills
248
指导如何基于异步队列流水线构建具备实时转录、LLM 应答与可中断 TTS 的多厂商语音 AI 引擎。
查看详情
Whisper 多语种语音识别
whisper
Orchestra-Research/AI-Research-SKILLs
298
Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型,支持 99 种语言、批量/流式转录及 GPU 加速,非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。
查看详情
实时语音转写与AI深度分析
assemblyai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
416
本工作流提供完整的音频处理能力,涵盖实时流式转写(适用于直播字幕和语音助手)和基于LeMUR的深度后处理。用户可以使用它来总结会议内容、根据转录稿件回答问题、提取待办事项,或对录制音频运行自定义LLM分析。
查看详情
环境式临床文档自动化
abridge-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
385
本工作流实现了Abridge端到端的临床文档记录流程。它能够捕获病患诊疗过程中的环境语音,进行实时语音转录,利用生成式AI将口述内容结构化为标准医疗记录(如SOAP、病史记录)。此外,还能自动生成诊断和操作编码(ICD-10, CPT),并将结构化数据直接推送到电子病历系统,大幅减少人工录入时间。
查看详情
1
2
下一页
语言
简体中文
English