 

当前位置：系统极客  AI  正文

微软发布轻量级实时 TTS 模型：VibeVoice-Realtime-0.5B

发布日期：2025-12-05 分类：AI 阅读() 评论(0) 赞(0)

微软发布轻量级实时文本转语音模型——VibeVoice-Realtime-0.5B。该模型不仅支持流式文本输入，还能稳定生成长语音，它的应用场景也充满了想象空间：

你可以用它来构建实时 TTS 服务，用于播报动态数据流；
更关键的是，它能让大语言模型（LLM）在生成第一个 Token 时就立即「开口说话」，远早于完整回答。

根据硬件配置的不同，模型产生首个可听见音频的延迟大约为 300 毫秒。

在技术实现上，VibeVoice-Realtime 采用了一种巧妙的交错式窗口化设计：

模型会增量地对输入文本块进行编码，同时并行利用先前的上下文信息，持续推进基于扩散模型的声学潜变量生成。
与支持多说话人和长篇语音的完整版本不同，流式模型移除了语义 Tokenizer，完全依赖一个高效的声学 Tokenizer——其运行帧率极低，仅为 7.5 Hz。

VibeVoice-Realtime-0.5B 简介

模型核心特性

参数规模：0.5B（5 亿），对部署极为友好。
实时 TTS：首个可听见的音频延迟约 300 毫秒。
流式文本输入：支持边输入边合成。
鲁棒的长语音生成：可稳定输出高质量的长段语音。

VibeVoice Realtime

时版本只支持单一说话人。如果需要多人对话式语音生成，可以使用 VibeVoice 系列的其他模型。此外，该模型主要面向英语，在其他语言上可能会产生不可预知的结果。

技术报告：VibeVoice Technical Report
项目主页：microsoft/VibeVoice
代码库：microsoft/VibeVoice-Code

分享到

相关推荐

评论抢沙发

快讯

System76 开放 Pop!_OS 24.04 LTS 就地升级

System76 开放从 Pop!_OS 22.04 LTS 到 Pop!_OS 24.04 LTS 的官方就地升级，现有用户可直接升级到最新的长期支持版本。

2天前
Chrome 将改成每 2 周发布一次

从 2026 年 9 月起，Chrome 浏览器的发布周期将从每 4 周改成每 2 周发布一次。

2天前
Qwen3-Max-Thinking 在 Qwen Chat 上线

Qwen3-Max-Thinking 已经在 Qwen Chat 上线！选择 Qwen3-Max，启用「深度思考」功能，体验一番吧~

4个月前 (11-03)
谷歌将停用 goo.gl 短链接服务

Google 将停用短链接服务：自 2025 年 8 月 25 日起，所有 https://goo.gl/* 格式的短链接将失效，并返回 404 错误。

7个月前 (07-27)