系统极客一直在努力
专注操作系统及软件使用技能

通义 Fun-CosyVoice3-0.5B-2512 文本转语音大模型开源

Fun-CosyVoice

通义 Fun-CosyVoice3-0.5B-2512 文本转语音大模型正式开源!作为一款基于大语言模型(LLM)构建的先进文本转语音(TTS)系统,Fun-CosyVoice3 在核心指标上实现了质的飞跃:

  • 无论是内容的一致性、讲话人的音色相似度,还是韵律的自然感,都全面超越了前代 CosyVoice 2.0。
  • 凭借强大的零样本多语种语音合成能力,为开发者和用户带来了更接近真人的听觉体验。

Fun-CosyVoice3-0.5B-2512

  • 本次开源诚意十足,涵盖了基础模型、强化学习模型,以及完整的训练与推理脚本。

核心特性

1. 语言覆盖

  • 9 种主流语言:精通中文、英语、日语、韩语、德语、西班牙语、法语、意大利语和俄语。
  • 中国方言与口音支持:内置了 18 种以上的方言与口音库,涵盖广东、闽南、四川、东北、陕西、山西、上海、天津、山东、宁夏和甘肃等地。无论是跨语种的商务交流,还是方言内容创作,它都能通过零样本声音克隆轻松驾驭。

2. 极致听感

在 AI 语音合成领域,「像不像真人」是核心考量之一。Fun-CosyVoice3 在内容一致性、音色还原度以及韵律自然度这 3 大维度上,均达到了业界最先进的性能。

3. 生产力工具

为了适应真实的生产环境,模型在易用性上也下足了功夫:

  • 发音补全:直接支持中文拼音和英文 CMU 音素输入,为开发者提供了极高的发音控制权,能够精准修正生僻字或特定读音。
  • 智能文本规范化:告别繁琐的前端文本清洗模块。无论是数字、特殊符号还是复杂的文本格式,模型都能直接读取并智能处理,大大简化了开发流程。

4. 实时交互

面向实时对话场景,模型采用了先进的「双流式处理」架构,支持文本流输入与音频流输出的同步进行。在确保高保真音质的同时,将延迟压缩至惊人的 150 毫秒,几乎实现了「话音刚落,回响即起」。

5. 精细指令

模型支持丰富的指令集,允许用户对生成效果进行精细化调教。你可以通过指令灵活调整语言模式、方言口音、情感色彩、语速和音量,满足多样化的场景需求。

Fun-Fun-CosyVoice3-0.5B 模型体验

你可以通过以下链接获取模型或在线试玩:

赞(0)
分享到

评论 抢沙发