VoxCPM2
VoxCPM2 是一个无需分词器的扩散自回归文本到语音(TTS)模型——拥有 20亿参数、支持 30种语言、输出 48kHz 音频,基于超过 200万小时 的多语言语音数据训练而成。
亮点
🌍 30种语言多语种支持 —— 无需语言标签;直接输入任意支持语言的文本
🎨 语音设计 —— 仅凭自然语言描述(性别、年龄、音调、情感、语速等)即可生成全新语音;无需参考音频
🎛️ 可控克隆 —— 从短音频片段克隆任意声音,并可选提供风格引导以控制情感、语速和表达,同时保留音色
🎙️ 终极克隆 —— 提供参考音频及其对应转录文本,实现音频延续式克隆;忠实复现每一个声音细节
🔊 48kHz 录音室级音质输出 —— 接受16kHz参考音频;通过 AudioVAE V2 内置的超分辨率模块输出48kHz音频,无需外部升采样器
🧠 上下文感知合成 —— 自动根据文本内容推断合适的韵律和表现力
⚡ 实时流式合成 —— 在 NVIDIA RTX 4090 上 RTF 低至约 0.3,使用 Nano-VLLM 加速后可达约 0.13
📜 完全开源且可商用 —— Apache-2.0 许可证,允许免费用于商业用途
支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
评论 (0)