VoxCPM
收藏
描述:
VoxCPM 介绍
由OpenBMB(与THUHCSI合作)开发的一款具有开创性的开源文本到语音(TTS)模型。其核心创新是无分词器架构,直接在连续空间中对语音进行建模,克服了基于离散分词的方法的局限性。这使得它能够生成极具表现力和自然度的语音,并具有出色的上下文感知能力,能够根据输入文本调整语调和风格。主要特点包括:零样本语音克隆:仅需几秒钟的参考音频,即可准确克隆说话者的音色、口音、情感和节奏。高效:0.5B参数模型在NVIDIA RTX 4090上实现了约0.17的实时因子(RTF),支持实时流媒体应用。最优性能:在Seed-TTS-EVAL等基准测试中取得了最优结果,词错率极低(例如,英语词错率仅为1.85%),且说话者相似度高。多语言支持:支持中文和英文,包括方言、数学符号和可定制发音。该模型采用分层架构,结合语义和声学语言模型以及扩散生成模块。可通过Python API(pip install voxcpm)、命令行和Hugging Face演示进行访问,并且持续更新(例如,VoxCPM-1.5)以提高音频质量和训练效率。]
开源模型下载地址:
https://huggingface.co/openbmb/VoxCPM2
Huggingface在线体验地址:
https://huggingface.co/spaces/openbmb/VoxCPM-Demo
VoxCPM 截图
VoxCPM AI评测
上一篇 Midjourney
下一篇 wow配音
VoxCPM 评分
0.0
暂无评分
0条
0条
0条
0条
0条