面壁智能联合清华推出VoxCPM,高拟真语音生成支持零样本克隆

2025年9月24日,面壁智能与清华大学深圳国际研究生院人机语音交互实验室联合发布新型语音生成模型VoxCPM,为语音生成领域带来新突破。

VoxCPM以0.5B的参数尺寸,在自然度、音色相似度及韵律表现力等关键指标上达到行业领先水平。通过零样本声音克隆技术,它能用极少数据生成用户独特声音,实现个性化语音合成,在个性化语音助手、游戏角色配音等领域应用前景广阔。

该模型已在GitHub、Hugging Face等平台开源,还提供线上体验平台,方便开发者探索使用。在权威语音合成评测榜单Seed-TTS-EVAL中表现出色,词错误率和音色相似度方面错误率极低,推理效率卓越。在一张NVIDIA RTX4090显卡上,实时因子约0.17,满足高质量实时交互需求。

VoxCPM音质和情感表达出色,能根据文本内容智能选择声音、腔调和韵律,模拟真人听感。无论是气象播报、英雄演讲还是方言主播,都能精准再现。其技术架构基于最新扩散自回归语音生成模型,融合层次化语言建模和局部扩散生成连续表征,提升生成语音表现力与自然度。

返回AI新闻列表