微软开源VibeVoice-1.5B音频模型支持90分钟长语音合成与多发言人切换

路人丁 70 阅读 0 评论 0 点赞

微软研究院开源了突破性音频模型VibeVoice-1.5B，该模型能一次性合成90分钟超长语音，支持四位发言人切换，并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构（声学+语义）解决了音色漂移问题，通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆，相关资源已在Hugging Face平台开放。