微软研究院开源了突破性音频模型VibeVoice-1.5B,该模型能一次性合成90分钟超长语音,支持四位发言人切换,并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构(声学+语义)解决了音色漂移问题,通过课程学习策略优化训练效率。这一进展为语音合成领域树立新标杆,相关资源已在Hugging Face平台开放。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部