微软开源VibeVoice-1.5B音频模型 支持90分钟长语音合成与多发言人切换 微软研究院开源了突破性音频模型VibeVoice-1.5B,该模型能一次性合成90分钟超长语音,支持四位发言人切换,并实现24kHz音频的3200倍高保真压缩。其创新双tokenizer架构(声学+语 7*24快讯 2025年08月26日 0 点赞 0 评论 7 浏览