此次发布最棒的部分是即将推出一个0.5B的流媒体模型和一个7B的TTS模型🤩
Vaibhav (VB) Srivastav
Vaibhav (VB) Srivastav8月26日 03:39
微软刚刚发布了 VibeVoice - 1.5B SoTA 文本转语音模型 - MIT 许可 🔥 > 它可以生成长达 90 分钟的音频 > 支持同时生成超过 4 个说话者 > 正在推出流媒体和更大的 7B 模型 > 能够进行跨语言和歌唱合成 我喜欢这个模型的表现力和情感控制!向微软致敬 🤗
26.72K