万益资讯网

兄弟们微软也在github开源了 这个微软开源的VibeVoice,是个语音A

兄弟们微软也在github开源了

这个微软开源的VibeVoice,是个语音AI全家桶,主打TTS和ASR两大块,

这模型之前开过一次源,去年9月被人拿去搞深度伪造,微软二话不说,直接把GitHub仓库删了,那会儿才8K星。重新上架后,星数直接干到3.5万+,懂的都懂,程序员认准的好东西,从来藏不住。

最顶的就是超长音频处理,做相关开发的兄弟都知道,这玩意儿能省太多事。TTS单次能生成90分钟多说话人对话,不用分段,省得写切片、拼接的破代码。

ASR更猛,单次处理60分钟音频,不用手动切片,推理速度拉满。关键是输出直接带说话人、时间戳、文本,一步到位,不用再二次开发整合,省了大把功夫。

还有个轻量版实时TTS,才0.5B参数,消费级GPU就能跑,部署门槛极低。首屏延迟300ms左右,实时交互完全没问题,不用堆高性能硬件,开发落地成本贼低

评论列表

你看不见我就对了
你看不见我就对了 2
2026-04-09 21:53
整个 github 都是微软的…