如何便捷自制特定音色的实时tts引擎?

现在有很多变声(音色克隆)的软件,
有没有能够一次性把Windows内置的语音tts或者其他tts引擎音色变成指定音色的。
生成一个新的自定制音色的本地tts引擎,
可以在安卓或者Windows调用的。

我也想知道 :thinking:

这个模型仿的挺像的,一些虚拟主播夹出来的音色也能仿,而且可以说很难分辨了

B站、油管搜 Bert-VITS2 有整合包

这种能不能实现 实时tts 的功能。
就是比如选中网页一句话,马上就发出声音,不用等。
就像edge的大声朗读或者windows系统自带的tts一样。

比如,这个网站介绍的这些tts发音人。
语音库(发音人) - 朗读女 (443w.com)

最小的只有0.8M,大小。
不知道能不能,比如把这0.8M的发音人音色变成指定音色,做成新的tts发音人。

这个模型实时比较难更注重仿音色,生成速度主要看 gpu 吧

试听了下你给的链接,机械味有点重

这个是一位b站 up 基于Bert-VITS2做的虚拟主播项目,还能调节多种配置项
https://www.modelscope.cn/studios/xzjosh/2568-Bert-VITS2/

这种项目可能用作 up 配音,或是互动语音比较多,我是想用来制作游戏 MOD 语音包

这些开源方案经常漏字错字重复