Bark - 高度逼真的开源、生成式文字转语音模型

原始链接在: https://www.appinn.com/suno-ai-bark/

Bark 是一款高度逼真的开源、生成式文字转语音模型。它可以生成类似真人的多语言语音,还能生成音乐、背景噪音等简单的音效,以及可以根据文字内容产生笑、叹息和哭泣、喘息声、清嗓子等声音。英语效果优秀,中文效果一般。@Appinn


感谢 @orange.ai 的推荐:

  • 非常真实自然的语音
  • 英文效果最佳,其他语言还欠佳
  • 支持通过文本生成歌曲
  • 支持生成背景噪音、简单的音效
  • 支持大笑、叹息、哭泣
  • 开源模型,自己可以下载玩,也可以去官方排队体验

Bark 使用 MIT 许可证,允许商用。经过 CPU 和 GPU 测试(pytorch 2.0+, CUDA 11.7 和 CUDA 12.0)。

例子

Bark 是完全生成式的文本-音频模型,它不是传统的 TTS 模型,会根据文字描述生成很多意想不到的内容。

获取

原文:https://www.appinn.com/suno-ai-bark/

执行缓慢:No GPU being used. Careful, inference might be very slow!
解决方案: 检查torch版本, 如果结果是cpu, 重新安装CUDA版torch
检查torch版本:

import torch

print("Torch version:", torch.__version__)
print("CUDA available:", torch.cuda.is_available())
print("Number of GPUs:", torch.cuda.device_count())
print("GPU name:", torch.cuda.get_device_name(0))

重新安装torch:

pip install torch==2.0.0+cu117 -f https://download.pytorch.org/whl/cu117/torch_stable.html

听了个寂寞

啊声音没录进去…

尝试了各种参数的组合,生成的中文语音听着像方言