有没有能够识别语音并转换成“带有语音合成标记语言 (SSML)”的文本的ai?

类似AI图生文,把图片还原成promote

有没有AI能把语音还原成promote的?

OpenAI Whisper?

还没见过自动打标记的,市面上都是STT。

Gemini现在可以,直接把音频发给它,然后指令:
请详细分析这段音频的音色、语速、情感状态,并将其转化为一段用于 TTS 生成的提示词(Prompt)或带 SSML 标签的文本