有没有能够识别语音并转换成“带有语音合成标记语言 (SSML)”的文本的ai?

类似AI图生文,把图片还原成promote

有没有AI能把语音还原成promote的?

OpenAI Whisper?

还没见过自动打标记的,市面上都是STT。