类似AI图生文,把图片还原成promote
有没有AI能把语音还原成promote的?
OpenAI Whisper?
还没见过自动打标记的,市面上都是STT。
Gemini现在可以,直接把音频发给它,然后指令: 请详细分析这段音频的音色、语速、情感状态,并将其转化为一段用于 TTS 生成的提示词(Prompt)或带 SSML 标签的文本