有没有简单而大用量的视频or音频文字识别软件

还是我,还是备份存档。

有很多课件,主要是会议录像或者录好的ppt讲解。 格式啥都有。(可以统一转mp4或音频)

找个工具转成文字。可以直接用(不要docker或者linux命令)。免费或者相对费用较低。

结果希望是:
以句子或长段落,分段,可以选择打不打时间戳(打了时间戳就是字幕)。
如果有更高级的功能

  1. 根据发言的是男声还是女声,尖细还是带鼻音,区别不同的讲述者和提问者。识别出的结果带上发音人(可以代号a,b,c…)
  2. 对于讲课或会议中频繁提到的高频词,ai根据谈话背景识别含义并自动校对,而不是单纯靠语音识别(会有同音词错误,或者质量不一,同一个词有时对有时错,或者始终将一个偏僻词错识别为一个常用词)
  3. 适当过滤哼哈之类的语气助词口头禅。
    对高级功能可以付费。

阿里的通义听悟,在通义千文里面了,也可以从阿里云盘的实验室里找到它。
同花顺旗下的悦录app,之前的时候免费额度还挺高的,最近给的额度有点少了,但是它的识别可以分别出不同的发言人。
第三个就是讯飞啦,毕竟是语音识别行业深耕多年,但是他家的app做导入识别是收费的。

我知道有一个通义听悟,阿里开发的,就是打开之后开会,会记录不同人的发言并转换成文字,同时会议后会有一个总结部分,总结每个人说了什么,并列出会议的大纲和代办的事项。

个人觉得还挺好用的,我用的是小程序版本。

应该是有高级功能的,不过不确定有没有高频词库替换。

另外讯飞家的软件都可以考虑一下,讯飞在AI识别这方面是比较超前的。

在Mac上用过TinyStudio,就是个套壳的whisper,不过好在免费直接用,不知道是否适合您。‎TinyStudio on the Mac App Store