有没有简单而大用量的视频or音频文字识别软件

danvozhou · 2024 年9 月 18 日 11:41

还是我，还是备份存档。

有很多课件，主要是会议录像或者录好的ppt讲解。格式啥都有。（可以统一转mp4或音频）

找个工具转成文字。可以直接用（不要docker或者linux命令）。免费或者相对费用较低。

结果希望是：
以句子或长段落，分段，可以选择打不打时间戳（打了时间戳就是字幕）。
如果有更高级的功能

根据发言的是男声还是女声，尖细还是带鼻音，区别不同的讲述者和提问者。识别出的结果带上发音人（可以代号a，b，c…)
对于讲课或会议中频繁提到的高频词，ai根据谈话背景识别含义并自动校对，而不是单纯靠语音识别（会有同音词错误，或者质量不一，同一个词有时对有时错，或者始终将一个偏僻词错识别为一个常用词）
适当过滤哼哈之类的语气助词口头禅。
对高级功能可以付费。

tiger · 2024 年9 月 18 日 23:12

阿里的通义听悟，在通义千文里面了，也可以从阿里云盘的实验室里找到它。
同花顺旗下的悦录app，之前的时候免费额度还挺高的，最近给的额度有点少了，但是它的识别可以分别出不同的发言人。
第三个就是讯飞啦，毕竟是语音识别行业深耕多年，但是他家的app做导入识别是收费的。

Lanbin · 2024 年9 月 18 日 23:19

我知道有一个通义听悟，阿里开发的，就是打开之后开会，会记录不同人的发言并转换成文字，同时会议后会有一个总结部分，总结每个人说了什么，并列出会议的大纲和代办的事项。

个人觉得还挺好用的，我用的是小程序版本。

应该是有高级功能的，不过不确定有没有高频词库替换。

另外讯飞家的软件都可以考虑一下，讯飞在AI识别这方面是比较超前的。

Balding · 2024 年9 月 18 日 23:19

在Mac上用过TinyStudio，就是个套壳的whisper，不过好在免费直接用，不知道是否适合您。‎TinyStudio on the Mac App Store

话题		回复	浏览量
【Mac免费】免费的Office系列模版发现频道	0	587	2014 年9 月 17 日
[色库] 设计师必备色彩搭配工具, 你了解色彩嘛？支持中国传统色、日本传统色, 任意图片取色和主题色发现频道	1	3136	2020 年5 月 7 日
微不信，一个微信装逼神器（过年比用）讨论分享	0	6300	2015 年12 月 22 日
求一款iOS通知栏快速记笔记的app 问题求助	6	4500	2016 年6 月 12 日
【求黑科技】iPhone如何快速连续截屏？问题求助	1	3911	2015 年8 月 12 日