通义听悟，但是实时版？

zrhelloha · 2024 年2 月 21 日 04:00

对于在线的视频会议而言，现在的通义听悟之类的AI应用确实能帮上大忙，自动生成转录文本，总结会议大意，标注重点，打标签……总之能节省很多时间。但是这些应用目前的使用无一不是整个会议结束后生成，我在想是否有这样的应用/开源项目，能够让LLM实时流式的参与到整场会议中，充当一位参会人，帮助其他参会者更凝练的输出观点，获得启发，调取资料库等。

想了一下实现原理不算复杂，主要就这么几步：

1.采集在线会议中的参会人发言，并实时转写出对应文字纪录，可以使用faster-whisper、达摩ASR实现；
2.根据停顿参会人发言记录进行分段，并调用LLM api对其进行分析回答，总结复盘内容以及抛出问题，启发参会人抛出更多观点和灵感；
3.整个过程是连续且流畅的，人物不断发言，同时LLM结合上下文不断回复文字内容；

目前找到的有关联的Github项目有好几个，但是感觉都做的比较复杂：

不知道大家有哪些发现

Qingwa · 2024 年2 月 21 日 04:15

你需要先买一台 GPU 阵列才行吧

话题		回复	浏览量
求一款可以将线上会议中别人说的话实时转为文字并记录的软件问题求助 windows	5	1481	2022 年12 月 20 日
请问如何将大段音频转化为文字？问题求助	10	465	2025 年10 月 23 日
求推荐 Windows 10 本地实时字幕(语音转文字)软件问题求助 windows	16	830	2025 年12 月 23 日
如何便捷自制特定音色的实时tts引擎？问题求助 windows	6	1008	2024 年9 月 6 日
想做一个利用多模态大模型实现的 AI 视频总结，不知道现在有没有这样的应用了？闲聊灌水 ai	4	220	2025 年8 月 21 日

通义听悟，但是实时版？

相关话题