通义听悟,但是实时版?

对于在线的视频会议而言,现在的通义听悟之类的AI应用确实能帮上大忙,自动生成转录文本,总结会议大意,标注重点,打标签……总之能节省很多时间。但是这些应用目前的使用无一不是整个会议结束后生成,我在想是否有这样的应用/开源项目,能够让LLM实时流式的参与到整场会议中,充当一位参会人,帮助其他参会者更凝练的输出观点,获得启发,调取资料库等。

想了一下实现原理不算复杂,主要就这么几步:

1.采集在线会议中的参会人发言,并实时转写出对应文字纪录,可以使用faster-whisper、达摩ASR实现;
2.根据停顿参会人发言记录进行分段,并调用LLM api对其进行分析回答,总结复盘内容以及抛出问题,启发参会人抛出更多观点和灵感;
3.整个过程是连续且流畅的,人物不断发言,同时LLM结合上下文不断回复文字内容;

目前找到的有关联的Github项目有好几个,但是感觉都做的比较复杂:

不知道大家有哪些发现

你需要先买一台 GPU 阵列才行吧