【自荐】VideoCaptioner - 基于 LLM 的智能视频字幕助手,支持生成、断句、优化、翻译全流程,一键高质量字幕视频合成!

软件名称

卡卡字幕助手 (VideoCaptioner)

开源网址

:open_book: 项目介绍

卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件。操作简单且无需高配置,利用大语言模型进行字幕智能断句、校正、优化、翻译,一键为视频配上效果惊艳的字幕。

  • :dart: 无需GPU即可使用强大的语音识别引擎,自动生成精准字幕

  • :scissors: 基于 LLM 的智能分割与断句,字幕阅读更自然流畅

  • :arrows_counterclockwise: AI字幕多线程优化调整字幕格式;吴恩达三步反思法翻译,表达更地道专业

  • :clapper: 支持批量视频字幕合成,提升处理效率

  • :memo: 直观的字幕编辑查看界面,支持实时预览和快捷编辑

  • :robot: 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用

:camera_flash: 界面预览



:rocket: 快速开始

Windows 用户

软件较为轻量,打包大小不足 60M,已集成所有必要环境,下载后可直接运行。

  1. Release 页面下载最新版本的可执行程序。或者:蓝奏盘下载

  2. 解压后直接运行 VideoCaptioner.exe

  3. (可选)LLM API 配置,选择是否启用字幕优化或者字幕翻译

  4. 拖拽视频文件到软件窗口,即可全自动处音频识别、字幕生成、字幕优化翻译、视频合成。(提示:每一个步骤均支持单独处理,均支持文件拖拽。

:sparkles: 主要功能

软件充分利用大语言模型(LLM)在理解上下文方面的优势,对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语,让字幕内容更加准确连贯,为用户带来出色的观看体验!

1. 多平台视频下载与处理

  • 支持国内外主流视频平台(B站、Youtube等)

  • 自动提取视频原有字幕处理

2. 专业的语音识别引擎

  • 提供多种接口在线识别,效果媲美剪映(免费、高速)

  • 支持本地Whisper模型(保护隐私、可离线)

3. 智能字幕优化

  • 基于LLM的智能纠错,提升字幕准确度

  • 自动优化专业术语、代码片段和数学公式格式

  • 上下文进行断句优化,提升阅读体验

4. 高质量字幕翻译

  • 结合上下文的智能翻译,确保译文准确自然

  • 通过Prompt指导大模型反思翻译,提升翻译质量

  • 使用序列模糊匹配算法、保证时间轴完全一致

5. 字幕样式调整

  • 丰富的字幕样式模板(科普风、新闻风、番剧风等等)

  • 支持导出多种格式字幕视频(SRT、ASS、VTT、TXT)

基本配置

1. LLM API 配置说明 (可选)

  • 软件内置基础大语言模型(gpt-4o-mini感谢Linux论坛佬友们的高科技,无需配置即可使用。但为获得更好的效果,建议在设置中配置个人 API。

  • 追求更高质量可选用 Claude-3.5-sonnetgpt-4o

2. 本地 Whisper 语音识别配置(可选,隐私性强可使用)

  • 下载模型:Tiny, Base, Small, Medium, Large-v1, Large-v2 需软件内下载

  • 中文识别推荐使用 Medium 及以上版本,以确保识别质量

3. 字幕样式自定义

  • 主副字幕设置:字体、大小、颜色、边框样式、行距、位置等

  • 排版方式:原文在上、译文在上、仅原文、仅译文

项目还在不断完善中,如果在使用过程遇到的Bug,欢迎提交 Issue 和 Pull Request ~~

1 个赞

本地Whisper语音识别的话,不能利用GPU吗?

可以使用显卡,本地识别利用了这个项目。

针对GPU进行优化了,核显也可以使用。

1 个赞

没语音的视频只有字幕的可以提取字幕或者时间轴吗

显然不能啊,它这个就是基于语音识别的。又不是ocr

鉴于国内这个网络,建议做个代理功能。。。

仅仅是翻译,我觉得小模型就够了,国内几个ai商的免费小模型肯定是够用的。建议内置。
或者开放自定义api的配置

另外,打包脚本是啥,我想试试打个linux的包。没有win独享的库吧

试了一下,确实很好用,不过我不需要合成,光有字幕文件就可以了,可以选择不合成到视频吗?很好用,再次感谢

软件无需代理,包括Whisper模型的下载、API的调用都可以直接使用。

参考github里面的mac打包脚本,不过针对 Whisper 功能仅限于Window。

软件已经内置基础的 gpt-4o-mini 接口,开箱即用。设置例也支持自定义自己的API接口,兼容 OpenAI 格式。

我对比过,翻译等任务一些大模型例如Claude-3.5-sonet 的质量确实还要高出不少,对一些语境的理解更恰当。

我当时提这个问题是因为,下载 Whisper 模型时,
出现了这个问题,最开始我以为是网络访问问题:

1、软件报:'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2、软件无下载进度提示
3、之后发现aria2确实会被拉起并开始下载,但无法完成下载表现为

  • aria启动,占位文件生成,
  • 开始下载
  • 在下完前速度变为0
  • 重新点击下载,软件崩溃(log里可以看到重新启动后,提示"发现未完成的下载文件")

报错的log如下

2024-11-14 09:38:46,989 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:14,724 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin
2024-11-14 09:39:16,093 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:45,452 - whisper_download - INFO - 发现未完成的下载文件: F:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models\ggml-tiny.bin
2024-11-14 09:39:45,454 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin