BKK
(BKK)
1
软件名称
卡卡字幕助手 (VideoCaptioner)
开源网址
项目介绍
卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件。操作简单且无需高配置,利用大语言模型进行字幕智能断句、校正、优化、翻译,一键为视频配上效果惊艳的字幕。
-
无需GPU即可使用强大的语音识别引擎,自动生成精准字幕
-
基于 LLM 的智能分割与断句,字幕阅读更自然流畅
-
AI字幕多线程优化调整字幕格式;吴恩达三步反思法翻译,表达更地道专业
-
支持批量视频字幕合成,提升处理效率
-
直观的字幕编辑查看界面,支持实时预览和快捷编辑
-
消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
界面预览
快速开始
Windows 用户
软件较为轻量,打包大小不足 60M,已集成所有必要环境,下载后可直接运行。
-
从 Release 页面下载最新版本的可执行程序。或者:蓝奏盘下载
-
解压后直接运行 VideoCaptioner.exe
-
(可选)LLM API 配置,选择是否启用字幕优化或者字幕翻译
-
拖拽视频文件到软件窗口,即可全自动处音频识别、字幕生成、字幕优化翻译、视频合成。(提示:每一个步骤均支持单独处理,均支持文件拖拽。
)
主要功能
软件充分利用大语言模型(LLM)在理解上下文方面的优势,对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语,让字幕内容更加准确连贯,为用户带来出色的观看体验!
1. 多平台视频下载与处理
-
支持国内外主流视频平台(B站、Youtube等)
-
自动提取视频原有字幕处理
2. 专业的语音识别引擎
-
提供多种接口在线识别,效果媲美剪映(免费、高速)
-
支持本地Whisper模型(保护隐私、可离线)
3. 智能字幕优化
-
基于LLM的智能纠错,提升字幕准确度
-
自动优化专业术语、代码片段和数学公式格式
-
上下文进行断句优化,提升阅读体验
4. 高质量字幕翻译
-
结合上下文的智能翻译,确保译文准确自然
-
通过Prompt指导大模型反思翻译,提升翻译质量
-
使用序列模糊匹配算法、保证时间轴完全一致
5. 字幕样式调整
基本配置
1. LLM API 配置说明 (可选)
2. 本地 Whisper 语音识别配置(可选,隐私性强可使用)
-
下载模型:Tiny
, Base
, Small
, Medium
, Large-v1
, Large-v2
需软件内下载
-
中文识别推荐使用 Medium
及以上版本,以确保识别质量
3. 字幕样式自定义
项目还在不断完善中,如果在使用过程遇到的Bug,欢迎提交 Issue 和 Pull Request ~~
1 个赞
本地Whisper语音识别的话,不能利用GPU吗?
shadows
(shadows)
5
显然不能啊,它这个就是基于语音识别的。又不是ocr
kero990
(kero990)
7
仅仅是翻译,我觉得小模型就够了,国内几个ai商的免费小模型肯定是够用的。建议内置。
或者开放自定义api的配置
kero990
(kero990)
8
另外,打包脚本是啥,我想试试打个linux的包。没有win独享的库吧
试了一下,确实很好用,不过我不需要合成,光有字幕文件就可以了,可以选择不合成到视频吗?很好用,再次感谢
BKK
(BKK)
10
软件无需代理,包括Whisper模型的下载、API的调用都可以直接使用。
BKK
(BKK)
11
参考github里面的mac打包脚本,不过针对 Whisper 功能仅限于Window。
BKK
(BKK)
12
软件已经内置基础的 gpt-4o-mini
接口,开箱即用。设置例也支持自定义自己的API接口,兼容 OpenAI 格式。
我对比过,翻译等任务一些大模型例如Claude-3.5-sonet
的质量确实还要高出不少,对一些语境的理解更恰当。
tjsky
(扬帆大海)
13
我当时提这个问题是因为,下载 Whisper 模型时,
出现了这个问题,最开始我以为是网络访问问题:
1、软件报:'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2、软件无下载进度提示
3、之后发现aria2确实会被拉起并开始下载,但无法完成下载表现为
- aria启动,占位文件生成,
- 开始下载
- 在下完前速度变为0
- 重新点击下载,软件崩溃(log里可以看到重新启动后,提示"发现未完成的下载文件")
报错的log如下
2024-11-14 09:38:46,989 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:14,724 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin
2024-11-14 09:39:16,093 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:45,452 - whisper_download - INFO - 发现未完成的下载文件: F:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models\ggml-tiny.bin
2024-11-14 09:39:45,454 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin