【自荐】VideoCaptioner - 基于 LLM 的智能视频字幕助手，支持生成、断句、优化、翻译全流程，一键高质量字幕视频合成！

BKK · 2024 年11 月 13 日 09:12

软件名称

卡卡字幕助手（VideoCaptioner）

开源网址

项目介绍

卡卡字幕助手（VideoCaptioner）是一款功能强大的视频字幕配制软件。操作简单且无需高配置，利用大语言模型进行字幕智能断句、校正、优化、翻译，一键为视频配上效果惊艳的字幕。

无需GPU即可使用强大的语音识别引擎，自动生成精准字幕
基于 LLM 的智能分割与断句，字幕阅读更自然流畅
AI字幕多线程优化调整字幕格式；吴恩达三步反思法翻译，表达更地道专业
支持批量视频字幕合成，提升处理效率
直观的字幕编辑查看界面，支持实时预览和快捷编辑
消耗模型 Token 少，且内置基础 LLM 模型，保证开箱即用

界面预览

快速开始

Windows 用户

软件较为轻量，打包大小不足 60M,已集成所有必要环境，下载后可直接运行。

从 Release 页面下载最新版本的可执行程序。或者：蓝奏盘下载
解压后直接运行 VideoCaptioner.exe
（可选）LLM API 配置，选择是否启用字幕优化或者字幕翻译
拖拽视频文件到软件窗口，即可全自动处音频识别、字幕生成、字幕优化翻译、视频合成。（提示：每一个步骤均支持单独处理，均支持文件拖拽。
）

主要功能

软件充分利用大语言模型(LLM)在理解上下文方面的优势，对语音识别生成的字幕进一步处理。有效修正错别字、统一专业术语，让字幕内容更加准确连贯，为用户带来出色的观看体验！

1. 多平台视频下载与处理

支持国内外主流视频平台（B站、Youtube等）
自动提取视频原有字幕处理

2. 专业的语音识别引擎

提供多种接口在线识别，效果媲美剪映（免费、高速）
支持本地Whisper模型（保护隐私、可离线）

3. 智能字幕优化

基于LLM的智能纠错，提升字幕准确度
自动优化专业术语、代码片段和数学公式格式
上下文进行断句优化，提升阅读体验

4. 高质量字幕翻译

结合上下文的智能翻译，确保译文准确自然
通过Prompt指导大模型反思翻译，提升翻译质量
使用序列模糊匹配算法、保证时间轴完全一致

5. 字幕样式调整

丰富的字幕样式模板（科普风、新闻风、番剧风等等）
支持导出多种格式字幕视频（SRT、ASS、VTT、TXT）

基本配置

1. LLM API 配置说明（可选）

软件内置基础大语言模型（gpt-4o-mini）感谢Linux论坛佬友们的高科技，无需配置即可使用。但为获得更好的效果，建议在设置中配置个人 API。
追求更高质量可选用 Claude-3.5-sonnet 或 gpt-4o

2. 本地 Whisper 语音识别配置（可选，隐私性强可使用）

下载模型：Tiny, Base, Small, Medium, Large-v1, Large-v2 需软件内下载
中文识别推荐使用 Medium 及以上版本，以确保识别质量

3. 字幕样式自定义

主副字幕设置：字体、大小、颜色、边框样式、行距、位置等
排版方式：原文在上、译文在上、仅原文、仅译文

项目还在不断完善中，如果在使用过程遇到的Bug，欢迎提交 Issue 和 Pull Request ~~

ririliu · 2024 年11 月 13 日 09:33

本地Whisper语音识别的话，不能利用GPU吗？

BKK · 2024 年11 月 13 日 13:11

可以使用显卡，本地识别利用了这个项目。

针对GPU进行优化了，核显也可以使用。

CallieLari · 2024 年11 月 14 日 01:16

没语音的视频只有字幕的可以提取字幕或者时间轴吗

shadows · 2024 年11 月 14 日 01:28

显然不能啊，它这个就是基于语音识别的。又不是ocr

tjsky · 2024 年11 月 14 日 01:47

鉴于国内这个网络，建议做个代理功能。。。

kero990 · 2024 年11 月 14 日 03:31

仅仅是翻译，我觉得小模型就够了，国内几个ai商的免费小模型肯定是够用的。建议内置。
或者开放自定义api的配置

kero990 · 2024 年11 月 14 日 03:48

另外，打包脚本是啥，我想试试打个linux的包。没有win独享的库吧

adangadong · 2024 年11 月 15 日 05:06

试了一下，确实很好用，不过我不需要合成，光有字幕文件就可以了，可以选择不合成到视频吗？很好用，再次感谢

BKK · 2024 年11 月 15 日 05:49

软件无需代理，包括Whisper模型的下载、API的调用都可以直接使用。

BKK · 2024 年11 月 15 日 05:50

参考github里面的mac打包脚本，不过针对 Whisper 功能仅限于Window。

BKK · 2024 年11 月 15 日 05:50

软件已经内置基础的 gpt-4o-mini 接口，开箱即用。设置例也支持自定义自己的API接口，兼容 OpenAI 格式。

我对比过，翻译等任务一些大模型例如Claude-3.5-sonet 的质量确实还要高出不少，对一些语境的理解更恰当。

tjsky · 2024 年11 月 15 日 09:05

我当时提这个问题是因为，下载 Whisper 模型时，
出现了这个问题，最开始我以为是网络访问问题：

1、软件报：'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2、软件无下载进度提示
3、之后发现aria2确实会被拉起并开始下载，但无法完成下载表现为

aria启动，占位文件生成，
开始下载
在下完前速度变为0
重新点击下载，软件崩溃（log里可以看到重新启动后，提示"发现未完成的下载文件"）

报错的log如下

2024-11-14 09:38:46,989 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:14,724 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin
2024-11-14 09:39:16,093 - whisper_download - ERROR - 下载异常: 'gbk' codec can't decode byte 0xaf in position 44: illegal multibyte sequence
2024-11-14 09:39:45,452 - whisper_download - INFO - 发现未完成的下载文件: F:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models\ggml-tiny.bin
2024-11-14 09:39:45,454 - whisper_download - INFO - 运行下载命令: aria2c --show-console-readout=false --summary-interval=1 -x2 -s2 --connect-timeout=10 --timeout=10 --max-tries=2 --retry-wait=1 --continue=true --auto-file-renaming=false --allow-overwrite=true --check-certificate=false --dir=D:\绿色软件\VideoCaptioner-win-v1.0.0\AppData\cache\whisper_models --out=ggml-tiny.bin https://www.modelscope.cn/models/cjc1887415157/whisper.cpp/resolve/master/ggml-tiny.bin

话题		回复	浏览量
几款开源的视频生成字幕、字幕翻译项目讨论分享字幕	7	1893	2025 年3 月 2 日
有没有本地视频生成ai字幕的本地软件问题求助	15	1122	2024 年10 月 15 日
【Win】寻求更好的生成视频字幕并且可修正的工具、根据视频声音生成字幕问题求助 windows	15	773	2024 年11 月 9 日
【自荐】免费在线AI字幕生成器 - 自动制作视频字幕发现频道	5	1890	2023 年11 月 11 日
【开发者自荐】狸语字幕助手 —— 不开麦也能“开口”互动的直播小工具发现频道 windows , 字幕 , 直播	10	1032	2025 年8 月 15 日