🔞 WhisperJAV - 一款为成人视频生成字幕的开源项目

一款用于生成日本成人视频字幕的字幕生成器。

TL;DR

Whisper 在 JAV 上表现不佳,并不是模型不强,而是这个场景本身就很“反模型”。

JAV 音频噪声极多,充满喘息和非语言声音,它们在频谱上很像语言,容易诱发模型“听错”。
再加上 1–2 小时的超长音频和大量安静片段,Whisper 很容易丢失上下文,开始编造字幕。

激进的降噪和直接微调模型通常只会让情况更糟。

WhisperJAV 的思路很简单:
少处理、分场景、丢幻觉,宁可少转,也不乱转。

为什么 Whisper 在 JAV 上经常翻车?

Whisper 很强,但它并不是为 JAV 这种音频环境设计的。
把它直接拿来用,问题几乎是必然的。


1. JAV 的声音,本身就“不像人话”

JAV 里有大量非语言声音:喘息、呼吸、呻吟、叹气。这些声音在频谱上看起来很像语言,但实际上并不是。

对模型来说就很尴尬——
它“确信自己听到了什么”,于是开始硬猜词,结果字幕里就冒出了并不存在的台词。

再加上音量变化极端:
前一秒是贴着耳朵的低声细语,下一秒可能就是爆音尖叫,这会让模型的注意力和音量判断彻底乱套。


2. 时间一长,模型就开始“编故事”

Whisper 更擅长处理短而清晰的音频。

但 JAV 通常是 1–2 小时的长音频,中间还夹着大量“什么也没说”的时间段,比如安静、规律呼吸、背景声。

这些长时间的“模糊声音”会让模型逐渐失去上下文判断,最后进入一种状态:

“我好像应该输出点什么。”

于是它开始凭空生成字幕,而且往往还会重复同一句话——这就是典型的 ASR 幻觉。


3. 音频处理不是越狠越好

直觉会告诉你:

噪声多?那就狠狠降噪。

但在 Whisper 这里,激进的降噪和人声分离反而经常帮倒忙
一些对区分发音很重要的细节会被一起抹掉,结果模型更听不懂了。

所以在这个场景下,音频处理需要的是小心、克制、分步骤,而不是一刀切。


4. 微调模型,很容易“调废”

用 JAV 数据去微调模型听起来很诱人,但现实是:
靠谱的数据太少,模型非常容易过拟合。

结果就是:
有的片子效果很好,换一部却完全崩溃,输出质量全看运气。

5 个赞

对的对的,我们要的就是这个

想不到你是这样的!

小蝌蚪制造者嘛,有什么问题,没问题啊

:rofl:

3 个赞

:index_pointing_at_the_viewer:而你,我的朋友,你才是真正的英雄。

1 个赞

我缺的是字幕吗 :face_with_bags_under_eyes:

1 个赞

对嘛,这才是第一生产力,会多多测试的

1 个赞

这就需要大家众筹了,每个人出一些库,丰富它的训练场景,为了保证训练结果希望贡献者将库公开,大家一起审核和跟踪

2 个赞

我有个朋友说,这个项目很棒

1 个赞

翻了这么多就这篇能看懂,果然兴趣才是先生~~

那么问题来了,识别出字幕以后如何快速的翻译呢?

好朋友!

论坛里都有一堆字幕翻译啊:

https://meta.appinn.net/search?q=%E5%AD%97%E5%B9%95%E7%BF%BB%E8%AF%91

找了好几个都是用的在线翻译,但是你懂得,这个还是离线翻译最好 :zany_face:

正好昨天下载了一个4k的,没有字幕,网上回去试一下

我感觉Whisper的识别效果本就不大行啊。我下载了包括Whisper在内的一些开源模型试了试常规的讲稿音频,都不大行。哪怕用的是比较大的模型效果也不好。例如Whisper我用的large,速度很慢,效果极差,结果毫无参考意义。

PS. 我识别的是中文讲稿。

试试这些

1 个赞

大多数人都不知到下载RAW的网站,需要云梯还有需要BT网络环境。

哈哈哈

无中生友