能否实现,英语发音音节及音频自动拆分,自动打轴

能否实现,英语发音音节及音频自动拆分,自动打轴
azure
javascript
python
AEGISUB

我有一个想法,那就是,把英语的音标,英语的发音,能实现发音单元的发音时长的,自动计算发音时间,并产生k值,也就是自动打轴的这种功能,打轴软件可以是用aegisub, 或其他的软件
然后,把这个自动化拆分音节或发音单元(发音单元,是指一个音词中,对应音标的那个能独立发出某个音的,最小的一个字母,或字母组合,)的工具,及,自动化的打轴的工具,结合起来,实现一个卡拉OK的效果,也就是读出一个音节,或一个最小发音单元的时候,这个对应的字母,及,音标中的那个发音的音标的字母,都会相应,变成红色,这样能实现,字母与声音,同步的一个效果
我想把这个用来给我的小的学习英语使用,我家小的,是白化病儿童,眼睛视力戴眼镜之后也只有0.3,看不见书上的字,我现在是给他作这个卡拉ok视频,用32寸的大的显示器,把字放大给他看,他距离显示器30-40厘米,能看见字号大小在2.8厘米x2.8厘米的字,我用大显示器,作出来的声音与画面上的文字或字母同步的视频之后,他学英语的效果大大提高,这个教学方法好
有人能帮我技术实现吗?红包酬谢,有意者,盼能交流

所以音频是录音还是合成?
为孩子考虑可以理解,但是我觉得你的设想不太成立。首先正常段落里词的发音和单个单词是不一样的,其次是音标只是帮助人拼出来,实际上还有可能并不存在发音和音标最小单位的完全对应。最后,进度刷新的过程太快了,会消耗太多注意力

您好,我的想法是,一,拆分音节,或,最小的英语音标的最小的发音单元,拆出来后,对应的这个音标或发音单元,可以跳转到一个标准化的一个发音(官方的,或公认的第三方的),然后能实现由这个标准化的发音,来进行逐音节,或逐个发音单元的发音,最后连读合成为这个单词的一个标准发音,这个过程中,如果语速快了,可以把语慢变慢,所有的过程,展示出来的是,一个可视化的,也就是,声音听到的时候,听到的这个声音是某个音节的,这个音节对应的字母,就会变成红色,这样能起到一个音字同步,起到一个耳与眼的同步,对初学阶段,是有帮助的,二,音频是学校或外教事先录好的,或者是字幕上的单词,鼠标移到这个单词字幕上,这个单词自动加一个红框,然后鼠标点一下这个单词,就自动跳转到第三方的一个页面上,在第三方的页面上,出现一个音节拆分,并逐个发音的这个样的一个效果,学完这个发音,就按空格键,自动返回到之前的学习的页面或界面上来,三,这个音节拆分的思路,将来也可以用在汉语拼音学习上来,对于中国人中的初学拼音的人,或,对于外国人学习汉语拼音的人,这样的思路,应该也是有一定的用处的。——————————以上我的补充,实际是希望能尽快把音语的最小的发音单元,与发音视频的切割,这种自动化,及,精确度,能用软件来实现,这样就会大大提高这个新开发出来的小工具的实用性

如果语言素材是TTS引擎合成的可能还有一点可操作性(即使如此我也觉得很难实现),如果是已经录好的音频素材,那目前的技术基本上是做不到的,除非依靠人工智能,但没有现成项目的条件下,总不能从零开始做一个吧。
退一步的话,以单词为分割单元倒还有可能实现,油管的ai字幕就是一个单词一个单词出现的,借助这个理论上应该可以实现差不多的东西。
另一方面,学英语真的需要这种程度的辅助吗?当然lz的情况比较特殊,这个问题我也没法回答。我假设lz的孩子说汉语是没问题的,相信lz教汉语的时候也不是用这种方法的吧?

我家小朋友,现在学汉语的学习,现在是先耳朵,再到眼眼,先是听,再记下来,再拿来交流,再到认字,再到细节化的学拼音,完全是颠倒过来了,与一般的流程是反的

因为他的眼睛看不清,所以他的耳朵得到了利用,听力比较敏感,因此,如果是没有什么书面的考试啊,做纸面上的作业啊,如果只是说嘴巴说,他都能正常交流,因为平时听得见,也记得住

但是如果把一些书放大一些字,让他认,他就认不出,把拼音给他认,给他念,这个认拼音的过程也很慢,因为平时的学习,完全是看不见黑板,是靠耳朵在听课

现在有了一些改进,我给他作了课件,及课文的大字稿,用32寸显示器,来给他看卡拉ok视频课件,他学得会了,也感谢我们小众软件论坛上一些热心的一些技术工程师热心帮我在弄一些外挂字幕的跳转的脚本代码或小程序

现在我的想法是,要弄个自动化的东西,把我给解放出来,让他在学的过程中,在学发音的过程中,能有一个更标准的自助式的工具来学,因为我的英语和拼音都不标准,教了一些时间,感觉这样教,太费时间,也教不好,因些,想弄个标准化的,更清晰的一种发音的资源来给他用

微软现在在弄一个沉浸式阅读,能拆分音节,但是不能把音节单独发音,拼音这一块儿,也没有一种上自动拆分声母,韵母,单独发音,并合成发音的一种全景过程式的工具,我想,如果能把拼音拆分,并对应发音的声音的音频的自动切割,那样,他学拼音,就方便多了,学英语也这样,如果有自动化的拆分单词的音节,或,音标的音节的工具,并且把对应的发音的音频,也自动切割,并形成一定的时间长度的k值,这样我就能想办法,借助卡拉ok的字幕软件来把这个发音与音节字母,同步展示的这个效果给弄出来国,这样的话,他学起英语单词的发音,及,汉语拼音的发音,就有了一个自动的工具,可以把我给取代了,而且比我讲的标准得多

我现在是在想如何实现这个环节