看到语音识别的准确度飙升、成本骤降,我突然发现一个接近记录整个生活的系统已经接近于可以实现了。
方案概述:
这个方案旨在利用智能耳机记录全天的语音,将录音转录成可检索的文本,以方便用户回顾和搜索日常对话。方案突出的特点包括全天录音、长期运行和可检索的功能。使用低位率录音、单侧佩戴耳机和选择夹耳式耳机以确保持续录音和舒适佩戴。
方案作用和特点:
全天录音: 可持续记录全天的对话内容,捕捉日常生活中的交流。
长期运行: 持久记录语音,跳过噪音和音乐等,提供长期存档和回顾的功能。
可检索文本: 将录音转录成文本,利用AI技术生成可检索的对话记录,方便用户回顾和搜索内容。
舒适佩戴: 选择夹耳式耳机,以确保长时间佩戴的舒适性。
尚须解决的问题:
法律法规限制: 需要遵守当地法律法规,确保录音行为合法。
数据安全和保护: 需要妥善管理和保护数据安全,以防止未经授权的访问和泄露。
技术可靠性和误差: AI语音转录可能存在误差,需要进一步优化和校对。
电量和智能判断录音需求: 需要考虑节省电量并提高效率的方法,例如智能判断何时开始录音。
基于目前已有的硬件,耳机+手机的方式已经完全可以实现。只佩戴一侧耳机,没电了就充电换另一只,可以保证录音的持续。
只记录语音,16kbps足够,1TB硬盘足以存储二三十年的录音。甚至可以删掉录音,只保留转录的文本。
我还想到另一个更简单记录,记录在(电脑、手机)屏幕上看到的所有文字——现在也非常接近你每天看到的所有文字了,再也不会忘记某某内容是在哪里看到的了。
存储和处理所有视觉信息仍然太不现实,但语音和文字已经包括了相当大部分的信息了。
这些信息能很大程度上解决经验自我和记忆自我的矛盾。
上述想法还很混乱,借助GPT做了一些整理。
补充一下:我在日常使用的三台电脑上装了manictime,记录电脑的使用时间,已经持续运行了十几年。
Google maps的timeline也曾经持续运行过十几年,记录我所有的位置轨迹,这几年实在是用不了了。
所有平台浏览器只用Chrome,因为它记录了我所有的浏览历史。
还有用手环记录心率、睡眠这些,应该也有十来年了吧,不过数据在服务器上,没法自己分析。
好想法,感觉目前的技术已经可以实现这个想法了,可以去尝试开发。
ps: 我小时候因为遗忘了一些事情,感觉很遗憾,意淫过未来可以通过某种方式回溯检索到过去发生的一切,基于的思想是电磁波的传播速度(当下看到的月亮是之前的月亮)(小孩子学了点知识就开始瞎想),但是马上担心自己做的一切都会被人看到。
以下是之前看过的一些相关的信息,供大家头脑风暴。先大胆地展望吧。
关于屏幕内容记录
有没有软件可以记录我看过的一切? - 问题求助 - 小众软件官方论坛
我做了一款免费开源、让你「过目不忘」的小工具:捕风记录仪 - Windrecorder - 少数派
关于空间记录
一生足迹 - 省电、后台、自动,记录位置轨迹[iPhone] - 大家的板块 / 青蛙的应用 - 小众软件官方论坛
相机,照片管理,已经有自然语言检索了,还有通过地图透视的方案
以及,期待未来 AR、VR、智能眼镜的潜能。
关于时间事件记录
这个已经有了很多 APP,但是时间记录这个命题争议比较大,实用性和可行性有很大问题。大部分都是手动的。
可能搭配智能识别和语音输入会变得更易用一些
关于赛博社交记录
【开发者自荐】Shmily-聊天记录归档 支持 QQ、Wechat、SMS、Email等 - 发现频道 - 小众软件官方论坛
我大体看了一遍这个计划,好像目的和我想的不太一样,它大概是想保留历史给后人,所以重在真实完整地保存(比如强调要保留噪音),不太在乎整理和查找。
现在有了无线耳机,硬件上显然比录音笔要好得多,要记录语音也完全足够了。
哈哈,我知道类似想法很早就有了,只是落地还有各种困难,尤其是一个如此长期的计划。
runze
2023 年11 月 25 日 04:20
8
当然是保存在本地,这种数据量想要保存在云端成本太高了
语音识别技术说是技术爆料,但实际使用还是问题很大,就连简单的语音单句转文字都无法保证准确识别。比如类似锤子手机那个闪念胶囊的小程序,现在讯飞、搜狗都有类似的APP,但实际使用的起来效果很差,有时候必须听原语音才能明白。更何况整天的语音记录。除非语音识别对口音、方言、尤其是方言中的一些语词能非常明白才有实际使用的价值。
作者有那个精力还不如开发个免费的、无广告的闪念胶囊,以积累经验,以待真正的语音识别技术产生,顺便让我白嫖用用。
我的感觉,语音识别本身已经非常强大,甚至可能已经超过人类了,但是很明显实际效果还是不如人类,这很可能不是语音识别的问题,而是人的问题。
比如秦晖教授的口音总把“全部”念成“传布”,人基本能把这个错误纠正过来,语音识别就比较难,因为他念的明明就是传布。
人能纠错,是因为人听到的不是文字而是意义,而传统的语音识别只训练了语音和文字的对应,根本不知道意义。
这个问题以前几乎是无解的,除非针对各种方言甚至各个人重新训练。
现在,这个问题可能可以用LLM来解决。实际上,和ChatGPT聊天的过程中,笔误几乎从来不会影响结果,这多少说明它有相当的纠错能力。
另外,Whisper似乎包含了一个比较小的LLM。用tiny来识别,“传布”就是“传布”;而用large,绝大部分变成了“全部”,这大概说明它已经在某种程度上把语音和意义联系起来了。
allor
2023 年11 月 27 日 08:12
11
人听到的并不是意义,而是根据上下文和历史信息进行纠正。
AI 也可以这样做,上下文现在比较常见了,历史信息可以通过声纹辨别引入口音更正表
人脑的自动纠正也不是什么时候都好使
有个传话游戏:
将一张纸条给第一人,第一人将内容口头转述给第二人
第二人转述第三人…
一直转述到最后一人,最后一人将听到的写出来
然后对比原始纸条和听写纸条,其中的差异和视错觉一样让人惊讶
为了区分人和机器,所以上面我用了机器不能理解意义这个观点。
机器到底能不能“理解意义”,这就扯到哲学问题上面去了。
kat
2023 年11 月 28 日 10:46
13
楼主,你开始实践了吗?看到你前面说,硬件条件已经满足。但是我想在安卓手机上实现按住某个按键,然后开始语音记录,做不到。我使用的是小米手机,无法通过实体快捷键直接开始记录。不知道你在这方面有什么实际操作的经验?
传话游戏绝对不会找一群北京人来传“吃了吗您呐”,
而要找一群东北人传“出嚟行,预咗要还”,
至少也要找一句绕口的、复杂的话。
这正好证明了人听到的不是语音而是意义。
随便买个录音笔不就行了吗?
耳机要全天录音,还要支持实时文字转换(在线), 待机很难保障.
另外, 都打算人生全纪录了, 只有声音岂不是盲人的世界?
谷歌眼镜才是你的首选.
录音笔大概不能保证整天的续航,重点是太显眼。
语音识别可以在本地完成,而且也不需要实时。
视觉信息的识别成本还是太高了。
Kyun
2023 年11 月 29 日 05:50
18
Baiyssy:
不能保证整天的续航,重点是太显眼
我覺得全天沒問題,大不了用可換電池的,放在褲袋裡還好吧。
Kyun
2023 年11 月 29 日 06:33
20
不放褲袋可以放胸包啊,你用智能耳機續航還不如錄音筆呢,而且成天戴着也不舒服。