一个全纪录系统的设想

看到语音识别的准确度飙升、成本骤降,我突然发现一个接近记录整个生活的系统已经接近于可以实现了。

方案概述:
这个方案旨在利用智能耳机记录全天的语音,将录音转录成可检索的文本,以方便用户回顾和搜索日常对话。方案突出的特点包括全天录音、长期运行和可检索的功能。使用低位率录音、单侧佩戴耳机和选择夹耳式耳机以确保持续录音和舒适佩戴。

方案作用和特点:

  • 全天录音: 可持续记录全天的对话内容,捕捉日常生活中的交流。
  • 长期运行: 持久记录语音,跳过噪音和音乐等,提供长期存档和回顾的功能。
  • 可检索文本: 将录音转录成文本,利用AI技术生成可检索的对话记录,方便用户回顾和搜索内容。
  • 舒适佩戴: 选择夹耳式耳机,以确保长时间佩戴的舒适性。

尚须解决的问题:

  • 法律法规限制: 需要遵守当地法律法规,确保录音行为合法。
  • 数据安全和保护: 需要妥善管理和保护数据安全,以防止未经授权的访问和泄露。
  • 技术可靠性和误差: AI语音转录可能存在误差,需要进一步优化和校对。
  • 电量和智能判断录音需求: 需要考虑节省电量并提高效率的方法,例如智能判断何时开始录音。

基于目前已有的硬件,耳机+手机的方式已经完全可以实现。只佩戴一侧耳机,没电了就充电换另一只,可以保证录音的持续。
只记录语音,16kbps足够,1TB硬盘足以存储二三十年的录音。甚至可以删掉录音,只保留转录的文本。

我还想到另一个更简单记录,记录在(电脑、手机)屏幕上看到的所有文字——现在也非常接近你每天看到的所有文字了,再也不会忘记某某内容是在哪里看到的了。

存储和处理所有视觉信息仍然太不现实,但语音和文字已经包括了相当大部分的信息了。
这些信息能很大程度上解决经验自我和记忆自我的矛盾。

上述想法还很混乱,借助GPT做了一些整理。

补充一下:我在日常使用的三台电脑上装了manictime,记录电脑的使用时间,已经持续运行了十几年。
Google maps的timeline也曾经持续运行过十几年,记录我所有的位置轨迹,这几年实在是用不了了。
所有平台浏览器只用Chrome,因为它记录了我所有的浏览历史。
还有用手环记录心率、睡眠这些,应该也有十来年了吧,不过数据在服务器上,没法自己分析。

可以参考声冻计划。

好想法,感觉目前的技术已经可以实现这个想法了,可以去尝试开发。

ps: 我小时候因为遗忘了一些事情,感觉很遗憾,意淫过未来可以通过某种方式回溯检索到过去发生的一切,基于的思想是电磁波的传播速度(当下看到的月亮是之前的月亮)(小孩子学了点知识就开始瞎想),但是马上担心自己做的一切都会被人看到。

以下是之前看过的一些相关的信息,供大家头脑风暴。先大胆地展望吧。

关于屏幕内容记录

有没有软件可以记录我看过的一切? - 问题求助:question: - 小众软件官方论坛

我做了一款免费开源、让你「过目不忘」的小工具:捕风记录仪 - Windrecorder - 少数派

关于空间记录

一生足迹 - 省电、后台、自动,记录位置轨迹[iPhone] - 大家的板块 / 青蛙的应用 - 小众软件官方论坛

相机,照片管理,已经有自然语言检索了,还有通过地图透视的方案

以及,期待未来 AR、VR、智能眼镜的潜能。

关于时间事件记录

这个已经有了很多 APP,但是时间记录这个命题争议比较大,实用性和可行性有很大问题。大部分都是手动的。

可能搭配智能识别和语音输入会变得更易用一些

关于赛博社交记录

【开发者自荐】Shmily-聊天记录归档 支持 QQ、Wechat、SMS、Email等 - 发现频道 :mag_right: - 小众软件官方论坛

我大体看了一遍这个计划,好像目的和我想的不太一样,它大概是想保留历史给后人,所以重在真实完整地保存(比如强调要保留噪音),不太在乎整理和查找。
现在有了无线耳机,硬件上显然比录音笔要好得多,要记录语音也完全足够了。

哈哈,我知道类似想法很早就有了,只是落地还有各种困难,尤其是一个如此长期的计划。

rewind.ai ?

这么多东西,还是放在本地比较放心吧

当然是保存在本地,这种数据量想要保存在云端成本太高了

语音识别技术说是技术爆料,但实际使用还是问题很大,就连简单的语音单句转文字都无法保证准确识别。比如类似锤子手机那个闪念胶囊的小程序,现在讯飞、搜狗都有类似的APP,但实际使用的起来效果很差,有时候必须听原语音才能明白。更何况整天的语音记录。除非语音识别对口音、方言、尤其是方言中的一些语词能非常明白才有实际使用的价值。
作者有那个精力还不如开发个免费的、无广告的闪念胶囊,以积累经验,以待真正的语音识别技术产生,顺便让我白嫖用用。 :joy:

我的感觉,语音识别本身已经非常强大,甚至可能已经超过人类了,但是很明显实际效果还是不如人类,这很可能不是语音识别的问题,而是人的问题。
比如秦晖教授的口音总把“全部”念成“传布”,人基本能把这个错误纠正过来,语音识别就比较难,因为他念的明明就是传布。
人能纠错,是因为人听到的不是文字而是意义,而传统的语音识别只训练了语音和文字的对应,根本不知道意义。
这个问题以前几乎是无解的,除非针对各种方言甚至各个人重新训练。
现在,这个问题可能可以用LLM来解决。实际上,和ChatGPT聊天的过程中,笔误几乎从来不会影响结果,这多少说明它有相当的纠错能力。
另外,Whisper似乎包含了一个比较小的LLM。用tiny来识别,“传布”就是“传布”;而用large,绝大部分变成了“全部”,这大概说明它已经在某种程度上把语音和意义联系起来了。

人听到的并不是意义,而是根据上下文和历史信息进行纠正。
AI 也可以这样做,上下文现在比较常见了,历史信息可以通过声纹辨别引入口音更正表


人脑的自动纠正也不是什么时候都好使
有个传话游戏:
将一张纸条给第一人,第一人将内容口头转述给第二人
第二人转述第三人…
一直转述到最后一人,最后一人将听到的写出来
然后对比原始纸条和听写纸条,其中的差异和视错觉一样让人惊讶

为了区分人和机器,所以上面我用了机器不能理解意义这个观点。
机器到底能不能“理解意义”,这就扯到哲学问题上面去了。

楼主,你开始实践了吗?看到你前面说,硬件条件已经满足。但是我想在安卓手机上实现按住某个按键,然后开始语音记录,做不到。我使用的是小米手机,无法通过实体快捷键直接开始记录。不知道你在这方面有什么实际操作的经验?

没有,仅仅停留在设想

传话游戏绝对不会找一群北京人来传“吃了吗您呐”,
而要找一群东北人传“出嚟行,预咗要还”,
至少也要找一句绕口的、复杂的话。
这正好证明了人听到的不是语音而是意义。

随便买个录音笔不就行了吗?

耳机要全天录音,还要支持实时文字转换(在线), 待机很难保障.

另外, 都打算人生全纪录了, 只有声音岂不是盲人的世界?

谷歌眼镜才是你的首选. :doge: :doge: :doge:

录音笔大概不能保证整天的续航,重点是太显眼。
语音识别可以在本地完成,而且也不需要实时。
视觉信息的识别成本还是太高了。

我覺得全天沒問題,大不了用可換電池的,放在褲袋裡還好吧。

你把手机放裤袋里录几分钟试试

不放褲袋可以放胸包啊,你用智能耳機續航還不如錄音筆呢,而且成天戴着也不舒服。