一个全纪录系统的设想

Baiyssy · 2023 年11 月 24 日 07:48

看到语音识别的准确度飙升、成本骤降，我突然发现一个接近记录整个生活的系统已经接近于可以实现了。

方案概述：
这个方案旨在利用智能耳机记录全天的语音，将录音转录成可检索的文本，以方便用户回顾和搜索日常对话。方案突出的特点包括全天录音、长期运行和可检索的功能。使用低位率录音、单侧佩戴耳机和选择夹耳式耳机以确保持续录音和舒适佩戴。

方案作用和特点：

全天录音：可持续记录全天的对话内容，捕捉日常生活中的交流。
长期运行：持久记录语音，跳过噪音和音乐等，提供长期存档和回顾的功能。
可检索文本：将录音转录成文本，利用AI技术生成可检索的对话记录，方便用户回顾和搜索内容。
舒适佩戴：选择夹耳式耳机，以确保长时间佩戴的舒适性。

尚须解决的问题：

法律法规限制：需要遵守当地法律法规，确保录音行为合法。
数据安全和保护：需要妥善管理和保护数据安全，以防止未经授权的访问和泄露。
技术可靠性和误差： AI语音转录可能存在误差，需要进一步优化和校对。
电量和智能判断录音需求：需要考虑节省电量并提高效率的方法，例如智能判断何时开始录音。

基于目前已有的硬件，耳机+手机的方式已经完全可以实现。只佩戴一侧耳机，没电了就充电换另一只，可以保证录音的持续。
只记录语音，16kbps足够，1TB硬盘足以存储二三十年的录音。甚至可以删掉录音，只保留转录的文本。

我还想到另一个更简单记录，记录在（电脑、手机）屏幕上看到的所有文字——现在也非常接近你每天看到的所有文字了，再也不会忘记某某内容是在哪里看到的了。

存储和处理所有视觉信息仍然太不现实，但语音和文字已经包括了相当大部分的信息了。
这些信息能很大程度上解决经验自我和记忆自我的矛盾。

上述想法还很混乱，借助GPT做了一些整理。

补充一下：我在日常使用的三台电脑上装了manictime，记录电脑的使用时间，已经持续运行了十几年。
Google maps的timeline也曾经持续运行过十几年，记录我所有的位置轨迹，这几年实在是用不了了。
所有平台浏览器只用Chrome，因为它记录了我所有的浏览历史。
还有用手环记录心率、睡眠这些，应该也有十来年了吧，不过数据在服务器上，没法自己分析。

CyrusYip · 2023 年11 月 24 日 08:25

可以参考声冻计划。

DavidJoy · 2023 年11 月 24 日 08:26

好想法，感觉目前的技术已经可以实现这个想法了，可以去尝试开发。

ps: 我小时候因为遗忘了一些事情，感觉很遗憾，意淫过未来可以通过某种方式回溯检索到过去发生的一切，基于的思想是电磁波的传播速度（当下看到的月亮是之前的月亮）（小孩子学了点知识就开始瞎想），但是马上担心自己做的一切都会被人看到。

以下是之前看过的一些相关的信息，供大家头脑风暴。先大胆地展望吧。

关于屏幕内容记录

有没有软件可以记录我看过的一切？ - 问题求助 - 小众软件官方论坛

我做了一款免费开源、让你「过目不忘」的小工具：捕风记录仪 - Windrecorder - 少数派

关于空间记录

一生足迹 - 省电、后台、自动，记录位置轨迹[iPhone] - 大家的板块 / 青蛙的应用 - 小众软件官方论坛

相机，照片管理，已经有自然语言检索了，还有通过地图透视的方案

以及，期待未来 AR、VR、智能眼镜的潜能。

关于时间事件记录

这个已经有了很多 APP，但是时间记录这个命题争议比较大，实用性和可行性有很大问题。大部分都是手动的。

可能搭配智能识别和语音输入会变得更易用一些

关于赛博社交记录

【开发者自荐】Shmily-聊天记录归档支持 QQ、Wechat、SMS、Email等 - 发现频道 - 小众软件官方论坛

Baiyssy · 2023 年11 月 24 日 09:06

我大体看了一遍这个计划，好像目的和我想的不太一样，它大概是想保留历史给后人，所以重在真实完整地保存（比如强调要保留噪音），不太在乎整理和查找。
现在有了无线耳机，硬件上显然比录音笔要好得多，要记录语音也完全足够了。

Baiyssy · 2023 年11 月 24 日 09:06

哈哈，我知道类似想法很早就有了，只是落地还有各种困难，尤其是一个如此长期的计划。

runze · 2023 年11 月 25 日 01:43

rewind.ai ?

Baiyssy · 2023 年11 月 25 日 04:15

这么多东西，还是放在本地比较放心吧

runze · 2023 年11 月 25 日 04:20

当然是保存在本地，这种数据量想要保存在云端成本太高了

腰间盘不好的老吴头 · 2023 年11 月 25 日 05:24

语音识别技术说是技术爆料，但实际使用还是问题很大，就连简单的语音单句转文字都无法保证准确识别。比如类似锤子手机那个闪念胶囊的小程序，现在讯飞、搜狗都有类似的APP，但实际使用的起来效果很差，有时候必须听原语音才能明白。更何况整天的语音记录。除非语音识别对口音、方言、尤其是方言中的一些语词能非常明白才有实际使用的价值。
作者有那个精力还不如开发个免费的、无广告的闪念胶囊，以积累经验，以待真正的语音识别技术产生，顺便让我白嫖用用。

Baiyssy · 2023 年11 月 26 日 14:25

我的感觉，语音识别本身已经非常强大，甚至可能已经超过人类了，但是很明显实际效果还是不如人类，这很可能不是语音识别的问题，而是人的问题。
比如秦晖教授的口音总把“全部”念成“传布”，人基本能把这个错误纠正过来，语音识别就比较难，因为他念的明明就是传布。
人能纠错，是因为人听到的不是文字而是意义，而传统的语音识别只训练了语音和文字的对应，根本不知道意义。
这个问题以前几乎是无解的，除非针对各种方言甚至各个人重新训练。
现在，这个问题可能可以用LLM来解决。实际上，和ChatGPT聊天的过程中，笔误几乎从来不会影响结果，这多少说明它有相当的纠错能力。
另外，Whisper似乎包含了一个比较小的LLM。用tiny来识别，“传布”就是“传布”；而用large，绝大部分变成了“全部”，这大概说明它已经在某种程度上把语音和意义联系起来了。

allor · 2023 年11 月 27 日 08:12

人听到的并不是意义，而是根据上下文和历史信息进行纠正。
AI 也可以这样做，上下文现在比较常见了，历史信息可以通过声纹辨别引入口音更正表

人脑的自动纠正也不是什么时候都好使
有个传话游戏：
将一张纸条给第一人，第一人将内容口头转述给第二人
第二人转述第三人…
一直转述到最后一人，最后一人将听到的写出来
然后对比原始纸条和听写纸条，其中的差异和视错觉一样让人惊讶

Baiyssy · 2023 年11 月 27 日 08:28

为了区分人和机器，所以上面我用了机器不能理解意义这个观点。
机器到底能不能“理解意义”，这就扯到哲学问题上面去了。

kat · 2023 年11 月 28 日 10:46

楼主，你开始实践了吗？看到你前面说，硬件条件已经满足。但是我想在安卓手机上实现按住某个按键，然后开始语音记录，做不到。我使用的是小米手机，无法通过实体快捷键直接开始记录。不知道你在这方面有什么实际操作的经验？

Baiyssy · 2023 年11 月 28 日 13:19

没有，仅仅停留在设想

Baiyssy · 2023 年11 月 28 日 13:34

传话游戏绝对不会找一群北京人来传“吃了吗您呐”，
而要找一群东北人传“出嚟行，预咗要还”，
至少也要找一句绕口的、复杂的话。
这正好证明了人听到的不是语音而是意义。

xiao-qiang · 2023 年11 月 29 日 00:54

随便买个录音笔不就行了吗?

耳机要全天录音,还要支持实时文字转换(在线), 待机很难保障.

另外, 都打算人生全纪录了, 只有声音岂不是盲人的世界?

谷歌眼镜才是你的首选.

Baiyssy · 2023 年11 月 29 日 05:07

录音笔大概不能保证整天的续航，重点是太显眼。
语音识别可以在本地完成，而且也不需要实时。
视觉信息的识别成本还是太高了。

Kyun · 2023 年11 月 29 日 05:50

我覺得全天沒問題，大不了用可換電池的，放在褲袋裡還好吧。

Baiyssy · 2023 年11 月 29 日 06:02

你把手机放裤袋里录几分钟试试

Kyun · 2023 年11 月 29 日 06:33

不放褲袋可以放胸包啊，你用智能耳機續航還不如錄音筆呢，而且成天戴着也不舒服。

话题		回复	浏览量
会译 - 免费好用的"双语对照"网页翻译工具青蛙的应用	7	1271	2023 年12 月 5 日
【自荐】狸猫语音转文字-录音转文字实时语音会议记录软件发现频道 🔎	0	1074	2023 年2 月 23 日
安卓里能够-故意主动-对音频进行-滞后播放-的app 问题求助❓	8	775	2023 年8 月 11 日
倒个带。想搜索浏览过的网页中的文本或图片，用什么软件好。问题求助❓	12	4772	2024 年7 月 23 日
早道五十音图 - 安利一个十分好用的日语入门软件发现频道 🔎	1	2448	2019 年7 月 23 日

一个全纪录系统的设想

关于屏幕内容记录

关于空间记录

关于时间事件记录

关于赛博社交记录

相关话题