探讨求助关于离线剪藏笔记的全文搜索问题

我自己玩服务器自建服务比较多(能web就都web了,全平台方便嘛)现在就网页剪藏方面比较头痛了。很早很早以前用印象笔记,后来用onenote,再后来自建为知笔记,都不好用。寻寻觅觅多年用上了自建wallabag,满意使用一年,一次意外数据库崩溃,备份的数据库居然全部恢复不了,一千多篇文章啊!!!废了!!!

目前一直将就用自建mrdoc,但是这玩意儿是主打wiki的,内容也是存数据库的,用起来不顺手。

今天发现一个很满意的剪藏方案——(用SingleFile拓展把目标网页存到一个html文件中,测试过微信公众号效果很好),然后在桌面上用 Archivarius 3000,支持全文搜索。

但是,有一个问题,我可以把想存的文章都存到服务器上(手机有kiwi browser支持扩展)但是要搜索的时候只能远程登陆到装有 Archivarius 3000 的win上。

我清楚明白了这个软件很流弊,能全文搜索,支持epub mobi 。正巧,我软路由7x24跑着一台win10,但是它不支持web服务,没办法把索引指定路径下的html结果显示在web上。如果能web查询的话这样的话就能全平台随时随地查询了!

花了一整个晚上我查到一个叫做regain的java软件,带服务器端,安装完后只能搜到标题,内容还都是乱码,查了很久都没有头绪。

各位朋友有没有什么建议?

用 syncthing 之类的软件同步保存的 html 文本部分到本机?应该不会占用太大空间。

问题不是保存呀朋友,自动保存或者默认存到webdav路径,方法太多了。
问题是随时随地随设备全文索引呀!

各设备都同步?Syncthing 是同步软件不是保存软件。

建议学一下用简悦

crawler 启动参数加一下 -Dfile.encoding=utf-8 试试

PC上我觉得可以用Anytxt解决?webdav可以远程挂载,listary这类可以索引挂载的远程磁盘吧,用listary+Anytxt应该可以解决你的问题?

我觉得啊,要么你用回 onenote 类工具,要么做好备份继续用 wallabag…

数据库废了不是 wallabag 的锅啊,明明是你的锅 :joy:

蛙蛙,不是酱的。wallabag全网浏览量最高的入门级详细教程是我两年前发在张大妈的,凑合用这三年,满足基本需求,但是小毛病不断。去作者那里提需求,日常性被无视。最最主要的问题:数据导出,只有导出为Json才能勉强不出问题,当我文章超过1500之后,json导出也日常错误,我就知道要废了。pdf、epub日常错误。

数据库我是两天一次增量备份,但后来出问题后,我从第100篇那时候的备份拿来恢复都不行。

现在是手机app端离线存了1500篇剪藏,我在想办法一点一点弄出来。

我刚刚默默去看了眼 Note Station,要不…先来一套黑的试试?

Note Station

记下重要的以及琐碎的信息,集中存放,随时随地可以访问。通过 Note Station,您的宝贵思想能够同步到您的所有设备,确保较大的隐私性和安全性。此刻有没有什么想法或感受?只需打开套件,然后创建、编辑和享用!

你看人家也有 Web Clipper

note station 都已经不在吐槽列表中啦,哈哈。
文章多了管理非常的不方便
搜索太太太垃圾了

群晖有一个毛病非常严重,接入自家DSM登陆认证的套件就非常卡卡卡,慢慢慢。而相同配置网络环境中,比如说用docker搭建的服务,就算开启两步验证,那连接和认证速度,那是嘎嘎的

1 Like

那…你基本上把市面上能用的都用过了…

只能自己写一个了。

我要有这能耐就去自荐区了,哈哈哈

现在保存为离线html这个方案非常可行,数据安全性很高,条例也可以很清晰。搜索呢,现在是archivarius 3000勉强能满足全平台需求了。

等待textseek的作者哥们能出个好用的服务端,我就满足了!

1 Like

这个你试过没?GitHub - ArchiveBox/ArchiveBox: 🗃 Open source self-hosted web archiving. Takes URLs/browser his
这个项目的 wiki 还列了一个超详细的列表,总结了市面上几乎所有的类似工具 Web Archiving Community · ArchiveBox/ArchiveBox Wiki · GitHub

还帮你搜了“通过 web 界面搜索服务器上的文件”的工具
这个应该可以:GitHub - koniu/recoll-webui: web interface for recoll desktop search
要配合 https://www.lesbonscomptes.com/recoll/ 使用

GitHub - yacy/yacy_search_server: Distributed Peer-to-Peer Web Search Engine and Intranet Search A 这个应该也行
https://search.freemdict.com/ 就是用的这个

archivebox我搭建过,确实很好用,甚至还支持存储cookie和在爬取过程中使用adblock去广告规则,可以爬取多种格式在服务端查看,同时也支持全文搜索,体验还行,但是有个最大的问题就是存档的附件体积太大了,有其是存档的pdf,同一个网页的pdf要比用其他软件导出的大很多倍,有时候能接近十倍。所以用这个一定得考虑存储问题,兼顾全文搜索同时还要作为存档库

嗯,好的
存成哪些格式可以选,pdf 太大可以选择不存 pdf

可以存html,再用转换工具转pdf,这样就可以用于标注