探讨求助关于离线剪藏笔记的全文搜索问题

toyqiu · 2021 年6 月 1 日 07:41

我自己玩服务器自建服务比较多（能web就都web了，全平台方便嘛）现在就网页剪藏方面比较头痛了。很早很早以前用印象笔记，后来用onenote，再后来自建为知笔记，都不好用。寻寻觅觅多年用上了自建wallabag，满意使用一年，一次意外数据库崩溃，备份的数据库居然全部恢复不了，一千多篇文章啊！！！废了！！！

目前一直将就用自建mrdoc，但是这玩意儿是主打wiki的，内容也是存数据库的，用起来不顺手。

今天发现一个很满意的剪藏方案——（用SingleFile拓展把目标网页存到一个html文件中，测试过微信公众号效果很好），然后在桌面上用 Archivarius 3000，支持全文搜索。

但是，有一个问题，我可以把想存的文章都存到服务器上（手机有kiwi browser支持扩展）但是要搜索的时候只能远程登陆到装有 Archivarius 3000 的win上。

我清楚明白了这个软件很流弊，能全文搜索，支持epub mobi 。正巧，我软路由7x24跑着一台win10，但是它不支持web服务，没办法把索引指定路径下的html结果显示在web上。如果能web查询的话这样的话就能全平台随时随地查询了！

花了一整个晚上我查到一个叫做regain的java软件，带服务器端，安装完后只能搜到标题，内容还都是乱码，查了很久都没有头绪。

各位朋友有没有什么建议？

pessoa · 2021 年6 月 1 日 10:04

用 syncthing 之类的软件同步保存的 html 文本部分到本机？应该不会占用太大空间。

toyqiu · 2021 年6 月 1 日 10:16

问题不是保存呀朋友，自动保存或者默认存到webdav路径，方法太多了。
问题是随时随地随设备全文索引呀！

pessoa · 2021 年6 月 1 日 10:27

各设备都同步？Syncthing 是同步软件不是保存软件。

lockheart · 2021 年6 月 2 日 14:45

建议学一下用简悦

jerrylus · 2021 年6 月 2 日 19:23

crawler 启动参数加一下 -Dfile.encoding=utf-8 试试

syun · 2021 年6 月 3 日 00:55

PC上我觉得可以用Anytxt解决？webdav可以远程挂载，listary这类可以索引挂载的远程磁盘吧，用listary+Anytxt应该可以解决你的问题？

Qingwa · 2021 年6 月 3 日 07:24

我觉得啊，要么你用回 onenote 类工具，要么做好备份继续用 wallabag…

数据库废了不是 wallabag 的锅啊，明明是你的锅

toyqiu · 2021 年6 月 3 日 07:29

蛙蛙，不是酱的。wallabag全网浏览量最高的入门级详细教程是我两年前发在张大妈的，凑合用这三年，满足基本需求，但是小毛病不断。去作者那里提需求，日常性被无视。最最主要的问题：数据导出，只有导出为Json才能勉强不出问题，当我文章超过1500之后，json导出也日常错误，我就知道要废了。pdf、epub日常错误。

数据库我是两天一次增量备份，但后来出问题后，我从第100篇那时候的备份拿来恢复都不行。

现在是手机app端离线存了1500篇剪藏，我在想办法一点一点弄出来。

Qingwa · 2021 年6 月 3 日 07:33

我刚刚默默去看了眼 Note Station，要不…先来一套黑的试试？

Note Station

记下重要的以及琐碎的信息，集中存放，随时随地可以访问。通过 Note Station，您的宝贵思想能够同步到您的所有设备，确保较大的隐私性和安全性。此刻有没有什么想法或感受？只需打开套件，然后创建、编辑和享用！

你看人家也有 Web Clipper

toyqiu · 2021 年6 月 3 日 07:38

note station 都已经不在吐槽列表中啦，哈哈。
文章多了管理非常的不方便
搜索太太太垃圾了

群晖有一个毛病非常严重，接入自家DSM登陆认证的套件就非常卡卡卡，慢慢慢。而相同配置网络环境中，比如说用docker搭建的服务，就算开启两步验证，那连接和认证速度，那是嘎嘎的

Qingwa · 2021 年6 月 3 日 07:38

那…你基本上把市面上能用的都用过了…

只能自己写一个了。

toyqiu · 2021 年6 月 3 日 08:09

我要有这能耐就去自荐区了，哈哈哈

现在保存为离线html这个方案非常可行，数据安全性很高，条例也可以很清晰。搜索呢，现在是archivarius 3000勉强能满足全平台需求了。

等待textseek的作者哥们能出个好用的服务端，我就满足了！

Betty · 2021 年8 月 25 日 13:30

这个你试过没？GitHub - ArchiveBox/ArchiveBox: 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more...
这个项目的 wiki 还列了一个超详细的列表，总结了市面上几乎所有的类似工具 Web Archiving Community · ArchiveBox/ArchiveBox Wiki · GitHub

Betty · 2021 年8 月 25 日 13:45

还帮你搜了“通过 web 界面搜索服务器上的文件”的工具
这个应该可以：GitHub - koniu/recoll-webui: web interface for recoll desktop search
要配合 https://www.lesbonscomptes.com/recoll/ 使用

GitHub - yacy/yacy_search_server: Distributed Peer-to-Peer Web Search Engine and Intranet Search Appliance 这个应该也行
https://search.freemdict.com/ 就是用的这个

lockheart · 2021 年8 月 27 日 01:30

archivebox我搭建过，确实很好用，甚至还支持存储cookie和在爬取过程中使用adblock去广告规则，可以爬取多种格式在服务端查看，同时也支持全文搜索，体验还行，但是有个最大的问题就是存档的附件体积太大了，有其是存档的pdf，同一个网页的pdf要比用其他软件导出的大很多倍，有时候能接近十倍。所以用这个一定得考虑存储问题，兼顾全文搜索同时还要作为存档库

Betty · 2021 年8 月 27 日 02:58

嗯，好的
存成哪些格式可以选，pdf 太大可以选择不存 pdf

lockheart · 2021 年8 月 30 日 11:22

可以存html，再用转换工具转pdf，这样就可以用于标注

tgddy · 2022 年6 月 14 日 06:43

我有个想法你可以试试
recoll + recoll web gui
https://www.lesbonscomptes.com/recoll/
https://framagit.org/medoc92/recollwebui/

lkainan · 2022 年7 月 5 日 01:42

好东西，可以作为备用了。

话题		回复	浏览量
找一个，无泄露隐私风险的，无需注册加微信的，真永久免费的，带内容索引数据库的，支持中文的，桌面搜索软件问题求助 windows	8	2905	2023 年11 月 23 日
Windows平台下有没有类似everything的http服务，但是可以搜索文件内容的工具问题求助 windows	7	542	2025 年8 月 22 日
想找：把网页中需要的部分采集下来，不是导出数据库而是导出网页，有点类似网页采集+为知笔记的结合体问题求助 windows	35	6259	2021 年7 月 14 日
能在搜索引擎旁边展示相关结果的Web Clipper合集网络黄页浏览器插件	9	1175	2024 年3 月 10 日
寻：可部署在服务器的文档全文索引和搜索软件问题求助 linux	10	2104	2023 年8 月 15 日

探讨求助关于离线剪藏笔记的全文搜索问题

Note Station

相关话题