toyqiu
(司徒嘉胤)
1
我自己玩服务器自建服务比较多(能web就都web了,全平台方便嘛)现在就网页剪藏方面比较头痛了。很早很早以前用印象笔记,后来用onenote,再后来自建为知笔记,都不好用。寻寻觅觅多年用上了自建wallabag,满意使用一年,一次意外数据库崩溃,备份的数据库居然全部恢复不了,一千多篇文章啊!!!废了!!!
目前一直将就用自建mrdoc,但是这玩意儿是主打wiki的,内容也是存数据库的,用起来不顺手。
今天发现一个很满意的剪藏方案——(用SingleFile拓展把目标网页存到一个html文件中,测试过微信公众号效果很好),然后在桌面上用 Archivarius 3000,支持全文搜索。
但是,有一个问题,我可以把想存的文章都存到服务器上(手机有kiwi browser支持扩展)但是要搜索的时候只能远程登陆到装有 Archivarius 3000 的win上。
我清楚明白了这个软件很流弊,能全文搜索,支持epub mobi 。正巧,我软路由7x24跑着一台win10,但是它不支持web服务,没办法把索引指定路径下的html结果显示在web上。如果能web查询的话这样的话就能全平台随时随地查询了!
花了一整个晚上我查到一个叫做regain的java软件,带服务器端,安装完后只能搜到标题,内容还都是乱码,查了很久都没有头绪。
各位朋友有没有什么建议?
2 个赞
pessoa
(pessoa)
2
用 syncthing 之类的软件同步保存的 html 文本部分到本机?应该不会占用太大空间。
toyqiu
(司徒嘉胤)
3
问题不是保存呀朋友,自动保存或者默认存到webdav路径,方法太多了。
问题是随时随地随设备全文索引呀!
pessoa
(pessoa)
4
各设备都同步?Syncthing 是同步软件不是保存软件。
crawler 启动参数加一下 -Dfile.encoding=utf-8
试试
syun
7
PC上我觉得可以用Anytxt解决?webdav可以远程挂载,listary这类可以索引挂载的远程磁盘吧,用listary+Anytxt应该可以解决你的问题?
Qingwa
(青小蛙)
8
我觉得啊,要么你用回 onenote 类工具,要么做好备份继续用 wallabag…
数据库废了不是 wallabag 的锅啊,明明是你的锅
toyqiu
(司徒嘉胤)
9
蛙蛙,不是酱的。wallabag全网浏览量最高的入门级详细教程是我两年前发在张大妈的,凑合用这三年,满足基本需求,但是小毛病不断。去作者那里提需求,日常性被无视。最最主要的问题:数据导出,只有导出为Json才能勉强不出问题,当我文章超过1500之后,json导出也日常错误,我就知道要废了。pdf、epub日常错误。
数据库我是两天一次增量备份,但后来出问题后,我从第100篇那时候的备份拿来恢复都不行。
现在是手机app端离线存了1500篇剪藏,我在想办法一点一点弄出来。
Qingwa
(青小蛙)
10
我刚刚默默去看了眼 Note Station,要不…先来一套黑的试试?
记下重要的以及琐碎的信息,集中存放,随时随地可以访问。通过 Note Station,您的宝贵思想能够同步到您的所有设备,确保较大的隐私性和安全性。此刻有没有什么想法或感受?只需打开套件,然后创建、编辑和享用!
你看人家也有 Web Clipper
toyqiu
(司徒嘉胤)
11
note station 都已经不在吐槽列表中啦,哈哈。
文章多了管理非常的不方便
搜索太太太垃圾了
群晖有一个毛病非常严重,接入自家DSM登陆认证的套件就非常卡卡卡,慢慢慢。而相同配置网络环境中,比如说用docker搭建的服务,就算开启两步验证,那连接和认证速度,那是嘎嘎的
1 个赞
toyqiu
(司徒嘉胤)
13
我要有这能耐就去自荐区了,哈哈哈
现在保存为离线html这个方案非常可行,数据安全性很高,条例也可以很清晰。搜索呢,现在是archivarius 3000勉强能满足全平台需求了。
等待textseek的作者哥们能出个好用的服务端,我就满足了!
1 个赞
Betty
(羚羊挂角)
14
Betty
(羚羊挂角)
15
lockheart
(lockheart)
16
archivebox我搭建过,确实很好用,甚至还支持存储cookie和在爬取过程中使用adblock去广告规则,可以爬取多种格式在服务端查看,同时也支持全文搜索,体验还行,但是有个最大的问题就是存档的附件体积太大了,有其是存档的pdf,同一个网页的pdf要比用其他软件导出的大很多倍,有时候能接近十倍。所以用这个一定得考虑存储问题,兼顾全文搜索同时还要作为存档库
Betty
(羚羊挂角)
17
嗯,好的
存成哪些格式可以选,pdf 太大可以选择不存 pdf
lockheart
(lockheart)
18
可以存html,再用转换工具转pdf,这样就可以用于标注
tgddy
(adrift)
19
1 个赞