想找:把网页中需要的部分采集下来,不是导出数据库而是导出网页,有点类似网页采集+为知笔记的结合体

需求有点另类,想把网页中需要的部分采集下来,不是导出数据库而是导出网页,有点类似网页采集+为知笔记的结合体。需求如下:
1.可以下载网页中的图片;
2.可以直接处理采集后的数据而不是只能导出用第三方软件处理;
3.可以导出采集数据后的指定字段;
4.可以导出html格式(最好能支持导出mht或者pdf,不过可能没有这样的软件吧);
5.导出文件名可以根据指定字段命名;
6.导出的文件尽量保持网页原有格式。
是不是要求有点高?由于八爪鱼导出要积分或者花钱,为知没有批量保存的功能,所以主要测试了后羿,但是发现不满足2.3.5.6点,请问有没有其他软件推荐?希望能够免费或者价格能够接受,咨询了后羿客服,定制2价格1000起 :joy:

学编程吧

试试各大笔记的剪藏功能吧,找个最符合的即可。

高自定义要么是开发者自己的需求,要么就是大价格定制。

1 个赞

剪藏功能应该也只能一个个处理吧?
定制价格确实很贵

学完估计要保存的链接一大半失效了 :joy:

为知有批量的功能呀~

不用想购买软件了。 定制软件就不会是这个价格。

为知有批量保存, 采集的话,你下个开源的采集网站,建个本地的,数据库可以自己导出

其实编程也没有想象的那么难的

emacs 的 org-mode 应该能满足你的需求:
1、org-download 用于下载图片;
2、org-capture 可捕获网页中所有内容,eamcs 的文本操作极为高效;
3、4、5、6: 见下图

singlefile插件?

1 个赞

@deanme @xiaokonglong 为知的批量保存指的是博客下载器吗?顺带问这个怎么设置成简中界面?
开源采集网站还是算了,尽量减少折腾 :joy:

看了下它只能单个处理吧?
不过能将所有文件都保存到html里?mht是不是已经过时了?
同作者的SingleFileZ感觉更厉害啊

也不是难易问题,我是想以尽量方便的方式解决问题。

下载之后是什么格式的?文本和图片能组合在一起吗?

org 格式,就是类似txt的纯文本,为了方便编辑。
但是如上图所示支持导出各种格式,


这是我选中lz回复的话后用org-capture和org-download的效果,蓝色字体是该贴链接。如果要附带html的话也可以配合相关插件实现

你要批量? 那就用webscraper. 选html 导出的是csv源代码格式, 然后如果你会编程,就能提出来,我不懂编程,不动怎么把源码批量转成html.只能想看的时候,复制一个出来改扩展名.批量获取图片地址,然后导出地址,用aria2批量下载

感谢多次帮助,我开头提到为知笔记就是想能够尽量保持网页原来的格式,感觉通过emacs的组装不能达到目的。

感谢帮助,这款抓取我了解了下,发现导出数据库还行,但是如你这么说的操作就太麻烦了。

不妨试试 SingleFile 和 Print Edit WE(需要 PDF 虚拟打印机)

1 个赞

是的zsbd