想找：把网页中需要的部分采集下来，不是导出数据库而是导出网页，有点类似网页采集+为知笔记的结合体

Aquamarine · 2021 年6 月 13 日 13:45

需求有点另类，想把网页中需要的部分采集下来，不是导出数据库而是导出网页，有点类似网页采集+为知笔记的结合体。需求如下：
1.可以下载网页中的图片；
2.可以直接处理采集后的数据而不是只能导出用第三方软件处理；
3.可以导出采集数据后的指定字段；
4.可以导出html格式（最好能支持导出mht或者pdf，不过可能没有这样的软件吧）；
5.导出文件名可以根据指定字段命名；
6.导出的文件尽量保持网页原有格式。
是不是要求有点高？由于八爪鱼导出要积分或者花钱，为知没有批量保存的功能，所以主要测试了后羿，但是发现不满足2.3.5.6点，请问有没有其他软件推荐？希望能够免费或者价格能够接受，咨询了后羿客服，定制2价格1000起

dms · 2021 年6 月 14 日 23:26

学编程吧

Qingwa · 2021 年6 月 15 日 00:57

试试各大笔记的剪藏功能吧，找个最符合的即可。

高自定义要么是开发者自己的需求，要么就是大价格定制。

Aquamarine · 2021 年6 月 15 日 01:02

剪藏功能应该也只能一个个处理吧？
定制价格确实很贵

Aquamarine · 2021 年6 月 15 日 01:03

学完估计要保存的链接一大半失效了

deanme · 2021 年6 月 15 日 01:14

为知有批量的功能呀~

xiaokonglong · 2021 年6 月 15 日 01:25

不用想购买软件了。定制软件就不会是这个价格。

为知有批量保存，采集的话，你下个开源的采集网站，建个本地的，数据库可以自己导出

dms · 2021 年6 月 15 日 02:51

其实编程也没有想象的那么难的

Elilif · 2021 年6 月 15 日 04:39

emacs 的 org-mode 应该能满足你的需求：
1、org-download 用于下载图片；
2、org-capture 可捕获网页中所有内容，eamcs 的文本操作极为高效；
3、4、5、6: 见下图

live9999 · 2021 年6 月 15 日 09:50

singlefile插件?

Aquamarine · 2021 年6 月 15 日 13:56

@deanme @xiaokonglong 为知的批量保存指的是博客下载器吗？顺带问这个怎么设置成简中界面？
开源采集网站还是算了，尽量减少折腾

Aquamarine · 2021 年6 月 15 日 13:58

看了下它只能单个处理吧？
不过能将所有文件都保存到html里？mht是不是已经过时了？
同作者的SingleFileZ感觉更厉害啊

Aquamarine · 2021 年6 月 15 日 14:03

也不是难易问题，我是想以尽量方便的方式解决问题。

Aquamarine · 2021 年6 月 15 日 14:05

下载之后是什么格式的？文本和图片能组合在一起吗？

Elilif · 2021 年6 月 15 日 14:56

org 格式，就是类似txt的纯文本，为了方便编辑。
但是如上图所示支持导出各种格式，

这是我选中lz回复的话后用org-capture和org-download的效果，蓝色字体是该贴链接。如果要附带html的话也可以配合相关插件实现

live9999 · 2021 年6 月 16 日 01:33

你要批量? 那就用webscraper. 选html 导出的是csv源代码格式, 然后如果你会编程,就能提出来,我不懂编程,不动怎么把源码批量转成html.只能想看的时候,复制一个出来改扩展名.批量获取图片地址,然后导出地址,用aria2批量下载

Aquamarine · 2021 年6 月 16 日 03:55

感谢多次帮助，我开头提到为知笔记就是想能够尽量保持网页原来的格式，感觉通过emacs的组装不能达到目的。

Aquamarine · 2021 年6 月 16 日 03:56

感谢帮助，这款抓取我了解了下，发现导出数据库还行，但是如你这么说的操作就太麻烦了。

Dalieba · 2021 年6 月 16 日 04:23

不妨试试 SingleFile 和 Print Edit WE（需要 PDF 虚拟打印机）

deanme · 2021 年6 月 16 日 07:44

是的zsbd

话题		回复	浏览量
下载并离线管理网页的软件有哪些? 问题求助	15	4005	2022 年2 月 28 日
求助各位,有没有好一点的网页剪报软件? 问题求助	19	6602	2020 年12 月 8 日
【讨论】求推荐一款网摘笔记的方案问题求助	57	15416	2021 年8 月 13 日
批量保存网页内容并集合生成一个本地离线的电子书或者文档的方案（类似chm）问题求助 windows	9	2005	2022 年7 月 3 日
「已解决」如何将网页正文部分板式、文字、图片，尽量保持原貌保存到本地编辑及归档并沿用web浏览方式？除另存HTML外问题求助 windows	13	657	2024 年12 月 29 日

想找：把网页中需要的部分采集下来，不是导出数据库而是导出网页，有点类似网页采集+为知笔记的结合体

相关话题