「已解决」如何将网页正文部分板式、文字、图片,尽量保持原貌保存到本地编辑及归档并沿用web浏览方式?除另存HTML外

要求:

1、能抓取所有浏览器能打开的页面所需部分,尽量保持主内容区版式不变,图片不损的本地化。本地化后有再排版编辑的能力。

2、本地化内容在预览时必须沿用web页面瀑布流式。文件能再次导入编辑软件中再编辑。

3、如果可能,尽量单文件,方便文件夹层级式的知识库归档。

经常会看到一些资料,比如
McFeely’s Wood Screw - Pilot Hole Drilling Size Chart

A guide to wood screw sizes - Screw size chart

现用Edge beta版,已经放弃保存为本地HTML了,会载入大量无用内容,自HTML 4.0 后,div+css的布局我已经不会用了。无法尽可能保持原板式的情况下做编辑。

换来换去,现在用 siyuan + Web Clipper 插件完成抓取(siyuan 自带的插件因为安装路径转移的问题,导致无法使用,且不弹出任何提示,软件方也不修复)。可编辑的问题解决了,但我不想依靠这类结构愚蠢的方式做文件归档。

导出PDF,网页被强制切割成A4真恶心。导出word,编辑+归档+单文件OK,查看起来和PDF一样恶心。

快2025年了,我还是没有找到一个好的解决方案。

非常感谢 要求:

1、能抓取所有浏览器能打开的页面所需部分,尽量保持主内容区版式不变,图片不损的本地化。本地化后有再排版编辑的能力。

2、本地化内容在预览时必须沿用web页面瀑布流式。文件能再次导入编辑软件中再编辑。

3、如果可能,尽量单文件,方便文件夹层级式的知识库归档。

经常会看到一些资料,比如
McFeely’s Wood Screw - Pilot Hole Drilling Size Chart

A guide to wood screw sizes - Screw size chart

现用Edge beta版,已经放弃保存为本地HTML了,会载入大量无用内容,自HTML 4.0 后,div+css的布局我已经不会用了。无法尽可能保持原板式的情况下做编辑。

换来换去,现在用 siyuan + Web Clipper 插件完成抓取(siyuan 自带的插件因为安装路径转移的问题,导致无法使用,且不弹出任何提示,软件方也不修复)。可编辑的问题解决了,但我不想依靠这类结构愚蠢的方式做文件归档。

导出PDF,网页被强制切割成A4真恶心。导出word,编辑+归档+单文件OK,查看起来和PDF一样恶心。

快2025年了,我还是没有找到一个好的解决方案。

非常感谢 Fendus 和 kat 这两位朋友。

仔细权衡研究了下,Zotero网页快照,这种保存资料的方式确实处于我的认知盲区,而且对网页的来源等有很好的溯源,支持中文,还有其它插件可加载。所以选择了他的答案。

其实二位提出的 Chrome扩展 Just-One-Page-PDF 还有 SingleFile ,其实也算是版本答案。基本平替掉了我现在使用的 siyuan 这个当时不用不行,用着流泪的软件。可选择性的快照页面并保存为单独的HTML文件,确实非常有利于资料的文件夹式归档。

唯独美中不足的是,table为框架的老HTML我还能编辑下,div+css的4.0及以上版本HTML,我看看就好,不想碰。我记忆中除了dreamweaver好像也没有什么像样的网页编辑软件了。但dw在进入cc前的体量就骇人,如今我至少也八年没用了。但日常归档也基本够用不需要细节编辑了。

非常感谢各位的支招!扩展了我解决问题的思路,介绍了很多好软件!

我直接用 Zotero 保存带快照的条目信息,之前试用过的 myBase 也可以这样保存。

1 个赞

Word 有 Web 版式视图,就是类似网页的瀑布流式,不会分页且内容会自动适应 窗口大小

这我当然知道。问题是,我会打开所有隐藏符号的显示,比如空格,软回车还是硬回车,分行符等,加上复制过来的代码中各种0o等填充符。那是根本没有可看性的。office要钱,且过于臃肿,我用的是WPS或者WPS云办公。

那不就是 SingleFile :eyes:

感谢,折腾了一个小时的 Zotero 这软件用于抓取并组织网页内容没话说,居然还有简中界面,非常可惜的是好像不支持编辑,妥妥就是个原封原的本地快招并具备同步能力。siyuan这货虽然可以抓取,但板式完全就乱套了。且用起来真的是难受,发自内心的难受。

本来是想学下markdown,但我确实无法理解的是,为什么就没有一个对HTML支持优秀,并具有工具栏,类似于WPS文字这样功能的软件。

1 个赞

想编辑 HTML 但又要保持原样?:thinking:

  • 假如你能直接改原网页,咋区分哪些是原文,哪些是你改的?你要「原样」保存网页不是为了最大化保持信息来源的原始状态吗?
  • 要是打算用不同样式来标记…你需要的不应该是网页标注工具吗!:sweat_smile:

快照是最符合网页原始样式的。但会不会把你不需要的内容抓进去?
这时候把不需要的部分去除,保留需要的。需不需要编辑?
如果网页中部分元素,比如图片,不谈什么格式的,需要单独导出另用。为了保证品质,那可不是截图能完成的事,就算截图,是不是又多了一道修边的程序?

如果「编辑」的目的是为了去除「网页上不必要的内容」,那么 Just-One-Page-PDF 可以满足要求,它有好几种方式让你绝对不会保存多余的内容

如果你需要的是将网页以原貌方式保存为单个html文件,SingleFile是最合适的,Zotero抓取网页快照也是用它实现的。但是编辑不方便只能改源代码,加上你已经排除了html格式,我就没提。

Word富文本粘贴网页内容大部分样式都可以保留,少部分手动调整,我认为可以接受。加上我的Office是品牌机赠送的,而且用起来比WPS还流畅就一直用着了。

还可以考虑支持所见即所得的html文件编辑器,或者把网页转换成epub文件用Sigil编辑,就像制作电子书一样。

1 个赞

SingleFile可以保存指定区域的内容,也可先用uBlock Origin临时移除元素再用SingleFile保存。

存档html的图片分辨率与你在网页上浏览时是相同的,一些网站需要点击才展示全分辨率图片,这种情况就需要保存原图之类的扩展了。

靠谱!奶式“干净又好看”网页保存方法! - 奔跑中的奶酪

直接用Opera浏览器

opera pdf方法保存 文章中提到1:1
难道pdf里面没有分页符吗

PDF 分页跟 Office 文档都不一样。PDF 一个页面就是一个容器,Office 文档有专门标记安排分页方式,可以全局设置,也可以手动分页。

1 个赞