下载的html文件,图片都是外链的,移动下路径统统失效,请问下有没有批量将外链图片嵌入html文件的工具?
虽然chrome有类似SingleFile之类的工具,但是只能一个个处理在线浏览的网页,我需要处理下载到本地硬盘的许多html(图片也已下载)文件。
不考虑保存成mht格式,感觉就微软一家支持比较好,chrome之前支持保存后来又取消了,而firefox只能靠扩展保存,虽然都能读,总觉得这种格式不主流不够可靠,而且后期全文索引起来可能会有问题。
本打算用wkhtmltopdf,但是发现pdf格式还是不及原生html格式好。
Html其实就是格式化的文本格式,你想把二进制图片插入文本格式,是个什么情况?理论上就不可能。
想要让文字和图片都在一个文档中,肯定是需要特殊格式的,类似mht或者rtf之类的。
总之,html做不到你的要求。
SingleFile 的原理是把这些图片都转码成 base64 再插入到 img 标签里面。
Chrome没取消啊.
存为pdf 也挺好的.
以前我还会存成chm, 这个可以批量生成, 但是现在系统对chm的支持非常不好.
这么说来PDF是唯一的选择了
感谢帮助分享,看了下这个和SingleFile是同类,基于在线网页,也不能批量处理。
其实这种方式也能接受,毕竟我索引的是文字,最多有些冗余文本,而base64一般浏览器也能解析。
你的Chrome是哪个版本的?我这边看了下,默认没有,而chrome://flags在70版还有,但77版就取消了,大致能看出个趋势。还是说最新版又加回来了?
PDF是挺好的,就是分页容易产生空白,排版上不美观。
chm是电子书格式吧,支持也不够,还不如考虑epbu呢。
CHM 本身就是为了存储帮助文件这类资料设计的
每个html文件独占一个子目录,它需要的图片也放在同一个目录,
把html里的img src路径都改为当前目录,
也能正常显示了
用的是百分浏览器.
内核版本 Chromium 86.0.4240.198.
chrome的话,加个启动参数也可以:
chrome.exe --save-page-as-mhtml
这个参数我在chrome90测试没问题.
确实可以,真想知道如此改变的设计意图。
这是个方案,有点类似为知的处理方式了(打了个包),这样就要批量修改路径了。
但实际还是依赖js来解析,不是纯粹的静态页面
Chrome 现在只允许安装插件保存 MHT
所以感觉MHT越来越小众了
遇到大图片多的,生成的文件巨大无比。倾向于直接把网页存成pdf之类的。如果真的是要保存的话。percollate可以看看
感谢分享,这确实是个问题,但还有个另外的问题,就是嵌入pdf的图片已经融为一体无法单独提取,而且分辨率高的也被压缩了吧?
不妨试试网页剪贴簿