SingleFile用两种模式存储网页,这是其中的一种,另一种模式是把某些多媒体内容编译成base64码再嵌入到HTML文件里面。
https://www.runningcheese.com/webpage-save
1999 年,IE 5 是第一个支持将网页保存为 .mhtml 格式的浏览器。
此后,Chrome 及 Chromium 浏览器也都支持将网页保存为 .mhtml 格式,而 Firefox、Safari 浏览器则不支持。
因为 Firefox 主推的是 .maff 格式,而 Safari 则主推 .webarchive 格式。
所以,.mhtml 文件格式算不上是一种通用格式。
就算你只用 Chrome 浏览器,在保存网页时,.mhtml 文件也可能会出现“保存出错”的情况。
因为 .mhtml 文件做为 HTML 4 时代的产物,已经与当前主流的 HTML 5 脱节。
而现行的 HTML 5 版的 .html 文件格式,已经能实现 .mhtml 的全部功能。
所以,使用 .html 格式来保存网页是更好的选择。
@tjsky @Dalieba 那是不是SingleFile把某些多媒体内容编译成base64码再嵌入到HTML文件里面,而SingleFileZ把文件都放在一个目录中,然后压缩改后缀名?因为我记得SingleFile保存的文件,好像纯文本能直接可读网页文字。
SingleFileZ已经并入SingleFile了
看了下Chrome商店确实只剩SingleFile了,通过选项→文件格式可切换,也挺佩服开发者的,居然能搞出自解压的压缩格式,两种自解压格式确实是文件夹打包,估计再添了HTML文件头。
但是3种HTML格式,我发现对一些PNG图片的保存都存在问题,测试链接如下:
很奇怪,只有 opera 的 打印成 pdf 才能跳出纸张大小的局限,可以将长页面打印成一页,不会被分割。是有什么特别的技术吗?
Safari的“标记”也可以
在SingleFile选项里面把“最长空闲时间(毫秒)”改大点试试看
你都说了是打印了,打印就是有纸张大小啊,至于打印成PDF,大多数的做法其实都是系统提供的虚拟打印机,接收打印出来的一张纸,然后输出成PDF文件,浏览器不知道你是打印成PDF了还是打印到打印机里去了的
浏览器理论上可以自己实现一个特殊的“另存为PDF”,无视纸张大小,网页多大纸张就多大,但Chrome没有这样做,Chrome里面提供的另存为PDF是上面的逻辑
还真可以,感谢指教。
为了解决pdf错综复杂的格式问题,Google AI Studio的方案是,不管什么pdf,都当成图片来识别。
这导致即使是纯文本的pdf,也会出现一些奇怪的ocr错误。
与其把pdf称为文档,不如说他和svg亲缘关系更近。
有可能是文件内容用了 AI 不认识的文字编码
感觉不是,比如他会把全角逗号看成半角