为啥 mhtml 不受待见？mhtml 是 pdf 的下位替代吗？

tempUserName · 2024 年10 月 26 日 05:08

mhtml 简单来说就是将 html 中的 css、js、image 等外部文件封装起来，组成一个打包好的单文件，实现离线查阅。

我觉得 mhtml 挺好的呀，单文件，保持样式，支持离线查看，而且能快速切换为 html 格式。特别适合笔记、教程等说明性质的文章。

但是似乎所有软件不待见它。比如 Typora，宁可干掉图片，导出纯文本的 html，都不支持 mhtml。

biubiu · 2024 年10 月 26 日 05:45

它跟pdf就差在A4打印上。

Baiyssy · 2024 年10 月 26 日 06:32

和docx、html这些电子文档相比，pdf更接近一张纸。
为了保证看上去、打出来一样这个特征，pdf牺牲了一切，包括编辑、重排版甚至检索。

Zafale · 2024 年10 月 26 日 10:22

可以考虑textbundle

VIctoryRoad · 2024 年10 月 26 日 10:38

其实现在的 HTML 也已经支持将所有东西打包成一个单一文件了，比如 SingleFile 保存的网页，就可以将图片全部以 base64 形式保存在 html 文件中，并带上 css。

另外，AriaNg 有一个 “All in one” 版本，就是将 js、css、图片资源等放在一个 html 文件中。

至于 mhtml，在百度百科上看到这样一句描述：

由于保存为MHTML的方式未经标准化，因此各浏览器读取的效果略有不同。

不知道是不是这个原因制约了 mhtml 的应用。

另外，有人说除了 IE 外，其他浏览器对 mhtml 的支持都存在一些问题，可能这也是制约这种格式广泛应用的原因。

pick · 2024 年10 月 26 日 14:08

Typora 支持内嵌图片的吧，虽然我很久没用了

N4eo · 2024 年10 月 26 日 14:41

我也喜欢 mhtml，原封不动保存网页！交互都还在。

Dalieba · 2024 年10 月 26 日 17:17

现在还有一种单文件 HTML 的存储技术，效果不亚于 MHTML。

tiger · 2024 年10 月 27 日 10:33

一方面是各大浏览器对 mhtml 的支持程度不一，另一方面则是保存 mhtml 文件的过程中可能会因为各种各样的问题出现无法保存的情况，而 PDF 格式则没有上述两个问题。

Dalieba · 2024 年10 月 27 日 18:21

PDF 是脱胎于 PostScript 语言的文档格式，PS 是当初 Adobe 公司成立以后推出的面向打印机的页面描述语言，通过苹果 LaserWriter 打印机一炮走红，成为桌面出版行业的金标准。
HTML 转 PDF 就意味着必须牺牲流动性的页面布局，按照特定宽度把内容塞进 PDF，并且根据页面高度来拆分网页上的东西。

Baiyssy · 2024 年10 月 28 日 02:27

我完全不能理解也不能接受的一点，是各种pdf的格式天差地别。
很多用硬换行，导致一个词换在两行的话就搜不到。
甚至有的每个字符都在不同的文本框里面，任何词都搜不到。
有的明明是文本，也没有加密，就是复制不了，也提取不出来。
总之就是有无穷多的问题。

antior · 2024 年10 月 28 日 03:07

就是base64编码图片吗？
我尝试用旧版Opera保存的mhtml网页，IE打开是乱码的。

Aquamarine · 2024 年10 月 28 日 03:15

在为啥 mhtml 不受待见？mhtml 是 pdf 的下位替代吗？ - #8，来自 Dalieba 提到的两款扩展前，我挺喜欢MHT格式。
但是它有两个问题：

兼容软件少
纯文本乱码

xiaokonglong · 2024 年10 月 28 日 04:40

mhtml本质上对网页内容的重新编码. 尤其是图片要转成 base64.

这就导致了mhtml 在保存时和阅读时, 会有一定偏差.

各种浏览器的支持度也不尽相同.

其实更好的保存结构是, 另存为带文件夹的html, 然后在压缩成zip格式. 至于后缀名改成什么无所谓.

现在很多开放性格式文件, 基本都是这个路数. 包括但不限于 apk, docx 等等.

所以 SingleFileZ 也是这个思路. (SingleFile 的作者的另一个产品)

antior · 2024 年10 月 28 日 06:04

确实，这一点一直理解不能：Word里面排版好好的，打印出来就分段了，复制一遍还没法直接用。

Dalieba · 2024 年10 月 29 日 08:10

这些情况原因有些复杂，有的是创建用的软件问题，有的软件给 PDF 设置了权限，还有的把页面搞成一图流了

Dalieba · 2024 年11 月 1 日 07:22

对，就是用 base64 编码嵌入的。不过就算 MHTML 也用这个格式保存图片，而且这种文档可以把后缀名改为 eml 再用 email 客户端打开。

至于乱码的问题，我觉得需要用文本编辑器打开看看里面的 charset 属性标注的什么编码。

Dalieba · 2025 年10 月 14 日 15:56

SingleFile 的作者还开发了一个JS库，用来把 MHT 转换成单一 HTML 文件，可以到这里见识一下

Aquamarine · 2025 年10 月 15 日 02:35

@Dalieba 问题就在这里，在我发现mht格式的文本不能直接可读之后，就没用这个格式存档过，虽然它能压缩到一个文件中。

我好奇的是，SingleFile采用的是什么方式，没有打包压缩，或者是类似mht但只编码了图片？因为我看文字是可读的。

tjsky · 2025 年10 月 15 日 03:54

其实还是把网页html，和里面的js、CSS、图片都存在一个文件夹中，然后把文件夹用zip压缩成一个自解压的单文件，再把这个自解压压缩包的后缀名改成html

可用压缩软件打开保存的html文件，看到实际文件结构

话题		回复	浏览量
昨天使用singlefile扩展，发现导出文件在ie浏览器还有手机hmtl查看器上打开查看都不完美。讨论分享 windows	78	2947	2024 年4 月 10 日
求推荐把带文件夹的html合并成一个html的工具（批量）问题求助 windows	35	9526	2024 年3 月 15 日
求一个能完整下载网页文字和图片的chrome插件问题求助 chrome	12	833	2025 年4 月 19 日
想找一个代替CHM的,离线网站打包格式问题求助	14	965	2024 年9 月 18 日
关于批量将网页保存为mhtml【已解决】问题求助 chrome , windows	12	7220	2022 年1 月 7 日

为啥 mhtml 不受待见？mhtml 是 pdf 的下位替代吗？

相关话题