为什么没有html届的doc格式,把html图片音视频css这些内容压缩打包,没有doc换页符的缺点,又有doc方便编辑、管理、存储、分享的优点,又有html播放音视频的优点的文件格式。

现在做笔记的文件格式,要么是md,要么是html,md是hmtl的弱化版,但是这些格式都是把资源和文字分开存储的,非常不方便管理、分享、存储、同步。为什么没有一个html届的doc格式,把html,图片,音频,视频,css,这些内容压缩打包,就是最完美的格式了,非常适合做电子书,笔记,因为doc存在换页符不方便电子设备上浏览,又不能播放音频视频,但是doc是单文件,很方便编辑、管理、分享、存储,目前最接近我想法的就是epub3.0格式,但是不方便编辑。
总结下这种文件的特点:
1,所见即所得地编辑。
2,没有换页符。
2,单文件,方便存储,管理,分享。
3,可以插入音频视频。
用途:
1,笔记。
2,电子书。
3,取代一部分doc,pdf格式
4,其他

看到知乎上的一个问题,那边没什么人讨论,因为这个问题产生以上相法,:为什么html性能更好但却远不如docx更常用? - 知乎

感觉在屏幕上阅览时,html好像相对于docx的优势巨大。
石墨文档等等本质上就是所见即所得的html编辑器吧?
html的兼容性更好,docx由于可能由Microsoft office WPS office,Libre Office,甚至是永中office创建和阅览,这四者的阅览效果连基本一致都做不到,很多时候甚至可以说是乱七八糟。但是对于同一个HTML文件,用任意一个浏览器阅览都可以得到近似的效果。而且市面上80的浏览器都是chrome,从这一点就保证了html可以很容易的被打开。
html的性能也更好,同一个文件用word另存为html在chrome上打开不论是查看还是搜索速度都远比word快。而且安卓自带随叫随到的chrome,Windows也默认一直把edge浏览器挂在后台(即便是把这个功能手动关闭,在内存够用的时候Windows也会把edge读到内存里头方便快速打开,word可没这待遇)这就决定了html文件打开速度几乎一定比docx快。

html也更容易编辑,常见的office软件基本上都可以用html保存。而且还有typora这样非常易用的所见即所得html文件的软件。
html也更适合网络发布,html本身上传到服务器上就是一个网页。
虽然html必须要写代码,但是一个完全所见即所得的html编辑器今天已经存在了。石墨文档,腾讯文档,金山文档等等一路云文档本质上都是一个所见即所得的html编辑器
虽然html是一大堆文件叠起来,但也有mhtml这样的单个文件。也完全可以创造出来一个基于html的封装格式,像epub那样。
不过docx在打印的情况下肯定比html要容易的多。但是很多时候我们只是为了浏览文件,并不打印,如果只是为了浏览应该完全没必要抱着又慢又大的docx格式吧?
难道只是单纯的因为路径依赖么?

一些个人想法:

  1. 「HTML 搜索性能比 DOCX 好」,这一点没有证据;
  2. DOCX 本身也只是一种 XML 格式,和 HTML 师出同门。只不过微软自己将其作为私有格式,没有明确的标准,才使得其他软件支持起来很困难。另外,HTML 同样花了十几年时间才成功统一格式,Blink、Gecko 仍在频繁自创 CSS 属性,目前在渲染样式上依然有一些差别(当然没有 DOCX 那么不堪);
  3. HTML 已经加入了太多交互元素,而一般的、面向纸质读者的文档不需要这些。至于你说的「仅供互联网用户浏览而不打印的文档」,这部分本来就没多少人用 DOCX 吧,都是 HTML;
  4. HTML 和 DOCX 一样,为了所见即所得牺牲了大量可编辑性和透明性。大部分 HTML 编辑器的功能还不如 DOCX 强大,而且相互之间也不完全兼容;
  5. 关于资源捆绑,前有 mht 后有 epub,大家都已经研究过了。目前 epub 仍是最流行的小说阅览格式(技术类书籍则常常是 LaTeX 或 PDF);
  6. 笔记和文档又是另一个不同的需求。最流行的依然是 markdown。
12 Likes

我也思考过类似的问题,Word、PDF 的主要是模仿纸张(虽然 Word 有 Web 视图),大多数人从读书其先接触纸张。另外 html 确实更适合在电子设备上做笔记,除了图片之外还支持音视频,数字多媒体本身就是电子笔记的优势。
但是就像那个回答里说的,很多人不会 html 标签,就算会那写起来很麻烦,那么不是有很多所见即所得编辑工具,如果用所见即所得编辑工具,那么请问 Word 和 html 除了不能添加音视频以外,有什么区别呢?Word 将资源打包到一个文件比普通 html 方便,但是用 mht,chm 两者有任何区别么?Word 本身不就是用 XML 标签,只不过 html 换成了 html 标签,两者本质有什么区别。
我的想法是别天天纠结这些有的没的,自己有选择的情况下你自己觉得啥用着舒服就用,其他情况老板要你交个 Word 文档你还敢交个 Latex 不成?导师要你交 Latex 格式论文你还能交个 Word 不成?天天纠结格式容易陷入「差生工具多」的状态。

4 Likes

word 对于打印机的兼容 比 html 强太多了。

区别就是doc不能播放音频视频。

其实我就是想有一个类似word的html(md)封装格式,可以插入音视频,资源和文字是一体的,这种格式方便存储,管理,分享,编辑。

类doc的html封装格式就用来做笔记格式,做网页存储,做电子书,就够了,可以播放音频,视频。

你看html用啥去edit好?普通人根本找不到。

其实我就是想有一个类似word的html(md)封装格式,可以插入音视频,资源和文字是一体的,这种格式方便存储,管理,分享,编辑。
mht,epub可以播放音频视频吗?好像不可以。
md笔记不是类doc格式,资源和文字分开存储,不太方便管理,存储,分享啊,如果是一体的就好了。

虽然html必须要写代码,但是一个完全所见即所得的html编辑器今天已经存在了。石墨文档,腾讯文档,金山文档等等一路云文档本质上都是一个所见即所得的html编辑器、…
或许可以试试Tpyora

mht 我没用过,但 epub 是真的可以播放音频和视频。但是你这个要学 epub 3.0 的标准语法,需要自己写代码。

你的真正需求是一个电子笔记软件,能插入音视频,并且将这些附件资源集中到一个笔记文件内管理。这个需求不是一定要 html,也没必要强调底层。你用着 Joplin 挺好的就一直用 Joplin 挺好的。像我并不介意一定要资源和文本分离(其实也有一点介意,但并不是非要不可)就用 MD。你既然觉得分享不方便,手动打包压缩一下如何?

你这个需求 OneNote 也能满足,但是不推荐,OneNote 问题不比 Word 少 :joy:

1 Like

我装了joplin,一个笔记分成五六个md格存储,太琐碎了。刚好看到一个评论:
joplin还是算了把,临时存个文件还可以,要是作为长期使用的笔记软件肯定会后悔的,他的文件保存方式有点特别,当你写了一些日记后,打开他的文件夹看看你的文件保存就知道了,乱就一个字,当笔记数量再次增加到一定规模后,同步系统就会出现问题,然后就是无尽的痛苦。obsidian文件数量多了以后,因为是单文件保存方式,类似于你的文档,几乎不可能出现文档损坏或影响别的文档的情况出现,整个笔记运行速度同样有保障,尽管可能同步比joplin稍微麻烦些,但是文档的安全可靠才是第一位的。

你如果确信你找到的评论里的话(我没用过 Joplin 不知道是否真实存在这个情况),那么你的需求「将所有资源集中到一个文件管理」就有问题啊,将所有资源集中到一个文件中这种形式是不是也容易出现这个问题?那 MD 这种分开存储是不是更加安全的一种数据保存形式?那是不是就该放弃集中一个文件管理的需求而拥抱分开存储?

会不会是,历史原因。

早期有 word 的时候,html还很不普及。

当 html 普及的时候,只有少数人才会制作。

但每个人都有一两分钟的 word 水平,毕竟打开 word 就能输入。

我这边导出后一个笔记就是对应一个文件,导出的文件夹结构和 Joplin 里面一样。同步的时候也是一个笔记对应一个文件。

怎么乱?怎么同步出问题?这么说太抽象了,我用 Joplin 超过半年啥事没有。

资源捆绑并不利于同步文件。

  1. 如果这个捆绑文件包含 500MB 的视频和 1MB 的 HTML 文件,那你每次改一点 HTML 文件,就要上传整个捆绑文件(501MB)。
  2. 捆绑进文件的资源不能被多个笔记使用。每捆绑多一次这个视频,你就多费 500MB 空间。

非常不方便管理、分享、存储

怎么说?

我还是觉得所有资源集中到一个文件方便存储,管理,分享。
就像一份doc,一份是未压缩前的文件,你更愿意用哪种?


joplin一个笔记好几个md存储的方式估计后果会很严重,看到有个实例有人同步的笔记不同步,说明更琐碎的文件不方便存储,管理,分享。

joplin的同步坑死人了,我用两台电脑同步到同一个文件夹(映射盘,照理比什么网盘稳定可靠)可就是两台用应用打开后内容不同步,不管自动还是手工同步,就是不行,折腾来折腾去,先是一台内容折腾没了 ,后来再折腾另一台内容也清空了!

应用层次上,目前所有资源保存一个文件的文件,为知笔记的wiz勉强算一个,把html文件夹压缩了,但是仅限图片资源,我看视频没有保存在wiz里。
epub也算一个类doc的格式吧,毕竟可以播放视频,音频。

我说的不是导出笔记,是内部存储的形式,你用过同步功能吗,比如每5分钟自动同步,比如备份到本机,你可以看到的。

这是一个主观问题,我的回答是自从接触了 MD 格式,目前我能用 MD 的时候不用 Word,基本上 80% 的情况在用 MD,20% 是报告格式要求必须提交 Word 才用 Word,并且在我的推广下整个小组都从 Word 转向 MD。这个更看个人使用场景,我们的小组交流主要是代码和数学公式,很少有图片,没有音频和视频,所以这个应用场景并不适合你

软件怎么存的无所谓,你真不需要关注底层逻辑,Word 你解压缩了看到也是很多文件,你把完整的 html 下载下来也是很多文件分散。你的估计依据是什么?

具体而言这个你要听多方人的意见,比如长期使用过 joplin 的,如果 100 个人里面 99 个人同步没有问题,1 个人有问题,那一个人发帖抱怨。你可以发帖问一下 Joplin 的同步问题,咨询一下这个论坛更多用过的用户具体同步而言是什么问题。

「内部存储的形式」指的是啥?我之前提到所有笔记(不包括资源文件)都存在一个数据库文件。我用同步,没发现问题。

一体和分体各有用的领域。我觉得这种一体的html文件应用在笔记和电子书领域会很棒,第一你不会反复修改反复引用,第二也不会视频和文本差距这么大,就像你不会把一个500M的视频插入到一个epub电子书里面,这时候就会以附件的形式单独链接发送。。
你愿意用一体的doc文件,还是未压缩的那一堆文件当笔记文件呢?我相信除了程序员,普通人还是愿意用doc文件,笔记文件,电子书同理。所以采有了可以插入图片,音频,视频的epub电子书存在。