国家标准全文公开系统,如何下载为 PDF?

你知道有个出版社叫“标准出版社”吧?大多数标准都有纸质版,电子版的费用也差不多。前年为了项目结题专门买了一份行业标准电子版,99rmb。不过,这个网站上的都不是出版的版本,下载传播应该没啥问题。
刑法二百八十六条 破坏计算机信息系统罪 。这个脚本属于增加了系统功能,就看会不会满足“造成计算机信息系统不能正常运行,后果严重的”。谁知道他们的服务器上的代码能不能应付大规模并发,爬数据爬多了,人家机器直接死给你看,到时候宕机了,就该找替罪羊了。

这里的版权问题主要集中在传播和再传播,以及持有者的使用方式。而与脚本使用的关系不大。

我觉得脚本使用可能产生的问题,应该属于 @qinshou 所说的法律保护信息系统安全相关的。从 PDF 的生成程序来看,应该是后台程序生成的,不是前端。从脚本内容上看是调用已有功能,相关权限并未限制,或许算不上增加功能。但总之,这个脚本已从所处 Github 项目仓库中移除。

不用担心版权问题,现在国家各部委的信息公开栏目中,都会直接提供自己部发布的国家规范的PDF电子版供大家免费下载。
比如住建部的


下载的PDF会加水印,防止盗版印刷出版用。

1 个赞

我担心的是那个脚本容易引起不必要的麻烦 :joy:

开源脚本的法规规避性比较强。

下载的pdf用于自己学习研究使用,不传播盈利的情况下, 属于可以不追究的范畴。

感谢,估计马上建筑设计就要用到了……

在好奇这样的方法是否适用于国家数字图书馆

1 个赞

理论上能看到就能下载,但国图的站是要登录的吧。

不适用。脚本是限定了站点域名的,并且它只是将隐藏的下载按钮显示出来了,只是帮助你调用这个站点本来就有的接口,而非通过前端程序帮你生成。

国家图书馆那边登陆后可访问的标准,据我所知,其中一部分是来自站点中国标准在线服务网。这是中国标准出版社的网站,你可以理解为印刷出版形式的标准(商品)的网店,它本身提供大部分标准的元数据,也是一个很好的题录数据源。问题中提到的站点,是国家标准委员会主导建设的。

我用 Zotero 和浏览器插件来摘录这个站点的标准条目(元数据),然后手动添加我从其他渠道获取的该标准的文件。其中有一个翻译器 Nlc.cn.js 的功能描述是“注册国家图书馆之后,可以下载「中国标准在线服务网」内的国家标准”。但我还没有使用过。

2 个赞

根据下面给出的帖子,在手机上浏览标准时没有加密,可以通过脚本下载。
在F12中切换为手机版网站,页面加载完成后,控制台粘贴脚本即可。测试可用。

PDFViewerApplication.pdfDocument.saveDocument(PDFViewerApplication.pdfDocument.annotationStorage).then(function (data) {
    PDFViewerApplication.downloadManager.download(new Blob([data], {
        type: "application/pdf"
    }), PDFViewerApplication.baseUrl, PDFViewerApplication._docFilename, "download");
});

大佬的帖子
https://xzonn.top/posts/How-To-Download-Chinese-Standard.html

这篇帖子中第 4 节提到的发现(即您贴出的控制台脚本),与前面所说脚本实际上是同一个方法,前者依赖 Tampermonkey。

我同这个博主一样,早先使用国家标准全文公开系统、PC 端访问强制性国标时,在线浏览部分一直是使用 FileOpen 的技术,甚至都不提供官方下载,所谓的加密 PDF 也无法获取。FileOpen 就是基于 Flash 的富媒体插件。

或许是这两年 Flash 的强制更新换代、网站改版,原先属于移动端的页面排版直接替换给了 PC 端。一个猜测是,当前页面仍然提供着的 PDF 下载按钮,是以前遗留下来的,而非近期改版新增上去的。因为下载的 PDF 仍然依赖 FileOpen 插件,它可能会在不久被淘汰掉。

问下这脚本咋加载啊?

已经失效了吧,网站更新过了,现在没法搞了

最好的方法还是去相关部门官网下载,比如电动自行车安全技术规范 GB 17761-2018

在工信部官网搜索下载的就是直接可以阅读的 PDF,而在国家标准全文公开网下载的就是加密后的需要 Adobe Acrobat Reader + FileOpen 插件解密阅读的PDF

今天发现网站已经改了, 查看全文前还会有验证码防止抓取。

如果是PDF.js 默认快捷键Ctrl+S可以保存PDF

是的,网站已经修改了在线预览和下载策略。以前用 HTML 渲染 PDF 正文的方式也不存在了。

之前国家图书馆可以的,但最近不知道为什么标准全文数据库访问不了了。