国家标准全文公开系统 里面能够在线阅读大部分国标,有没有方法可以将其按照页面排版布局(因查看 HTML 是硬编排的)下载为 PDF?
可以打印到PDF
本系统收录现行有效强制性国家标准2,049项。其中非采标1,414项可在线阅读和下载,采标635项只可在线阅读。
GB/T推荐性国家标准 本系统收录现行有效推荐性国家标准38,824项。其中非采标25,155项可在线阅读,采标13,669项只提供标准题录信息。
其中 1414可以下载. 其他可以用系统自带的打印到pdf 功能 打印即可, 多数设置页面A4就行了.
破案了。我之前没尝试,是因为这个系统再早一些时候采用一个第三方加密的在线全文查看系统,看上去是一个传统富媒体的框架,无法打印也无法下载。导致我还停留着这个印象……
这个方案不好。
1,打印的结果都是图片pdf,选不中文字,需要的话还得ocr;
2、必须把文档拖完了,缓存之后才能完整打印,不拖完或者有些没下载完,打印出来估计是空白或者缺页。
这个前端是调用的mozilla的pdf.js,本身有下载接口,他没用而已,基本上只要能浏览的,就可以下载。但这个网站是 gov.cn,不敢说太多,大家自己发掘吧。
要发掘的话建议用 HTTPNetworkSniffer
我记得以前我遇到这个问题解决了. 今天晚上回忆了一下, 应该是这么干的.
为了避免过分传播导致人家修改这个漏洞, 所以我隐藏了以下内容.
你真的试过吗?
22.10.28 更新,脚本及其更新版本已不可用。另一方面,系统改变了在线预览的页面渲染方式,看上去是栅格图像切片;官方下载功能依然是以 FileOpen 插件加密。
标准下载不能用了 · Issue #27 · lzghzr/TampermonkeyJS · GitHub 这个脚本仍然可用。它的功能是,对于非采标类国标(包括强制性和推荐性),如果没有提供下载链接/按钮,它可以帮你显示下载按钮;下载的 PDF,文字是可选。据网友反应,上述非采标类国标(包括强制性和推荐性),部分在页面上会直接提供下载链接/按钮。
国标部分提供在线阅读但采用了 FileOpen 插件的,无法通过脚本下载。同时也是加密的。
国标部分不提供在线阅读的,其中一部分是采标的原因,即采纳 ISO 等国际标准,受版权保护既不提供在线阅读,也不提供下载。
感觉不算是漏洞啊
我试了下,直接下载的 PDF 都加了密啊,这个密码有公开么?
好像要安装 FileOpen版权保护插件
好像说是AES加密的。用api接口下载的就不需要那个版权保护了。不过,这东西没什么迫切需求,就别去折腾他们,容易被执法。
真长知识,GB 属于法规,没有版权,可以随意下载的。
GBT 属于版权内容,嗯,瞎下载违法
GB是企业入行必须遵守的,就是法规。GBT很多就是几个龙头企业凑起来起草的,打围墙,提升自己知名度,打广告的。
GBT 这个我倒没想到…居然是这样
也不是这么说。
- GB 是强制性国家标准;GB/T 是推荐性国家标准。
- 是否有版权保护,是看该标准的制定是否采用国际标准(即采标),有的国际标准受版权保护。例如标准化/软件领域/电气通讯领域,存在 ISO 国际标准组织制定的国际标准。
两者的关系是,强制性国家标准中,有一部分是采标,只能提供在线阅读。推荐性国家标准中的非采标只提供在线阅读,采标只提供题录信息,在线阅读也没有。
技术实现层面,提供了在线阅读的主要分 2 种。一种是 HTML 硬编码的版式页面,如果提供了下载按钮,可以直接下载为 PDF;如果没有提供下载按钮,用脚本可以调出。下载的 PDF 都是文字可选的,不是屏幕打印。另一种是用了 FileOpen 这样的第三方阅读插件的,在线可以选择文字,但呈现一种富媒体组件的感觉,有限能力内不便于打印,也不便于保存为上述类型 PDF。
所以如果用这个脚本下载 GB 是不违法版权的吧。