这个方案不好。
1,打印的结果都是图片pdf,选不中文字,需要的话还得ocr;
2、必须把文档拖完了,缓存之后才能完整打印,不拖完或者有些没下载完,打印出来估计是空白或者缺页。
这个前端是调用的mozilla的pdf.js,本身有下载接口,他没用而已,基本上只要能浏览的,就可以下载。但这个网站是 gov.cn,不敢说太多,大家自己发掘吧。
这个方案不好。
1,打印的结果都是图片pdf,选不中文字,需要的话还得ocr;
2、必须把文档拖完了,缓存之后才能完整打印,不拖完或者有些没下载完,打印出来估计是空白或者缺页。
这个前端是调用的mozilla的pdf.js,本身有下载接口,他没用而已,基本上只要能浏览的,就可以下载。但这个网站是 gov.cn,不敢说太多,大家自己发掘吧。
我记得以前我遇到这个问题解决了. 今天晚上回忆了一下, 应该是这么干的.
为了避免过分传播导致人家修改这个漏洞, 所以我隐藏了以下内容.
你真的试过吗?
22.10.28 更新,脚本及其更新版本已不可用。另一方面,系统改变了在线预览的页面渲染方式,看上去是栅格图像切片;官方下载功能依然是以 FileOpen 插件加密。
标准下载不能用了 · Issue #27 · lzghzr/TampermonkeyJS · GitHub 这个脚本仍然可用。它的功能是,对于非采标类国标(包括强制性和推荐性),如果没有提供下载链接/按钮,它可以帮你显示下载按钮;下载的 PDF,文字是可选。据网友反应,上述非采标类国标(包括强制性和推荐性),部分在页面上会直接提供下载链接/按钮。
国标部分提供在线阅读但采用了 FileOpen 插件的,无法通过脚本下载。同时也是加密的。
国标部分不提供在线阅读的,其中一部分是采标的原因,即采纳 ISO 等国际标准,受版权保护既不提供在线阅读,也不提供下载。
感觉不算是漏洞啊
我试了下,直接下载的 PDF 都加了密啊,这个密码有公开么?
好像要安装 FileOpen版权保护插件
好像说是AES加密的。用api接口下载的就不需要那个版权保护了。不过,这东西没什么迫切需求,就别去折腾他们,容易被执法。
真长知识,GB 属于法规,没有版权,可以随意下载的。
GBT 属于版权内容,嗯,瞎下载违法
GB是企业入行必须遵守的,就是法规。GBT很多就是几个龙头企业凑起来起草的,打围墙,提升自己知名度,打广告的。
GBT 这个我倒没想到…居然是这样
也不是这么说。
两者的关系是,强制性国家标准中,有一部分是采标,只能提供在线阅读。推荐性国家标准中的非采标只提供在线阅读,采标只提供题录信息,在线阅读也没有。
技术实现层面,提供了在线阅读的主要分 2 种。一种是 HTML 硬编码的版式页面,如果提供了下载按钮,可以直接下载为 PDF;如果没有提供下载按钮,用脚本可以调出。下载的 PDF 都是文字可选的,不是屏幕打印。另一种是用了 FileOpen 这样的第三方阅读插件的,在线可以选择文字,但呈现一种富媒体组件的感觉,有限能力内不便于打印,也不便于保存为上述类型 PDF。
所以如果用这个脚本下载 GB 是不违法版权的吧。
你知道有个出版社叫“标准出版社”吧?大多数标准都有纸质版,电子版的费用也差不多。前年为了项目结题专门买了一份行业标准电子版,99rmb。不过,这个网站上的都不是出版的版本,下载传播应该没啥问题。
刑法二百八十六条 破坏计算机信息系统罪 。这个脚本属于增加了系统功能,就看会不会满足“造成计算机信息系统不能正常运行,后果严重的”。谁知道他们的服务器上的代码能不能应付大规模并发,爬数据爬多了,人家机器直接死给你看,到时候宕机了,就该找替罪羊了。
这里的版权问题主要集中在传播和再传播,以及持有者的使用方式。而与脚本使用的关系不大。
我觉得脚本使用可能产生的问题,应该属于 @qinshou 所说的法律保护信息系统安全相关的。从 PDF 的生成程序来看,应该是后台程序生成的,不是前端。从脚本内容上看是调用已有功能,相关权限并未限制,或许算不上增加功能。但总之,这个脚本已从所处 Github 项目仓库中移除。
我担心的是那个脚本容易引起不必要的麻烦
开源脚本的法规规避性比较强。
下载的pdf用于自己学习研究使用,不传播盈利的情况下, 属于可以不追究的范畴。