在文字编辑软件中的图片格式字符(内容是字符的图片)如何识别或转换成字符本身?

3

就是上图这种,一个「3」的图片,如何变成字符3呢,太多了不好手动替换。


解决记录:

  • 网页直接「查看页面源代码」获取的源代码还是可以用,只是图片链接用的是../../这个玩意替代了本身的链接,要手动替换一下。还有个坑就是获取的网页源代码在头部元素里写的是字符编码是GB2312,也要手动替换成utf-8…不知道为什么。

  • 与其把源代码保存到本地,再放到html编辑器里手动替换,能不能直接在网页端将<img src="https://www.ricedata.cn/images/figures/2ra3cwvlil.gif">这种图片直接替换成文字来显示呢?嗯。

  • 快看我发现了什么: 油猴子从入门到喵喵喵喵(实例:9/9 完结) - 大家的板块 / 稻米鼠的频道 - 小众软件官方论坛 (appinn.net)

OCR
论坛里就有很多推荐,例如这个

会出现很多不必要的排版与识别错误。

假如只有这一种 [3] 图片.

word 可以这样:

查找: ^g
替换: 3

1 个赞

另存为 html 文件,用正则表达式替换图片链接那一部分的内容,替换完成后再另存回原格式。

1 个赞

+1

有很长一段时期, 百度知道的防盗措施就是随机用图片代替部分文字.

我就是用这个办法替换的. :rofl:

@xiaokonglong 随机数字被替换成了图片,和百度知道那个意思一样。
@allor 好办法,试一下。

是不是我操作的步骤不太对,先把网页另存为存成html这一步就给我整懵了。

有四种网页源代码了:

  1. 在网页直接右键「查看页面源代码」的源代码

  2. html文件丢进html编辑器里的源代码

  3. mhtml文件丢进html编辑器里的源代码

  4. 浏览器打开mhtml文件,右键「查看页面源代码」里的源代码

第四个里面才有 <img src="https://www.ricedata.cn/images/figures/2ra3cwvlil.gif">这种可以用来替换的图片链接

就没有简单一点的方法获取到第四种网页源代码嘛


额,虽然不知道这几个是什么关系,但好像解决了。

存为 html 格式, 而不是 mhtml 格式

用文本编辑器, 比如 记事本 打开 .html 文件

替换

嗯,另存成html文件,用记事本打开的代码,就是「查看页面源代码」里的代码,一样的,就是会把图片地址缩写成…/…/这样。

这样存下来然后替换图片地址确实可以解决问题, 但我在想要怎么把网页上的那些图片化数字给替换显示,就不用每次都存到本地来替换了:thinking:

不如说说是哪个页面?

表层问题是文字编辑软件的识别或替换问题

深层问题是网页防盗破解

可以这么理解吗?

你要是一开始直说真实目的, 油猴脚本就上来了. 不用走弯路.

当然了, 走弯路也许会让各种奇怪的知识增加了 :rofl:


这个网站我看了一下 , 就是典型的内容防盗.

这个网站是 国家水稻数据中心

比如这个网页 https://www.ricedata.cn/variety/varis/605661.htm 里, 对数字进行了随机替换.

对方网站有警示:

温馨提示:监测到部分科研单位和公司使用爬虫肆意抓取本站品种数据,本数据库不得已再次启用适度的反爬虫手段…同时,本站对非法爬虫使用者保留进一步追究相关法律责任的权利,因爬虫不仅恶意批量盗取了本站数据,同时形成了对本站的大规模DDOS攻击…

所以, 基于以上原因, 技术手段替换这个操作(起码对于我来说)不能教给你.

盗取数据总要付出一定的成本, 比如时间或精力

如果是个人学习使用, 楼上的办法已经足够了.

如果想批量替换, 可以用 批量查找替换 软件

比如 Replace Studio Pro - Funduc Software

友友们,是这个页面,随便点开一个品种,里面的数字被随即替换成图片了:汕优64 Xiangyou64>>>RiceData==中国水稻品种及其系谱数据库


虽然网页上写了「温馨提示:监测到部分科研单位和公司使用爬虫肆意抓取本站品种数据,本数据库不得已再次启用适度的反爬虫手段…同时,本站对非法爬虫使用者保留进一步追究相关法律责任的权利,因爬虫不仅恶意批量盗取了本站数据,同时形成了对本站的大规模DDOS攻击…」

但是一个个点开看和复制网站源代码去替换图片链接,好像也没有区别吧,也不是给它全扒下来,只需要我要填写的品种(大几百个)。

现在我按这个填写数据还只能一个个输入到本地excel,有点太麻烦了。

最底下写的是:

(未经允许,不得复制)

所以,兄弟,考虑下 学学前端? 直接联系网站购买数据

那我还是先复制源代码到本地手动替换图片链接好了,再在excel里面看弄个什么find函数去填数据。

网站数据两千个起卖,需要的是几百个。

我普法一下:

1.违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施(包括违反robots协议);

2.干扰了被访问网站的正常运营;

3.抓取了受到法律保护的特定类型的数据或信息。

以上行为都属于违法行为.


案例1

大众点评网,在2016年起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评网上大量获取用户点评信息,用于自家的百度地图及百度知道产品。

最终一审判决认定百度构成不正当竞争行为,停止侵权并赔偿323万元。

案例2

2014年3月,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。

法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。 (2015)闵刑(知)初字第59号

案例3

南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取某公司数据库内的WIFI热点密码数据,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。(2015)杨刑初字第232号

复制网页源代码是灰色地带,根本没有办法举证是复制了网页源代码手动在本地替换了反爬图片链接获取了数据,还是点开某个页面手动抄录了数字。


我要修正一下:复制网页源代码是完全合法的,在本地修改复制的网页源代码没有任何法律风险,本讨论所有行为均不涉及爬取网页数据,以及干扰网站的正常运营等。