怎样获取 Google 搜索结果里的完整摘要?或类似缓存快照?

我是文科生,所以表述上肯定不准确,大佬们明白意思就好哈^_^

例如,Google 搜索这个关键词:

https://www.google.com/search?q="和 adc 说是兄弟站其实很勉强"

得到唯一的搜索结果

但会发现,该结果的链接打不开了。那么假如我们就是想知道该网页的全文,该怎么办呢?

  • 尝试用 http://cachedview.com/ 打开该页面的 Google Cache 和 Archive.org ,发现这俩都没“收录”(或者说爬取,不知道专业术语)
  • 尝试在 archive.today 里找,发现也没有人预先抓过

到这里我就没辙了。但是很显然,谷歌数据库里存储了该页面的完整摘要(因为能搜索到呀),而且可通过以下链接窥得一二(你可以通过连续不断的顺藤摸瓜,发现谷歌数据库存有那个网页的完整文字):

https://www.google.com/search?q="管理员 lurch 为人很有原则而且貌似很有钱"
https://www.google.com/search?q="估计都捐不了.该站有专门申请邀请的板块"

所以,这个帖子想请教的是:这种能用谷歌搜出来,但却打不开的网页,几大快照服务也没收录的情况,有啥办法还能获得内容么?例如获取谷歌存的摘要?

PS:这个帖子问的是方法(渔),不是例子(鱼),这篇帖子已经通过其它方法找到全文了…此处只是举例,谢谢

1 个赞

那直接看谷歌快照如何?

谷歌搜索结果中地址后面的 ▼ 点开有“网页快照”的

这个网页,应该是没有快照,或者设置了权限不允许搜索引擎保留快照。

另外,通过下面这个工具,可以快速找到多个搜索引擎的快照链接,但显然这个地址没有

不过根据国内互联网的尿性,你都知道文章标题了,还不是随便搜索到内容?

https://ws1.sinaimg.cn/large/006tKfTcgy1g0g8cnxu9xj31880pgjxl.jpg

1 个赞

人家说了没有快照

这转贴带源地址的行为是应该鼓励的吧(当然前提是原作者允许)

变相 an 网

其实不光是分割的原因。

  1. 国内服务器太贵(有两大云以后好一些了,之前租运营商服务器实在太贵)
  2. 国内版权保护弱,你不知道网站上声明不让转载的文章会跑到哪去
  3. 越是偏向IT和软件的讨论,用户中广告屏蔽软件使用的比例越高

这几点导致的就是很多小站根本活不下去,小众的论坛这点就做的挺好,让用户自发留下的必然是深入的交流,但这也是千军万马过独木桥后硕果仅存的几个站。
大站有些国外网站干脆是用全站订阅墙的方式,大站高质量内容的牌子打出来之后不怕人不来。但是这种消费观念估计在国内也行不通,最多是按需付费。
但是像CSDN这种复制别人内容还拿来收费的就很丧心病狂了。

嗯,但是付费墙、注册墙、应用墙却很不友好。这是一个分割的互联网