搜索引擎黑白名单过滤,自定义搜索引擎 cse.google.com,customsearch.ai,黑白名单过滤插件 uBlacklist

我推广下白名单,而不是黑名单,黑名单是无限的。白名单可以是有限的,以有限的精力去维护有限的白名单,这种过滤工具总是有的,白名单却很少变化。对于一个新的工具,如果规则不同,那就写个脚本对名单重新整理下即可。

对应的名单及配置见:

2 Likes

这在一定程度上实现了书签的功能。如软件下载站,如果有人持续保持对这个列表进行更新,那就不需要去搜集和收藏这些网站了。

2 Likes

Blacklist 一直都在用。不过要从根本上解决这种问题,还是需要搜索引擎自己对这类垃圾进行过滤,单靠第三方工作量太大和效率太低。从目前来看,Google中文搜索基本是放任没人管的状态,各种内容农场把搜索结果污染的乱七八糟,cn.Bing 相对好点。而英文搜索结果几乎很少出现垃圾内容。

Google 在 06 年就推出了 google 可编程搜索(白名单搜索)。cse.google.com

白名单搜索的需求肯定是在 06 年之前就有了的。不知道为什么,没人推广。

我已经将整理的域名 https://github.com/bcaso/Google-Chinese-Results-Whitelist/blob/main/whitelists/domain_name.txt

添加至:https://cse.google.com/cse?cx=e9a1e480e37a86080&q=

已经可以用来代替默认的搜索引擎了。

搜索质量还不错。

1 Like

我觉得这个想法很赞!

那还有图片什么的,你用开源的searx不是更好吗

我没在设置中开启。

我一般都认为我搜索结果中的图片没必要出来,如 google 中的与关键词相关的 “相关图片”,“相关搜索词”,没必要显示。

比如你要搜索图片的时候,你不要说你从不搜索图片,那当我没说。

你站点是设置了,但是我要横向对比内容怎么办呢?我需要在图片结果,sns结果切换,你怎么办?

白名单搜索本身就意味者“不全面”,切换下搜索引擎就可以了。

但是我不能因此去修改白名单的内容。

1 Like

你最好就别说,每次有人解决了 A 问题,你就追着问为啥没能解决 B 问题。

为什么不带帽子呢???

1 Like

这个不是全面的问题,因为现在的多媒体本来就是这样,google也会显示图片和影片的结果,哪怕你只搜索网页,更不要说我要横向对比多个搜索引擎,或者混合多个同类搜索结果。

白名单站点是一种办法,但是上限太低。

其实google,微软等大公司失败的项目也很多,不好用没什么奇怪的。

这搜索引擎的功能很强大。

可以自定义排序,或对指定关键词设置对应的结果:

https://cse.google.com/cse?cx=e9a1e480e37a86080&q=google+whitelist#gsc.tab=0&gsc.q=google%20whitelist&gsc.page=1

如下图中的第一个条:

挺好玩的,哈哈。。:slight_smile:

添加实体功能来过滤内容,使关键词搜索到的结果符使某个实体:

假如添加了以上5个“实体”,那当我搜索“辱骂”这个词时给出的结果将会是:

假如不添加“实体”以限制关键词对应的领域,那结果将会是:

一般给出的都是与新闻热点内容。

效果很明显。

两个搜索结果中,知乎都是在首位,但给出的关键词对应的方向不同。

1 Like

自定义排序:

只做一般排序:在 annotations.xml 中为每一个 Annotation 的 Label 添加 score 属性,值同样是 from -1.0 to 1.0.

高级排序(双重排序):

先用 weight 对 Label 排序,会影响到每个 Label 对应的 url,再通过 score 对指定 label 下的 url 进行微调,Label 内部的排序。

广告过滤:

写个简单的 html, 在 css 中添加:

    .gsc-adBlock {display:none !important}

把这个 html 放在服务器上,内网中的设备就都可以使用了。

功能:“搜索结果链接在新标签页中打开”

google cse 没有对应的设置项,或者不生效:

还没找到可以实现的方法。

在新标签页中打开搜索结果:

CSE control panel > Search Features > Advanced > Web Search settings > Link Target section:

设置为 blank

https://support.google.com/programmable-search/answer/3037004

你自己搭建一个不就完了?
https://www.mygg.workers.dev/

1 Like

sort by key

用于搜索结果的右侧下拉框。

Search features → Advanced → Results sorting

当点击 Add key 按钮时,在弹出的窗口中填入两个字段,Key 和 Label。其中 Key 是排序的代码,带有星号的 Label 是显示出的提示文字。

key label description
date Date 以日期降序排序,默认就有的 key
relevance 以相关性排序,key 是 relevance,但必须留空,默认就有的 key
date-sdate:a date 强升序 date 是排序方式,sdate 是网页中实际使用的用来描述 date 的变量名,:a ascending 升序,默认是 hard
date:a:w old first 以日期软升序排序 ascending weak
date:a old first (hard) 强制以日期升序排序 ascending (hard default)
question-answercount:d:w question answercount descending weak 问题回答数量 descending weak
question-datecreated:d question datecreated descending hard 问题创建日期 descending (hard default)
answer-upvotecount:d answer upvotecount descending hard 回答赞同数量 descending (hard default),每个回答都有点赞数和踩数,不知道具体用哪一个

问题-回答数(弱降序),问题-赞同数(强降序) 适用于知乎,stackexchange 等问答论坛。

使用 structured data 字段排序

显示搜索结果的结构化数据: Search features → Advanced → Websearch Settings → Structured Data in Results → Enable

如下图:

如果要使用 Answer → commentcount 来排序。

对应的 Key 可以是 answer-commentcount:danswer-commentcount:d:w, answer-commentcount:a, answer-commentcount:a:w

d 是 decending, a 是 ascending ,默认是 hard sort,可能损失相关性,后跟 :w 表示 weak sort

其他的一些可选 key

可以通过在搜索时添加 site:zhihu.com 来测试,是否生效。

第一个结果:datecreated :2021-11-21T03:28:59.000Z

第二个结果:datecreated :2021-09-01T06:27:08.000Z

第三个结果:datecreated :2021-08-23T20:29:29.000Z

博客类型的,如知乎专栏,cnblogs 在其结构化数据中都没有给出点赞数和踩数的字段,如果有的话,或许搜索结果的质量在排序后会好看些。

我之前一直没有搞明白实体的功能,后来随便加了几个,感觉还不错
这是我根据蓝点网的推荐和自己的使用体验添加的软件搜索引擎,欢迎大家随意试用:
https://cse.google.com/cse?cx=004877752207385365433:ehp04-v4ws0