我推广下白名单,而不是黑名单,黑名单是无限的。白名单可以是有限的,以有限的精力去维护有限的白名单,这种过滤工具总是有的,白名单却很少变化。对于一个新的工具,如果规则不同,那就写个脚本对名单重新整理下即可。
对应的名单及配置见:
我推广下白名单,而不是黑名单,黑名单是无限的。白名单可以是有限的,以有限的精力去维护有限的白名单,这种过滤工具总是有的,白名单却很少变化。对于一个新的工具,如果规则不同,那就写个脚本对名单重新整理下即可。
对应的名单及配置见:
这在一定程度上实现了书签的功能。如软件下载站,如果有人持续保持对这个列表进行更新,那就不需要去搜集和收藏这些网站了。
Blacklist 一直都在用。不过要从根本上解决这种问题,还是需要搜索引擎自己对这类垃圾进行过滤,单靠第三方工作量太大和效率太低。从目前来看,Google中文搜索基本是放任没人管的状态,各种内容农场把搜索结果污染的乱七八糟,cn.Bing 相对好点。而英文搜索结果几乎很少出现垃圾内容。
Google 在 06 年就推出了 google 可编程搜索(白名单搜索)。cse.google.com
白名单搜索的需求肯定是在 06 年之前就有了的。不知道为什么,没人推广。
我已经将整理的域名 https://github.com/bcaso/Google-Chinese-Results-Whitelist/blob/main/whitelists/domain_name.txt
添加至:https://cse.google.com/cse?cx=e9a1e480e37a86080&q=
已经可以用来代替默认的搜索引擎了。
搜索质量还不错。
我觉得这个想法很赞!
那还有图片什么的,你用开源的searx不是更好吗
比如你要搜索图片的时候,你不要说你从不搜索图片,那当我没说。
你站点是设置了,但是我要横向对比内容怎么办呢?我需要在图片结果,sns结果切换,你怎么办?
白名单搜索本身就意味者“不全面”,切换下搜索引擎就可以了。
但是我不能因此去修改白名单的内容。
你最好就别说,每次有人解决了 A 问题,你就追着问为啥没能解决 B 问题。
为什么不带帽子呢???
这个不是全面的问题,因为现在的多媒体本来就是这样,google也会显示图片和影片的结果,哪怕你只搜索网页,更不要说我要横向对比多个搜索引擎,或者混合多个同类搜索结果。
白名单站点是一种办法,但是上限太低。
其实google,微软等大公司失败的项目也很多,不好用没什么奇怪的。
这搜索引擎的功能很强大。
可以自定义排序,或对指定关键词设置对应的结果:
如下图中的第一个条:
挺好玩的,哈哈。。
添加实体功能来过滤内容,使关键词搜索到的结果符使某个实体:
假如添加了以上5个“实体”,那当我搜索“辱骂”这个词时给出的结果将会是:
假如不添加“实体”以限制关键词对应的领域,那结果将会是:
一般给出的都是与新闻热点内容。
效果很明显。
两个搜索结果中,知乎都是在首位,但给出的关键词对应的方向不同。
自定义排序:
只做一般排序:在 annotations.xml 中为每一个 Annotation 的 Label 添加 score 属性,值同样是 from -1.0 to 1.0.
高级排序(双重排序):
先用 weight 对 Label 排序,会影响到每个 Label 对应的 url,再通过 score 对指定 label 下的 url 进行微调,Label 内部的排序。
广告过滤:
写个简单的 html, 在 css 中添加:
.gsc-adBlock {display:none !important}
把这个 html 放在服务器上,内网中的设备就都可以使用了。
在新标签页中打开搜索结果:
CSE control panel > Search Features > Advanced > Web Search settings > Link Target section:
设置为 blank
https://support.google.com/programmable-search/answer/3037004
你自己搭建一个不就完了?
https://www.mygg.workers.dev/
用于搜索结果的右侧下拉框。
Search features → Advanced → Results sorting
当点击 Add key 按钮时,在弹出的窗口中填入两个字段,Key 和 Label。其中 Key 是排序的代码,带有星号的 Label 是显示出的提示文字。
key | label | description |
---|---|---|
date | Date | 以日期降序排序,默认就有的 key |
relevance | 以相关性排序,key 是 relevance,但必须留空,默认就有的 key | |
date-sdate:a |
date 强升序 | date 是排序方式,sdate 是网页中实际使用的用来描述 date 的变量名,:a ascending 升序,默认是 hard |
date:a:w |
old first | 以日期软升序排序 ascending weak |
date:a |
old first (hard) | 强制以日期升序排序 ascending (hard default) |
question-answercount:d:w |
question answercount descending weak | 问题回答数量 descending weak |
question-datecreated:d |
question datecreated descending hard | 问题创建日期 descending (hard default) |
answer-upvotecount:d |
answer upvotecount descending hard | 回答赞同数量 descending (hard default),每个回答都有点赞数和踩数,不知道具体用哪一个 |
问题-回答数(弱降序),问题-赞同数(强降序) 适用于知乎,stackexchange 等问答论坛。
使用 structured data 字段排序
显示搜索结果的结构化数据: Search features → Advanced → Websearch Settings → Structured Data in Results → Enable
如下图:
如果要使用 Answer → commentcount 来排序。
对应的 Key 可以是 answer-commentcount:d
或 answer-commentcount:d:w
, answer-commentcount:a
, answer-commentcount:a:w
d 是 decending, a 是 ascending ,默认是 hard sort,可能损失相关性,后跟 :w
表示 weak sort
可以通过在搜索时添加 site:zhihu.com
来测试,是否生效。
第一个结果:datecreated :2021-11-21T03:28:59.000Z
第二个结果:datecreated :2021-09-01T06:27:08.000Z
第三个结果:datecreated :2021-08-23T20:29:29.000Z
博客类型的,如知乎专栏,cnblogs 在其结构化数据中都没有给出点赞数和踩数的字段,如果有的话,或许搜索结果的质量在排序后会好看些。
我之前一直没有搞明白实体的功能,后来随便加了几个,感觉还不错
这是我根据蓝点网的推荐和自己的使用体验添加的软件搜索引擎,欢迎大家随意试用:
https://cse.google.com/cse?cx=004877752207385365433:ehp04-v4ws0