秘塔的准确度,比preplexity差几条街,而且慢,至少目前不好用,期待做的更好吧。
关于多搜索结果的聚合:
- preplexity我不太了解,不过秘塔确实效果不太好。
- 确实应该融合之后有一定的规则罗列,比如最匹配的,简单聚合还不如直接用个单一的。
关于本地数据:
- 是否用索引?如果用则索引文件体积很大,如果不用则搜索很费时。
- 来源不是问题,问题是类型,保存哪些信息以供搜索。图片肯定要上识别,那保存什么内容?仅仅图片中的文字可能意义不大,有些还没有。音频保存哪些内容?歌词人声只是一部分,有些还没有。至于视频,感觉更复杂了。
- 采集之后以何种形式保存?纯文本、富文本还是多媒体?这个决定了之后怎么搜索。
- 我觉得分散是个问题,但是上面的问题可能更大。其实如果排除了各种格式和编码,Everything已经解决了纯文本文件的情形,实现了文件名和全文的无索引搜索。
1 个赞
感觉想法不错。有一点疑问,就是本地私有数据是全部要上云,还是只是留在本地?
那就挂Listary
想要的是获取互联网上所有相关的信息,不止是获取本机已有的信息
我突然有一个想法,用户可以先预设选择一些搜索的渠道,比如:
- 通用搜索引擎(Google, Bing等)
- 垂类网站(Zlib, Stackoverflow, Github, 图片网站, 视频网站, 网盘搜索引擎等等)
- 用户个人渠道(聊天记录, Tg群组, 个人网盘, 代码库等)
现在可以借助生成式ai的能力,解析用户的查询指令,然后根据模型返回的结果,调用相应的渠道进行检索,暂时不考虑个人渠道的话,检索可以直接在用户端进行,比如做出一个浏览器插件,然后直接利用用户的cookie进行检索。并且统一在一个地方进行展示,还可以对搜索到的内容进行总结。
例如:

这个userscript接近你想要的:
这样做类似于原先的二箱,但是往后反爬只会越来越严,加上这样做掐断了搜索引擎的广告收入,除非有人专门维护,否则做出来也不可能持久的。你看二箱现在不就全失效了
搜索酱有个alt+shift同屏搜索,可以试试。

searx就是這樣的,可以自己寫插件,但是很多搜索引擎有反爬呀。你得解決人機驗證、cc安防等問題
我也在想这个问题,有的网站反爬比较严格,还有人机验证不好解决,可能在用户端直接发起搜索会好一些
主要问题是这样动到搜索引擎网站的蛋糕了。即使能成,也不能长久。
1 个赞
也有道理,算了,作罢了,自己也没有插件开发经验
,靠AI写也不太靠谱,看下有没有人愿意实现了