【开发者自荐】【开源】网页搜索和内容检索工具

开发原因

一直以来自己有搜索文件内容的需求,尝试过各种软件,要么收费,要么不开源(不放心),要么界面不符心意(还不知道怎么改)。

加上在 开源稍后阅读工具 Omnivore 被收购,并将在本月底关闭 这个话题下有人跟我有同样的想法,觉得网页保存的还是保持网页格式比较好。

所以,做了 ctsearch 工具,全称是 ContentSearch,但是太长了,就缩写成 ctsearch

主要特点

  • Python语言,所有代码都是 AI 完成的
  • 界面就是网页,想变成什么样都可以通过修改 CSS 获得
  • 集成 webdav,可以用 singlefile 收藏网页,当作稍后阅读的工具

功能列表

  • 在输入框输入内容,再敲击 Enter 键即可搜索文件内容。
  • 在搜索结果页点击搜索结果,可以预览文件内容。仅在预览 Markdown 文件时会高亮搜索词。
  • 在输入框搜索 root:,会列出正在监控的文件夹。
  • 在输入框搜索 ls: xxx,会列出 “xxx” 文件夹内的文件。
  • 在搜索结果页点击Clear ,或不输入直接点击search图标,可以返回搜索主界面。
  • 在已经预览文件的前提下,点击 Clear 可以清除预览。
  • 在已经预览文件的前提下,点击 Delete 可以删除文件。删除后不可找回
  • 手机端网页使用时,右下角有 list 按钮,点击可以打开或关闭搜索结果列表。
  • 手机端网页使用时,在搜索结果页左滑或右滑,点击可以打开或关闭搜索结果列表。

缺点

  • 没有任何客户端
  • 内存占用 300 M+,不过它同时运行着 watchdog + Flask + webdav,好像也挺正常的
  • 作者比较懒,没有自己的需求估计懒得改代码。不过代码开源,丢给 AI 就能改。

补充图片


1 个赞

那么… 搜索速度呢?

有索引的,应该不慢。
我自己丢了几百个HTML进去,索引完了,搜索是毫秒级的。

html和markdown是纯文本的, 即使不索引通常也不会太慢.

主要想知道 docx 这类文档的速度.

好像,docx 和 pptx 的代码被我删了,等我处理一下 :sweat_smile:

2024-12-24 11:18:49,874 开始
2024-12-24 11:19:31,806 - INFO - Indexed 268 files.

文件来源:GitHub - zsmhub/document_template: 技术开发文档模板+生活相关模板
复制了 4 遍。总共1.44G,296个文件。
其中28个不支持的格式,一共解析了 268 个文件,共用时42秒。

有索引了,搜索全是毫秒出结果。

1 个赞