全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1181|回复: 0

[疑问] 开源的全文检索-sist2

[复制链接]
发表于 2021-6-3 16:56:48 | 显示全部楼层 |阅读模式
本帖最后由 mjj不是我 于 2021-6-3 16:58 编辑

github地址:https://github.com/simon987/sist2

demo:sist2.simon987.net

编译版本:
https://github.com/simon987/sist2/releases

用法:
https://github.com/simon987/sist2/blob/master/docs/USAGE.md
需求:
docker运行一个elasticsearch

步骤1:
扫描文档:-t 线程数;-name 索引名;path/documents 文档路径;path/documents.idx 索引路径

  1. ./sist2 scan -t 4 -q 1.0 --content-size 99900000000 --archive recurse --name "documents"  path/documents -o path/documents.idx
复制代码


增量扫描:path/updated_idx 增量更新路径
  1. ./sist2 scan -t 4 -q 1.0 --content-size 99900000000 --archive recurse --name "documents"  path/documents --incremental path/documents.idx/ -o path/updated_idx/
复制代码


步骤2:

强制删除elasticsearch索引并重新上传:--es-index es索引名
  1. ./sist2 index --force-reset --batch-size 1000 --es-url http://localhost:9200 --es-index sist2 path/documents.idx
复制代码


不删除旧索引并上传
  1. ./sist2 index --batch-size 1000 --es-url http://localhost:9200 --es-index sist2  path/documents.idx
复制代码


步骤3:
运行web服务:name:password 设置web服务的用户名和密码(可选,如果不需要,删除此命令);path/documents.idx scan的索引路径,有几个路径写几个,路径之间需空格
  1. ./sist2 web --es-url http://localhost:9200 --es-index sist2 --auth name:password --bind 127.0.0.1:8888 path/documents.idx
复制代码


您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-10-26 21:23 , Processed in 0.082225 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表