先进行数据收集和处理
再向量化Embedding
后建立索引,这样就构建好知识库了

Embedding的 dense索引

给文本数据构建索引,首先要基于清洗好的数据切分成不同的chunk块,每个chunk块称作是一个doc,这是构建向量的最小单位,然后使用Embedding模型在doc上编码出向量,存储到Milvus中并建好向量索引,此时一个知识库就构建好了。

基于ES在每个知识库上构建倒排索引