知识库+嵌入模型+大模型

基于 embedding + 大语言模型（LLM）构建本地知识库系统，支持多格式文档处理与 RAG 智能问答，实现从数据解析、向量检索到语义生成的完整流程，已应用于用户诉求系统 访问网址、法律文书检索(沟通中)与个人笔记助手等多个场景。

flowchart TD
    A[文档导入<br>支持 PDF / Word / MD / Excel / PPT] --> B[文本抽取与清洗]
    B --> C[Embedding生成（如test_embedding_v3）]
    C --> D[向量存入 FAISS<br>支持多知识库]
    E[用户输入自然语言问题] --> F[相似片段向量检索]
    F --> G[构造Prompt + 上下文]
    G --> H[大语言模型生成回答]
    D --> F
    H --> I[输出答案与引用源]

项目介绍

🔥 项目背景

在面对碎片化、多格式、分散化的本地知识资料时，传统的检索方法难以提供语义理解能力，也无法统一管理不同来源的知识。尤其在个人知识管理、法律文书处理、垂直领域智能问答等场景中：

❌ 无法跨格式搜索（PDF、Word、Markdown等）；
❌ 检索结果仅基于关键词，语义不相关内容干扰严重；
❌ 用户无法通过自然语言直接提问并获得准确答案。

🚀 解决方案

本项目构建了一个本地私有化的知识库系统，基于嵌入向量 + 大语言模型（LLM），实现高质量、可扩展的文档理解与问答。

✅ 技术架构核心要点：

多格式文档解析支持：
- 自动提取并清洗 .md, .pdf, .docx, .xlsx, .pptx 等格式内容；
- 转换为结构化文本供后续向量化处理。
向量化 + 语义检索（Embedding + FAISS）：
- 使用 test_embedding_v3 等模型生成语义向量；
- 存入 FAISS 实现高速相似度检索，支持多知识库分隔管理。
RAG问答引擎（LLM结合）：
- 输入自然语言问题；
- 系统检索相关片段并构造提示词（prompt）；
- 调用 LLM（如 Qwen, ChatGLM, DeepSeek）生成准确响应。
应用场景拓展性强：
- 可复用于个人笔记问答、政务平台用户诉求检索、律师文档处理等垂直场景；
- 全流程本地化运行，保障数据私密性与可控性。

🌟 项目效果

📂 支持多格式输入，覆盖主流知识管理需求；
🔍 高语义相关度检索，远超关键词匹配效果；
🧠 问答式交互体验，更贴近用户提问习惯；
🔐 本地部署保障隐私，适配个人或企业场景；

💼 应用场景

✅ 堪村信息港用户诉求系统点击访问网址；
🔄 正在与某律所沟通中，拟将系统应用于法律文书语义检索与智能问答场景；
✅ 个人笔记语义问答助手。

ZYX HOME

Explorer