GraphRAG 烧 token 太贵？港大开源 LightRAG 图谱 RAG 神器

核心价值：香港大学 HKUDS 实验室开源的知识图谱 RAG 框架，已被 EMNLP 2025 顶会收录，被公认为 Microsoft GraphRAG 的"轻量高效替代方案"。
还在为 GraphRAG 慢、社区报告消耗大量 token 而头疼？LightRAG 用"图谱+向量"双层架构，单跳检索即可获得高质量答案，索引和查询阶段的 LLM 调用成本显著降低，已成为 2025 年最值得关注的中文 RAG 开源项目之一。

LightRAG（项目名 lightrag-hku）是香港大学数据智能系统实验室（HKUDS） 于 2024 年开源的轻量级、基于知识图谱的检索增强生成（RAG）框架，论文《LightRAG: Simple and Fast Retrieval-Augmented Generation》（arXiv 2410.05779）已被 EMNLP 2025 接收。

它在 GitHub 已收获上万 Star，定位是 Microsoft GraphRAG 的高效替代方案。核心创新是双层架构：同时管理知识图谱（KG）和向量嵌入，桥接传统基于向量的 RAG 与基于图谱的 RAG 之间的鸿沟——既保留向量检索的"细节事实能力"，又获得图谱检索的"全局抽象能力"。

核心定位：让 RAG 同时具备"细节事实回答"与"跨文档抽象总结"能力，索引与查询阶段的 LLM 调用成本比 GraphRAG 显著降低。

✨ 核心功能一览

双层检索架构（架构图）

LightRAG 通过图结构索引捕捉实体间复杂语义依赖：先用 LLM 从文档中抽取实体和关系，构建知识图谱；查询时同时在图谱和向量空间进行检索，最后合并生成答案。

双层检索的关键优势：

1. 高层级检索（global）：聚焦宏观主题、跨文档推理、实体间深层关系——例如"公司近三年的战略演变"
2. 低层级检索（local）：聚焦本地上下文与具体实体的精确匹配——例如"某个产品功能的发布日期"
3. 五种查询模式自由切换：local / global / hybrid / naive / mix（默认），覆盖从精确问答到抽象总结的全场景
4. 不依赖低效的社区报告或多跳推理：相比 GraphRAG 大幅减少 LLM 调用次数
5. 增量更新：新文档通过标准图索引管道生成局部图，与现有图集合并，无需重建全局索引

️ 快速上手：5 分钟跑通示例

方式一：从 PyPI 安装（推荐）

# 1. 安装 uv（包管理器）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装 LightRAG Server
uv tool install "lightrag-hku[api]"

# 3. 构建前端资源
git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG/lightrag_webui
bun install --frozen-lockfile
bun run build
cd ..

# 4. 配置环境变量
cp env.example .env
# 编辑 .env 配置 LLM 和 Embedding（OPENAI_API_KEY / 模型名等）

# 5. 启动服务
lightrag-server

方式二：Docker Compose 一键部署

git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG
cp env.example .env
# 编辑 .env 填入 OPENAI_API_KEY 等
docker compose up

方式三：SDK 模式 Demo

export OPENAI_API_KEY="sk-..."
curl https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt > ./book.txt
python examples/lightrag_openai_demo.py

注意：v1.5+ 已原生集成 MinerU / Docling 解析引擎，无需额外安装即可处理 PDF、图片、Office 文档、表格、公式等多模态内容。

核心代码示例

Python SDK 一行代码插入文档 + 查询：

import asyncio
from lightrag import LightRAG, QueryParam

async def main():
    # 初始化 RAG 实例（指定工作目录 + LLM/Embedding 配置）
    rag = LightRAG(
        working_dir="./dickens",
        llm_model_func=gpt_4o_mini_complete,
        embedding_func=openai_embedding,
    )

    # 初始化存储（首次运行必需）
    await rag.initialize_storages()

    # 插入文档（自动抽取实体 + 构建知识图谱）
    with open("./book.txt", "r", encoding="utf-8") as f:
        await rag.ainsert(f.read())

    # 四种查询模式自由切换
    # local：聚焦本地上下文与精确实体匹配
    result_local = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="local")
    )

    # global：聚焦宏观主题与跨文档推理
    result_global = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="global")
    )

    # mix（默认）：合并 local + global + naive 三种结果
    result_mix = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="mix")
    )

    print(result_mix)

asyncio.run(main())

REST API 远程调用：

# 上传文档
curl -X POST "http://localhost:9621/documents/upload" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@./report.pdf"

# 查询（指定模式）
curl -X POST "http://localhost:9621/query" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "公司近三年的核心战略是什么？",
    "mode": "mix",
    "top_k": 10
  }'

与竞品对比

论文实验数据（LightRAG vs NaiveRAG / RQ-RAG / HyDE / GraphRAG 综合胜率）：

评估领域vs NaiveRAGvs RQ-RAGvs HyDEvs GraphRAGAgriculture（农业）67.6%67.6%75.2%54.8%CS（计算机科学）61.2%62.0%58.4%52.0%Legal（法律）84.8%85.6%73.6%52.8%Mix（混合）60.0%60.0%57.6%50.4%

关键发现：LightRAG 在四个领域对 NaiveRAG / RQ-RAG / HyDE 全面领先（Legal 领域胜率最高达 85.6%），相比 GraphRAG 全面小幅胜出，但在 Diversity（多样性）指标上有显著优势（最高 77.2%）。

适用场景

场景 1：WebUI 一键管理知识库

LightRAG 提供完整的 React 19 + TypeScript + Vite 现代化 Web 仪表板，支持文档上传、知识图谱可视化、检索测试与多语言界面。

功能说明：

• Document Manager：表格化管理文档生命周期，支持 PDF/DOCX/代码/文本等多种格式上传
• Knowledge Graph Viewer：基于 Sigma.js + Graphology 的 WebGL 知识图谱可视化，支持节点搜索、子图展开、实体属性编辑
• Retrieval Testing：实时测试所有查询模式，响应支持完整 Markdown + LaTeX（KaTeX）+ Mermaid 图
• Settings & i18n：10+ 语言支持（EN/ZH/FR/AR/KO/JA/DE/RU/UK/VI）

适用场景：企业内部知识库搭建、技术文档问答系统、客服知识库管理。

场景 2：法律 / 金融领域深度文档检索

Legal 领域胜率高达 85.6% 是 LightRAG 的王牌场景，特别适合需要从长篇合同、判例书、研究报告中提取精确事实并关联实体关系。

功能说明：

• 法律文档往往涉及大量跨条款引用、判例对照、当事人关系——传统向量检索容易丢关联
• LightRAG 的图谱索引能捕捉"合同-当事人-标的-时间"等结构化关系，召回率显著高于纯向量方案
• 支持多语言（中英日韩俄乌越阿等 10+ 语言），跨境法律检索同样适用

适用场景：律师事务所知识库、金融研报问答系统、跨境合规文档检索。

场景 3：多模态企业文档 RAG

v1.5+ 集成 MinerU / Docling 解析引擎，原生支持 PDF、图片、Office 文档、表格、公式等多模态内容。

功能说明：

• 直接上传 PDF 财报，系统自动抽取文字、表格、图片说明
• 结合 OCR + 图谱索引，财报中的"业务板块-营收-地区"等结构化关系可被图谱准确捕捉
• 与 GraphRAG 相比，无需为多模态内容额外安装解析插件，开箱即用

输入要求：PDF / DOCX / PPTX / 图片（JPG/PNG）等常见格式 输出效果：知识图谱 + 向量索引 + 完整回答，支持多模态上下文 适用场景：企业财报检索、医学文献 RAG、跨境电商商品资料问答。

用户群体总结

• ✅ 企业 AI 应用开发者：需要快速搭建私有 RAG 知识库，避免云端 API 成本
• ✅ 法律 / 金融 / 医疗领域研究员：需要从长篇专业文档中提取精确实体关系
• ✅ AI 应用产品经理：需要开箱即用的 WebUI + REST API，减少前端开发工作量
• ✅ 开源 AI 爱好者：想体验知识图谱 RAG 但不愿忍受 GraphRAG 的高 token 消耗
• ❌ 不适合：纯聊天场景（无文档检索需求）、超大规模图谱（> 100 万实体需自行优化存储后端）

定价方案

完全免费开源，MIT 协议。

项目说明开源协议MIT License使用成本仅需支付 LLM API 调用费用（如 OpenAI / DeepSeek / Ollama 本地模型）本地部署完全免费，无需任何云服务依赖社区支持Discord / 微信群 / GitHub Issues 免费答疑

推荐搭配 Ollama 本地部署：使用 qwen3 / llama3 等开源模型，可完全离线运行 RAG，零 API 费用。

总结

LightRAG 是 2025 年最值得关注的开源 RAG 框架之一，凭借双层检索架构 + 五种查询模式 + 多模态文档解析 + 完整 WebUI，在保证高质量答案的同时显著降低了 LLM 调用成本。无论是企业内部知识库、法律文档检索，还是跨境电商资料问答，LightRAG 都提供了开箱即用的解决方案。

推荐指数： ⭐⭐⭐⭐⭐（满分5星）

适合人群： AI 应用开发者、法律/金融领域研究员、企业产品经理、开源 AI 爱好者

立即体验： LightRAG GitHub 仓库 | arXiv 论文

数据截至 2026-06-24，最新信息请以 HKUDS/LightRAG 官方仓库为准。

展开阅读全文

更新时间：2026-06-26

标签：科技神器图谱文档向量实体场景索引知识库知识领域关系

1 2 3 4 5