GraphRAG 烧 token 太贵?港大开源 LightRAG 图谱 RAG 神器

核心价值:香港大学 HKUDS 实验室开源的知识图谱 RAG 框架,已被 EMNLP 2025 顶会收录,被公认为 Microsoft GraphRAG 的"轻量高效替代方案"。

还在为 GraphRAG 慢、社区报告消耗大量 token 而头疼?LightRAG 用"图谱+向量"双层架构,单跳检索即可获得高质量答案,索引和查询阶段的 LLM 调用成本显著降低,已成为 2025 年最值得关注的中文 RAG 开源项目之一。


LightRAG(项目名 lightrag-hku)是香港大学数据智能系统实验室(HKUDS) 于 2024 年开源的轻量级、基于知识图谱的检索增强生成(RAG)框架,论文《LightRAG: Simple and Fast Retrieval-Augmented Generation》(arXiv 2410.05779)已被 EMNLP 2025 接收。

它在 GitHub 已收获上万 Star,定位是 Microsoft GraphRAG 的高效替代方案。核心创新是双层架构:同时管理知识图谱(KG)和向量嵌入,桥接传统基于向量的 RAG 与基于图谱的 RAG 之间的鸿沟——既保留向量检索的"细节事实能力",又获得图谱检索的"全局抽象能力"。

核心定位:让 RAG 同时具备"细节事实回答"与"跨文档抽象总结"能力,索引与查询阶段的 LLM 调用成本比 GraphRAG 显著降低。


✨ 核心功能一览


双层检索架构(架构图)

LightRAG 通过图结构索引捕捉实体间复杂语义依赖:先用 LLM 从文档中抽取实体和关系,构建知识图谱;查询时同时在图谱和向量空间进行检索,最后合并生成答案。

双层检索的关键优势

  1. 1. 高层级检索(global):聚焦宏观主题、跨文档推理、实体间深层关系——例如"公司近三年的战略演变"
  2. 2. 低层级检索(local):聚焦本地上下文与具体实体的精确匹配——例如"某个产品功能的发布日期"
  3. 3. 五种查询模式自由切换:local / global / hybrid / naive / mix(默认),覆盖从精确问答到抽象总结的全场景
  4. 4. 不依赖低效的社区报告或多跳推理:相比 GraphRAG 大幅减少 LLM 调用次数
  5. 5. 增量更新:新文档通过标准图索引管道生成局部图,与现有图集合并,无需重建全局索引

️ 快速上手:5 分钟跑通示例

方式一:从 PyPI 安装(推荐)

# 1. 安装 uv(包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装 LightRAG Server
uv tool install "lightrag-hku[api]"

# 3. 构建前端资源
git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG/lightrag_webui
bun install --frozen-lockfile
bun run build
cd ..

# 4. 配置环境变量
cp env.example .env
# 编辑 .env 配置 LLM 和 Embedding(OPENAI_API_KEY / 模型名等)

# 5. 启动服务
lightrag-server

方式二:Docker Compose 一键部署

git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG
cp env.example .env
# 编辑 .env 填入 OPENAI_API_KEY 等
docker compose up

方式三:SDK 模式 Demo

export OPENAI_API_KEY="sk-..."
curl https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt > ./book.txt
python examples/lightrag_openai_demo.py

注意:v1.5+ 已原生集成 MinerU / Docling 解析引擎,无需额外安装即可处理 PDF、图片、Office 文档、表格、公式等多模态内容。


核心代码示例

Python SDK 一行代码插入文档 + 查询

import asyncio
from lightrag import LightRAG, QueryParam

async def main():
    # 初始化 RAG 实例(指定工作目录 + LLM/Embedding 配置)
    rag = LightRAG(
        working_dir="./dickens",
        llm_model_func=gpt_4o_mini_complete,
        embedding_func=openai_embedding,
    )

    # 初始化存储(首次运行必需)
    await rag.initialize_storages()

    # 插入文档(自动抽取实体 + 构建知识图谱)
    with open("./book.txt", "r", encoding="utf-8") as f:
        await rag.ainsert(f.read())

    # 四种查询模式自由切换
    # local:聚焦本地上下文与精确实体匹配
    result_local = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="local")
    )

    # global:聚焦宏观主题与跨文档推理
    result_global = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="global")
    )

    # mix(默认):合并 local + global + naive 三种结果
    result_mix = await rag.aquery(
        "What are the top themes in this story?",
        param=QueryParam(mode="mix")
    )

    print(result_mix)

asyncio.run(main())

REST API 远程调用

# 上传文档
curl -X POST "http://localhost:9621/documents/upload" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@./report.pdf"

# 查询(指定模式)
curl -X POST "http://localhost:9621/query" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "公司近三年的核心战略是什么?",
    "mode": "mix",
    "top_k": 10
  }'

与竞品对比

论文实验数据(LightRAG vs NaiveRAG / RQ-RAG / HyDE / GraphRAG 综合胜率)

评估领域vs NaiveRAGvs RQ-RAGvs HyDEvs GraphRAGAgriculture(农业)67.6%67.6%75.2%54.8%CS(计算机科学)61.2%62.0%58.4%52.0%Legal(法律)84.8%85.6%73.6%52.8%Mix(混合)60.0%60.0%57.6%50.4%

关键发现:LightRAG 在四个领域对 NaiveRAG / RQ-RAG / HyDE 全面领先(Legal 领域胜率最高达 85.6%),相比 GraphRAG 全面小幅胜出,但在 Diversity(多样性)指标上有显著优势(最高 77.2%)。


适用场景

场景 1:WebUI 一键管理知识库

LightRAG 提供完整的 React 19 + TypeScript + Vite 现代化 Web 仪表板,支持文档上传、知识图谱可视化、检索测试与多语言界面。

功能说明

适用场景:企业内部知识库搭建、技术文档问答系统、客服知识库管理。


场景 2:法律 / 金融领域深度文档检索

Legal 领域胜率高达 85.6% 是 LightRAG 的王牌场景,特别适合需要从长篇合同、判例书、研究报告中提取精确事实并关联实体关系。

功能说明

适用场景:律师事务所知识库、金融研报问答系统、跨境合规文档检索。


场景 3:多模态企业文档 RAG

v1.5+ 集成 MinerU / Docling 解析引擎,原生支持 PDF、图片、Office 文档、表格、公式等多模态内容。

功能说明

输入要求:PDF / DOCX / PPTX / 图片(JPG/PNG)等常见格式 输出效果:知识图谱 + 向量索引 + 完整回答,支持多模态上下文 适用场景:企业财报检索、医学文献 RAG、跨境电商商品资料问答。


用户群体总结


定价方案

完全免费开源,MIT 协议。

项目说明开源协议MIT License使用成本仅需支付 LLM API 调用费用(如 OpenAI / DeepSeek / Ollama 本地模型)本地部署完全免费,无需任何云服务依赖社区支持Discord / 微信群 / GitHub Issues 免费答疑

推荐搭配 Ollama 本地部署:使用 qwen3 / llama3 等开源模型,可完全离线运行 RAG,零 API 费用。


总结

LightRAG 是 2025 年最值得关注的开源 RAG 框架之一,凭借双层检索架构 + 五种查询模式 + 多模态文档解析 + 完整 WebUI,在保证高质量答案的同时显著降低了 LLM 调用成本。无论是企业内部知识库、法律文档检索,还是跨境电商资料问答,LightRAG 都提供了开箱即用的解决方案。

推荐指数: ⭐⭐⭐⭐⭐(满分5星)

适合人群: AI 应用开发者、法律/金融领域研究员、企业产品经理、开源 AI 爱好者

立即体验: LightRAG GitHub 仓库 | arXiv 论文


数据截至 2026-06-24,最新信息请以 HKUDS/LightRAG 官方仓库为准。

展开阅读全文

更新时间:2026-06-26

标签:科技   神器   图谱   文档   向量   实体   场景   索引   知识库   知识   领域   关系

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top