当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

风火轮又出新品啦——YY3588



YY3588是风火轮打造的一款高性能AIoT开发板,AIoT即Artificial Intelligence of Things,指的是人工智能技术与物联网的融合应用,以实现万物智联。

随着大模型轻量化技术的突破,边缘设备运行百亿参数级模型成为可能。本文以瑞芯微RK3588旗舰开发板YY3588为硬件平台,实测其在部署深度求索(DeepSeek)系列模型的性能表现,探索大模型在边缘计算场景的落地潜力。


一、硬件与软件环境配置

1.1 YY3588开发板基础配置

1.1.1 核心硬件

-NVMe SSD 512GB(扩展至PCIe 3.0×4接口)

开发板提供了灵活的内存和存储配置选项。内存方面,支持多种规格的LPDDR4内存,最高可达16GB,满足了不同应用场景的需求。存储方面,则提供了eMMC、SATA SSD以及MicroSD卡槽等多种选择,最大可支持256GB的eMMC存储,确保了足够的数据存储空间。

1.1.2 软件栈


二、DeepSeek模型部署

2.1 模型选择与优化

- 模型体积缩减至1.2GB(压缩率72%)

- 内存占用量从12GB降至3.8GB




2.2 Deepseek-R1 1.5b 大模型部署关键步骤

2.2.1 ubuntu22.04 主机环境搭建

# 下载rknn-llm
 git clone https://github.com/airockchip/rknn-llm.git

# 安装 miniforge3 和 conda
wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh
chmod 777 Miniforge3-Linux-x86_64.sh
./Miniforge3-Linux-x86_64.sh

## 确认是否安装成功
conda -V


2.2.2 创建 RKLLM-Toolkit Conda 环境

source ~/miniforge3/bin/activate
conda create -n RKLLM-Toolkit python=3.8
conda activate RKLLM-Toolkit
pip3 install rkllm-toolkit/packages/rkllm_toolkit-1.1.4-cp38-cp38-linux_x86_64.whl
# 检查是否安装成功(无报错则安装成功)
python


2.2.3 DeepSeek-R1-1.5B HunggingFace转换成RKLLM模型

2.2.3.1 下载模型及转换模型

cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/export/
python export_rkllm.py

转换之后的模型为:
DeepSeek-R1-Distill-Qwen-1.5B.rkllm


2.2.3.2 编译库和demo

cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/
bash build-linux.sh
rknn-llm/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/install/demo_Linux_aarch64$ ls
lib  llm_demo


2.2.4 在板端运行模型

将库、demo和转换模型推送到板端

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:./lib
export RKLLM_LOG_LEVEL=1
./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000


2.2.4.1 相关资料下载


2.2.4.2 运行过程截图及视频链接

三、性能实测对比

3.1 推理速度测试(输入长度256 tokens)

运行模式

首token延迟

吞吐量 (tokens/s)

功耗

CPU(A76四核)

850ms

4.2

8.1

GPU(Mali-G610)

420ms

9.8

6.5

NPU(INT8量化)

220ms

18.5

4.3


3.2 极限压力测试

- 资源占用:NPU 85% / 内存 12GB / 温度72℃

- 响应延迟波动:±15%(优于Xavier NX表现)

- 显存管理:通过mmap实现分块加载,避免OOM

四、典型应用场景验证

4.1. 智能客服系统

- 响应时间:平均1.2秒/轮(含网络传输)

- 准确率:88.7%(对比云端API的92.1%)

- 断网环境下仍可维持基础服务

4.2 本地化知识库检索

4.2.1 架构设计:

```mermaid

graph LR

A[用户提问] --> B(Embedding模型)

B --> C[FAISS向量库]

C --> D[DeepSeek生成答案]

D --> E[输出响应]

```

4.2.2 性能表现:

- 百万级文档检索延迟:<300ms

- 支持RAG增强生成模式

五、横向对比与场景建议

对比项

YY3588+DeepSeek

树莓派5+Llama 2-7B

Jetson Orin+DeepSeek

单次推理功耗

4.3W

7.8W

12.3W

tokens/¥能耗比

428

196

315

典型适用场景

企业级边缘推理网关

教育/轻量级实验

高性能机器人主控


六、总结

YY3588与DeepSeek的组合验证了边缘端大模型部署的可行性,其NPU与软件栈的深度协同优化展现了国产芯片生态的进步。尽管在超长文本处理和超大规模模型支持上仍有局限,但已足够打开智能终端设备的新想象空间。

展开阅读全文

更新时间:2025-05-09

标签:数码   模型   边缘   场景   内存   环境   风火轮   性能   硬件   功耗   测试

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top