NVIDIA Deep Learning Compute 是一支专注于“算法-软件-硬件”协同设计的 AI 加速团队。“让 AI 更快、更省、更具扩展性”是我们的使命。从模型创新,软件设计开发,直到芯片微架构,从底层算子到端到端系统,我们全栈打通,驱动 GPU 架构的持续演进。

岗位申请通过以下邮箱投递:
sh-recruitment@nvidia.com
以下社招岗位工作地点为:北京或上海
JR2009042
Deep Learning Performance Architect
- 出色的 C 或 C++ 编程和软件设计能力
- 具备 Python 使用经验者优先
- 性能建模、性能分析、调试以及代码优化或有关 CPU 和 GPU 的架构知识
- 需要具备 GPU 编程经验(需具备 CUDA 或 OpenCL 相关知识)
JR2008612
Deep Learning Performance Architect
- 出色的 C 或 C++ 编程和软件构建能力
- 在内核开发及针对 GPU(或其他加速器)的性能优化方面的经验
- 熟悉常见的深度学习软件框架(例如 Torch、JAX、TensorFlow、TensorRT)以及流行的 AI 模型(例如 LLM 和 AI 生成内容模型)
- 熟悉并了解用于深度学习应用的硬件框架的相关知识和背景
JR2008606
Deep Learning Performance Architect
- 熟悉基于 GPU 或加速器的深度学习平台及软件栈
- 扎实的计算机架构基础
- 熟悉 LLM 或生成式 AI 的深度学习算法以及内核优化技术
- 系统架构设计及性能优化方面的经验
- 熟悉机器学习和深度学习框架
JR2007904
LLM Reinforcement Learning Framework Engineer
- 在强化学习领域拥有丰富的经验,并能将其应用于大型 LLM
- 数学和 AI 算法方面拥有深厚的基础,尤其擅长强化学习领域
- 在实际应用中成功运用强化学习算法的丰富经验
JR2007656
Senior Deep Learning Compiler Engineer - CUDA
- 出色的 C 或 C++ 编程和软件工程技能,有 ACM 背景者优先
- 扎实的计算机体系结构基础知识
- 具备很强的问题抽象能力和解决问题的方法论
- 需要具备扎实的编译器背景,包括 MLIR、TVM、Triton 和 LLVM 等方面的知识
JR2006912
Senior Manager, Deep Learning Performance Architecture
- 拥有 10 年以上软件开发经验,其中至少 6 年具备实际管理经验的软件工程师
- 扎实的软件设计基础以及对深度学习优化的深刻理解
JR2006086
Senior Infrastructure Software Engineer
- 精通包括 Python 在内的多种编程语言的编程技能
- 在分布式系统和集群管理堆栈(日志记录、监测、调度等)方面拥有深入的经验
- 具有持续集成和部署工具(例如 GitlabCI)的实际操作经验
- 出色的用户理解能力、在众多竞争请求中进行优先级排序的能力以及达成共识的能力
JR2003184
Deep Learning Performance Architect
- 在相关领域(例如性能模型和优化)拥有 4 年以上的工作经验将是一个加分项
- 熟悉深度学习平台架构(例如 GPU)
- 扎实的计算机体系结构背景
- 熟悉 LLM 或生成式 AI 深度学习算法
- 在系统性能或能源效率模型开发与分析方面的经验
- 熟悉机器学习和深度学习框架
JR2005687
Senior LLM Train Framework Engineer
- 具备使用 AI 训练框架(例如 PyTorch、JAX)的经验,以及或具备推理和部署环境(例如 TensorRT-LLM、vLLM、SGLang)的相关经验
- 熟练掌握分散式教学方法
- 精通 Python 编程、软件开发、调试、性能分析、测试编写以及文档编制
- 具备 CUDA 或集体编程技能是一个很大的优势
- 在多个工程项目中持续展现出高效工作的表现,并通过新的创新手段改进了 AI 库
- 对 AI 或深度学习的基本原理及其实际应用有着深刻的理解
JR2004388
Deep Learning Performance Software Engineer
- 出色的 C 或 C++ 编程和软件设计能力
- 具备 Python 使用经验者优先
- MLIR 使用体验良好
- AI 代理具有优势
- 性能建模、性能分析、调试以及代码优化或有关 CPU 和 GPU 的架构知识
- 需要具备 GPU 编程经验(使用 CUDA 或 OpenCL)
- 3 年相关工作经验
JR2004376
Deep Learning Performance Software Engineer
- 在相关领域(例如性能模型和优化)拥有 4 年以上的工作经验将是一个加分项
- 熟悉深度学习平台架构(例如 GPU)
- 扎实的计算机体系结构背景
- 熟悉 LLM 或生成式 AI 深度学习算法
- 在系统性能或能源效率模型开发与分析方面的经验
- 熟悉机器学习和深度学习框架
JR2004267
Senior Performance Software Engineer, Deep Learning Libraries
- 2 年以上相关行业工作经验
- 展现出了出色的 C++ 编程和软件设计能力,包括调试、性能分析以及测试设计等方面
- 具备以性能为导向的并行编程经验,即便并非在图形处理器上进行(例如使用 OpenMP 或 pthreads)
- 对计算机架构有深入的理解,并且具备一定的汇编编程经验
JR2003400
Deep Learning Performance Architect - Perf Tools
- 4 年以上的软件开发经验
- 出色的软件设计能力、编程能力(精通 C++ 或 Python),以及在底层程序中的分析和调试能力
- 对计算机架构(流水线、内存层次结构)以及操作系统基础知识有深入的理解
- 具备性能建模、架构模拟、性能分析及评估方面的经验
JR2005883
Deep Learning Performance Architect
- 出色的 C 或 C++ 编程和软件设计能力
- 具备 Python 使用经验者优先
- 性能建模、性能分析、调试以及代码优化或有关 CPU 和 GPU 的架构知识
- 需要具备 GPU 编程经验(使用 CUDA 或 OpenCL)
- 3 年以上相关工作经验
JR2002836
Software Engineer, cuDNN - Deep Learning
- 具备 C 或 C++ 开发的强编程技能,有 CUDA 开发的工作经验,并熟悉 Python
- 对线性代数有很好的理解
- 熟悉机器学习的最新趋势
- 具有设计高级软件架构的经验
- 良好的问题解决能力,包括算法和数据结构的应用
- 具有性能分析、性能剖析和代码优化方面的经验
JR1978683
Senior AI Training Performance Engineer
- 计算机科学、电子工程或计算机与电子工程相关专业博士学位(或同等经验)且有 5 年以上工作经验;或硕士学位且有 4 年以上相关工作经验
- 在深度学习和神经网络方面有扎实的背景,尤其是训练方面
- 对计算机架构有深入的理解,并熟悉 GPU 架构的基础知识
- 具备分析和优化应用程序性能的丰富经验
- 具有处理器和系统级性能建模方面的经验
- 具备 C++、Python 和 CUDA 编程技能
JR2003166
AI Computing Performance Architect, Perf Analysis and Kernel Dev
- 4 年以上 GPU 编程或深度学习应用性能优化的行业经验
- 具备开发和优化通用矩阵乘法(GEMM)内核的实践经验
- 在分析和提升 GPU 内核性能方面有实际经验,并取得了可衡量的成果(例如性能提升、效率提高)
- 精通用于 GPU 加速的 CUDA 编程
- 具有性能分析工具(例如 NVIDIA Nsight)的使用经验
JR1997399
AI Computing Development Engineer, TensorRT-LLM
- 2 年以上相关软件开发经验
- 出色的 C 或 C++ 或 Python 编程及软件设计能力,包括调试、性能分析和测试设计
- 对 AI 有着浓厚的兴趣,对深度学习(例如 LLM、生成模型等)的最新发展有所了解
- 拥有使用深度学习框架(例如 PyTorch、TensorRT-LLM、NeMo、vLLM)的工作经验
JR1997648
Infrastructure Software Engineer, Deep Learning Libraries
- 具备扎实的 Python(或其他类似语言)编程技能,并熟悉 C 或 C++ 开发
- 具备搭建、维护及自动化持续集成系统(例如 Jenkins)的经验
- 精通软件配置管理工具(例如 Git、Perforce)和构建系统(例如 Make、CMake、Bazel)
JR1999021
Infrastructure Software Engineer, Deep Learning Libraries
- 3 年以上相关工作经验
- 具备扎实的 Python(或其他类似语言)编程技能,并熟悉 C 或 C++ 开发
- 具备搭建、维护以及自动化持续集成系统(例如 Jenkins、GitHub Actions、GitLab 管道、Azure DevOps)的能力
- 精通软件配置管理工具(例如 Git、Perforce)和构建系统(例如 Make、CMake、Bazel)
JR2003871
Senior AI Infrastructure Software Engineer
- 具备高级的 Python 技能(必须具备),丰富的 JavaScript 经验,以及深厚的软件工程原理、面向对象编程或函数式编程以及编写高性能、可维护代码的知识
- 在实际生产环境中,具备出色的微服务、网络应用程序、SQL 和 NoSQL 数据库(特别是 MongoDB 和 Redis)的构建能力,且能够运用容器、Kubernetes 和 CI、CD 工具进行开发
- 在分布式消息系统(例如 Kafka)方面拥有丰富经验,并且能够将事件驱动或解耦架构融入到强大的企业解决方案中
- 在实际操作中整合和优化 LLM 或智能代理框架(例如 LangChain、LangGraph、AutoGen、OpenAI 函数、RAG、向量数据库、及时工程)的经验
应届生与实习生招聘岗位
岗位申请通过以下邮箱投递:
campuscn@nvidia.com
以下应届生与实习生招聘岗位工作地点为:北京或上海
JR2007916
Deep Learning Performance Architect - New College Grad 2026
JR2006158
Deep Learning Performance Architect - Intern - 2026
Deep Learning Performance Architect
- 深入理解软硬件性能分析方法,并有优化性能经验
- 熟悉并行编程模型或 CUDA
- 了解常用 AI 编译技术(例如 OpenAI Triton、MLIR、TVM 等)
- 熟悉主流 LLM 框架(vLLM、SGLang、TensorRT-LLM)
JR2007090
Deep Learning Performance Architect - New College Grad 2026
JR2006236
Computer Architecture Intern - LLM, 2026
JR2006158
Deep Learning Performance Architect - Intern - 2026
JR2006721
Computer Architecture Intern – 2026
Deep Learning Performance Architect
- 扎实的计算机系统知识背景,以及数理逻辑能力
- 对大模型场景的推理优化工作有直接的相关经验,包括但不限于TensorRT LLM、vLLM、SGLang、MLC LLM、LLama.cpp 等
- L3 有模型系统联合优化的技术经验,包括但不限于低比特量化,speculative decoding、sparse attention、模型压缩等
NVIDIA DevTech Compute APAC – 计算专家团队
我们是一支“懂数学、懂芯片、懂应用”的工程师队伍,分布在北京、上海、深圳、台北、首尔、悉尼,拥有超过 100 名工程师。我们坚持性能剖析导向优化,基于真实工作负载做协同设计,并在过去十多年里与国内外领先公司合作,共同发现、优化并推进了众多关键计算方向。
岗位申请通过以下邮箱投递:
sh-recruitment@nvidia.com
以下社招岗位工作地点为:
上海、北京或深圳
社招岗位
JR2005689
Developer Technology Engineer – LLM
- 具备大规模 LLM 训练或推理方面的经验,包括 LLM 框架的开发以及性能优化
- 具备并行编程经验者优先,理想情况下需具备 CUDA C 或 C++ 编程能力
- 出色的沟通和组织能力,具备逻辑清晰的解决问题思路,良好的时间管理和任务优先级安排能力
JR2005874
Developer Technology Engineer - AI
- 3 年以上工作经验,熟练掌握 C 或 C++ 或 Python 编程语言,对软件设计、编程技术和算法有深刻的理解
- 拥有 2 年以上基于 LLM 的训练框架开发及性能优化方面的经验
- 扎实的数学基础,包括线性代数和数值方法
- 具备并行编程经验,优先考虑熟悉 CUDA C 或 C++ 的申请者
JR2005877
Developer Technology Engineer - AI
- 需要至少 2 年的工作经验
- 精通 C 或 C++ 或 Fortran 语言
- 对软件设计、编程技术和算法有深入的了解
- 在 LLM 的训练和推理优化方面拥有专业知识,包括但不限于在分布式训练和推理、NCCL、NVSHMEM、IB、RoCE 等方面的开发和优化经验
- 扎实的数学基础,包括线性代数和数值方法
- 具备并行编程经验者优先,理想情况下需熟悉 CUDA C 或 C++ 和 OpenACC 语言
岗位申请通过以下邮箱投递:
campuscn@nvidia.com
以下应届生与实习生招聘岗位工作地点为:北京或上海
应届生与实习生招聘岗位
JR2007764
Developer Technology Engineer - AI, New College Graduate 2026
JR2007832
Developer Technology Engineer - AI, New College Grad 2026
JR2007816
Developer Technology Engineer - AI, New College Grad 2026
JR2006910
AI Developer Technology Engineer Intern, CUDA - 2026
JR2006904
Developer Technology Engineer Intern - 2026
Developer Technology Engineer
- 具备 LLM 训练或推理方面的经验,包括 LLM 框架的开发以及性能优化
- 具备并行编程经验者优先,理想情况下需具备 CUDA C 或 C++ 编程能力
- 出色的沟通和组织能力,具备逻辑清晰的解决问题思路,良好的时间管理和任务优先级安排能力
JR2007742
Developer Technology Engineer - New College Grad 2026
Developer Technology Engineer
- 具备使用一种或多种物理仿真工具(例如 MuJoCo、Isaac Sim、PyBullet、Drake 或 Gazebo)的实际经验
- 曾参与具身智能(Embodied AI)相关项目,或在专注于物理仿真的仿人机器人公司具有工作经历
- 熟悉 C++、CUDA、Python 和 Linux
GTC 2026 将于 2026 年 3 月 16 至 19 日在美国加州圣何塞及线上同步举行,点击链接立即注册线上大会或购买现场参会门票。
注册参加 AI 大会 | 2026 年 3 月 16 — 19 日 | NVIDIA GTC 圣何塞及线上