南大王欣然与清华吴华强团队合作发Nature子刊

近日，南京大学王欣然教授团队与清华大学吴华强教授团队合作，提出基于二维半导体铁电晶体管的新型存内计算器件架构，通过调节铁电势阱，实现了同时满足AI训练和推理需求的底层器件，并展示了高达10³ TOPS/W级别的能效潜力。该成果突破了边缘端人工智能硬件的关键瓶颈之一。成果以「An in-memory computing architecture based on a duplex two-dimensional material structure for in situ machine learning」为题，于2023年3月20日在线发表于Nature Nanotechnology。

该工作由南京大学、南京邮电大学、苏州实验室、清华大学、香港理工大学等单位合作完成。南京大学王欣然教授、南京邮电大学于志浩教授、清华大学高滨副教授和吴华强教授为论文的共同通讯作者，南京大学博士生宁宏凯、温恒迪、南京邮电大学于志浩、清华大学张清天工程师和高滨为论文的共同第一作者。

研究背景

AI (人工智能)的历史，可以归纳为软件和硬件的协同发展史，即「强大硬件推动软件发展」和「复杂软件催生硬件革命」的交替迭代。如今，我们正处在「软催硬」的周期内。以最近大热的现象级AI应用ChatGPT为例，其算力可以达到每秒10¹⁹次计算操作（即10⁷ TOPS），而维持其夸张算力的基础是上万块最先进的GPU以及77,160 kWh日耗电量——超过了全球40%国家的日发电量！因此，基于冯诺依曼架构的GPU硬件将难以支撑AI技术的可持续性发展。实际上，人脑算力与GPT相当，功耗却仅为20W，能效比GPT采用的GPU高5个数量级。因此，发展高能效的类脑计算器件和架构势在必行。

研究进展

图1 训练-推理一体化更接近人脑的计算方式

受大脑存算一体特征的启发，存内计算架构近年来蓬勃发展，显著降低了「冯诺依曼」架构中数据传输的能耗与延迟，大幅提高了计算并行度和能效。在此基础上，更高维度的需求——训练和推理一体化，即「学」和「用」在同一硬件上实现（如图1所示的主动学习能力)，被认为是通向智慧终端的核心挑战。

图2 推理和训练过程对于存储器性能的不同要求

其中的瓶颈就在于，推理和训练过程对于存储器硬件本身的要求截然不同。从物理本质上看，两者好似鱼和熊掌一般不可兼得。如图2所示，推理的实际过程，是数据在权重矩阵中做批量的乘加运算，它要求存储器具有高势垒，器件上体现为长久的数据保持(Long data retention)，而不需要有很高精度的多态(Multi-state)；而训练过程，则是对权重矩阵中每一个节点进行更新，这要求存储器具有较低的势垒，器件上体现为极高的耐久性(High endurance)、极快的操作速度(High speed)和较小的翻转功耗(Low switch energy)。长久以来，由于这种制衡关系的存在，大家难以找到一种普适的存储器来实现训练-推理一体，这严重制约了AI硬件的发展。

图3 满足训练-推理一体的复式器件结构

在这项工作中，研究人员巧妙利用了铁电材料能量双阱曲线的可调性，并从「材料-物理-器件-电路-系统」的层面，逐级证明了这种可调性设计用于训练-推理一体特征的可行性。研究人员提出了一种「复式（Duplex）」的二维半导体铁电晶体管结构(如图3所示)，通过设计浮栅两侧铁电电容和介电电容的面积比例(Aғᴇ/Aᴅᴇ)，调控了铁电两端的分压比例，从而实现了对铁电能量双阱曲线的形态调节。Aғᴇ/Aᴅᴇ较大的栅极，能垒较低、铁电部分翻转、翻转功耗低(22.7 fJ/(bit μm²))、速度快(<4.8ns)、耐久性高 (>10¹³次翻转)，更适合用于AI训练；而Aғᴇ/Aᴅᴇ较小的栅极，能垒较高、铁电翻转较为彻底、数据保持长久(10年)，适合用于AI推理。

图4 基于TIIO阵列的原位训练和推理演示

在电路层面(如图4所示)，研究人员使用1个复式结构和2个开关晶体管组成了2T-1D的训练推理一体(Training-Inference-In-One, TIIO)单元，单元之间通过行列线组成crossbar结构的阵列，该阵列可以实现全模拟(即输入信号未通过数字化)的非线性分类任务。其中的训练和推理，都在同一硬件中原位完成，分别实现了100%的训练精确度和99.86%的推理精确度。所演示的单元设计和操作时序，原则上适用于任意结构和种类的神经网络。

在系统层面，我们基于对边缘智能的主流应用场景之一——自动驾驶，通过仿真演示了TIIO架构在单目深度识别中的成功应用。该架构在计算精度媲美GPU的前提下，显著提高了能效。在22nm先进节点下，TIIO核心阵列的能效极限可达1151 TOPS/W（训练）和111.86 TOPS/W（推理）。

面向未来，研究人员提出的TIIO架构旨在实现无云端依赖的边缘智能(Edge intelligence)，即具有本地学习、快速决策、数据安全、低能耗和高能效的「更加聪明的终端」。另外，由于其集成工艺与CMOS工艺兼容，可以与硅基电路异质集成，构建面向原位学习的三维集成电路。最后，该架构还将促进迁移学习(Transfer learning)和终身学习(Lifelong learning)等核心AI方法和场景的深入发展。

该研究得到了国家自然科学基金、国家重点研发计划、江苏省前沿引领技术基础研究专项等经费资助，以及南京大学微制造与集成工艺中心的工艺支持、北京市未来芯片技术高精尖创新中心的仿真支持。

论文链接：

https://www.nature.com/articles/s41565-023-01343-0

--南京大学

展开阅读全文

页面更新：2024-05-06

标签：南京大学清华大学清华存储器阵列研究人员南大架构器件教授结构硬件吴华强王欣

1 2 3 4 5

南大王欣然与清华吴华强团队合作发Nature子刊

研究背景

研究进展

我在工作中使用 git 的几个技巧

OPPO Find X6系列最全汇总：不止有极致影像，其它体验也全面高能？

数峰科技五育评价两大平台产品惊艳亮相浙江数字教育装备应用展！

JYIOT智能点名球如何优化教师工作流程

人类祖先生孩子是下蛋，别怀疑，人类开始胎生还是病毒的功劳

算法的形状｜图绘自动写作史（一）：媒介语言中的位值

清朗治理有力度坚守初心共躬耕

智能拖拉机引领农机智能化发展助力国产农机弯道超车

市值蒸发107亿，上市械企或被抛售

绿城管理合约总建面“破亿”

下跌47.11%！美第一共和银行股价继续暴跌

烟台东诚制药2022年业绩快报

第七届中国工业大奖出炉！伊利成为唯一获奖乳企

鼓励闲置交易助力碳减排

厦门上市公司协会第六届会员大会暨换届大会圆满落幕

祝融号迎来新消息！状态不太乐观，教授：火星上的唤醒节点快

黄佳琦教授等Matter：固态电池，如何实现高电压运行？

专家分析：银行危机暴露出的美国经济结构问题或将持续

恐怖！恳求斯坦福教授帮它“越狱”？ChatGPT-4已出现自主

用量增长结构优化办电高效-从电力运行看河南经济复

英国结构工程师学会会刊专题报道韩林海教授团队研究成

《狂飙》演员集体进大学，张颂文被聘为客座教授，苏小玎为

南京大学团队推翻美国室温超导研究

深圳先进院最新研究：开发高通量空间成像技术，可识别微生

中建一局先导（昆明）新材料科技产业园项目（薄膜材料）B1区首