南大王欣然与清华吴华强团队合作发Nature子刊

近日,南京大学王欣然教授团队与清华大学吴华强教授团队合作,提出基于二维半导体铁电晶体管的新型存内计算器件架构,通过调节铁电势阱,实现了同时满足AI训练和推理需求的底层器件,并展示了高达10³ TOPS/W级别的能效潜力。该成果突破了边缘端人工智能硬件的关键瓶颈之一。成果以「An in-memory computing architecture based on a duplex two-dimensional material structure for in situ machine learning」为题,于2023年3月20日在线发表于Nature Nanotechnology



该工作由南京大学、南京邮电大学、苏州实验室、清华大学、香港理工大学等单位合作完成。南京大学王欣然教授、南京邮电大学于志浩教授、清华大学高滨副教授和吴华强教授论文的共同通讯作者,南京大学博士生宁宏凯温恒迪、南京邮电大学于志浩、清华大学张清天工程师和高滨为论文的共同第一作者。


研究背景


AI (人工智能)的历史,可以归纳为软件和硬件的协同发展史,即「强大硬件推动软件发展」「复杂软件催生硬件革命」的交替迭代。如今,我们正处在「软催硬」的周期内。以最近大热的现象级AI应用ChatGPT为例,其算力可以达到每秒10¹⁹次计算操作(即10⁷ TOPS),而维持其夸张算力的基础是上万块最先进的GPU以及77,160 kWh日耗电量——超过了全球40%国家的日发电量!因此,基于冯诺依曼架构的GPU硬件将难以支撑AI技术的可持续性发展。实际上,人脑算力与GPT相当,功耗却仅为20W,能效比GPT采用的GPU高5个数量级。因此,发展高能效的类脑计算器件和架构势在必行。


研究进展


图1 训练-推理一体化更接近人脑的计算方式


受大脑存算一体特征的启发,存内计算架构近年来蓬勃发展,显著降低了「冯诺依曼」架构中数据传输的能耗与延迟,大幅提高了计算并行度和能效。在此基础上,更高维度的需求——训练和推理一体化,即「学」和「用」在同一硬件上实现(如图1所示的主动学习能力),被认为是通向智慧终端的核心挑战。


图2 推理和训练过程对于存储器性能的不同要求


其中的瓶颈就在于,推理和训练过程对于存储器硬件本身的要求截然不同。从物理本质上看,两者好似鱼和熊掌一般不可兼得。如图2所示,推理的实际过程,是数据在权重矩阵中做批量的乘加运算,它要求存储器具有高势垒,器件上体现为长久的数据保持(Long data retention),而不需要有很高精度的多态(Multi-state);而训练过程,则是对权重矩阵中每一个节点进行更新,这要求存储器具有较低的势垒,器件上体现为极高的耐久性(High endurance)、极快的操作速度(High speed)和较小的翻转功耗(Low switch energy)。长久以来,由于这种制衡关系的存在,大家难以找到一种普适的存储器来实现训练-推理一体,这严重制约了AI硬件的发展。


图3 满足训练-推理一体的复式器件结构


在这项工作中,研究人员巧妙利用了铁电材料能量双阱曲线的可调性,并从「材料-物理-器件-电路-系统」的层面,逐级证明了这种可调性设计用于训练-推理一体特征的可行性。研究人员提出了一种「复式(Duplex)」的二维半导体铁电晶体管结构(如图3所示),通过设计浮栅两侧铁电电容和介电电容的面积比例(Aғᴇ/Aᴅᴇ),调控了铁电两端的分压比例,从而实现了对铁电能量双阱曲线的形态调节。Aғᴇ/Aᴅᴇ较大的栅极,能垒较低、铁电部分翻转、翻转功耗低(22.7 fJ/(bit μm²))、速度快(<4.8ns)、耐久性高 (>10¹³次翻转),更适合用于AI训练;而Aғᴇ/Aᴅᴇ较小的栅极,能垒较高、铁电翻转较为彻底、数据保持长久(10年),适合用于AI推理。


图4 基于TIIO阵列的原位训练和推理演示


在电路层面(如图4所示),研究人员使用1个复式结构和2个开关晶体管组成了2T-1D的训练推理一体(Training-Inference-In-One, TIIO)单元,单元之间通过行列线组成crossbar结构的阵列,该阵列可以实现全模拟(即输入信号未通过数字化)的非线性分类任务。其中的训练和推理,都在同一硬件中原位完成,分别实现了100%的训练精确度和99.86%的推理精确度。所演示的单元设计和操作时序,原则上适用于任意结构和种类的神经网络。


在系统层面,我们基于对边缘智能的主流应用场景之一——自动驾驶,通过仿真演示了TIIO架构在单目深度识别中的成功应用。该架构在计算精度媲美GPU的前提下,显著提高了能效。在22nm先进节点下,TIIO核心阵列的能效极限可达1151 TOPS/W(训练)和111.86 TOPS/W(推理)。


面向未来,研究人员提出的TIIO架构旨在实现无云端依赖的边缘智能(Edge intelligence),即具有本地学习、快速决策、数据安全、低能耗和高能效的「更加聪明的终端」。另外,由于其集成工艺与CMOS工艺兼容,可以与硅基电路异质集成,构建面向原位学习的三维集成电路。最后,该架构还将促进迁移学习(Transfer learning)终身学习(Lifelong learning)等核心AI方法和场景的深入发展。


该研究得到了国家自然科学基金、国家重点研发计划、江苏省前沿引领技术基础研究专项等经费资助,以及南京大学微制造与集成工艺中心的工艺支持、北京市未来芯片技术高精尖创新中心的仿真支持。


论文链接:

https://www.nature.com/articles/s41565-023-01343-0


--南京大学

展开阅读全文

页面更新:2024-05-06

标签:南京大学   清华大学   清华   存储器   阵列   研究人员   南大   架构   器件   教授   结构   硬件   吴华强   王欣

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top