5月31日,北京智源大会以线上方式召开,清华大学集成电路学院院长吴华强教授发表了关于基于忆阻器模拟计算的存算一体技术的演讲。 吴华强教授首先从存算一体架构入手。介绍了随着传统架构的芯片算力提升变慢,与智能计算对算力需求的爆炸式增长形成尖锐的矛盾。人工智能时代对算力需求越来越大。这其中比较大的挑战是存储数据的读取和传输在架构中所占用时间、消耗功耗较多,因此存算分离的架构带来了很大的性能提升瓶颈。 在1972年,美国加州大学蔡少棠预言忆阻器的存在,之后在2008年惠普实验室发现了忆阻器。忆阻器是一种新型纳米器件,具有电阻连续、可逆转变的特点,具备存算一体特性,可以大幅度提升算力和能效。自此后忆阻器开启高性能计算新范式存算一体模拟计算。 在新的架构中,之前的处理器架构变成了存算一体的阵列。传统计算中需要场效应晶体管、布尔逻辑数字计算的计算范式、数据计算架构也是存算分离;但在存算一体计算系统中,计算器件变为忆阻器、计算范式也变为物理定律模拟计算。 存算一体模拟计算的发展历史 吴华强教授提到了模拟计算范式的里程碑,从1929年机械模拟计算预测潮汐、到5060年代的模拟计算芯片再到2015年UCSB在Nature报道了可训练的忆阻器神经网络。 实际上,早期的模拟计算应该算是存算一体的雏形。其计算原理就是把计算参数直接部署在电阻、电容等电路元器件上,基于无力定律直接完成,这种方式的优势就在于主要参数直接存储在计算本地,效率极高,非常适合进行复杂的科学计算。但缺点在于参数无法重新配置,计算功能单一。 在1970年以后,随着数字计算和计算机的快速发展,模拟计算开始走下坡路。但2010年后,人工智能时代的到来和忆阻器的出现,使得模拟计算伴随存算一体架构再次兴起。 由于AI计算需要大量参数配置在计算本地,不能频繁的从DRAM搬运数据,存储墙成为主要的AI计算瓶颈。对于存算一体模拟计算与人工智能之间配合应用来说,忆阻器阵列能够与算子比较集中的AI算法良好契合,AI算法中比特精确不等于系统精确,为忆阻器模拟计算提供了重要契机。 存算一体芯片进展 在演讲中,吴华强教授回答了三个关于忆阻器存算一体芯片挑战的问题。 1。如何真正克服比特误差对系统误差的影响? 吴华强教授提出混合训练框架。 在混合训练框架方面,吴华强教授的团队也做了很多工作。从框架来讲,提出了片外压力训练和片上自适应训练组成的混合训练框架。在片外压力训练中引入系统误差模型,构架具有误差耐受行的网络模型,提升实际硬件系统中的精度。在权重映射到芯片后,通过原位更新关键层权重进行自适应训练,进一步提升精度。 2。如何高效、低成本的设计并制造出忆阻器存算一体芯片? CMOS嵌入式集成EDA工具链。 器件的工艺优化是很重要的,吴华强教授分享在优化过程中提出了热增强层的新器件结构,在较小电流下实现了模拟阻变。最终目的是希望单器件可以达到4比特5比特。吴华强教授团队制作高性能忆阻器件的过程分了四个阶段。 第一阶段,用2微米工艺在实验室中筛选CMOS兼容材料,制备单器件;第二阶段,130纳米工艺,打通后端集成工艺,发展了Foundrylab模式,最多集成到了64M的忆阻器;第三阶段,与大的代工厂合作包括新加坡的UMC、厦门联芯、中芯国际,在UMC使用40nm完成加工流片;第四阶段,在厦门联芯28nm上加忆阻器工艺设备,完成加工。 EDA工具链方面,吴华强教授团队研发了从器件到电路模块设计,再到系统架构设计的EDA工具链。教授也表示,对于EDA软件是有开源的想法,但目前尚未全部开放是考虑尚未成熟, 3。如何提升存算一体架构的通用性,使其适配更多的神经网络算法? 发展面向存算一体芯片的软件工具链。 在存算一体软件工具链方面,其研发的软件工具链包括编译器、软件模拟、硬件模拟器。编译器是对接算法层,实现存算一体计算单元上高效部署神经网络算法及生成可执行程序的功能。软件模拟则是对编译器算法层,集成底层硬件模型,考虑真实器件的非理想因素,实现对真实硬件功能与性能的评估与探索。硬件模拟器,对接编译器,功能完整的计算但愿如此模块,模拟存算一体SoC工作过程中的数据信号与控制信号变化情况。通过软件工具链实现算法和芯片硬件的解耦,可支持各种神经网络算法。 并且,吴华强教授还展示了目前研制的忆阻器存算一体芯片,集成规模达到64Mb,使用28nm工艺制成,数模转换精度达8比特,当前预期的算力可以轻松超过100TOPS,具备一定通用计算能力,功能可重构、参数可配置。 在演讲的最后,吴华强教授展望了存算一体技术将带来从底层器件到编译器等层面的改变,实现新计算系统,但不改变现有编程语言,能够将能效提高1001000倍,在边缘计算和云计算中有广泛的应用前景。 声明:本文系根据演讲者的演讲整理。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。