24小时联系电话:18217114652、13661815404

中文

您当前的位置:
首页>
电子资讯>
技术专题>
电阻式存储器为边缘AI...

技术专题

电阻式存储器为边缘AI提供了受生物启发的架构


近年来,在脑启发计算领域的研究活动获得了巨大的发展。主要原因是试图超越传统的冯·诺依曼架构的局限性,后者越来越受存储器-逻辑通信的带宽和等待时间的局限性影响。在神经形态架构中,内存是分布式的,可以与逻辑共定位。鉴于新的电阻式存储器技术可以集成在CMOS工艺的互连层中,因此可以轻松地提供这种可能性。

虽然目前AI部署中的大部分注意力都集中在大型常规计算系统中实现深度学习算法,但对设备和电路技术的影响却是混杂的。尽管先进的标准CMOS技术已用于开发GPU和特定的电路加速器,但并没有真正推动使用任何受生物启发的硬件。新兴的电阻式存储设备(RRAM)可以打开途径,由于能够(感知到)不够成熟,可以通过在相对较低的偏置电压下调节电导来在纳米尺度上模拟生物学上合理的突触行为,因此这些方法仅限于研究组。技术。

但是,这些新设备可以为将AI大量部署到消费和工业产品中所面临的主要问题之一提供解决方案:能源效率。如果将AI的使用范围扩大,将所有数据传输到云/服务器系统进行分析的能源开销将很快达到AI的经济可行性的极限。此外,对于自动驾驶汽车和工业控制等实时系统而言,如果连接到5G基础架构以处理数据的服务器集中在定义明确的区域而不是分布在整个基础架构中,则延迟仍然是一个问题。由于这些原因,并且在欧洲也出于隐私考虑,具有高度节能的边缘/使用点的,具有AI的系统将变得越来越重要,并且可能会逐步改善本地学习能力。

嵌入式AI系统非常适合处理需要实时响应的数据,并且在能源是主要问题的情况下。如tinyML计划的成功所证明的那样,对此类系统的兴趣正在增长[1]。当处理稀疏,时域,由传感器(如麦克风,激光雷达,超声波等)生成的数据流时,该领域的生物启发(即存储元件还充当互连和计算元件)方法具有额外的优势。这些系统将然后能够在模拟域中进行大多数操作,从而避免了耗电,不必要的多次模数转换以及使用非时钟数据驱动架构来简化数据流。仅在信号脉冲期间没有时钟和存储元件中的耗散,在没有输入的情况下会导致极低的功耗(因此适用于稀疏信号),并且可能不需要特定的睡眠模式即可获得电池供电的工作状态。而且,非易失性仅在首次上电或系统最终更新时才需要设置参数,而在每次上电时都不需要从外部来源进行传输。

但是,使用新型电阻式存储器不仅限于此类边缘生物启发应用,还可以使执行慢速非易失性高速缓存/快速大容量存储中间存储器功能的传统全数字时钟系统受益神经加速器的水平。在这种情况下,好处将是减少快速DRAMSRAM缓存区域,同时仍减少访问大容量存储的延迟。

生物启发式计算的硬件平台

从技术角度来看,RRAM由于具有CMOS兼容性,高可伸缩性,强大的耐用性和良好的保留特性,因此是神经形态应用的良好候选者。但是,定义大规模混合集成神经形态系统(具有阻性记忆突触的CMOS神经元)的实际实施策略和有用应用仍然是一个困难的挑战

已经提出了诸如相变存储器(PCM),导电桥RAMCBRAM)和氧化物RAMOxRAM)之类的电阻RAMRRAM)设备来模拟生物学上受突触功能启发的功能,这些功能对于实现神经形态硬件至关重要。在不同类型的模拟突触特征中,依赖于尖峰时序的可塑性(STDP)是最常用的一种,但肯定不是唯一的可能性,并且某些可能显示出对实际应用的实现更为有用。

实施这些思想并验证该方法的电路示例是SPIRIT,由IEDM 2019提出[2]。已实现的SNN拓扑是单层的,完全连接的拓扑,其目的是在MNIST数据库上执行推理任务,有10个输出神经元,每个类一个。为了减少突触的数量,将图像缩小到12×12像素(每个神经元144个突触)。使用单级单元(SLCRRAM实现突触,即仅考虑低和高电阻级别。结构为1T-1R类型,每个单元带有一个访问晶体管。多个单元并联连接以实现各种重量。在学习框架上进行的突触量化实验表明,介于-4+4之间的整数值是分类精度和RRAM数量之间的良好折衷。由于我们旨在获得加权电流,因此必须使用4RRAM作为正权重。对于负权重,也可以使用RRAM对符号位进行编码:但是,由于将需要容错三重冗余,因此最好使用4个附加RRAM来实现负权重。

集成与射击(IF模拟神经元设计是在数学等效性的指导下进行的,该数学等效性是在有监督的离线学习中使用的tanh激活函数。规格如下:(1)突触重量等于±4的刺激必须产生尖峰;(2)神经元必须产生正负尖峰;(3)它们必须有一个不应期,在此期间它们不能散发尖峰,但必须继续积分。神经元是围绕MOM 200fF电容器设计的。使用两个比较器将其电压电平与正阈值和负阈值进行比较。由于必须在RRAM的端子之间以不超过100mV的电压降读取RRAM,因此,为了防止将设备设置为LRS,所获得的电流不能被神经元直接积分,因此它们会被电流注入器复制。评估了编程条件的影响,并使用足够的编程条件来确保有足够大的内存窗口。放松机制的确出现在很短的时间范围内(不到一小时)。因此,分类精度不会随时间降低。还验证了读取稳定性,将高达800M的峰值发送到电路。

MNIST数据库的10K测试图像上的分类精度测得为84%。该值必须与88%的理想模拟获得的精度进行比较,该精度受简单的网络拓扑限制(1层具有10个输出神经元)。每个突触事件的能量耗散等于3.6 pJ。当考虑电路逻辑和SPI接口时,它总计为180 pJ(可以通过优化通信协议来降低它)。测量表明,图像分类平均需要136个输入峰值(对于ΔS= 10):每个输入所累积的峰值少于一个峰值,与130nm节点中的等效形式编码MAC操作相比,能量增益提高了5倍。能量增益来自(1)基本操作的轻度(累积,而不是像经典编码中那样进行乘法累加)和(2)由于尖峰编码而导致的活动稀疏性。稀疏性的好处将随着层数的增加而增加。

这个小演示者展示了如何可以与传统的嵌入式方法相提并论,但功耗却大大降低了。实际上,在SNN演示中使用的速率代码使该实现等效于经典编码的实现:从经典域到尖峰域的代码转换不会引起准确性上的任何损失。但是,从概念验证中使用的简单拓扑(即单层感知器)可以解释,与使用更大网络和更多层的最新深度学习模型相比,分类精度略低。为了克服这种差异,目前正在实施一种更为复杂的拓扑结构(MobileNet类),并且分类精度将相应提高,同时具有相同的能源优势。

相同的方法将扩展到嵌入了麦克风或激光雷达的电路,以本地和实时分析数据流,从而无需通过网络传输。速率编码和时间编码策略都可以用于优化网络,具体取决于信号的信息内容。最初,学习将集中进行,并且仅将推理集成到系统中,但是在以后的世代中将引入一定程度的增量学习。

利用对嵌入式AI产品有益的属性RRAM的另一种方法是使用基于RRAM交叉开关阵列的模拟架构。与传统的数字实现相比,它们可以提供更密集的乘法累加器(MAC)功能实现,在推理和学习电路中居于中心。如果采取进入时域并消除时钟的进一步步骤,则可获得超出当前技术水平的紧凑型低功率系统。尽管这种方法非常有前途并且受到学术界的广泛研究,但该方法仍未被业界广泛接受,这指出了设计,验证,表征和认证模拟异步设计的难度,以及扩展模拟解决方案的难度。在我们看来,

这些记忆的部分感知困难来自观察到的变异性,但这是实验条件的反映。当在300mm内工作并且集成过程更加成熟时,我们观察到更好的分布,因此我们假设可变性问题可以在工业化过程中解决。设计工具也即将问世,更精确的模型也逐渐可用。温度变化当然会产生影响,但是这种计算类型的统计性质及其在推理阶段对参数变化在某种程度上具有固有的鲁棒性,因此其最终影响远不如使用社区的常规模拟设计那么重要。模拟交叉开关方法的优点之一是,当施加数据时,自动没有电流。

有些问题更为根本。第一个是功率效率和高度并行性来自权衡时间复用(工作频率)与面积的关系:权衡有利的网大小(问题或类别数量)的极限是多少?它如何取决于实现节点?另一个是这些存储器的可循环性。虽然对于推理阶段就足够了,并且可以在初始化阶段以可接受的开销进行交叉开关的编程,但是由于过多的写入负载,使用经典的反向传播方案和迭代次数的片上学习是毫无疑问的。但是,正在探索使用其他学习方法的非常有前途的途径,并有望在未来几年内提供有效的解决方案。

在引入这种类型的电路之前,可以在常规实现中使用RRAM3D集成等技术来以较小的功率预算和较小的尺寸系数提供解决方案。如今,用于高度定制化应用的FPGA实现,运行在MCUCPU上的纯软件实现,或专用于GPU的高度并行多核/加速器(类似于或类似的GPU)用于更通用的应用,已成为当今的主流。所有这些都可以从本地非易失性存储器中受益,这可以使FPGA变得更紧凑,为MCU / CPU和多核/加速器芯片提供更优化的存储器层次结构。

 

请输入搜索关键字

确定