ASPDAC’23目录

ASPDAC’23:第28届亚洲和南太平洋设计自动化会议记录

ACM数字图书馆中的完整引文

课程:技术课程:新兴计算和内存架构的可靠性考虑

基于矩阵指数的互连树暂态电迁移快速半分析方法

  • 帕夫洛斯·斯托科斯
  • 乔治·弗洛斯
  • 迪米特里奥斯·加里法洛
  • 内斯托·埃夫莫福普洛斯
  • 乔治·斯塔穆利斯

随着集成电路技术向更小的技术节点转移,电子迁移(EM)已成为EDA行业面临的最具挑战性的问题之一。虽然数值方法由于能够处理复杂的互连结构而得到广泛应用,但它们往往比分析方法慢得多。本文提出了一种基于矩阵指数的快速半分析方法,用于求解互连树离散空间点处的Korhonen应力方程,从而可以独立地分析计算任意时刻和点的电磁应力。将所提出的方法与扩展的Krylov子空间方法相结合,以精确模拟大型EM模型,并加速最终解的计算。OpenROAD基准测试的实验评估表明,与COMSOL工业工具相比,我们的方法实现了0.5%的平均相对误差,同时速度提高了三个数量级。

基于序列对树和热考虑的2.5D集成电路芯片布局

  • 洪文超
  • 蒋佳浩
  • 俞腾昌
  • 李玉敏
  • Chi-Wen Pan公司

这项工作为2.5D IC开发了一种考虑热的高效芯片放置器。将基于序列树的树、分枝定界法和先进的放置/修剪技术相结合,所开发的放置器可以快速找到解决方案,并在半周线长(HPWL)上优化总线长(TWL)。此外,在放置后的程序中,放置器降低了最高温度,同时电缆长度略有增加。实验结果表明,该砂矿不仅能找到更好的优化TWL(降低1.035%HPWL),而且比现有技术加快了最多两个数量级。考虑到热因素,砂矿可将最高温度降低至8.214°C,TWL平均增加5.376%。

提高STT-MRAM可靠性的在线老化检测和容差框架

  • 陈玉光
  • 黄宝叶
  • 李金福

自旋传输转矩磁随机存储器(STT-MRAM)是最有前途的片上存储器新兴存储器之一。然而,STT-MRAM中的磁隧道结(MTJ)面临着一些可靠性威胁,这些威胁会降低耐久性,产生缺陷,并导致内存故障。MTJ上的时间相关介质击穿(TDDB)是主要的可靠性问题之一,它会随着时间的推移偏离MTJ的电阻值,并可能导致读数错误。为了克服这一挑战,本文提出了一种在线老化检测和容差框架,用于动态监测电气参数偏差,并提供适当的补偿以避免读数错误。在线老化检测机制可以通过监测读取电流来识别老化单词,然后老化容限机制可以调整传感放大器的参考电阻来补偿MTJ老化引起的电阻降。与现有的基于测试的老化检测技术相比,我们的机制可以在线运行,同时对老化检测和容差进行读取操作,性能开销可以忽略不计。仿真和分析结果表明,该技术能够成功检测出99%的进程变化下的老化词,并使STT-MRAM的可靠性提高了25%。

课程:技术课程:加速器和等效性检查

基于多数的ReRAM内存计算等价性自动检查方法

  • Arighna Deb公司
  • 卡马利卡·达塔
  • 穆罕默德·哈桑
  • 赛义德·希林扎德
  • 罗尔夫·德雷克斯勒

制造的最新进展电阻式随机存取存储器(ReRAM)设备为大规模交叉杆结构铺平了道路。特别是,ReRAM交叉杆上的内存计算有助于缩小当前CMOS技术的处理器-内存速度差距。为此,研究人员研究了布尔函数到此类交叉杆的合成和映射。然而,对横杆上简单设计的验证仍然是通过手动检查完成的,有时也会辅以基于仿真的技术。显然,这是一个重要的问题,因为现实世界中的设计很复杂,并且输入的数量较多。因此,这些设计的手动检查和基于仿真的方法并不实用。

在本文中,根据我们的知识,我们首次提出了一种用于ReRAM交叉杆上基于多数的内存设计的自动等价性检查方法。我们的贡献有两方面:首先,我们引入了一种称为ReRAM序列图(ReSG)表示内存中的逻辑设计。这反过来又转化为布尔可满足性(SAT)公式。使用Z3根据黄金功能规范验证这些SAT公式饱和模量理论(SMT)解算器。我们通过运行广泛可用的基准来验证所提出的方法。

敏捷硬件设计的等价性检查框架

  • 王燕照
  • 费雪
  • 杨振坤
  • 帕斯奎尔·科奇尼
  • 金阳

敏捷的硬件设计使设计者能够高效地进行新的设计迭代。等价性检查对于确保新的设计迭代符合其规范至关重要。本文介绍了一种用于HalideIR中硬件设计的等价性检查框架。HalideIR是深度学习和图像处理等软件领域中一种流行的中间表示形式,在敏捷硬件设计中得到了越来越多的应用。我们开发了一个与HalideIR无缝集成的全自动等价性检查工作流,以及一些利用敏捷硬件设计的增量特性来扩展等价性检查的优化。对两种深度学习加速器设计的评估表明,我们的自动等价性检查框架可以扩展到实际大小的硬件设计,并检测手工构建的测试遗漏的不一致性。

通过部分矢量复制实现FPGA上的高带宽SpMV

  • 刘博文
  • 刘大江

稀疏矩阵向量乘法(SpMV)在许多领域都有着广泛的应用,通常控制着任务的执行时间。FPGA具有较大的片外存储器带宽、可定制的片上资源和高性能浮点操作,是加速SpMV任务的潜在平台。然而,由于SpMV的压缩数据格式通常会引入不规则的内存访问,同时也是内存密集型的,因此在FPGA上实现SpMV加速器以实现高带宽利用率(BU)是一项具有挑战性的工作。现有的工作要么以增加数据冗余为代价消除不规则的内存访问,要么尝试在本地减少不规则内存访问带来的端口冲突,导致BU改进有限。为此,本文提出了一种基于部分矢量复制的FPGA上的高带宽SpMV加速器,其中详细阐述了无读冲突矢量缓冲区、无写冲突加法器树和乒乓式累加器寄存器。FPGA实现结果表明,与最新的工作相比,该设计可以实现平均1.10倍的性能加速。

会议:技术计划:网络物理和自治系统的新前沿

基于神经网络的安全驱动交互式换道规划

  • 刘向国
  • 若晨郊
  • 鲍文·郑
  • 梁文伟
  • 齐朱

基于神经网络的驾驶规划师在提高自动驾驶任务性能方面表现出了巨大的潜力。然而,确保具有基于神经网络的组件的系统的安全,尤其是在密集和高度交互的交通环境中,是至关重要的,但也是非常具有挑战性的。在这项工作中,我们提出了一个基于神经网络的安全驱动交互式换道规划框架。为了防止过度保守的规划,我们识别周围车辆的驾驶行为并评估其攻击性,然后以交互方式相应地调整自我车辆的规划轨迹。即使在预测的最坏情况下,如果存在安全的避让轨迹,自我车辆也可以继续变换车道;否则,它可以停留在当前的横向位置或返回到原始车道。我们通过各种全面实验环境的广泛模拟,以及在自动驾驶汽车公司收集的真实世界场景中,定量证明了我们的规划师设计的有效性及其相对于基线方法的优势。

基于软硬约束的网络物理系统安全感知柔性调度综合

  • 徐胜杰
  • Bineet Ghosh公司
  • 克拉拉·霍布斯
  • P.S.Thiagarajan先生
  • 萨马尔吉特·查克拉博蒂

随着复杂自治系统的出现,多个控制任务越来越多地在共享计算平台上实现。由于汽车等领域中此类平台的资源约束性质,及时调度所有控制任务通常很困难。所有任务调用必须满足其截止日期这一常见要求源于控制策略的独立设计及其在软件中的实现(包括调度)。这种关注点的分离,即控制设计者设定截止日期,嵌入式软件工程师旨在满足这些截止日期,简化了设计和验证过程。然而,它不够灵活,过于保守。在本文中,我们展示了如何捕获截止期未命中模式,在该模式下安全控制器的属性仍将得到满足。可以使用所谓的“弱硬约束”来捕获此类截止日期未命中的允许模式。但是,在这些弱硬约束下调度任务是不平凡的,因为常见的调度策略(如固定优先级或最早截止日期优先)通常不能满足它们。本文的主要贡献是根据控制器的安全特性自动合成调度。通过实际例子,我们证明了该策略的有效性,并说明了可调度性的传统概念例如当调度控制器以满足安全属性时,效用比不适用。

利用联网和自动车辆作为交通调节器的混合交通交叉口管理

  • 陈品春
  • 刘向国
  • 林忠伟
  • 朝皇
  • 齐朱

联网自动车辆(CAV)可以实现许多革命性的应用,但预计几十年来,它将混合交通,包括CAV和人驾驶车辆(HV)。本文针对混合交通交叉口管理问题,调度CAV控制后续HV。我们开发了一种动态规划方法和一种混合整数线性规划(MILP)公式,以使用相应的交叉口模型优化解决问题。然后,我们提出了一种基于MILP的方法,该方法比求解最优MILP公式更有效、更实时,同时保持了良好的解质量,并且优于先到先得(FCFS)方法。实验结果和SUMO仿真表明,即使CAV普及率较低,通过我们的方法控制CAV也可以有效地调节混合交通,这为早期采用CAV带来了激励。

课程:技术课程:模拟电路的机器学习辅助优化技术

模拟放置质量预测的全自动机器学习模型开发

  • 陈其昌
  • 潘靖宇
  • 谢志尧
  • 李亚光
  • 林一双
  • 姜虎
  • 陈怡然

模拟集成电路(IC)布局是一项繁重且耗时的任务,对芯片质量有重大影响。最近的几项研究应用机器学习(ML)技术直接预测布局对电路性能的影响,甚至指导布局过程。然而,模拟设计拓扑的显著差异可能会对性能指标产生不同的影响(例如,共模抑制比(CMRR)或偏置电压)。因此,相同的ML模型结构不太可能实现所有设计和度量的最佳性能。此外,为不同的设计定制ML模型需要更多的工程工作和更长的开发周期。在这项工作中,我们利用神经结构搜索(NAS)为不同的模拟电路设计和指标自动开发定制的神经结构。我们提出的NAS方法支持基于DAG的无约束搜索空间,该搜索空间包含大量ML操作和拓扑连接。我们的搜索策略可以有效地探索这个灵活的搜索空间,并为每个设计提供最佳定制模型,以提高模型性能。我们对相同数据集上的先前代表性工作的声称性能进行了无偏见的比较。在仅0.5天内完全自动化开发后,生成的模型比现有技术的精度高3.61%。

基于嵌入式精确变压器和巴伦机器学习模型的高效分层毫米波系统综合

  • F.帕索斯
  • 努伦索
  • L.门德斯
  • R.马丁斯
  • J.瓦兹
  • N.奥尔塔

毫米波(mm-wave)波段的集成电路设计异常复杂,并且依赖于昂贵的电磁(EM)模拟。因此,在过去的几年里,人们对开发用于毫米波电路自动设计的基于优化的新方法越来越感兴趣。然而,当电路/系统复杂性增加时,当前的方法缺乏可扩展性。此外,许多公司还依赖EM模拟器,这会降低其效率。这项工作采用了分层系统划分和自下而上的设计方法,其中嵌入了一个精确的机器学习模型,该模型由数百个无缝集成的子模型组成,可确保高达200GHz的精度(根据EM仿真和测量进行验证),以设计无源元件,例如:。,变压器和巴伦。该模型生成最佳设计表面,以供馈送至上述层级或用作性能估计器。使用该方案,可以消除优化过程中EM仿真的依赖性。所提出的混合优化曲面、性能估计器和基于仿真的自下而上多目标优化(MOO)用于在65-nm CMOS中全面设计从设备到系统级的Ka波段毫米波发射机,以满足最新技术规范。

APOSTLE:使用DNN学习对模拟晶体管尺寸进行异步并行优化

  • 艾哈迈特·巴达克
  • 大卫·斯马特
  • 布赖恩·斯瓦恩
  • 大卫·Z·潘

就人工投入和计算时间而言,模拟电路尺寸确定是一个高成本的过程。随着技术的快速发展和市场需求的提高,带来自动化的上浆解决方案已引起了人们的极大关注。本文介绍了APOSTLE,一种使用深度神经网络(DNN)学习的异步并行优化模拟晶体管尺寸的方法。这项工作引入了几种方法,以在分级任务由多个不同的模拟组成且时间成本不同时,最小化优化的实时性。本文的主要贡献是:(1)一个批优化框架,(2)一种新的深度神经网络结构,用于在现有解不总是被完全评估的情况下探索设计点,(3)一种基于廉价评估的排序近似方法和(4)一种理论方法,用于平衡廉价和昂贵的模拟,以最大限度地提高优化效率。与其他黑盒优化方法相比,我们的方法在小型构建块和大型工业电路上都显示出了较高的实时效率,同时达到了类似或更好的性能。

课程:技术课程:可靠、安全和酷芯片的机器学习:从晶体管到系统的旅程

拯救ML:从晶体管的自加热和老化到处理器的可靠性评估

  • 胡萨姆·阿姆鲁奇
  • 弗洛里安·克莱姆

随着越来越受限的3D结构和具有更高热阻的新型材料,晶体管自涂层已成为最先进和新兴工艺节点的关键可靠性威胁。晶体管自愈的挑战之一是晶体管加速老化,如果考虑不当,会导致芯片过早失效。然而,在整个大型电路设计中,充分考虑由自愈引起的加速老化效应是一项极具挑战性的工作,因为自愈发生的位置(即晶体管级别)与其最终影响发生的位置之间存在巨大差距(即电路和系统级别)。在这项工作中,我们展示了一个端到端的工作流程,从单个晶体管的自加热和老化效应开始,一直到大型电路和处理器设计。我们证明,与传统使用的其他最坏情况估计相比,通过我们准确估计的劣化,确保电路可靠运行所需的定时保护带大大减少了96%。

图形神经网络:一个强大且通用的工具,用于提高IC的设计、可靠性和安全性

  • 利拉斯·阿拉希斯
  • 约翰·克奈特尔(Johann Knechtel)
  • 奥兹古尔·西纳诺格鲁

图形神经网络(GNN)推动了最新技术(SOTA)在学习和预测社交网络、生物等中存在的大规模数据方面的性能提升。由于集成电路(IC)可以自然地表示为图形,因此将GNN用于机器学习(ML)的人数激增-基于IC设计的各个方面的方法。鉴于这一趋势,有必要及时审查和讨论一些功能强大且通用的GNN方法,以推进IC设计。

在本文中,我们提出了一个通用流水线,用于裁剪GNN模型,以解决IC设计中的挑战性问题。我们概述了每个管道元素的有希望的选项,并讨论了选定的和有希望的工作,例如利用GNN来打破SOTA逻辑混淆。我们对GNN框架的全面概述包括(i)电子设计自动化(EDA)和一般IC设计,(ii)可靠IC的设计,以及(iii)安全IC的设计和分析。我们在GNN4IC中心提供了我们的概述和相关资源,网址为https://github.com/DfX-NYUAD/GNN4IC最后,我们讨论了未来研究中有趣的开放问题。

云计算中FPGA恶意比特流的检测与分类

  • 贾耶塔·乔杜里
  • 克里希南德·查克拉巴蒂

随着FPGA越来越多地被多个用户和第三方共享和远程访问,它们带来了严重的安全问题。FPGA上运行的模块可能包括诱发基于电压的故障攻击和拒绝服务(DoS)的电路。攻击者可能使用实现恶意电路的比特流配置FPGA的某些区域。攻击者还可以执行旁道分析和故障攻击来提取机密信息(例如,AES加密的密钥)。本文通过分析从FPGA比特流中提取的静态特征,提出了一种基于卷积神经网络(CNN)的防御方法来检测基于RO的恶意电路的比特流。为了检测FPGA上配置的恶意木马,我们进一步探讨了基于RO的电路的关键性。对Xilinx FPGA的评估证明了安全解决方案的有效性。

基于学习的商用TPU空间功率表征与全芯片功率估计

  • 金聪路
  • 张金伟(Jinwei Zhang)
  • Wentian Jin公司
  • 萨钦·萨奇德瓦
  • 谢尔登·X·D·谭

本文首次提出了一种基于机器学习技术的实时估计商用Google Coral M.2 TPU芯片芯片级空间功率图的新方法。新方法可以开发出更稳健的运行时功率和热控制方案,以利用空间功率信息,如其他方式无法获得的热点。与现有商用多核处理器提供实时性能相关利用率信息不同,谷歌的TPU没有此类信息。为了缓解这个问题,我们建议使用与运行不同深度神经网络(DNN)的工作负载相关的功能,例如DNN的超参数和TPU编译器生成的TPU资源信息。新方法包括离线获取芯片标称工作条件下从外部红外热成像相机捕获的准确时空温度图。为了建立动态功率密度图模型,我们基于工作负荷相关特征应用生成性对抗网络(GAN)。我们的研究表明,估计的总功率与制造商的总功率测量值非常吻合。实验结果进一步表明,功率图的预测非常准确,RMSE仅为4.98mW/mm2或满标度误差的2.6%。在Intel Core i7-10710U上部署建议方法的速度高达6.9ms,适合实时估计。

课程:技术课程:用于存储和计算的高性能存储器

DECC:用于高密度NAND闪存读取性能优化的差分ECC

  • 宋云鹏
  • 吕一娜
  • 梁实

3D NAND闪存采用先进的多级别芯片技术,因其密度高而被广泛采用,但可靠性显著下降。为了解决可靠性问题,闪存通常采用低密度校验码(LDPC)作为纠错码(ECC)对数据进行编码并提供容错能力。对于低码率的LDPC,它可以提供很强的校正能力,但能量成本很高。为了避免成本,通常采用较高码率的LDPC。当接入的数据未成功解码时,LDPC将依靠读取重试操作来提高纠错能力。但是,读取重试操作将导致读取性能降低。在这项工作中,提出了一种差分ECC(DECC)方法来提高读取性能。DECC的基本思想是对不同接入特性的数据采用不同码率的LDPC。具体来说,当数据由于可靠性而被热读取和重试时,将采用低码率的LDPC来优化性能。通过这种方法,低码率LDPC的成本最小化,性能得到优化。通过对3D三层单元(TLC)NAND闪存的仔细设计和实际工作负载评估,DECC实现了令人鼓舞的读取性能优化。

嵌入式系统中赛道存储器的数据布局优化

  • 彭辉
  • 埃德温·H·M·沙
  • 清风诸葛
  • 芮旭(Rui Xu)
  • 韩旺(Han Wang)

Racetrack存储器(RTM)由多域块簇(DBC)和访问端口组成,是一种新型的非易失性存储器,由于其高密度和低访问延迟,在嵌入式设备中具有作为暂存存储器(SPM)的潜力。然而,过多的换档操作会降低RTM的性能,并导致性能不可预测。本文从不同方面提出了三种优化RTM性能的方案,包括DBC内、DBC间以及SPM与SRAM和RTM的混合。首先,为了减少移位,提出了一种基于平衡组的数据布局方法。其次,提出了一种DBC间数据分配的分组方法。通过将一个DBC用作多个DBC,它有助于减少移位,同时使用更少的DBC。最后,我们使用SRAM进一步帮助降低成本,并提出一个成本评估指标来辅助收缩方法,该方法确定SRAM和RTM混合SPM的数据分配。实验表明,该方案在使用较少DBC的情况下,可以显著提高纯RTM和混合SPM的性能。

探索提高in-NVM B+树性能的体系结构含义

  • 胡彦鹏
  • 姜启生
  • 王春东

计算机体系结构不断发展,以支持字节寻址非易失性存储器(NVM)。研究人员用NVM定制了流行的B+树,创造了利用体系结构支持获得高性能和崩溃一致性的历史。NVM的最新架构级更改,例如eADR,激励我们进一步探索NVM B+树中设计和实现的架构含义。我们的定量研究发现,eADR使缓存丢失对NVM B+树中的性能影响越来越大。因此,我们基于理论证明提出了冲突软件节点分配的Conan。Conan分解有关VIPT缓存的B+树节点的虚拟地址,并有意将其放入不同的缓存集中。实验表明,Conan明显减少了缓存冲突,提高了NVM B+树中最先进的性能。

一种高效的个性化推荐系统近银行处理体系结构

  • 杨玉清
  • 杨卫东
  • 秦王
  • Naifeng Jing公司
  • 姜建飞
  • 毛志刚
  • 盛伟光

个性化推荐系统消耗了现代人工智能数据中心的主要资源。具有不规则内存访问模式的内存绑定嵌入层被认为是推荐系统的瓶颈。为了克服内存挑战,近内存处理(NMP)将是一种提供高带宽的有效解决方案。最近的工作提出了一种NMP方法,通过利用三维存储DRAM中的通孔(TSV)带宽来加速推荐模型。然而,TSV提供的总带宽不足以支持并行处理的一批嵌入层。在本文中,我们提出了一种近库处理架构来加速推荐模型。通过在三维存储DRAM的DRAM芯片上集成计算逻辑近内存库,我们的体系结构可以利用远远高于TSV带宽的巨大库级带宽。我们还提供了一个用于嵌入层卸载的硬件/软件接口。此外,我们提出了一种有效的映射方案来提高银行级带宽的利用率。因此,与基于3D存储内存的推荐加速的最新NMP解决方案相比,我们的体系结构在数据移动方面实现了2.10倍的加速和31%的节能。

课程:技术课程:冷静高效的近似

PAALM:功率密度感知近似对数乘法器设计

  • 俞树远
  • 谢尔登·X·D·谭

近似的硬件设计可以显著降低功耗或能耗。然而,最近的一项研究表明,由于功率密度增加,近似设计可能会导致不必要的高温和相关可靠性问题。在这项工作中,我们试图通过提出一种新的功率密度感知近似对数乘法器(称为PAALM公司)第一次设计。由于其严格的数学基础,新的乘法器设计基于近似对数乘法器(ALM)框架。其思想是根据等效数学公式重新设计现有ALM设计的高计算量开关活动,以便在不损失精度的情况下降低功率密度,同时以一些区域开销为代价。结果表明,与定点乘法器基线相比,所提出的PAALM设计可以以8/16位精度分别提高11.5%/5.7%的功率密度和31.6%/70.8%的面积。并且还实现了极低的误差偏差:分别为-0.17/0.08(8/16位精度)。在此基础上,我们进一步在卷积神经网络(CNN)并在CIFAR10数据集上进行测试。结果表明,通过误差补偿,PAALM可以达到与定点乘法器基线相同的推理精度。我们还评估了离散余弦变换(DCT)应用中的PAALM。结果表明,与ALM设计相比,通过误差补偿,PAALM可以平均提高8.6dB的图像质量。

宽精度范围、高能效的近似浮点FFT设计

  • 陈毅文
  • 吴颖(音)
  • 寻兆音
  • 程卓

快速傅里叶变换(FFT)是一种关键的数字信号处理算法,广泛应用于移动和便携式设备。最近,随着人类感知相关任务的普及,人们注意到,FFT计算并不总是需要完全精确的要求。我们提出了一种自顶向下的近似浮点FFT设计方法,以充分利用FFT算法的容错特性。提出了一种可配置近似乘法器的有效误差建模,以将乘法器近似与FFT算法精度联系起来。然后,为了最大限度地提高能源效率,制定了近似优化流程。实验结果表明,与精确FFT相比,该近似FFT可以实现52%的面积延迟乘积改进和23%的节能。与之前最先进的近似FFT相比,该近似FFT还可以覆盖近2倍的精度范围,具有更高的能量效率。

RUCA:RUntime可配置的具有自校正能力的近似电路

  • 马京晓
  • 谢里夫·雷达

近似计算是一种新兴的计算范式,它通过放宽对完全准确度的要求来提高功耗。由于精度要求可能因具体的实际应用而异,近似计算的一个趋势是设计质量可配置的电路,这些电路能够在运行时以不同的功率和延迟在不同的精度模式之间切换。本文提出了一种新的RUCA框架,旨在基于任意输入电路合成运行时可配置的近似电路。通过分解真值表,我们的方法旨在将输入电路近似并分离为支持不同精度水平的多个配置块,包括一个用于恢复完全精度的校正电路。功率选通用于激活不同的模块,以便近似电路能够在不同的精度功率配置下工作。为了提高算法的可扩展性,我们还提供了一种带有电路划分的设计空间探索方案。我们根据一套全面的基准来评估我们的方法。对于3级设计,RUCA在2%误差内平均节省43.71%的功耗,在1%误差内平均节约30.15%的功耗。

基于误差率保证的遗传算法的近似逻辑综合

  • 李春亭
  • 李一亭
  • 容志珍
  • 王春瑶

近似计算是一种新兴的容错应用设计技术,它可以通过权衡电路的正确性来改善电路面积、延迟或功耗。本文提出了一种新的基于遗传算法的近似逻辑综合方法,其目标是在保证错误率的前提下使深度最小化。我们在一组IWLS 2005和MCNC基准上进行了实验。实验结果表明,在5%的误差率约束下,深度可以减少50%,平均减少22%。与最先进的方法相比,在相同的5%错误率约束下,我们的方法可以平均多减少159%的深度。

会议:技术计划:AQFP的逻辑合成、量子逻辑、AI驱动和HBM的高效数据布局

AQFP电路中深度最优缓冲器和分路器的插入与优化

  • 亚历山德罗·坦皮亚·卡尔维诺
  • 乔瓦尼·德米凯利

绝热量子流参数管(AQFP)是一种节能的超导逻辑器件。AQFP技术要求插入缓冲区和拆分元素(B/S)以满足路径平衡和扇出分支约束。最近提出了B/S插入策略和优化策略,以最小化AQFP电路中所需的缓冲区和分离器的数量。在这项工作中,我们研究了B/S插入和优化方法。特别地,本文提出了:i)一种保证全局深度最优的B/S插入算法;ii)基于最小寄存器重定时的B/S优化新方法;iii)基于(i)、(ii)和现有工作的B/S优化流程。我们表明,我们的方法将B/S数量减少了20%,同时保证了最佳深度,与最新技术相比,运行时间加快了55倍。

基于强化学习的区域驱动FPGA逻辑综合

  • 周广磊
  • 杰森·安德森

逻辑综合涉及一组丰富的优化算法,这些算法在技术映射之前按特定顺序应用于电路网表。传统的方法是应用一种固定的算法“配方”,这种算法被认为适用于各种不同的电路。我们应用强化学习(RL)来确定每个电路的唯一算法配方。特征重要性分析是使用一个随机的分类器来修剪RL代理可见的特征集。我们证明了RL代理的结论性学习,并表明与传统方法相比,FPGA面积显著减少(resyn2)。除了逐电路训练和推理外,我们还对RL代理进行多个电路的训练,然后应用该代理进行优化:1)训练它的同一组电路,以及2)另一组“看不见的”电路。在这两种情况下,我们都观察到RL代理产生了比传统方法更高质量的实现。这表明RL代理能够在各种电路中进行泛化和有益的逻辑综合优化。

具有门共享的可逆逻辑网络优化

  • 容志珍
  • 赵凤杰

用于量子计算的逻辑合成旨在将布尔逻辑网络转换为量子电路。传统的两级流首先将给定的布尔逻辑网络合成为由可逆逻辑门组成的可逆逻辑网络。然后,它将每个可逆逻辑门映射到量子门以生成量子电路。第一阶段的最先进方法利用FPGA的可查找(LUT)映射技术将给定布尔逻辑网络分解为子网络,然后将子网络映射为可逆逻辑网络。虽然每个子网络都得到了很好的综合,但我们发现,通过共享属于不同子网络的可逆逻辑门,可以进一步优化可逆逻辑网络。因此,在本文中,我们提出了一种通过共享门来优化可逆逻辑网络的新方法。我们将提取共享门的问题转化为产品的排他累积项优化问题。实验结果表明,该方法成功地优化了基于LUT方法生成的可逆逻辑网络。它能够在不增加一组IWLS 2005基准的辅助线数量的情况下,平均减少大约4%的量子门成本。

Iris:为高带宽利用率自动生成高效数据布局

  • 斯蒂芬妮·索尔达维尼
  • 多纳泰拉·西乌托
  • 克里斯蒂安·皮拉托

优化数据移动正在成为异构计算中最大的挑战之一,以应对数据洪流,从而应对大数据应用程序。在创建专门的加速器时,现代高级综合(HLS)工具在优化计算方面的效率越来越高,但数据传输没有得到充分改进。为了解决这一问题,开发了新型体系结构,如具有更宽数据总线的高带宽存储器,以便可以并行传输更多数据。设计者必须定制其硬件/软件接口,以充分利用可用带宽。HLS工具可以自动化这个过程,但设计者必须遵循严格的编码风格规则。如果总线宽度不能被数据宽度均匀划分(例如,当使用自定义精度数据类型时),或者如果阵列不是双长度供电,HLS生成的加速器可能无法充分利用可用带宽,这就需要设计者付出更多的人工努力。我们提出了一种自动查找和实现数据布局的方法,当在内存和加速器之间进行流式传输时,该数据布局使用的可用带宽百分比高于原始或HLS优化设计。我们借用多处理机调度的概念来实现这样的高效率。

课程:技术课程:大学设计竞赛

ViraEye:55 nm CMOS中采用二进制神经网络的高能立体视觉加速器

  • 于章
  • 陈刚(音译)
  • 陶和
  • 钱黄
  • 黄凯(Kai Huang)

本文介绍了一种基于二进制神经网络(BNN)的节能立体视觉加速器ViraEye芯片,以实现高质量的实时立体估计。此立体视觉加速器设计为端到端的全流水线架构,其中所有处理过程,包括立体校正、BNN、成本聚合和后处理,都在ViraEye芯片上实现。ViraEye允许加速器和图像传感器之间的顶级管道,不需要外部CPU或GPU。该加速器使用SMIC 55nm CMOS技术实现,在公开文献中现有ASIC中,以每秒百万个视差估计(MDE/s)度量实现了最高的处理速度。

0.18μm CMOS中采用量化非线性功能块的1.2nJ/分类全数字异步有线逻辑处理器

  • Rei Sumikawa先生
  • Kota Shiba公司
  • Atsutake Kosuge公司
  • 滨田元宗
  • 黑田忠弘

已开发出一种体积小5.3倍、能效高2.6倍的全数字线逻辑处理器,其推理MNIST的准确率为90.6%,能耗为1.2nJ。为了提高线逻辑体系结构的面积效率,提出了一种神经元和突触效率高的非线性神经网络(NNN),以及通过逻辑综合用节省面积和低功耗数字电路实现它的逻辑压缩技术,并开发了异步数字组合电路DNN硬件。

基于非线性神经网络的全综合13.7μJ/预测88%准确度CIFAR-10单片数据处理芯片

  • 许耀昌
  • Atsutake Kosuge公司
  • Rei Sumikawa先生
  • Kota Shiba公司
  • 滨田元宗
  • 黑田忠弘

提出了一种基于FPGA的有线逻辑CNN处理器,能够以13.7μJ/预测的速度处理CIFAR-10,准确率为88%,比现有的基于FPGA处理器的节能2036倍。通过在单个FPGA芯片上并行实现所有处理元件和布线来消除内存访问,能源效率大大提高。通过利用(1)节省神经元和突触的非线性神经网络和(2)基于移位寄存器的线逻辑结构,硬件资源使用量减少了三个数量级。

支持数字和模拟项目的多模混合Memristor-CMOS原型平台

  • K.-E.哈拉比
  • C.图尔克
  • M.杜鲁欣
  • A.雷诺迪诺
  • T.贝尔萨尼·维罗尼
  • D.奎利奥斯
  • T.赫兹林
  • E.维亚内洛
  • M Bocquet先生
  • J.-M.门户

我们提出了一种在CMOS和氧化铪忆阻技术的共同集成过程中制作的集成电路,为涉及忆阻的项目提供了原型平台。我们的电路包括在数字电路中使用忆阻器的外围电路,以及直接访问忆阻的模拟模式。该平台允许优化读写记忆电阻器的条件,以及开发和测试基于记忆电阻器的创新神经形态概念。

一种内置自适应调频和隐式死区控制的全同步数字LDO

  • 山口 俊
  • Mahfuzul伊斯兰
  • 久川隆(Takashi Hisakado)
  • 奥萨米·瓦达

本文提出了一种同步数字LDO,它具有自适应时钟和无附加参考电压的死区控制。在商用65nm通用CMOS(GP)工艺中制造的测试芯片在0.6V电源下实现了580x频率调制,最大效率为99.9%。

65nm工艺中基于顺序统计的Flash ADC演示

  • Mahfuzul伊斯兰
  • 北村武弘
  • 久保隆
  • 奥萨米·瓦达

本文介绍了一种以偏置电压为基准的闪光模数转换器的测量结果。为了操作最少数量的比较器,我们根据偏移电压的排名选择目标比较器。我们通过在相同功率下使用多个比较器组调整偏置电压分布来提高性能。商业65 nm GP工艺中的测试芯片演示了ADC以1 GS/s的速度运行。

课程:技术课程:量子电路和系统的合成

优化Clifford电路综合的SAT编码

  • 演员/作家
  • 卢卡斯·布尔霍尔泽
  • 罗伯特·威利

在量子计算机上执行量子算法需要编译为符合设备施加的所有限制的表示。由于器件的相干时间和门保真度有限,编译过程必须尽可能优化。为此,算法的描述首先必须是合成的使用设备的门库。在本文中,我们考虑最优的合成克利福德电路&量子电路的一个重要子类,具有多种应用。这些技术对于建立(启发式)综合方法的下限和衡量其性能至关重要。由于巨大的搜索空间,现有的优化技术限制为最多6个量子比特。这项工作的贡献是双重的:首先,我们提出了一种基于编码作为可满足性的任务(SAT)并使用SAT解算器和二进制搜索方案解决该问题。由此产生的工具被证明可以合成最多26个量子比特的最优电路,这是当前技术水平的四倍多。其次,我们实验表明,最先进的启发式算法引入的开销平均超过下限27%。生成的工具可在以下网址公开获取:https://github.com/cda-tum/qmap网站.

基于SMT求解器的由CNOT、H和T门组成的NNA兼容量子电路的合成

  • Kyohei Seino公司
  • 山下茂

很自然,我们可以假设我们只能在两个相邻的物理量子位(量子位)之间执行量子操作,以实现既适用于当前技术又适用于未来可能技术的量子计算机。此限制称为最近邻体系结构(NNA)限制。本文提出了一种基于SMT求解器的由CNOT、H和T门组成的量子电路综合,以满足NNA限制。尽管现有的基于SMT解算器的合成不能直接处理H和T门,但我们的方法仔细处理量子特定的T和H门的功能,以便我们可以利用SMT解算器来最小化CNOT门的数量;与现有的基于SMT求解器的方法不同,我们的方法利用t门的特性来减少CNOT门,从而考虑了量子电路中间点的“不在乎”条件。实验结果表明,与未考虑“不在乎”条件的现有方法相比,我们的方法平均可以减少58.11%的CNOT门数。

高维量子系统纠缠门的编译

  • 凯文·马托
  • 马丁·林鲍尔
  • 斯特凡·希尔米奇
  • 罗伯特·威利

迄今为止,大多数量子计算架构本机支持多值逻辑,尽管通常以二进制方式操作。多值或qudit量子处理器可以获得更丰富的量子纠缠形式,这有望显著提高量子器件的性能和实用性。然而,开发此类硬件所需的许多理论以及相应的设计方法仍然不足,从量子位进行推广并不简单。一个特殊的挑战是将量子电路编译成一组由最先进的量子硬件支持的本地量子比特门。在这项工作中,我们通过引入一个完整的工作流来解决这一挑战,该工作流用于将任何两个qudit幺正编译成任意的本机门集合。案例研究证明了这两种方法的可行性、拟议的方法以及相应的实施(可在github.com/cda-tum/qudit-entrangement-compilation)。

WIT-自由:加权操作贪婪表面码解码器的硬件系统设计

  • 王廖
  • 铃木靖国神社
  • 塔尼莫托(Teruo Tanimoto)
  • 上野阳介
  • Yuuki Tokunaga公司

量子比特的大错误率是量子计算发展的主要困难之一。用表面码进行量子纠错(QEC)被认为是有效降低量子比特错误率的最有希望的方法。为了进行纠错,我们需要一个错误解码单元,它重复估计噪声物理量子位中的错误,以创建一个健壮的逻辑量子位。虽然复杂的图形匹配问题必须在严格的时间限制内解决,已经提出了几个满足大码距限制的硬件实现。

然而,现有的解码器设计在降低逻辑错误率方面仍然具有挑战性。这是因为他们假设物理量子位的错误率是一致的,而实际上它们有很大的变化。根据我们基于量子比特数最大的量子芯片的数值模拟,忽略实际量子芯片在解码过程中的非均匀错误特性会导致逻辑错误率显著降低,并损害QEC的效益。为了考虑非均匀性,解码器需要解决加权图上的匹配问题,但使用现有设计很难在不超过解码时限的情况下解决。因此,强烈要求解码器既能处理非均匀的物理错误率,又能处理较大的表面码。

在本文中,我们提出了一种用于表面码的解码单元的硬件设计,该解码单元可以在较大的码距下以较小的延迟处理不一致的错误特性。我们设计的关键思想是:1)构造一个查找表,用于计算加权图中节点之间的最短路径;2)在解码过程中实现并行处理。现场可编程门阵列(FPGA)的实现结果表明,我们的设计可以在微秒级延迟内扩展到代码距离11,这与现有的最新设计相当,而我们的设计能够处理不相同的错误。

有效产生控制脉冲的量子数据压缩

  • 丹尼尔·沃利亚
  • 普拉巴特·米什拉

为了在物理上实现稳健的量子门,需要通过量子最优控制等策略导出专门定制的激光脉冲。不幸的是,这种策略面临着量子系统大小的指数复杂性,甚至对于中等大小的量子电路也变得不可行。在本文中,我们提出了一个有效利用这些量子资源的自动化框架。具体而言,本文做出了三个重要贡献。首先,我们利用寄存器压缩和降维的有效结合来减小量子电路的面积。其次,由于自动编码器的特性,所产生的压缩门即使在存在噪声的情况下也很坚固。最后,我们提出的压缩减少了量子控制的计算时间。使用流行量子算法进行的实验评估表明,我们提出的方法可以有效地产生抗噪声控制脉冲,而最先进的方法无法处理大规模量子系统。

课程:技术课程:神经网络内存/近内存计算

接近STT-MRAM计算体系结构的节能稀疏矩阵向量乘法

  • 李月亭
  • 何章
  • 王雪燕
  • 郝才
  • 张云东
  • 吕淑琴
  • 刘仁光
  • 赵伟生

稀疏矩阵向量乘法(SpMV)是现代工作负载中使用的重要计算原语之一。SpMV执行内存访问,导致不必要的数据传输、大量数据访问和冗余的乘法累加器。因此,我们从三个优化角度提出了近自旋转移转矩磁随机存取存储器(STT-MRAM)的处理结构。这些优化包括(1)NMP控制器通过AXI4总线接收指令,以在以下步骤中实现SpMV操作,识别有效数据,并根据内核大小对索引进行编码,(2)NMP控制器在共享缓冲区中使用高级合成数据流以获得更好的性能吞吐量,同时不消耗总线带宽,(3)可配置MAC在NMP核心中实现,而在乘法过程中没有完全匹配的步长。使用这些优化,NMP体系结构可以访问流水线STT-MRAM(读取带宽为26.7GB/s)。实验仿真结果表明,与现有设计相比,该设计的加速比分别提高了66倍和28倍,在不进行稀疏优化的情况下,加速比提高了69倍。

RIMAC:一种具有模拟缓存和计算功能的基于阵列级ADC/DAC-Free ReRAM的内存DNN处理器

  • 陈培玉
  • 孟武
  • 马玉飞
  • 乐业
  • 如黄

通过直接在模拟域中进行计算,内存中的处理(PIM)正在成为克服传统von-Neuman体系结构,特别是深度神经网络(DNN)的内存瓶颈的一种有希望的替代方案。然而,大多数现有PIM加速器中PIM宏外部的数据都是作为数字信号存储和操作的,需要大量昂贵的数字-模拟(D/A)和模拟-数字(A/D)转换器。在这项工作中,提出了一种基于阵列级ADC/DAC-free ReRAM的内存DNN处理器RIMAC,该处理器使用模拟缓存和模拟计算模块在纯模拟域中加速各种DNN,以消除昂贵的D/A和A/D转换。实验结果表明,对于ImageNet上的各种DNN,与PRIME、ISAAC、Lattice和21'DAC相比,峰值能量效率分别提高了34.8×、97.6×、10.7×和14.0×。

用于高效内存加速的交叉校准和整数型神经网络压缩

  • 朔怀
  • 刘迪
  • 骆向中
  • 陈慧(音)
  • 刘伟晨
  • 拉维·萨布拉曼尼亚

基于交叉杆的内存计算(IMC)加速器在推理之前将整个深度神经网络(DNN)预加载到交叉杆中。然而,具有有限横杆的设备无法推断出越来越复杂的模型。IMC修剪可以减少交叉杆的使用,但当前的方法需要昂贵的额外硬件来进行数据对齐。同时,量化可以用整数表示DNN的权重,但它们使用非整数缩放因子来确保准确性,需要昂贵的乘数。在本文中,我们首先提出了交叉杆对齐剪枝,以减少交叉杆的使用,而无需硬件开销。然后,我们引入了一种量化方案来避免IMC设备中的乘法器。最后,我们设计了一种学习方法来完成上述两种方案,并在训练过程中培养出一个高精度、大稀疏度的最优紧致DNN。实验表明,与最新的方法相比,我们的框架实现了更大的稀疏性和更低的功耗,并且具有更高的准确性。我们甚至将VGG-16的准确度提高了0.43%,在Cifar-10数据集上的稀疏率为88.25%。与原始模型相比,我们的计算能力和面积分别减少了19.8倍和18.8倍。

发现3D点产品引擎的内存内核

  • 穆罕默德·拉舍杜尔·哈克·拉舍德
  • 苏米特·库马尔Jha
  • 里卡德·埃韦茨

电阻式随机存取存储器(ReRAM)实现乘法和累加运算的能力保证了科学计算应用程序设计的空前效率。虽然在过去几年中,二维(2D)ReRAM交叉杆的使用得到了很好的研究,但使用三维(3D)ReRAM十字杆设计内存中的点产品引擎仍然是一个活跃的研究主题。在本文中,我们全面探讨了如何利用具有多个(2到7个)堆叠交叉杆层的3D ReRAM交叉杆。相比之下,以前的研究主要集中在最多具有2个堆叠交叉杆层的3D ReRAM上。我们首先发现了内存中的计算内核,可以使用具有多个堆叠交叉层的3D ReRAM来实现。我们发现,通过将输入和输出适当地分配给3D堆栈中的垂直金属线,可以实现具有不同稀疏模式的矩阵。我们提供了一个设计自动化工具,用于将科学计算应用程序中的稀疏矩阵映射到发现的3D内核。使用SuitSparse矩阵集合中的20个应用程序对提议的框架进行评估。与二维交叉杆相比,使用三维交叉杆的方法将面积、能量和延迟分别提高了2.02倍、2.37倍和2.45倍。

RVComp:基于RRAM的内存计算的模拟偏差补偿

  • 何靖宇
  • 黄玉聪
  • 米盖尔·拉斯特拉斯
  • 特里·陶冶(Terry Tao Ye)
  • 池英翠
  • Kwang-Ting Cheng(光鼎诚)

电阻式随机存取存储器(RRAM)在神经网络应用中加速记忆密集型计算方面显示出巨大潜力。然而,基于RRAM的计算由于不可避免的设备变化而导致精度显著下降。在本文中,我们提出了RVComp,一种细粒度的模拟补偿方法,以减轻由RRAM设备的变化引起的内存计算的精度损失。具体来说,RRAM交叉杆中的权重与专用补偿RRAM单元一起使用比例因子抵消其编程错误。进一步设计了一种可编程的目标移位机构,以减少硬件开销和最大限度地减小设备大变化下的补偿误差为目标。基于这两个关键概念,我们提出了双重和动态补偿方案以及相应的支持体系结构。由于外围电路占主导地位,RRAM单元仅占计算宏总面积的一小部分,因此RVComp的总面积开销很低且易于管理。仿真结果表明,在30%的设备变化率下,RVComp在CIFAR-10数据集上对ResNet18的推理准确率下降了1.80%,仅7.12%的面积和5.02%的功耗开销,并且没有额外的延迟。

课程:技术课程:基于机器学习的设计自动化

发布模型前的反思:EDA中的ML模型提取攻击

  • 陈其昌
  • 潘靖宇
  • 谢志尧
  • 姜虎
  • 陈怡然

基于机器学习(ML)的电子设计自动化(EDA)技术提高了现代集成电路(IC)的性能。这一成就使得ML模型对EDA行业具有重要意义。此外,EDA的ML模型由于耗时且复杂的训练数据生成过程而被广泛认为具有较高的开发成本。因此,EDA模型的机密性保护是一个关键问题。然而,对手可以申请模型提取攻击该模型在实现与受害者模型可比性能的意义上。由于模型提取攻击对其他应用领域(如计算机视觉和自然语言过程)构成了巨大威胁,本文研究了两种真实场景下EDA模型的模型提取攻击。这是第一项工作,(1)介绍了对EDA模型的模型提取攻击,(2)针对无限和有限的查询预算场景提出了两种攻击方法。我们的结果表明,我们的方法可以在没有任何性能退化的情况下,与训练有素的受害者模型一起实现有竞争力的性能。基于这些结果,我们证明模型提取攻击确实威胁了EDA模型的隐私,并希望引起人们对EDA中ML安全问题的关注。

MacroRank:利用翻译均衡对宏观布局解决方案进行排名

  • 陈一凡
  • 京迈
  • 高晓翰
  • 张木涵(Muhan Zhang)
  • 林一博

现代大规模设计广泛使用了异构宏,这会显著影响可路由性。在早期宏观布局阶段预测最终布线质量可以筛选出较差的解决方案并加快设计完成。通过观察路由与实例之间的相对位置相关,我们提出了MacroRank,这是一个利用翻译等方差和学习排名技术的宏位置排名框架。该框架能够了解宏布局解决方案的相对顺序,并根据布线质量指标(如电缆长度、过孔数量和短路数量)对其进行排序。实验结果表明,与最新基线相比,我们的框架可以将Kendall秩相关系数提高49.5%,前30位预测的平均性能在有线长度、过孔和短路方面分别提高8.1%、2.3%和10.6%。

BufFormer:一个用于可扩展缓冲的生成性ML框架

  • 梁荣健
  • 悉达多·纳特
  • 阿南德·拉贾拉姆
  • 姜虎
  • 任浩星

缓冲是一种普遍的互连优化技术,有助于定时闭合,通常在放置后进行。一种常见的缓冲方法是构造Steiner树,然后基于Ginneken-Lillis风格的算法在树上插入缓冲区。这种方法很难用大型网进行扩展。我们的工作试图用生成机器学习(ML)方法解决这个问题,而不需要构造Steiner树。我们的方法可以从高质量的样本中提取和重用知识,因此大大提高了可伸缩性。提出了一种生成性ML框架BufFormer,用于构造抽象树拓扑,同时确定缓冲区大小和位置。采用基于FLUTE的Steiner树构造和Ginneken-Lillis风格的缓冲区插入的基线方法生成训练样本。经过培训,BufFormer可以为与基线结果高度可比的不可见网络生成解决方案,缓冲区的相关系数为0.977,驾驶员-接收器延迟的相关系数则为0.934。平均而言,BufFormer生成的树以稍大的缓冲区实现了类似的延迟。当在GPU上运行时,在单个CPU线程上的基线上,大型网络的速度可以提高160倍。

解耦电容器插入最小化IR-Drop违规和DRV路由

  • Daijoon Hyun公司
  • Younggwang Jung(杨王荣)
  • 因苏·乔
  • Youngsoo Shin公司

去耦电容器(decap)单元被插入高开关活性功能单元附近,以抑制其IR-drop。他们的设计变得更加复杂,使用了更高的金属层,因此开始表现为路由阻塞。首次解决了以最小化IR-drop违规和路由设计规则违规(DRV)为目标的塑性后脱盖插入问题。引入带有图卷积网络的U-Net来预测路由DRV惩罚。建立了decap插入问题的数学模型,并提出了一种启发式算法。用一些测试电路进行的实验表明,与未明确考虑DRV的传统方法相比,DRV平均减少16%,且无IR-drop违规。这导致路由运行时减少48%,总负空闲时间减少23%。

DPRoute:包路由的深度学习框架

  • 耶-哈-耶
  • 西蒙·伊洪·陈
  • 陈洪明
  • 邓瑶图
  • 关其芳
  • Yun Chih Kuo先生
  • 陈宝阳

对于封装设计中的布线闭合,由于复杂的设计规则和严重的线路拥塞,网络顺序至关重要。然而,现有的解决方案是使用启发式精心设计的,除非更新算法,否则很难适应不同的设计要求。这项工作提出了一种新的基于深度学习的路由框架,可以通过积累数据来不断改进,以适应日益复杂的设计需求。基于初始路由结果,我们将深度学习应用于并发详细路由,以处理网络排序决策问题。我们使用多智能体深度强化学习来学习网络之间的路由调度。我们将每个网络视为一个代理,在进行路径决策时需要考虑其他代理的行为,以避免路由冲突。工业封装设计的实验结果表明,该框架可以将设计规则违反次数提高99.5%,初始布线的电缆长度提高2.9%。

课程:技术课程:提高产量、低功耗和可靠性的先进技术

利用收缩深度特征和积分熵降最大化的高维产量估计

  • 朔音
  • 戴国浩
  • 魏伟星

尽管在过去十年中,借助机器学习技术在高西格玛成品率分析方面取得了快速进展,但主要挑战之一是,在处理现代大规模电路时不可避免的“维数”诅咒仍未解决。为了解决这一挑战,我们提出了一种绝对收缩深核学习ASDK,它自动识别非线性相关深核中的主要过程变化参数,并充当代理模型来模拟昂贵的SPICE模拟。为了进一步提高产量估算效率,我们提出了一种新的近似熵约简最大化方法,用于有效的模型更新,该方法还通过并行批采样进行并行计算来增强,使其为实际部署做好了准备。在SRAM列电路上的实验表明,ASDK在精度和效率方面优于最先进的(SOTA)方法,与SOTA方法相比,其加速比高达11.1倍。

支持MIA的泄漏功率优化详细布局和VT重新分配

  • 林鸿均
  • 邵云芳

随着特征尺寸的减小,泄漏功耗成为设计中的一个重要目标。在基于单元的设计中使用多阈值电压(VT)是一种流行的技术,可以同时优化电路时序并最小化泄漏功率。然而,多VT设计的任意单元布局结果可能会受到最小植入面积(MIA)规则诱导的许多设计规则违规的影响,因此有必要在详细布局阶段考虑MIA规则。最先进的技术致力于详细布局,全面处理MIA规则,要么不允许VT更改,要么只允许减少单元VT以避免时间退化。然而,这些限制可能导致更大的电池位移或导致泄漏功率开销。在本文中,我们提出了一个VT重新分配和详细布局的优化框架,以同时考虑MIA规则和时序约束下的泄漏功率最小化。实验结果表明,与现有研究相比,该框架能够有效地在泄漏功率和电池位移之间取得更好的平衡。

SLOGAN:SDC概率估计的结构化图形注意网络

  • 马俊驰(Junchi Ma)
  • 黄素丽(Sulei Huang)
  • 段宗涛
  • 雷唐(Lei Tang)
  • 王鲁阳

技术不断扩展的趋势使计算系统更容易受到软错误的影响。软错误引发的最关键问题是无提示数据损坏(SDC),因为SDC是在无提示的情况下发生的。估计程序的SDC概率是设计保护机制的第一步,也是必不可少的一步。由于所提出的基于启发式的模型无法描述故障传播的语义,因此先前的工作存在预测不准确的问题。我们提出了一种新的方法SLOGAN,它将SDC概率的预测转化为一个图回归任务。程序以动态依赖图的形式表示。为了捕捉故障传播的丰富语义,我们应用了结构化的图注意力网络,它包括节点级、图级和层级的自注意。通过从节点级、图形级和层级自我关注中学习到的注意系数,可以充分考虑边缘、节点和层对故障传播的重要性。我们通过节点嵌入的加权聚合生成图嵌入,并通过回归模型计算SDC概率。实验表明,SLOGAN以较低的时间成本实现了比最新方法更高的SDC精度。

课程:技术课程:微结构设计和神经网络

基于人工神经网络和传递学习的微体系结构功率建模

  • 翟建旺
  • 蔡一慈
  • 贝聿

为了探索更好的CPU设计,人们迫切需要准确而健壮的功率模型。然而,以前基于学习的功率模型忽略了不同CPU设计之间数据分布的差异,使得很难使用历史配置中的数据来帮助对新目标配置进行建模。本文研究了功率模型的可传递性,提出了一种基于传递学习的微体系结构功率建模方法。针对基于人工神经网络(ANN)的功率模型,提出了一种新的TL方法,其中跨域混合生成更多靠近目标配置的辅助样本来填充分布差异,域-逆训练提取域内变异特征来完成目标模型的构建。实验表明,该方法大大提高了模型的可移植性,能够有效地利用现有CPU配置的知识,方便目标功率模型的构建。

MUGNoC:用于加速CNN数据流的软件配置的多播-联合播-主NoC

  • 陈慧(音)
  • 刘迪
  • 李世清
  • 朔怀
  • 骆向中
  • 刘伟晨

当前卷积神经网络(CNN)的通信基础设施只关注特定的传输模式,如果数据流发生变化或不同的数据流在一个系统中运行,则不适用于整个系统。为了减少数据移动,我们提供了各种CNN数据流。对于这些数据流,参数和结果是使用不同的流量模式来传递的,即多播、单播和收集,如果数据流发生变化或不同的数据流在同一系统中运行,则会阻止特定于数据流的通信主干从整个系统中受益。因此,在本文中,我们建议使用MUG-NoC来支持典型的流量模式并对其进行加速,从而提升多个数据流。具体来说,(i)我们通过修改路由器配置并提出有效的组播路由,首次支持2D-mesh软件可配置NoC中的组播;(ii)我们通过并行地通过不同路由传输数据来减少单播延迟;(iii)我们通过流水线化基本数据流单元来减少输出收集开销。实验表明,与最先进的CNN通信主干相比,我们提出的设计至少可以减少39.2%的总数据传输时间。

COLAB:GPU中复制缓存请求的协同高效处理

  • 伯文成
  • 黄恩明
  • 陈浩超
  • 孙伟芳
  • Tung-Tai Yeh先生
  • 李俊毅

在这项工作中,我们旨在捕获SM集群内流多处理器(SM)之间的复制缓存请求,以缓解现代GPU的片上网络(NoC)拥塞问题。为了实现这个目标,我们合并了一个每个集群的缓存线所有权查找表(COLAB),它可以跟踪集群中哪个SM持有特定缓存线的副本。在COLAB的帮助下,SM可以根据COLAB中存储的所有权信息重定向SM集群中的复制缓存请求,从而协同高效地处理这些请求。通过为SM集群内的复制缓存请求提供服务,这些请求将消耗宝贵的NoC带宽,可以缓解NoC互连的沉重压力。我们的实验结果表明,采用COLAB确实可以缓解复制缓存请求造成的过度NoC压力,并提高基线GPU的整体系统吞吐量,同时将开销降至最低。平均而言,COLAB可以减少38%的NoC流量,并将每周期指令数(IPC)提高43%。

技术程序:嵌入式软件中调度和内存优化的新技术

具有整数多重WCET和丢弃关系的混合临界性:新的调度挑战

  • 费德里科·雷根扎尼
  • 威廉·福纳西亚里

调度混合临界(MC)工作负载是实时计算中一个具有挑战性的问题。最早截止时间优先虚拟截止时间(EDF-VD)是最著名的调度算法之一,具有最优的加速比边界特性。然而,当EDF-VD用于使用具有附加或宽松约束的模型调度任务集时,其调度属性会发生变化。受MC在容错任务调度中的应用启发,在本文中,我们提出了两个多临界级别的模型:第一个是MC模型的特化,第二个是它的泛化。然后,我们通过形式证明和数值模拟表明,前者大大提高了EDF-VD的加速界限。最后,我们提供了与这两个模型的最优性相关的证明,从而确定了对新调度算法的需求。

AER任务模型全局固定优先级调度的精确可调度性分析

  • Thilanka Thilakasiri斯里兰卡
  • 马蒂亚斯·贝克尔

商用off-the-shelf(COTS)多核平台提供了高性能和高可用性的处理资源。访问共享资源时争用加剧是高并行性的结果,也是将实时应用程序部署到这些平台时面临的主要挑战之一。因此,提出了几种执行模型,通过将对共享资源的访问与执行分离来避免争用。

在这项工作中,我们考虑了收购-执行-恢复(AER)模型,其中通过设计避免了对共享资源的争用。我们使用时间自动机对AER模型在全局固定优先级调度下的精确可调度性进行了测试,将可调度性问题描述为可达性问题。据我们所知,这是多处理器平台上AER模型在全局固定优先级调度下的第一次精确可调度性测试。该方法的性能通过综合实验进行了评估,并提供了比最新技术多65%的可调度任务集。

Skyrmion Vault:最大化Skyrmion寿命,实现低功耗Skyrmion赛马场内存

  • Syue-Wei路
  • 陈朔涵
  • 余培良
  • 袁浩昌
  • 王康(音译)
  • 曾益珍
  • 石维宽

Skyrmion赛道存储器(SK-RM)作为一种高密度、低成本的非易失性存储器显示出巨大的潜力。然而,即使SK-RM支持随机数据访问,也无法直接对单个数据位进行数据访问。相反,需要特殊的skyrmion操作,如注入和移动,以支持随机信息更新和删除。通过这种特殊的操作,skyrmion操作的延迟和能量消耗可能会迅速累积,并在SK-RM的数据读/写路径上产生额外的开销。同时,注入操作比任何其他操作都要消耗更多的能量,具有更高的延迟。虽然先前的技术已经尝试减轻天敌操作的开销,但通过缓冲天敌以供未来重用和节能来最小化注射的可能性却很少受到关注。这样的观察促使我们提出skyrmion拱顶有效利用skyrmion缓冲轨道结构,通过最大化注入skyrmions的寿命和最小化注入次数来实现节能。实验结果表明,在能耗和寿命方面都有很好的改善。

课程:技术课程:模拟设计的高效电路仿真与合成

基于并行不完全LU分解的固定结构线性方程组电路仿真迭代求解器

  • 李凌杰
  • 刘志强
  • Kan Liu(音译)
  • 山神
  • 余文建

在电路仿真过程中求解了一系列固定结构稀疏线性方程组。针对这些方程,我们提出了一种并行的不完全LU(ILU)预处理GMRES求解器。采用一种新的基于子树的ILU分解和前向/后向替换调度算法,解决了传统基于层次化调度的负载平衡和数据局部性问题。实验结果表明,与基于水平化的调度相比,所提出的调度算法在ILU因子分解和前向/后向替换方面可以实现高达2.6倍的加速。提出的ILU-GMRES求解器通过8个线程实现了大约4倍的并行加速,比基于级别化的方案快2.1倍。与现有的线性和非线性电路瞬态仿真方法(包括HSPICE)相比,该并行求解器也显示出显著的优势。

含有大量一般漂浮金属的三维结构的加速电容模拟

  • 黄洁晨
  • 余文建
  • 宋明业
  • 杨明(音)

浮动金属是通过面向制造的设计(DFM)引入导体结构的特殊导体。它们给准确的电容模拟带来了困难。在这项工作中,我们旨在加速基于浮动随机游动(FRW)的电容模拟,以模拟含有大量普通浮动金属的结构。我们首先讨论了现有的改性FRW如何受到浮动金属整体表面的影响,并提出了一种改进的整体表面布置。然后,我们提出了一种称为不完全网络约简的混合方法,以避免浮金属捕获的随机跃迁。集成电路和FPD设计中的结构实验表明了所提技术的有效性,这些结构涉及多个浮动金属和单个或多个主导体。所提出的技术减少了电容计算的计算时间,同时保持了准确性。

基于最佳寄生匹配的定制SAR ADC指纹阵列自动合成

  • 蒋成玉
  • 胡嘉林
  • 马克·波洪琳
  • Yu-Szu Chung先生
  • 夏·杰·朱
  • 吴洁贞
  • 石华木业(Shiuh-hua Wood Chiang)
  • 刘建南(Jimmy Liu)
  • 陈洪明

连续逼近寄存器(SAR)模数转换器(ADC)由于其卓越的功率效率,是低功耗ADC实现的一种极具吸引力的设计选择。在模拟版图设计中,由互连导线和元件引起的寄生影响器件的精度和性能。由于低功耗和高速的要求,电容器阵列的结构通常采用一系列非常小的横向金属-金属电容器单元。除了功耗和面积减小外,寄生电容还将显著影响电容器的匹配特性和稳定时间。这项工作提出了一个框架来合成高质量的二值加权电容器,用于定制SAR ADC。此外,本文还提出了一种基于寄生感知ILP的加权动态网络路由算法,以生成同时考虑寄生电容和电容比失配的布局。实验结果表明,该方法生成的版图的有效比特数(ENOB)与手工设计和其他自动化作品相当或更好,缩小了预模拟和后模拟结果之间的差距。

会议:技术计划:包含FPGA的异构系统的安全

FPGANeedle:从FPGA到CPU的精确远程故障攻击

  • 马修·格罗斯
  • 乔纳斯·克劳特
  • 丹尼斯·格纳德
  • 迈克尔·格鲁伯
  • 乔治·西格尔
  • 梅迪·塔胡里

FPGA作为通用加速器可以极大地提高云和边缘设备的系统效率和性能。然而,它们最近已经成为远程攻击的焦点,例如从FPGA结构的一部分的一个用户到另一个用户的故障和侧信道攻击。在这项工作中,我们考虑系统芯片平台,其中FPGA和嵌入式处理器内核位于同一个芯片上。我们表明,嵌入式处理器内核容易受到FPGA逻辑产生的电压降的影响。我们的实验证明了从外部DDR内存到处理器缓存层次结构的数据传输受到影响的可能性。此外,我们还能够对ARM Cortex-A9内核上执行的指令进行故障诊断和跳过。基于FPGA的故障注入显示足够精确,可以恢复mbedTLS库中的AES T表实现的密钥。

基于FPGA的块密码旁道攻击对策

  • 达尔沙娜·贾亚辛哈
  • 布赖恩·乌杜加马
  • 斯里·帕拉梅斯瓦兰

现场可编程门阵列(FPGA)越来越普遍。FPGA支持硬件加速和可重新配置。FPGA上发生的任何安全漏洞或关键计算攻击都可能导致毁灭性后果。边通道攻击能够泄露秘密信息,例如FPGA上运行的密码电路的密钥。功耗(PA)、电磁(EM)辐射、故障注入(FI)和远程功耗(RPA)攻击是FPGA上最引人注目的非侵入性副通道攻击。本文讨论了两种PA攻击对策(四边形密封RFTC)和一个RPA攻击对策(UCloD)详细保护FPGA。

课程:技术课程:新型应用与架构特定量化技术

基于在线量化灵敏度分析的分块动态精确神经网络训练加速

  • 刘若阳
  • 陈汉伟
  • 杨义雄
  • 王文勋
  • 华中杨
  • 刘永潘

数据量化是加速神经网络训练和降低功耗的有效方法。然而,执行低比特量化训练是一项挑战:传统的等精度量化将导致高精度损失或有限的比特宽度缩减,而现有的混合精度方法提供了很高的压缩潜力,但无法执行准确有效的比特宽度分配。在这项工作中,我们提出了DYNASTY,一种块式动态精确神经网络训练框架。DYNAST通过快速在线分析提供准确的数据敏感性信息,并使用自适应位宽映射生成器保持稳定的训练收敛性。在CIFAR-100和ImageNet数据集上进行了网络训练实验,与8位量化基线相比,DYNASTY的速度提高了5.1倍,能耗降低了4.7倍,精度没有下降,硬件开销可以忽略不计。

搜索量化:一种新的有限权空间卷积神经网络量化方案

  • 青露
  • 魏文江
  • 徐晓伟
  • 胡静桐
  • Yiyu Shi公司

量化已经成为压缩深度神经网络以部署到资源受限的硬件上的一项重要技术。值得注意的是,实现量化网络的硬件效率与要量化的实际值高度耦合,因此,在给定的比特宽度下,我们可以巧妙地选择一个值空间来进一步提高硬件效率。例如,使用仅为2的整数幂的权重,乘法可以通过位运算实现。然而,在这种情况下,现有的量化软件训练方法要么不适合应用,要么无法释放极低比特宽度的表现力。为了获得最佳的硬件效率,我们重新审视了卷积神经网络的量化,并建议从权重搜索的角度来处理训练过程,而不是像现有工作中那样优化量化器函数。对CIFAR10和ImageNet分类任务进行了大量实验,并在ResNet、VGG和MobileNet等成熟的CNN体系结构上进行了实现。结果表明,该方法可以实现比现有技术更低的精度损失,和/或通过同时使用硬件友好的权重值来提高实施效率。

考虑波长相关偏差的WDM光学卷积神经网络的多波长并行训练和量化软件调整

  • 朱颖(音)
  • 刘敏(音)
  • 陆旭
  • 王磊(Lei Wang)
  • 习笑
  • 余少华

基于波分复用(WDM)的Mach-Zehander干涉仪光学卷积神经网络(MZI-OCNNs)已成为一种很有前景的平台,可以加速神经网络中消耗最多计算资源的卷积。然而,波长相对不完美的分割比和MZI中的实际相移以及来自电子配置模块的量化误差将降低基于WDM的MZI-OCNN的推断精度,从而使它们在实践中不可用。在本文中,我们提出了一个框架,该框架对不同波长下的分裂比和相移进行建模,并将其纳入OCNN训练中,并引入量化软件调整以保持推理准确性和降低电子模块复杂性。因此,对于使用多波长并行计算实现的LeNet5、VGG7和VGG8,该框架可以分别将推理精度提高49%、76%和76%。而不是使用浮点32/64量化分辨率,只需要5、6和4位,配置信号使用更少的量化级别。

面向三维目标检测的语义引导细粒度点云量化框架

  • 冯小雨
  • 陈唐
  • 张宗凯
  • 孙文宇
  • 刘永潘

与网格化RGB图像不同,网络压缩修剪和量化,对于不规则和稀疏的三维点云面临着更多的挑战。传统的量化方法忽略了三维点云中不均衡的语义分布。在这项工作中,我们提出了一个基于语义引导的三维点云自适应量化框架。与采用静态统一量化方案的传统量化方法不同,我们提出的框架可以自适应地定位特征地图中语义丰富的前景点,从而为这些“重要”点分配更高的比特宽度。由于前景点在稀疏三维点云中所占比例较低,因此在相同的压缩率下,这种自适应量化比均匀压缩可以获得更高的精度。此外,我们在所提出的框架中采用了一种分块细粒度压缩方案,以适应点云中更大的动态范围。此外,提出了一种基于三维点云的软硬件联合评估过程,以评估所提出的自适应量化在实际硬件设备中的有效性。基于nuScenes数据集,我们在平均2位量化下实现了12.52%的精度改进。与8位量化相比,基于联合评估结果,我们可以达到3.11倍的能效。

课程:技术课程:有效学习的近似大脑启发架构

ReMeCo:基于忆阻的可靠记忆神经形态计算

  • 阿里·巴纳戈扎尔
  • 赛义德·侯赛因·哈希米·沙德梅赫里
  • 桑德·斯图伊克
  • 迈赫迪·卡马尔
  • 阿里·阿夫扎利·库沙
  • Henk公司

基于忆阻器的内存神经形态计算系统有望高效实现人工神经网络(ANN)中常用的向量-矩阵乘法。然而,记忆电阻器的不成熟制造工艺和电路级限制,即卡滞故障(SAF)、IR-drop和器件到器件(D2D)的变化,降低了这些平台的可靠性,从而阻碍了它们的广泛部署。本文提出了ReMeCo,一种基于冗余的可靠性改进框架。它解决了非理想性问题,同时限制了诱导开销。它通过对人工神经网络进行灵敏度分析来实现这一点。凭借所获得的见解,ReMeCo避免了最小的冗余计算敏感的神经元和层。ReMeCo使用启发式方法在恢复的准确性和施加的开销之间找到平衡。ReMeCo通过利用位分割技术进一步降低了硬件冗余。此外,该框架在每个ANN层的输出端采用集合平均方法来合并冗余神经元。ReMeCo的功效通过两个著名的ANN模型进行评估,即LeNet和AlexNet,运行MNIST和CIFAR10数据集。我们的结果显示,98.5%的准确率恢复,大约4%的冗余度,比最新技术低20倍以上。

SyFAxO-GeN:用生成网络综合基于FPGA的近似算子

  • 罗希特·兰詹
  • 萨利姆·乌拉
  • 湿婆萨蒂安德拉·萨胡
  • 阿卡什·库马尔

随着AI推理向边缘移动的趋势不断上升,由于通信和隐私挑战,人们越来越关注设计低成本的edge-AI。考虑到边缘应用领域的多样性,基于FPGA的系统越来越多地用于高性能推理。类似地,近似计算已经成为一种可行的方法,可以通过利用应用程序固有的健壮性来实现不成比例的资源收益。然而,大多数相关研究都集中于从一组基于ASIC的设计中为应用程序选择合适的近似运算符。这种方法未能利用FPGA的架构优势,并将近似范围限制为现有的通用设计。为此,我们提出了一种基于人工智能的方法来合成FPGA基于查找表结构的新型近似运算符。具体来说,我们使用最先进的生成网络来搜索针对基于FPGA的实现而优化的约束感知算术运算符设计。使用所提出的GAN,我们报告的训练速度比相关生成网络快49%,精度降低可以忽略不计。同样,与合成近似乘数的最新方法相比,我们报告了改进的超体积和增加的pareto-front设计点。

通过共享人工神经网络的部分提取逼近硬件加速器

  • 普拉泰·乔杜里
  • 豪尔赫·卡斯特罗·戈迪内斯
  • 本杰明·卡里恩·谢弗

为进一步降低异质片上系统(SoC)的能耗,提出了一种方法,即近似计算。在近似计算中,为了简化硬件,从而获得更低的功耗,输出的误差被减小。幸运的是,这些SoC中的大多数硬件加速器也可以进行近似计算。

在这项工作中,我们提出了一种全自动的方法,将C/C++/SystemC中指定的硬件加速器的一部分替换为人工神经网络(ANN)进行高级合成(HLS)。人工神经网络有许多优点,使其非常适合于此。首先,它们具有很强的可伸缩性,允许同时在其上逼近行为描述的多个单独部分。其次,多个ANN可以装有保险丝的并重新优化,以进一步降低功耗。我们用这个来分享用人工神经网络逼近同一SoC中的多个不同硬件加速器。不同误差阈值的实验结果表明,与现有方法相比,我们提出的方法具有更好的结果。

可靠高清:一种面向边缘的电压标度电路的超维学习框架

  • 梁德华
  • Hiromitsu Awano公司
  • Noriyuki Miura公司
  • Jun Shiomi先生

电压定标是提高能效最有希望的方法之一,但同时也给充分保证现代超大规模集成电路的稳定运行带来了挑战。为了解决这些问题,我们建议可靠硬盘是一个基于超维计算(HDC)的学习框架,支持系统在低电压区域容忍位级内存故障,具有很高的鲁棒性。第一次可靠硬盘引入了边缘增强的概念来进行模型再训练,并利用噪声注入来提高鲁棒性,这可以应用于大多数最先进的HDC算法。我们的实验表明,在10%的内存错误下可靠高清与基线HDC解决方案相比,平均精度损失为1.22%,提高了11.2倍。硬件评估表明可靠硬盘支持系统将电源电压从400mV降至300mV,在保持具有竞争力的精度性能的同时,可降低50.41%的能耗。

会议:技术计划:验证和测试技术的回顾与展望

EDDY:一个具有动态内存管理和减少碎片的多核BDD包

  • 卢恩·克劳斯
  • 梅兰·戈里
  • 罗尔夫·德雷克斯勒

近年来,硬件系统的复杂性显著增加。由于日益复杂,需要不断提高硬件设计过程的质量。这使得设计者努力寻找更高效的数据结构和算法,通过模型检查等验证技术确保此类系统的正确行为,并满足时间到市场的限制。A类二进制决策图(BDD)是一种合适的数据结构,因为它提供了布尔函数的规范紧凑表示、给定的变量顺序以及操作它们的有效算法。然而,降阶BDD也有挑战:一些复杂实用函数的BDD构造需要消耗大量内存,BDD包形式实现的使用在很大程度上取决于应用程序。

为了解决这些问题,本文提出了一种新的多核软件包,名为工程师决策图(EDDY)具有动态内存管理和减少碎片。在组合电路的BDD基准测试和模型检查上的实验表明,与最先进的软件包相比,使用EDDY可以显著提高性能。

利用可逆计算进行验证:潜在的、可能的途径和后果

  • 卢卡斯·布尔霍尔泽(Lukas Burgholzer)
  • 罗伯特·威利

今天,经典电路的验证对电路和系统的设计提出了严峻的挑战。虽然以各种方式(基于仿真的方法、仿真、形式等价性检查、模糊化、模型检查等)解决了潜在的(指数)复杂性,但还没有发现“银弹”,这使得可以避开不断扩大的验证差距。在这项工作中,我们接受并研究了旨在开发可逆计算的互补方法的思想。更准确地说,我们展示了可逆计算范式的验证潜力,揭穿了不允许利用这种潜力的误导性路径,并讨论了对未来互补设计和验证流程发展的后果。一项广泛的实证研究(涉及3000多万次模拟)证实了这些发现。虽然这项工作还不能完全实现,但它可能为克服核查差距的替代途径提供基础。

深度神经网络测试模式的自动生成与压缩

  • 迪娜·穆萨
  • 迈克尔·赫芬布鲁克
  • 克里斯托弗·穆奇
  • 梅迪·塔胡里

深度神经网络(Deep Neural Networks,DNNs)由于其在广泛的识别和分类任务中的优异性能,近年来受到了广泛的关注。因此,DNN及其实现中的故障检测对DNN实现的质量起着至关重要的作用,以确保其后映射和内场精度与模型精度相匹配。本文提出了一种功能级的DNN测试模式自动生成方法。这是通过生成在出现单个或多个故障时导致输出类标签错误分类的输入来实现的。此外,为了获得更小的全覆盖测试模式集,实现了一种启发式算法以及使用K-均值的测试模式聚类方法。实验结果表明,与最先进的方法相比,所提出的测试模式实现了最高的标签错误分类和较高的输出偏差。

考虑系统不连续效应的晶圆级特性变化模型

  • Takuma Nagao长尾
  • 中村友子
  • Masuo Kajiyama公司
  • Makoto Eiki公司
  • 井上美彦
  • Michihiro Shintani先生

在大规模集成电路(LSI)测试中,统计晶片级变化建模是一种降低测量成本、同时保持测试质量的有效方法。在这种方法中,在晶圆上制造的未测量LSI电路的性能是通过几个测量的LSI电路进行统计预测的。传统的统计方法对晶圆的空间平滑变化进行建模。然而,实际晶圆可能会有不连续的变化,这些变化是由制造环境系统性地造成的,例如喷丸依赖性。在本研究中,我们提出了一种建模方法,通过将制造工程师的知识应用于使用高斯过程回归估计的模型,来考虑晶圆特性的不连续变化。在该方法中,将过程变化分解为系统的不连续分量和全局分量,以提高估计精度。使用工业生产测试数据集进行的评估表明,与传统方法相比,该方法将整个晶圆的估计误差减少了33%以上。

会议:技术计划:计算、擦除和保护:下一代内存的安全挑战

使用被动RRAM横杆阵列的硬件安全原件:新型TRNG和PUF设计

  • 辛格(Simranjeet Singh)
  • Furqan Zahoor公司
  • 戈库尔·拉金德兰
  • Sachin Patkar公司
  • 查托帕德耶省
  • 法哈德商人

随着电子产品的快速发展,这些设备的安全和隐私方面意义重大。在安全系统的设计中,物理不可克隆函数(PUF)和真随机数生成器(TRNG)是安全应用的关键硬件安全原语。本文提出了在RRAM交叉杆结构上实现PUF和TRNG的新方法。首先,基于写回和50%切换概率脉冲,提出了两种在RRAM交叉开关中实现TRNG的技术。使用NIST测试套件评估拟议TRNG的随机性。接下来,提出了一种在RRAM交叉杆中实现PUF的体系结构。PUF的初始熵源来自TRNG,并收集挑战响应对(CRP)。所提出的PUF利用器件变化和潜行路径电流来产生独特的CRP。我们通过大量实验证明,在不使用任何后处理技术的情况下,可靠性为100%,唯一性为47.78%,一致性为49.79%,比特混叠为48.57%。最后,将设计与文献进行比较,以评估其实现效率,明显优于最新技术。

eMMC上的数据清理

  • 阿亚·福卡米
  • 弗朗西斯科·雷加佐尼
  • 泽诺·杰拉德

鉴于电子废弃物正在被回收和重新利用,现代数字设备的数据净化是一个重要问题。嵌入式多媒体卡(eMMC)是基于NAND闪存的商品设备之一,是当前回收生态系统中普遍回收的产品之一。我们分析了重新调整用途的设备,并评估了其消毒实践。以前使用的设备中的数据仍然可以恢复,这可能会导致敏感数据(如个人识别信息(PII))意外泄漏。由于eMMC的内部存储是NAND闪存,因此基于NAND flash内存的系统的清理实践应适用于eMMC。然而,在当前的循环生态系统中,显然并不总是执行适当的消毒操作。我们讨论了如何删除eMMC和其他基于闪存的设备中存储的数据,以避免潜在的数据泄漏。我们还回顾了NAND闪存数据清理方案,并讨论了如何将其应用于eMMC。

基本理解和解决RowHammer

  • Onur Mutlu公司
  • 阿塔伯克·奥尔根
  • A.吉雷·亚科尔

我们概述了RowHammer漏洞的最新发展和未来方向,该漏洞困扰着现代DRAM(动态随机内存访问)芯片,几乎所有计算系统都将其用作主内存。

RowHammer是一种重复访问真实DRAM芯片中的行的现象,它会导致物理相邻行中的位翻转(即数据损坏)。正如自2014年RowHammer原始论文以来的许多工作所表明的那样,这种现象导致了严重且广泛的系统安全漏洞。最近对RowHammer现象的分析表明,随着DRAM技术不断扩展,问题变得越来越严重:较新的DRAM芯片在设备和电路级别上更容易受到RowHamm的攻击。对RowHammer的深入分析表明,该问题涉及多个方面,因为漏洞对许多变量敏感,包括环境条件(温度和电压)、进程变化、存储数据模式以及内存访问模式和内存控制策略。因此,事实证明,很难针对RowHammer设计完全安全且非常有效的(即,性能、能源和面积方面的低开销)保护机制,而且DRAM制造商的尝试已被证明缺乏安全保障。

在回顾了开发、理解和缓解RowHammer方面的各种最新发展之后,我们讨论了我们认为对解决RowHamm问题至关重要的未来方向。我们主张从两个主要方向加强研究和开发工作:1)在尖端DRAM芯片和现场部署的计算系统中,对问题及其多个方面有更深入的了解,以及2)通过系统-内存合作设计和开发极其高效和完全安全的解决方案。

课程:技术课程:DNN加速器中的系统级协同设计

基于近似位置乘数的DNN加速器软硬件协同设计

  • 汤姆·格林特
  • 凯拉什·普拉萨德
  • 基奈·达格利
  • 克里斯希尔·甘地
  • 雅利安·古普塔
  • 弗拉杰什·帕特尔
  • 尼尔·夏荷
  • 乔伊斯·梅基

新兴的数据密集型AI/ML工作负载在通用计算核心上运行时会遇到内存和电源墙。这导致了大量处理此类工作负载的技术的发展,其中DNN加速器体系结构占据了重要地位。在这项工作中,我们提出了一种软硬件协同设计方法,以实现系统级的好处。我们提出了一个量化的数据软件POSIT数字表示,可实现高度优化的DNN加速器。我们在可扩展到任何其他加速器的SOTA SIMBA体系结构上演示了这项工作。我们的建议降低了体系结构内的缓冲区/存储需求,并降低了主内存和DNN加速器之间的数据传输成本。我们研究了分别在MNIST、CIFAR10和ImageNet数据集上训练和测试的LeNet、ResNet和VGG NN使用整数、IEEE浮点和前置乘数的影响。我们的系统级分析表明,与基线SOTA架构相比,当在SIMBA架构上实现时,所提出的近似固定位置乘法器平均实现约2.2倍的速度,消耗约3.1倍的能量,所需面积约3.2倍没有精确度损失(~±1%)

重用GEMM硬件在基于ASIC的DNN加速器上高效执行深度可分离卷积

  • 苏西米塔·戴·马纳西
  • 苏瓦迪普·班纳吉
  • 阿比吉特·达瓦雷
  • 安东·索罗金
  • 史蒂文·伯恩斯
  • 德斯蒙德·柯克帕特里克
  • Sachin S.Sapatnekar公司

深度学习(DL)加速器针对标准卷积进行了优化。然而,轻量级卷积神经网络(CNN)在关键层使用深度卷积(DwC),而深度卷积与标准卷积之间的结构差异导致在此类平台上执行轻量级CNN时存在显著的性能瓶颈。本工作通过将DwC映射为信道并行矩阵-向量乘法,重用了DL加速器的快速通用矩阵-向量乘(GEMM)核心。开发了一个分析框架来指导RTL之前的硬件选择,并开发了新的硬件模块和软件支持来对解决方案进行端到端评估。这种基于GEMM的DwC执行策略为轻量级CNN提供了显著的性能提升:在传统DL加速器上,MobileNet-v1的加速比为7倍,片外通信比为1.8倍,在CPU上加速比为74倍,在强大的GPU上甚至加速比为1.4倍。

BARVINN:由RISC-V CPU控制的任意精度DNN加速器

  • 穆罕默德·阿斯卡里赫马特
  • 肖恩·瓦格纳
  • Olexa Bilaniuk公司
  • 亚辛·哈里里
  • 伊冯·萨瓦里亚
  • Jean-Pierre大卫

我们提出了一种DNN加速器,它允许使用可在位级别配置的专用处理元素以任意精度进行推理。当使用最新的Alveo U250 FPGA平台实现时,我们的DNN加速器有8个由RISC-V控制器控制的处理元件,以及8.2个TMAC的计算能力。我们开发了一个代码生成器工具,可以接收ONNX格式的CNN模型,并为RISC-V控制器生成可执行命令流。我们通过在选择不同量化级别时运行不同的DNN内核和模型来演示加速器的可扩展吞吐量。与其他低精度加速器相比,我们的加速器在无需硬件重新配置的情况下提供了运行时可编程性,并且无论目标FPGA大小如何,都可以使用多个量化级别来加速DNN。BARVINN是一个开源项目,可以在https://github.com/hossein1387/BARVINN网址.

基于RISC-V的多精度深度学习微处理器的敏捷软硬件协同设计

  • 何自成
  • 奥申
  • 李秋凤
  • 全成
  • 郝宇

最近的网络体系结构搜索(NAS)被广泛应用于简化深度学习神经网络,这通常会导致多精度网络。许多多精度加速器也被开发出来,以支持手动计算多精度网络。因此,需要一个软件-硬件接口来自动将多精度网络映射到多精度加速器。本文为基于RISC-V的多精度深度学习微处理器开发了一种灵活的软硬件协同设计。我们设计了带有框架的自定义RISC-V指令,以自动将多精度CNN网络编译到多精度CNM加速器上,并在FPGA上进行了演示。实验表明,使用NAS优化的多精度CNN模型(LeNet、VGG16、ResNet、MobileNet),在Xilinx ZCU102 FPGA上,带有多精度加速器的RISC-V内核可以分别以2、4、8位精度达到最高吞吐量。

SESSION:技术计划:硬件特洛伊木马检测的新进展

使用Shapley Ensemble Boosting检测硬件特洛伊木马

  • 潘志新
  • 普拉巴特·米什拉

由于全球化的半导体供应链,将系统芯片设计暴露于硬件木马(HT)的风险越来越大。虽然有一些很有前途的基于机器学习的HT检测技术,但它们有三大局限性:即席特征选择、缺乏可解释性和易受对手攻击。本文将Shapley值分析与boosting框架有效结合,提出了一种新的HT检测方法。我们使用Shapley值(SHAP)分析输入特征的重要性排序。它不仅为HT检测提供了可解释的解释,还为特征选择提供了指导。我们利用boosting(集成学习)生成一系列轻量级模型,在显著减少训练时间的同时,提供对抗对手攻击的鲁棒性。实验结果表明,与最先进的HT检测技术相比,我们的方法可以显著提高检测精度(高达24.6%)和时间效率(高达5.1倍)。

承保人:物理设计的PPA友好安全关闭框架

  • 郭广新
  • 海龙游
  • 郑光堂
  • 李本正(Benzheng Li)
  • 丛丽
  • 张晓觉

超大规模集成电路(VLSI)中出现了硬件安全问题。硬件木马插入、探测攻击和故障注入等重大威胁很难检测到,并且几乎不可能在后期设计阶段修复。最佳解决方案是在物理设计阶段防止它们。通常,防御它们可能会导致大量功率、性能和面积(PPA)损失。在本文中,我们提出了一个PPA友好的物理布局安全关闭框架ASSURR。为了保证木马威胁为空,提出了奖励定向布局优化和多阈值分割算法。清除探测攻击建立在基于补丁的ECO路由流上。根据ISPD’22基准测试评估,ASSURER可以在缩小物理布局区域的同时消除特洛伊木马威胁,不会增加泄漏功率。当不收缩时,ASSURER仅增加14%的总功率。与ISPD2022竞赛中的第一名相比,ASSURE减少了53%的额外总功耗,在定时关闭的前提下,探测漏洞可以减少97.6%。我们相信,这项工作将为防止木马插入和探测攻击开辟一个新的视角。

基于静态概率分析的RTL硬件木马测试生成

  • 王浩一
  • Qiang Zhou(周强)
  • 蔡一慈

定向测试生成是检测RTL中潜在硬件木马(HT)的有效方法。虽然现有的工作能够通过覆盖安全目标来激活难以覆盖的特洛伊木马,但忽略了识别要覆盖的目标的有效性和效率。我们提出了一种静态概率分析方法,用于识别硬激活数据信道目标,并为HT测试生成生成相应的断言。我们的方法可以在1分钟内生成测试向量来触发Trusthub、DeTrust和OpenCores中的木马,与现有方法相比,平均时间提高了104.33倍。

基于NoC的MPSoC中基于机器学习的硬件木马检测和高精度定位

  • 王浩宇
  • 巴塞尔哈拉克

基于片上网络(NoC)的多处理器片上系统(MPSoC)越来越多地应用于工业和消费电子产品中。在基于NoC的MPSoC中外包第三方IP(3PIP)和工具是大多数无晶圆厂公司的普遍发展方式。然而,在设计阶段注入的硬件特洛伊木马(HT)可能会恶意篡改此通信方案的功能,从而破坏系统的安全性并可能导致故障。高精度检测和定位HT是当前技术面临的挑战。这项工作首次提出了一种新的方法,该方法基于数据包信息和机器学习算法的使用,允许检测和高精度定位HT。它配备了一种新型的动态置信区间(DCI)算法来检测恶意数据包,以及一种新型动态安全信用表(DSCT)算法来定位HT。我们在运行实际工作负载的网格NoC上评估了该框架。实验结果表明,平均检测精度为96.3%,平均定位精度为100%,最小HT定位时间约为5.8~12.9我们2GHz,具体取决于不同的HT感染节点和工作负载。

课程:技术课程:物理设计和时序分析进展

多FPGA系统的集成电路划分和TDM分配优化框架

  • 丹正(Dan Zheng)
  • 伊万杰琳·F·Y·杨

在多FPGA系统中,时分复用(TDM)是一种广泛使用的在公共线路上传输多个信号的方法。这种FPGA间延迟将显著影响电路性能。一些FPGA间网络由不同的时钟驱动,在这种情况下,它们不能共享同一条线路。在本文中,为了最小化FPGA间网络的最大延迟,我们提出了一个两步框架。然后应用TDM比率分配方法为每个FPGA间网络优化分配TDM比率。实验结果表明,该算法可以在合理的运行时间内显著降低最大TDM比。

一种具有并行CLB内重路由的健壮FPGA路由器

  • 王佳瑞
  • 京迈
  • 志雄地
  • 林一博

随着FPGA体系结构和设计规模的日益复杂,路由是FPGA设计流程中最耗时的一步。FPGA CLB内部逻辑引脚之间的连接越来越复杂,这对FPGA路由器的效率和质量提出了挑战。在CLB内生成路径时,现有的基于协商的剥离和重路由方案将导致大量迭代。在这项工作中,我们为逻辑元件和交换盒之间具有复杂连接的FPGA提出了一个稳健的路由框架。我们提出了一种并行的CLB内重路由算法,可以有效地解决CLB块内的路由拥塞问题。在修改后的ISPD 2016基准测试上的实验结果表明,我们的框架可以在较少的无线长度和运行时实现100%的可路由性,而最先进的VTR 8.0路由算法在12个基准测试中有4个失败。

大规模有序逃逸路由的高效全局优化

  • 陈传东
  • 迪士林
  • 荣山伟
  • 青海刘
  • 朱自然
  • 陈建立

有序逃逸路由(OER)问题是一个NP-hard问题,在PCB设计中至关重要。基于整数线性规划(ILP)或启发式算法的主要方法适用于引脚较少的小型PCB。然而,在处理大规模实例时,由于预处理时间过长,变量数量增加,ILP策略的性能会急剧下降。对于启发式算法,为了提高资源利用率,采用了剥离和重路由,这经常会导致时间冲突。在本文中,我们提出了一种高效的基于ILP的密集PCB布线引擎,以同时最小化布线长度和运行时间,并考虑到特定的布线约束。通过对长度进行加权,我们首先将OER问题建模为一个特殊的网络流问题。然后,我们将非交叉约束从典型ILP建模中分离出来,以大大减少积分变量的数量。此外,考虑到路由资源的拥塞,提出了ILP方法来检测拥塞。最后,与处理协商拥塞的传统方案不同,我们的方法通过降低本地容量来实现拥塞的全局自动优化。实验结果表明,与现有算法相比,我们的算法能够在较小长度的高路由质量下解决大规模的情况,并将路由时间减少76%。

Galerkin边界元法电容提取的自适应分区策略

  • 吴胜坤
  • 谢碧薇
  • 李兴泉

在先进工艺中,互连线之间的电磁耦合在终止分析中发挥着越来越重要的作用。对于超大规模集成电路芯片设计,快速准确地提取电容的要求越来越迫切。提取互连线间电容的关键步骤是求解电场。然而,由于计算复杂度高,求解电场非常耗时。[2]中使用了Galerkin边界元法(GBEM)进行电容提取。在本文中,我们将使用一些数学定理来分析它的误差。此外,利用Galerkin方法的误差估计,我们设计了一种边界划分策略来适应电场衰减。值得一提的是,这种边界划分策略可以在保证误差足够小的前提下大大减少边界元素的数量。因此,离散化方程的矩阵阶也将降低。我们还提供了计算矩阵元素的建议。实验分析表明,我们的划分策略在使用少量边界元的情况下取得了足够好的结果。

基于图学习的基于路径的时序分析结果预测器

  • 叶玉阳
  • 陈廷欢
  • 高一飞
  • 郝燕
  • 贝聿
  • 龙兴石

随着先进技术节点的利润不断减少,静态时序分析(STA)的性能受到严重关注,包括准确性和运行时。STA通常可分为基于图形的分析(GBA)和基于路径的分析(PBA)。对于GBA,定时结果总是悲观的,导致在设计优化期间过度设计。对于PBA,通过传播真实路径特定的slews来减少定时悲观情绪,其代价是相对于GBA的严重运行时开销。在这项工作中,我们提出了一种快速准确的预测布局后PBA定时结果的方法,该方法是基于深边特征图形注意网络的廉价GBA,即deep EdgeGAT。与传统的机器和图学习方法相比,deep EdgeGAT可以学习全局定时路径信息。实验结果表明,我们的预测器有潜力准确预测PBA定时结果,并减少GBA的定时悲观情绪,最大误差达到6.81ps,并且我们的工作比使用商业STA工具的PBA平均快24.80倍。

课程:技术计划:为冯·诺依曼时代的未来提供灵感的超维计算

超越冯·诺依曼时代:以大脑为灵感的超维计算

  • 胡萨姆·阿姆鲁奇
  • 保罗·根斯勒
  • 莫森·伊马尼
  • 玛丽亚姆·伊萨
  • 荀郊
  • 韦格丹·穆罕默德
  • 格洛丽亚·塞潘塔
  • 王瑞轩

深度学习(DL)的突破不断推动创新,深刻改善我们的日常生活。然而,DNN在处理单元和内存单元之间的大规模数据移动超过了传统计算架构。因此,新的计算机体系结构对于改进甚至取代十年前的冯·诺依曼体系结构是必不可少的。然而,远远超出现有的冯·诺依曼原理,对所执行的计算带来了深刻的可靠性挑战。这是由于模拟计算和新兴的超CMOS技术固有的噪音,不可避免地导致不可靠的计算。因此,新的鲁棒算法成为超越冯·诺依曼时代界限的关键。超维计算(HDC)正迅速成为传统DL和ML算法的一种有吸引力的替代方法。与传统的DL和ML算法不同,HDC在更高效的硬件实现中具有固有的抗错误能力。除了硬件级别的这些优势外,HDC还承诺从少量数据和底层代数中学习,从而在应用程序级别实现了新的可能性。在这项工作中,讨论了HDC算法对错误和冯·诺依曼体系结构之外的鲁棒性。此外,以离群点检测和强化学习为例,说明了HDC作为机器学习算法的优点。

课程:技术课程:系统级设计空间探索

多芯片平台封装内无线通信的系统级探索

  • 拉斐尔·麦地那
  • 约书亚·基恩
  • 乔瓦尼·安萨洛尼
  • 玛丽娜·萨帕特
  • 塞尔吉·阿巴达尔
  • 爱德华·阿拉尔康
  • 大卫·阿提恩扎

多芯片架构越来越多地被采用,以支持在单个封装中设计超大系统,从而促进异构组件的集成并提高制造产量。然而,基于芯片的解决方案必须应对有限的跨学科路由资源,这使得数据互连和功率传输网络的设计变得复杂。新兴的封装内无线技术是解决这些挑战的一种有希望的策略,因为它允许实现灵活的chiplet互连,同时为电源连接释放封装资源。为了从全系统角度评估这种方法的能力及其影响,本文基于gem5-X模拟器的专用扩展,对封装内无线通信的性能进行了探索。我们考虑了不同的媒体访问控制(MAC)协议以及具有不同运行时配置文件的应用程序,这表明当前的封装内无线解决方案与有线芯片互连具有竞争力。我们的研究结果表明,在运行人工智能工作负载时,封装内无线解决方案可以优于有线替代方案,在具有分布在四个集群中的16个核心的基于芯片的系统上运行深度神经网络(DNN)时,可实现高达2.64倍的加速。

基于帕累托最优子空间修剪的高效系统级设计空间探索

  • 廖玉超
  • 托西恩·阿德吉亚
  • 罗曼·莱塞基

高级综合(HLS)是一种快速发展和流行的设计、综合和优化嵌入式系统的方法。许多HLS方法在后合成阶段利用设计空间探索(DSE)为单个组件找到Pareto-optimal硬件实现。然而,系统级Pareto-optimal配置的设计空间比组件级设计空间大几个数量级,使得现有方法不足以满足系统级DSE的需要。本文介绍修剪遗传设计空间探索(PG-DSE)-an后综合DSE的方法,包括一种修剪方法以有效减少系统级设计空间,以及一种精英遗传算法以准确找到系统级帕累托最优配置。我们使用一个自主驾驶应用子系统(ADAS)和三个具有超大设计空间的合成系统来评估PG-DSE。实验结果表明,与之前的工作相比,PG-DSE可以将设计空间减少几个数量级,同时获得更高质量的结果(平均改进58.1x)。

硬件体系结构完整多项式插值设计空间的自动生成

  • 布莱斯·奥洛斯基
  • 塞缪尔·科沃德
  • 西奥·德雷恩

初等函数的硬件实现定期部署分段多项式近似。这项工作确定了满足给定精度规范的分段多项式近似的完整设计空间。对该设计空间的了解决定了所需的最小区域数,以足够准确地近似功能,并有助于生成与最新技术相竞争的优化硬件。设计师可以探索可行架构的空间,而无需验证他们的选择。提出了一种基于启发式的决策过程来生成最优ASIC硬件设计。瞄准替代硬件技术只需要修改决策程序来探索太空。我们强调了选择最佳区域数来近似函数的困难,因为这取决于输入宽度。

课程:技术计划:安全保证和加速

SHarPen:通过硬件渗透测试进行SoC安全验证

  • 哈桑·阿尔·沙伊赫
  • 阿拉什·瓦菲
  • Mridha Md Mashahedur Rahman先生
  • 基米娅·扎米里·阿扎尔
  • 法希姆·拉赫曼
  • 法拉曼迪
  • 马克·特赫拉尼普尔

随着现代SoC体系结构包含许多复杂/异构的知识产权(IP),保护安全资产已成为当务之急,并且由于攻击数量增加,暴露的漏洞数量也在增加。在过去几年中,渗透测试(PT)已成为检测软件(SW)漏洞的一种越来越有效的手段。迄今为止,尚未将此类技术应用于硬件漏洞检测。本文提出了一个PT框架SHarPen(小笔)用于检测硬件漏洞,这有助于开发SoC级安全验证框架SHarPen(小笔)提出了一种用于执行灰盒硬件(HW)渗透测试而不是依赖于基于覆盖率的测试的形式,并提供了将硬件漏洞映射到逻辑/数学成本函数的自动化。 SHarPen(小笔)支持仿真和基于FPGA的原型设计,使我们能够在设计过程的不同阶段自动化安全测试,并具有识别目标SoC中漏洞的高功能。

SecHLS:在高级合成中实现安全意识

  • 尚石
  • 尼丁·蓬迪尔
  • 哈迪·M·卡马利
  • 马克·特赫拉尼普尔
  • 法拉曼迪

在寻求进一步优化的过程中,高级综合(HLS)利用先进的自动优化算法,为更复杂的设计实现更低的实现时间/工作量。这些优化算法适用于HLS工具的后端阶段,例如分配、调度和绑定,并且针对资源/延迟约束进行了高度优化。然而,当前HLS工具的后端不知道设计的安全资产,并且其算法无法处理安全约束。在本文中,我们提出了Secure-HLS(SecHLS),其目的是为HLS工具的后端阶段和中间表示定义底层安全约束。在SecHLS中,我们通过将所提出的安全相关约束集成到一组广泛使用的调度和绑定算法中来改进它们。我们评估了SecHLS在小型和实际基准上的功率、性能、面积(PPA)、安全性和复杂性(执行时间)方面的有效性,展示了如何将提议的安全约束集成到HLS中,同时保持较低的PPA/复杂性负担。

面向ASIC的全NTRU加速器柔性设计

  • 弗朗西斯科·安托尼亚扎
  • 亚历山德罗·巴伦吉
  • 杰拉尔多·佩洛西
  • 拉格罗·苏塞拉

后量子密码系统是一个重要的研究课题,各种国际标准化竞赛都见证了这一点。其中,NTRU密钥封装机制被认为是一种安全、无专利、高效的公钥加密方案。在这项工作中,我们对FPGA目标进行了设计空间探索,最终目标是实现高效的ASIC。具体来说,我们重点关注具有不同内存总线宽度的多项式乘法器的可能设计选择,以权衡较低的时钟周期计数与较大的互连。我们的设计优于目前最先进的最佳FPGA合成结果,我们报告了ASIC合成的结果,利用40nm工业级技术库将延迟和面积降至最低。我们面向速度的设计计算了4.1到10.2的封装μs和7.1至11.7中的去封装μs、 取决于NTRU安全级别,而我们最紧凑的设计只比底层SHA-3散列模块多占用20%的面积。

课程:技术课程:新兴机器学习算法的硬件和软件协同设计

抗网络攻击和硬件错误的稳健超维计算:综述

  • 东宁马
  • 张思哲
  • 荀郊

超维计算(HDC),也称为矢量符号体系结构(VSA),是一种受人脑功能启发的新兴AI算法。与深度神经网络(DNNs)相比,HDC具有模型尺寸小、计算成本低和一/少快照学习等优点,是一种很有前途的替代计算范式。随着人工智能在医疗保健和机器人等安全关键系统中的日益部署,不仅要努力实现高精度,还要确保其在高度不确定性和对抗性环境下的鲁棒性。然而,最近的研究表明,HDC与DNN一样,容易受到网络攻击(例如对手攻击)和硬件错误(例如内存故障)的攻击。虽然越来越多的研究机构一直在研究HDC的稳健性,但对这一日益重要的课题的研究工作缺乏系统的回顾。据我们所知,本文介绍了第一次调查,旨在回顾HDC对网络攻击和硬件错误的鲁棒性所做的研究工作。虽然HDC作为一种人工智能方法的性能和准确性仍有待于未来的理论进步,但本文旨在阐明并呼吁社区努力进行HDC的稳健性研究。

新兴学习范式的内存计算加速器

  • Dayane Reis公司
  • 安·弗朗切斯卡·拉古纳
  • 迈克尔·尼米尔
  • 胡晓波(Xiaobo Sharon Hu)

在过去的几十年里,新兴的数据驱动机器学习(ML)范式越来越流行,并彻底改变了许多应用领域。迄今为止,已经投入了大量精力来设计机制,以促进这些内存密集型ML模型的部署和几乎无处不在的使用。这篇综述文章从自下而上的角度,通过设备的选择、电路/架构的设计,到应用级的结果,介绍了内存计算(IMC)加速器在新兴ML范式中的使用。

走向公平高效的超维计算

  • 一声
  • 杨俊环
  • 魏文江
  • 雷阳

我们正在见证机器学习(ML)应用于各种应用程序的发展,例如智能安全系统、医疗诊断等。随着这一趋势的发展,在资源有限的终端设备上运行ML的需求越来越高。此外,这些ML算法中的公平性越来越重要,因为这些应用程序不是为特定用户设计的(例如,皮肤病诊断中皮肤白皙的人),而是需要应用于所有可能的用户(例如,不同肤色的人)。受大脑启发的超维计算(HDC)已经证明了其在内存占用较小的边缘设备上运行ML任务的能力;然而,尚不清楚HDC是否能够满足应用程序的公平性要求(例如,针对不同肤色人群的医疗诊断)。在本文中,我们首次发现香草HDC由于对颜色信息的敏感性而具有严重的偏差。为了实现公平高效的HDC,我们提出了一个整体框架,即FE-HDC,它集成了HDC编码器中的图像处理和输入压缩技术。结果表明,与普通HDC相比,FE-HDC可以将不公平性得分降低90%,实现更公平的体系结构和具有竞争力的高精度。

课程:技术课程:AI系统芯片上学习的全堆叠协同设计

通过软硬件协同设计提高基于PIM架构的健壮性和效率

  • 杨晓萱
  • 李世玉
  • 齐林·郑
  • 陈怡然

基于内存处理(PIM)的体系结构显示出巨大的潜力,可以处理几种新兴的人工智能工作负载,包括视觉和语言模型。跨层优化通过降低模型的计算和内存成本,提高模型对非理想硬件效果的鲁棒性,可以缩小计算密度和可用资源之间的差距。我们首先介绍了几种硬件训练方法,以提高模型对PIM设备非理想效应(包括卡滞故障、过程变化和热噪声)的鲁棒性。然后,我们进一步演示了一种软件/硬件(SW/HW)协同设计方法,通过对基于注意的模型和电路结构协同设计进行稀疏性探索,以支持稀疏处理,从而在基于PIM的体系结构上高效处理最新的基于注意的模型。

人工智能系统中片上学习的软硬件协同设计

  • M.L.瓦什卡
  • 阿比谢克·库马尔·米什拉(Abhishek Kumar Mishra)
  • Nagarajan Kandasamy公司
  • Anup Das公司

基于尖峰的卷积神经网络(CNN)在其卷积层中具有片上学习能力,使层能够通过结合前一层中提取的特征来学习检测特征。我们提出ECHELON,这是一种具有片上学习功能的基于til的神经形态硬件的通用设计模板。ECHELON中的每个磁贴由一个神经处理单元(NPU)组成,用于实现CNN模型的卷积和密集层,一个片上学习单元(OLU)用于促进卷积层中的尖峰时间相关可塑性(STDP),以及一个特殊功能单元(SFU),用于实现其他CNN功能,如池化、级联、,和残差计算。这些磁贴资源使用共享总线互连,共享总线通过软件进行分段和配置,以促进磁贴内部的并行通信。瓷砖本身使用经典的片上网络(NoC)互连进行互连。我们提出了一个系统软件来将CNN模型映射到ECHELON,从而最大限度地提高性能。我们将硬件设计和软件优化集成在一个共同设计循环中,以获得目标CNN的硬件和软件架构,同时满足性能和资源限制。在这项初步工作中,我们展示了一个块在FPGA上的实现和一些早期评估。使用8个支持STDP的CNN模型,我们展示了我们的联合设计方法优化硬件资源的潜力。

面向低延迟推理和端到端综合的片上学习

  • 维托·乔瓦尼·卡斯特拉纳
  • 尼古拉斯·博姆·阿戈斯蒂尼
  • 安库尔·利马耶
  • 维纳·阿马蒂亚
  • 马可·米努托利
  • 约瑟夫·曼扎诺
  • 安东尼诺·图米奥
  • 塞雷娜·柯泽尔
  • 米歇尔·菲奥里托
  • 法布里奇奥·费兰迪

软件定义架构(SODA)合成器是一种基于开源编译器的工具,能够从高级编程开始,自动生成针对特定应用集成电路(ASIC)或现场可编程门阵列(FPGA)的领域特定系统。SODA由前端SODA-OPT组成,它利用多级中间表示(MLIR)框架与生产性编程工具(例如机器学习框架)接口,识别适合加速的内核,并执行高级优化,以及最先进的高级综合后端,来自PandA框架的Bambu,以生成自定义加速器。SODA合成器的一个具体应用是生成加速器,以实现对用于科学发现的自主系统(例如,电子显微镜、粒子加速器中的传感器等)的超低延迟推理和控制。本文概述了在透射电子显微镜(TEM)设备中集成边缘处理加速器的生成过程中的流程,重点介绍了精密材料合成的用例。我们通过一个设计空间探索的例子展示了该工具的实际应用,该设计空间探索用于使用传统深度神经网络模型(LeNet)推断可重构设备。最后,我们讨论了SODA在科学实验工作流自主控制领域的研究方向和机会。

会议:技术计划:新兴应用的节能计算

基于近似综合的量子神经网络知识提取

  • 马哈布布尔·阿拉姆
  • 萨特维克·昆都
  • Swaroop Ghosh公司

最近关于量子神经网络(QNN)在特定机器学习(ML)任务中的潜在优势的断言激起了相当多应用研究人员的好奇心。参数化量子电路(PQC)是QNN的主要组成部分,由多层单量子比特旋转和多量子比特纠缠操作组成。用于特定ML任务的PQC层的最佳数量通常是未知的。较大的网络通常在无噪模拟中提供更好的性能。然而,与较浅的网络相比,它在硬件上的性能可能较差。由于量子器件之间的噪声量不同,PQC的最佳深度可能会有很大差异。此外,由于编译开销,为PQC选择的门可能适用于一种硬件,但不适用于另一种硬件。这使得很难将QNN设计推广到广泛的硬件和噪声水平。另一种方法是针对每个硬件构建和训练多个QNN模型,这些模型可能很昂贵。为了避免这些问题,我们使用近似综合在QNN中引入了知识提取的概念。提出的方法将创建一个新的QNN网络,该网络具有(i)减少的层数或(ii)不同的门集,而无需从头开始训练。对新网络进行几次训练可以弥补近似误差造成的损失。通过实证分析,我们证明电路层减少了≈71.4%,在噪声下仍能达到≈16.2%的精度。

NTGAT:一种具有运行时节点定制功能的图形注意力网络加速器

  • 侯文涛
  • 凯忠(Kai Zhong)
  • 曾树林(Shulin Zeng)
  • 戴国浩
  • 华中杨
  • Yu Wang(王宇)

图形注意网络(GAT)在许多图形任务中表现出比以前的图形神经网络(GNN)更好的性能。然而,它涉及具有额外计算复杂性的图形注意操作。虽然已有大量文献对GNN加速进行了研究,但很少有文献关注GAT中的注意机制。图形注意机制使计算流不同。因此,以前的GNN加速器不能很好地支持GAT。此外,GAT区分了邻居的重要性,并通过运行时裁剪减少了工作负载。我们提出了NTGAT,一种通过运行时节点裁剪加速GAT的软件-硬件协同设计方法。我们的工作包括运行时节点剪裁算法和加速器设计。我们提出了一种流水线排序方法和一个硬件单元来支持推理过程中的节点裁剪。实验表明,我们的算法可以减少高达86%的聚合工作量,而精度损失很小(<0.4%)。与GPU基线相比,基于FPGA的加速器可以实现3.8倍的加速比和4.98倍的能效。

一种有效训练和推理尖峰神经网络的低带宽整数STBP算法

  • 白玉潭
  • 吴成文

支持节能神经形态硬件的尖峰神经网络(SNN)正受到越来越多的关注。通过反向传播直接训练SNN已经证明其准确性可与深度神经网络(DNN)相媲美。然而,以前的直接训练算法需要高精度浮点运算,这不适合低功耗的端点设备。高精度操作还需要学习算法在高性能加速器硬件上运行。本文针对现有的直接训练算法,即时空反向传播(STBP)算法,提出了一种将高精度浮点运算转换为低比特宽整数运算的改进方法。提出的低比特宽度整数-STBP算法只需要整数算法进行SNN训练和推理,大大降低了计算复杂度。实验结果表明,与原来的浮点STBP算法相比,本文提出的STBP算法具有相当的精度和更高的能量效率。此外,它可以在低功耗终端设备上实现,以在推理过程中提供学习能力,这主要由定点硬件支持。

TiC-SAT:变压器紧耦合收缩加速器

  • 阿里雷扎·阿米尔沙希
  • 约书亚·亚历山大·哈里森·克莱因
  • 乔瓦尼·安萨洛尼
  • 大卫·阿提恩扎

从视觉到自然语言处理,变压器模型在各种人工智能场景中都取得了令人印象深刻的结果。然而,它们的计算复杂性和大量参数阻碍了它们在资源约束平台上的实现。此外,虽然文献中提出了松散耦合的硬件加速器,但数据传输成本限制了它们的加速潜力。我们从两个方面应对这一挑战。首先,我们引入由专用ISA扩展控制的紧密耦合的小规模脉动阵列(TiC-SAT)作为专用功能单元来加速执行。然后,由于紧密耦合的体系结构,我们使用软件优化来最大限度地提高数据重用,从而降低跨缓存层次结构的未命中率。通过各种BERT和Vision-Transformer模型的全系统仿真来验证我们的策略,从而实现了大量应用范围内的加速(例如,对于大型BERT,高达89.5倍)。TiC-SAT是一个开源框架1.

课程:技术课程:侧面通道攻击和RISC-V安全

PMU-Leaker:基于性能监控单元的缓存侧通道攻击实现

  • 邱鹏飞
  • 羌高
  • 王东生
  • 永强吕
  • 王春露
  • 刘畅(Chang Liu)
  • 孙日辉
  • 港区

性能监视器单元(PMU)是处理器中的一个特殊硬件模块,它包含一组计数器,用于记录各种体系结构和微体系结构事件。在本文中,我们提出了PMU-Leaker,它是所有现有缓存副通道攻击的一种新实现,其中精确的执行时间测量值被通过PMU泄漏的信息所取代。PMU-Leaker的有效性体现在:(1)泄漏存储在Intel Software Guard Extensions(SGX)中的机密数据,其中包含Spectre和ZombieLoad等瞬态执行漏洞,以及(2)提取在SGX中执行的受害AES的加密密钥。我们在具有Intel®Core的DELL Inspiron 15-7560笔记本电脑上进行了彻底的实验采用Kaby Lake架构的i5-7200U处理器,结果表明,在176个PMU计数器中,有24个是易受攻击的,可以用来发起PMU-Leaker攻击。

EO-Shield:一种针对侧通道和聚焦离子束攻击的多功能保护方案

  • 亚高
  • 张启智
  • 马浩成
  • 何家吉
  • 赵一强

智能设备,尤其是与互联网连接的设备,通常包含安全协议和加密算法,以确保控制流的完整性和信息安全。然而,有各种侵入性和非侵入性攻击试图篡改这些设备。芯片级主动防护已被证明是对抗入侵攻击的有效对策,但现有的主动防护无法用于对抗侧通道攻击。在本文中,我们提出了一种多功能保护方案和一个主动防护原型,以同时抵抗入侵和非入侵攻击。该保护方案使用芯片的顶部金属层实现了一个复杂的主动屏蔽,并在其下面设置了一个信息泄漏模糊处理模块。泄漏模糊处理模块根据需要保护的电路的工作条件生成其保护模式,从而减少电磁(EM)发射与加密数据之间的相关性。我们在一个高级加密标准(AES)电路上实现了该保护方案,以证明该方法的有效性。实验结果表明,信息泄漏混淆模块将信噪比降低到0.6以下,降低了SCA的成功率。与现有的针对物理攻击的单功能保护方法相比,该方案对入侵和非入侵攻击都具有良好的性能。

CompaSeC:一种解决RISC-V指令跳过错误攻击的编译器辅助安全对策

  • 约翰内斯·盖尔
  • 卢卡斯·奥尔
  • 丹尼尔·米勒-格里奇内德
  • 乌扎尔·谢里夫
  • 乌尔夫·施利希特曼

故障注入攻击对于执行安全相关任务(如安全引导过程)的任何计算系统都是一种风险。虽然针对这些入侵攻击的基于硬件的对策是一个合适的选项,但它们必须通过硬件扩展实现,因此在大多数常用的离线(COTS)组件中不可用。因此,软件实现的硬件容错(SIHFT)是增强COTS系统抗故障攻击能力的唯一有效选项。已建立的SIHFT技术通常以检测随机硬件错误为目标,以确保功能安全,而非针对性攻击。以RISC-V处理器上运行的安全引导系统为例,在这项工作中,我们首先表明,当软件通过安全域中的现有技术进行加固时,引导过程中单、双、三和四指令跳过的漏洞数量无法完全消除。我们将这些技术扩展到安全领域,并提出了编译器辅助安全对策(CompaSeC)。我们证明CompaSeC可以关闭所研究的安全引导系统的所有漏洞。为了进一步降低性能和内存开销,我们还为CompaSeC提出了一种方法,可以有选择地加强单个易受攻击的函数,而不会损害针对所考虑的指令跳过错误的安全性。

Trojan-D2:隐蔽硬件木马的布局后设计和检测——RISC-V案例研究

  • 萨贾德·帕文
  • 梅兰·戈里
  • 弗兰克·希尔·托雷斯
  • 罗尔夫·德雷克斯勒

随着RISC-V生态系统的普及度呈指数级增长,必须重新评估该平台的安全性,尤其是关键任务和物联网设备的安全性。此外,插入硬件特洛伊木马程序(HT)在将内部掩模设计外包给国外芯片制造商进行制造后,将其集成到芯片中是一个值得关注的重大问题。尽管基于旁道分析、物理测量和功能测试研究了大量的HT检测方法来克服这一问题,但仍存在隐蔽的HT。这是因为与整个电路相比,这种HT的开销很小。

在这项工作中,我们提出了几种新的HT,它们可以在不可信的制造环境中放置在RISC-V核心的后布局中。接下来,我们提出了一种基于非接触光学探测的非侵入性分析方法来检测任何隐身HT。最后,我们提出了一个开源的HT库,可用于在后期布局阶段放置到处理器单元中。这项工作中的所有设计都是使用商业28nm技术完成的。

课程:技术课程:量子电路的模拟与验证

快速量子电路模拟的图形分割方法

  • Jaekyung我
  • Seokhyeong Kang先生

由于计算复杂度呈指数级增长,大型量子电路的快速仿真变得非常困难。这对量子计算机的利用是一个重要的挑战,因为它与经典机器对量子计算的验证密切相关。The 混合Schrödinger-Feynman模拟似乎是一个有希望的解决方案,但其应用非常有限。为了解决这个缺点,我们提出了一种改进的基于图划分的仿真方法。实验结果表明,我们的方法大大缩短了混合薛定谔·费曼模拟。

一种使用特殊设计的激励检测非等效量子电路的稳健方法

  • 刘晓伦
  • 李一亭
  • 容志珍
  • 王春瑶

由于已经提出了几种编译和优化技术,量子电路的等效性检查在设计流程中变得至关重要。这个问题的最新研究表明,即使是很小的误差也会对整个量子系统产生重大影响。因此,它利用随机模拟来证明两个量子电路的非等效性。然而,当错误发生在输出附近时,很难在有限的模拟次数下证明某些非等效量子电路的非等效性。在这项工作中,我们提出了一种新的基于模拟的方法,使用一组特殊设计的刺激。该方法的模拟运行与电路的量子比特数呈线性关系,而不是指数关系。根据实验结果,在一组基准测试的模拟运行(执行时间)约束下,我们的方法的成功率为100%(100%),而最先进的方法的平均成功率仅为69%(74%)。我们的方法还实现了平均26的加速。

参数化量子电路的等价性检查:验证变分量子算法的编译

  • 汤姆·佩厄姆
  • 卢卡斯·布尔霍尔泽(Lukas Burgholzer)
  • 罗伯特·威利

变分量子算法作为一类很有前途的量子经典混合算法被引入,通过使用参数化量子电路。考虑到量子电路编译的非平凡性和量子计算的微妙性,必须验证这些参数化电路是否已正确编译。已经建立了处理无参数电路的等效性检查程序。然而,还没有提出能够处理带参数电路的方法。这项工作填补了这一空白,表明可以使用基于ZX演算的等效检查方法,以纯粹的符号方式验证参数化电路的等效性。同时,利用参数化电路固有的自由度,可以用传统方法有效地获得不等式的证明。我们实现了相应的方法,并证明了所得到的方法是完整的。实验评估(使用整个的Qiskit提供的参数化安萨兹电路库作为基准)证明了该方法的有效性。

用于解码量子低密度奇偶校验码的软件工具

  • 卢卡斯·贝伦特
  • 卢卡斯·布尔霍尔泽(Lukas Burgholzer)
  • 罗伯特·威尔

量子误差修正(QEC)是实现大规模量子计算机的一个重要研究领域。在理论方面,人们花费了大量精力来设计纠错码,以保护量子数据免受错误的影响。由于量子硬件和量子比特(quantum bits)的噪声特性,不可避免地会发生错误。使用纠错码保护数据需要恢复原始数据,前提是数据集可能已损坏,这项任务称为解码。解码算法能够有效地恢复无错误状态至关重要。虽然某些QEC方法的理论性质已被广泛研究,但在实际更相关的环境中分析其性能的良好技术仍是一个广泛未探索的领域。在这项工作中,我们提出了一套软件工具,用所谓的量子低密度奇偶校验码(QLDPC码)——一类广泛的码,其中一些最近被证明是渐近好的。在此基础上,我们给出了一个QLDPC码通用解码器的实现。在此基础上,我们提出了一种高效的启发式解码器,该解码器消除了一般QLDPC解码器的运行时瓶颈,同时仍保持可比较的解码性能。这些工具最终可以在更实际的环境中确认QLDPC代码的理论结果,并展示软件工具(除了理论考虑因素之外)在研究实际应用代码方面的价值。生成的工具,可在https://github.com/cda-tum/qecc作为的一部分慕尼黑量子工具包(MQT),旨在为搜索“实际上很好”量子密码。

课程:技术课程:学习DFM中的x安全

使用物理启发模型实现可扩展AI计算光刻

  • 杨浩宇
  • 任浩星

计算光刻技术是一个关键的研究领域,通过数值计算方法提高硅的可打印性,从而不断扩大半导体制造工艺技术的规模。如今,这些问题的解决方案主要是基于CPU的,需要数千个CPU连续运行数天才能将现代芯片带出。我们为这两个问题寻求AI/GPU辅助解决方案,旨在提高运行时和质量。先前的学术研究建议将机器学习用于光刻建模和掩模优化,通常表现为图像到图像映射问题,其中应用了卷积层主干UNet和ResNets。然而,由于缺乏集成到框架设计中的领域知识,这些解决方案受到其应用场景或性能的限制。我们的方法旨在通过在神经网络设计中引入光刻偏差来解决以前基于CNN的解决方案的局限性,从而实现更高效的模型设计和显著的性能改进。

过程模拟和光学邻近校正的数据驱动方法

  • 郝长韶
  • 林嘉文
  • 邵云芳

随着工艺节点的不断缩小,半导体制造业在设计的布局模式和产生的晶圆图像之间遇到了越来越严重的不一致。传统上,在复杂的工艺步骤(如光学光刻和后续蚀刻)之后,检查布局模式如何偏离其原始模式,依赖于计算成本高昂的工艺模拟,而大规模电路布局的运行时间非常长,尤其是在高级节点中。此外,作为最重要和最常用的分辨率增强技术之一,光学邻近校正(OPC)通过移动线段边缘或在掩模图案中添加额外多边形来校正由于工艺影响而产生的图像误差,而它通常是由模拟或耗时的逆光刻技术(ILT)驱动的以达到可接受的精度。因此,越来越多最先进的过程模拟或/和OPC工作诉诸于机器/深度学习的快速推理特性。本文回顾了这些数据驱动的方法,以突出各个方面的挑战,探索初步解决方案,并揭示未来可能的方向,推动可制造性设计研究的前沿。

混合型晶圆失效模式识别

  • 郝庚
  • 孙琦
  • 陈廷欢
  • 齐旭
  • 宗义浩
  • 贝聿

工艺制造的不断发展使我们能够超越5nm技术节点。虽然铸造厂可以在硅片上对更小但更复杂的电路进行图案设计和蚀刻,但仍存在许多挑战。例如,晶圆表面的缺陷在制造过程中是不可避免的。为了提高成品率和缩短上市时间,识别这些故障并确定这些缺陷的失效机制至关重要。最近,应用机器学习方法来对抗单一缺陷模式分类取得了重大进展。然而,随着工艺变得越来越复杂,各种单一类型的缺陷图案可能会出现并耦合在晶圆上,从而形成混合型图案。在本文中,我们将综述晶圆故障模式识别高级方法的最新进展,尤其是混合型方法。我们衷心希望这篇文献综述能够突出未来的方向,促进晶圆故障模式识别的进步。

课程:技术计划:边缘人工智能的轻量级模型

基于核共享方法的卷积神经网络频域加速

  • 刘伯生
  • 梁宏毅
  • 吴继刚
  • 陈晓明
  • 刘鹏(音)
  • 银河韩

卷积神经网络(CNN)通常计算量很大。快速算法,如快速傅里叶变换(FFT),通过用频域元素线性乘法代替卷积,有望显著降低计算复杂度。然而,复杂权重增加的高内存访问开销抵消了计算的好处,因为频域卷积不仅将权重填充到与输入映射相同的大小,而且没有可共享的复杂内核权重。在这项工作中,我们提出了一种基于FFT的内核共享技术,称为FS-Conv,以减少内存访问。基于FS-Conv,我们导出了频域卷积中的可共享复数权重,这一问题一直没有得到解决。FS-Conv包括一种混合填充方法,该方法利用FFT变换的固有周期特性为复杂输入映射的不同块提供可共享的复数权重。此外,我们还构建了一个频域推理加速器(称为Yixin),可以将可共享的复数权重用于CNN加速。评估结果表明,与最先进的基准相比,性能和能效效益显著。

迫击炮:改变比特级稀疏度以加速通用深度学习

  • 云鸿高
  • 李红艳
  • 张学敏
  • 于雪茹
  • 杭鲁

训练后的Vanilla Deep Neural Networks(DNN)用本地浮点32(fp32)权重表示。我们观察到,这些权重的比特级稀疏性在尾数中非常丰富,可以直接利用它们来加速模型推理。在本文中,我们建议迫击炮一种离线/在线协作的fp32 DNN加速方法,包括两部分:一是离线位稀疏化算法,通过“尾数变形”构造目标公式,在提高位级稀疏性的同时保持较高的模型精度;第二,关联硬件加速器体系结构,通过处理放大的比特稀疏性来加速fp32的在线推理。我们通过评估各种深度学习任务,包括图像分类、对象检测、视频理解、视频和图像超分辨率等,突出了以下结果:我们(1)将比特级稀疏度提高到1.28~2.51x,准确度损失可以忽略-0.09~0.23%,(2)平均保持3.55%的模型精度,同时比基线增加更多的比特级稀疏度,(3)并且我们的硬件加速器比基线高出4.8倍,面积为0.031毫米2功率为68.58毫瓦。

边缘设备上超轻视频智能的数据模型电路三重设计

  • 张一萌
  • Akshay Karkal Kamath公司
  • 吴秋成
  • 范志文
  • 陈舞阳
  • 张扬·王
  • Shiyu Chang先生
  • 刘思嘉
  • 丛浩

在本文中,我们提出了一个数据模型-硬件三重设计用于高清晰度(HD)视频流上的高吞吐量、低成本和高精度多对象跟踪(MOT)的框架。首先,为了实现超轻视频智能,我们提出了时间帧滤波和空间显著性聚焦方法,以降低海量视频数据的复杂性。其次,我们利用结构件权重稀疏性设计了一种硬件友好的模型压缩方法。第三,在降低数据和模型复杂性的帮助下,我们提出了一种具有稀疏性意识、可扩展和低功耗的加速器设计,旨在以高能效提供实时性能。与现有工作不同,我们为实现实际MOT模型的协同软硬件协同优化迈出了坚实的一步。与最先进的MOT基线相比,我们的三种设计方法可以实现12.5倍的延迟减少、20.9倍的有效帧速率改进、5.83倍的功耗降低和9.78倍的能效提高,而没有太大的精度下降。

基于潜在权重的小二元神经网络剪枝

  • 陈天恩
  • 诺亚·安德森
  • 金英铉

二进制神经网络(BNN)用简单的位操作代替复杂的算术操作。BNN中的二进制权重和激活可以大大减少内存需求和能耗,使其对资源有限的边缘ML应用程序具有吸引力。然而,低功耗边缘设备的严重存储容量和能量限制要求进一步减少二进制化以外的BNN模型。权值剪枝是一种经验证的减小许多神经网络(NN)模型大小的解决方案,但BNN权值的二进制性质使得很难确定要删除的不重要权值。

在本文中,我们提出了一种基于潜在权重的剪枝方法,并进行了分层剪枝敏感性分析,该方法减少了BNN的过度参数化,从而在大幅减小模型大小的同时提高了精度。我们的方法提倡通过潜在权重来区分权重的启发式,潜在权重是一个用于计算反向传播期间伪梯度的实值向量。在MNIST、CIFAR-10和Imagenette数据集上使用三种不同的卷积NN进行了测试,结果表明操作计数减少了33%–46%,没有精度损失,在精确度、模型大小和总操作计数方面比以前的工作有所改进。

课程:技术课程:新兴设备的设计自动化

AutoFlex:柔性混合电子产品的统一评估和设计框架

  • 马天良
  • 邓志辉
  • 雷来绍

柔性混合电子(FHE)将高性能硅芯片与柔性基板上的多功能传感器和执行器集成在一起,可以紧密附着在不规则表面上,而不会影响其功能,从而实现医疗保健、物联网(IoT)方面的更多创新以及各种人机界面(HMI)。柔性电子产品的紧凑型模型和工艺设计工具包(PDK)的最新发展使得中小型柔性电路的设计成为可能。然而,由于缺乏针对柔性电子产品的统一模型和综合评估基准,因此设计师不可能公平比较不同的柔性技术,并探索异构FHE设计的潜在设计选项。在本文中,我们提出AutoFlex公司这是一个用于柔性混合电子的统一评估和设计框架,其中可以自动提取设备参数,并可以从设备级别、数字块到大规模数字电路全面评估性能。此外,还开发了一个普遍存在的FHE传感器采集系统,包括一个灵活的多功能传感器阵列、扫描驱动器、放大器和基于硅的模数转换器(ADC),以揭示典型FHE系统的设计挑战。

CNFET7:用于7nm CNFET技术的开源单元库

  • 陈林石
  • Shinobu Miwa公司
  • 同心阳
  • Ryota Shioya先生
  • 山崎骏(Hayato Yamaki)
  • Hiroki本田

在本文中,我们提出了第一个用于7-nm碳纳米管场效应晶体管(CNFET)技术的开源单元库CNFET7。CNFET7基于一个名为VS-CNFET的开源CNFET SPICE模型,并对各种模型参数(如通道宽度和碳纳米管直径)进行了仔细调整,以模拟发表论文中提出的预测性7-nm CNFET技术。一些非封闭参数,如单元大小和引脚布局,以与CNFET电路设计的开源框架相同的方式,从NanGate 15nm开源单元库的非封闭参数中导出。CNFET7包括两种延迟模型(即复合电流源和非线性延迟模型),每种模型有56个单元,例如INV_X1和BUF_X1。CNFET7支持Cadence设计流中的逻辑合成和计时驱动的位置和路径。我们对几个合成电路的实验结果表明,与ASAP7相比,CNFET7在动态功耗、静态功耗和临界通过延迟方面分别降低了96%、62%和82%。

绝热量子流参数电路中缓冲器和分路器插入的全局优化算法

  • 傅荣良
  • 王萌萌
  • 一融坎
  • 吉川信义
  • 宗义浩
  • 奥利维亚·陈

绝热量子流控(AQFP)逻辑电路作为低温超导的一种高效节能应用,具有极低功耗的特点,是极为节能的计算系统的一个很有吸引力的候选者。由于逻辑门是由作为AQFP电路中时钟信号的交流电(AC)驱动的,因此需要大量AQFP-缓冲区来确保数据流在电路的所有逻辑级别上同步。同时,由于目前开发的AQFP逻辑门只能驱动单个输出,因此逻辑门需要分离器来驱动多个扇形输出。这些门占用了电路的大量面积和延迟。针对上述问题,本文提出了一种缓冲区和拆分器(B/S)插入的全局优化算法。首先将B/S插入确定为一个组合优化问题,并提出了一个动态规划公式来寻找全局最优解。由于其不切实际的搜索空间的限制,提出了一个整数线性规划公式来近似探索B/S插入的全局优化。在ISCAS’85和简单算术基准电路上的实验结果表明了该方法的有效性,与ICCAD’21和DAC’22的最新方法相比,插入的缓冲区和分路器数量平均减少了8.22%和7.37%。

FLOW-3D:基于最小半周长3D纳米横杆的流计算

  • 斯文·蒂杰森
  • 苏米特·库马尔Jha
  • 里卡德·埃韦茨

数据密集型应用程序的出现激发了人们对使用纳米级交叉杆进行内存计算的兴趣。基于流的内存计算是一种利用自然电流流评估布尔逻辑的很有前途的方法。虽然已经为2D交叉杆开发了自动合成方法,但3D交叉杆在密度、面积和性能方面具有优势。在本文中,我们提出了第一个使用3D交叉杆执行基于流的计算的框架。FLOW-3D框架自动将布尔函数合成为交叉杆设计。FLOW-3D基于BDD和交叉杆之间的类比,从而合成了具有最小半周长的3D交叉杆设计。带有的BDDn个节点映射到具有(n+k)金属丝。The k个需要额外的金属线来处理硬件组合的约束。与最先进的2D纵横制合成工具相比,FLOW-3D在15个Revlib基准测试中将半周长、面积、能耗和延迟提高了61%、84%、37%和41%。