滑轨'22 TOC

SLIP’22:第24届ACM/IEEE系统级互连寻路研讨会论文集

ACM数字图书馆中的完整引文

课程:打破互联极限

会议详情:打破互联限制

  • 伊斯梅尔·布斯塔尼

多点异构FPGA:网络列表分区应该如何平衡?

  • 拉维娜·雷卡尔
  • 德克·斯特罗班特

高容量多片FPGA系统通常由由外部插入线连接的多个芯片组成。这些外部连接数量有限。此外,与单片FPGA上的内部网络相比,这些连接还有助于更高的延迟,因此应该稀疏使用。这些架构更改迫使布局和布线工具将芯片边界的信号数量降至最低。在CAD流中加入网表分区步骤有助于使用交叉连接将信号总数降至最低。

传统的分区技术侧重于以生成大小不等的分区为代价最小化切割边。这种高度不平衡的分区会在密度较大的芯片上造成拥塞,从而影响整体布局和路由质量。此外,这也会对布局和路由工具的整体运行时间以及FPGA资源利用率产生负面影响。

在以前的研究中,建议使用较小的不平衡值来生成等分。在这项工作中,我们研究了影响多FPGA系统的网表划分质量的因素。使用hMETIS执行的die-level分区步骤在打包步骤之前合并到流中。使用Koios基准套件中的大型异构电路来分析分区封装结果。因此,我们检查了输出不平衡量的变化、切割边的数量与输入不平衡量之间的关系。我们提出了不平衡因子的经验最优参数值,以实现Koios基准套件所需的划分质量。

功率驱动物理合成中的限制互连加热

  • 张秀艳
  • 山塔努·达特

当前VLSI芯片的技术趋势包括亚10nm节点和3D IC。不幸的是,由于这些技术中焦耳加热显著增加,互连可靠性已成为一个重大损失。在本文中,我们探讨了互连功耗(个人简历2/每个逻辑转换2个),因此可以在应用三种不同PS转换的功率优化物理合成(PS)流期间有效限制加热:单元大小、Vth分配和单元复制;后者对于限制互连加热特别有用。考虑的其他约束包括定时、回转和电池扇出负载。为了有效地解决这个多约束功率优化问题,我们使用一种称为离散网络流(DNF)的新型离散优化技术,考虑同时应用上述三种变换(而不是按一定顺序依次应用),以及同时应用于电路的所有单元。我们将我们的算法应用于ISPD-13基准电路:ISPD-13竞争是为了在定时、转换和单元扇出负载约束下对单元大小和第V个分配变换进行功率优化;除此之外,我们还添加了互连加热约束和细胞复制变换,这是一个在同时考虑的框架中比其他两个更难实现的变换。结果表明我们的技术具有显著的效果。

课程:高性能计算2.5D/3D扩展

课程详情:高性能计算2.5D/3D扩展

  • 帕斯卡·维维特

通过晶圆背面(BS)连接提高芯片功率完整性和性能的机会:邀请论文

  • 陈荣美
  • 朱利亚诺·西斯托
  • 奥德赛-佐格拉夫斯
  • 德拉戈米尔·米洛杰维奇
  • 彼得·威克斯
  • 吉尔特·范德普拉斯
  • 埃里克·贝恩

技术节点扩展是由提高系统性能的需要驱动的,但由于相关的反向线性(BEOL)扩展,它也导致了严重的电源完整性瓶颈。片上功率传输网络(PDN)IR下降导致的功率完整性下降是BEOL中功率密度和金属层数量及其电阻率增加的结果。同时,由于路由拥塞和延迟的增加,信号路由限制了SoC性能的提高。为了克服这些问题,我们引入了一种破坏性技术:晶圆背面(BS)连接来实现芯片BSPDN(BSPDN)和BS信号路由。我们首先提供一些在imec开发的关键晶圆工艺特性,以实现这项技术。此外,我们通过使用亚2nm技术节点设计规则将此技术应用于BSPDN和BS路由后,在芯片功率完整性和性能方面的显著改进来展示此技术的优点。在本文结束之前,还讨论了BS技术的挑战和展望。

课程:内存计算和结构化计算阵列设计

会话详细信息:内存计算和结构化计算阵列设计

  • 山塔努·达特

一种用于高度数据中心应用的计算型SRAM的自动化设计方法:特邀论文

  • A.菲利普
  • 西安波里尼乳杆菌
  • A.菲利普
  • M.Gerbaud先生
  • M.拉米雷斯·科拉莱斯
  • V.埃格洛夫
  • B.吉拉德
  • J.-P.诺埃尔

满足高度以数据为中心的应用程序的性能要求(例如计算SRAM(C-SRAM)是一种新型的计算存储器,是一种新兴计算范式近内存计算的关键元素。对于这种特定类型的应用,C-SRAM被专门用于执行低延迟矢量操作,以限制与处理器或专用处理单元的能量密集型数据传输。本文提出了一种设计方法,旨在通过自动配置存储器部分,使C-SRAM设计流程尽可能简单(例如SRAM切断和接入端口的数量)(例如指令频率或内存容量)和离线SRAM编译器。为了合理量化所提出的存储器选择器的优点,已经使用来自两个不同铸造厂的三种不同CMOS工艺技术对其进行了评估。结果表明,无论采用何种CMOS工艺技术,在面积和功耗之间进行权衡,这种存储器选择方法都可以确定最佳存储器配置。此外,我们还展示了如何使用该方法有效评估目标CMOS工艺技术中可用SRAM编译器的设计优化水平。

加速基于SimPL的FPGA全局布局的机器学习方法

  • 天一余
  • 尼玛·卡林普尔-达拉夫
  • 伊斯梅尔·布斯塔尼
  • 迈赫达德·埃斯拉米·德科尔迪

许多商业FPGA布局工具都基于SimPL框架,其中下限(LB)相位在不考虑单元重叠的情况下优化导线长度和定时,上限(UB)相位扩展单元,同时考虑目标FPGA架构。在SimPL框架中,迭代次数取决于设计复杂性和UB布局的质量,这对运行时有很大影响。在这项工作中,我们提出了一种机器学习(ML)方案,其中动态调整单元的锚定权重,以使过程收敛于预定的迭代次数预算中。在我们的方法中,对于给定的FPGA架构,ML模型构造了一个轨迹引导函数,用于在SimPL迭代期间调整锚权重。我们在工业基准上的实验结果表明,我们可以在Global Placement运行时和整个砂矿运行时分别实现28.01%和4.7%的运行时减少,同时将解决方案的质量保持在可接受的范围内。

会话:互连性能评估技术

会议详情:互连性能评估技术

  • 拉西特·托帕洛格鲁

迂回网预测的神经网络模型

  • 安杰洪(Jaehoon Ahn)
  • 泰文·金

识别布局中很可能是路由中绕行路线的网络非常有用,因为(1)结合路由拥塞、路径定时或设计规则违反(DRV)预测,预测迂回网可以用作更深入地描述这些预测结果的补充手段,并且(2)我们可以更加重视迂回预测网,以便在布局的早期阶段优化定时和路由资源,因为这些网消耗更多的定时预算以及金属/过孔资源。在此背景下,本文提出了一种基于神经网络的迂回网预测模型。我们提出的模型由两部分组成:基于CNN的和基于ANN的。基于CNN的模型处理描述各种物理邻近图或状态的特征,而基于ANN的模型以向量描述的形式处理单个网络的特征,并连接到CNN输出。通过实验,我们从F1得分以及时序预测和优化的互补作用方面分析和评估了我们的预测模型的准确性。更具体地说,与传统的(基于vanilla ANN的)迂回网预测模型相比,我们提出的模型平均提高了9.9%的预测精度。此外,将我们的预测模型与商业工具最先进的时序优化相结合,能够将最坏的负松弛减少18.4%,总负松弛减少40.8%,时序违规路径的数量平均减少30.9%。

基于机器学习的FPGA技术映射延迟预测

  • 胡海亮
  • 姜虎
  • 范张(音译)
  • 冰天
  • 伊斯梅尔·布斯塔尼

准确的延迟预测在逻辑和高级综合的早期阶段非常重要。在现场可编程门阵列(FPGA)的技术映射中,网关级电路被转录为查找表(LUT)级电路。需要对预先映射的电路进行快速定时分析,以指导下游优化。然而,静态时序分析器由于其复杂性和高度不准确而太慢,就像技术映射之前的其他更快的经验启发式方法一样。在这项工作中,我们提出了一个基于机器学习的框架,用于通过预测技术映射后相应LUT逻辑的深度来准确有效地估计网关级电路的延迟。实验结果表明,与现有的延迟估计启发式算法相比,该方法的准确度提高了56倍。我们的延迟估计器在运行时节省了87.5%的时间,误差可以忽略不计。