RaceCC:用于数据中心网络的快速聚合显式拥塞控制

https://doi.org/10.1016/j.jnca.2023.103673获取权限和内容

摘要

拥堵控制数据中心网络中的(CC)有三个主要目标:高链路利用率、低链路利用率排队延迟以及快速收敛到公平。大多数主机驱动的CC方案在实现前两个目标方面表现良好,但很难快速收敛到公平性。由于交换机明确地向主机提供反馈,因此交换机驱动的CC方案可以成为实现公平性的一个引人注目的替代方案。然而,我们发现现有的开关驱动CC方案收敛缓慢,有时无法保证低队列。

基于这些观察结果,本文提出RaceCC,一种RApidly Convergeng Explicit CC,以实现三个主要目标同时作为一种开关驱动的CC方案,RaceCC使流量在第一个RTT公司并保证高链路利用率和低队列长度。为了快速收敛,RaceCC通过直观的MIMD(多输入多输出)方法短队列的加法减法增加的精确更新同时,RaceCC可以通过几个简单的操作实现。我们从理论上分析了RaceCC的稳定性,并通过微观基准和大规模仿真评估了其性能。结果表明,RaceCC将总平均和尾流完成时间(FCT)减少了20%57%和15%63%,与DCQCN、TIMELY、HPCC、PowerTCP、RCP和RoCC相比。

介绍

作为一个重要的基础设施,数据中心支持越来越多的应用程序。简言之,这些应用程序,如网络搜索、数据挖掘和机器学习培训,需要高吞吐量和/或超低延迟(Zhang等人,2019年,Gao等人,2016年,Lu等人,2021年,Bai等人,2020年)。为了满足这些需求,拥塞控制已被证明是提高数据中心网络性能的关键(Li等人,2019年)。具体而言,拥塞控制使网络能够保持高链路利用率和低队列长度,以确保上层应用程序的高吞吐量和低延迟。此外,拥塞控制需要针对不同的流快速收敛到公平性,从而确保应用程序之间的公平性。

在过去的几十年中,已经提出了数十种拥塞控制机制(Li等人,2019年,Alizadeh等人,2010年,IEEE,2010年;Ruan等人,2017年;Katabi等人,2002年;Dukkipati,2008年;Zhu等人,2015年;Mittal等人,2015;Taheri等人,2020年;Xue等人,2020),并证明它们在实现吞吐量和延迟目标方面表现良好。通常,根据制定利率/窗口调整决策的实体,这些机制可分为两类:主机驱动和开关驱动(Taheri等人,2020年,Kushwaha和Gupta,2014年)。

大多数拥塞控制采用的主机驱动机制,如DCQCN(Zhu等人,2015)、TIMELY(Mittal等人,2015年)、HPCC(Li等人,2019年)和PowerTCP(Addanki等人,2022年),都认为主机根据从网络结构接收到的拥塞信号调整发送速率/窗口。具体来说,主机根据“加法-增量-乘法-减法”(AIMD)或一些类似的方法调整每个流的速率/窗口,以实现高吞吐量、低延迟和公平性。然而,我们发现主机驱动的机制很难快速收敛到公平性,在某些情况下更难使流公平共享带宽,例如不同的流具有不同的往返时间(RTT)。

我们调查的根本原因是主机调整发送速率/窗口分配地具体来说,在做出决策时,主机以盲目的启发式方式作出反应,而不知道其他主机的流量。因此,不同的流量需要很长时间才能达到公平的利率点,从而影响其中一些流量的性能。

为了应对这些挑战,我们发现开关驱动机制是一种引人注目的替代方案。在开关驱动机制中,流量调整决策是在开关处作出的。换言之,交换机直接根据拥塞情况计算适当的速率,并明确通知主机。由于速率计算是在交换机上进行的,因此通过同一交换机的流量可以轻松实现公平性。之后,交换机可以以更积极的方式调整速率以快速收敛,从而占用可用带宽或及时消除队列。

有几种开关驱动的拥塞控制机制,如XCP(Katabi等人,2002)、RCP(Dukkipati,2008)和RoCC(Taheri等人,2020)。它们可以提供良好的性能,但我们发现它们面临一些部署和设计挑战。首先,XCP和RCP要求交换机执行复杂的计算,包括浮点运算和乘除运算,即使在现代可编程交换机上也很难实现(Bossart等人,2014年,Anon,2020年,Hauser等人,2022年)。RoCC默认为队列中当前的流维护一个流表,这相当消耗资源。另一方面,现有的开关驱动机构使用经典的比例积分(PI)控制器(Franklin et al.,2002)定期计算速率,该控制器有时反应缓慢,调整参数可能很耗时。此外,RoCC要求交换机保持固定长度的队列,这将增加分组排队延迟,并损害短流的性能。

受上述见解的启发,本文提出了数据中心网络的RApidly Convergeng Explicit拥塞控制(RaceCC)。作为一种开关驱动的CC机制,RaceCC允许流量在没有过流状态(例如维护流量表)的情况下快速达到公平速率。RaceCC交换机以简单直观的方式计算流量,只需要整数加减运算、位移位运算和少量参数,预计这些参数很容易部署在现代可编程交换机上。

我们的贡献可以总结如下:

  • 我们分析了现有的主机驱动和交换机驱动拥塞控制的局限性,它们要么难以实现公平性,要么面临一些部署和设计挑战。

  • 我们设计了RaceCC,这是一种易于实现且直观的开关驱动拥塞控制,它可以快速实现公平性并解决现有CC机制所面临的挑战。同时,RaceCC可以通过针对短队列的Additive-Decrease(AD)过程实现近零队列,并通过延迟测量实现精确更新。

  • 我们从理论上分析了RaceCC中使用的速率调整算法的稳定性,并证明了即使在紧急情况下,RaceCC也是高度可扩展和稳定的。

  • 我们使用微观基准和大规模模拟来评估RaceCC,并将其与现有的主机驱动和开关驱动CC机制进行比较。评估结果表明,RaceCC实现了高吞吐量、低延迟、快速收敛到公平性和20%与DCQCN、TIMELY、HPCC、PowerTCP、RCP和RoCC相比,平均FCT低57%。

本文的其余部分结构如下。在第二节中,我们对相关工作进行了总结。第3节描述了我们设计的动机。在第4节“RaceCC设计”和第5节“理论分析”中,我们分别介绍了RaceCC的设计细节及其理论分析。评估结果见第6节。在第7节中,我们提供了关于RaceCC的讨论,最后,在第8节中,我们总结了本文。

节代码段

相关工作

CC在数据中心网络中得到了广泛的研究。在这里,我们从两个方面简要介绍了近年来一些密切相关的工作。

主机驱动的CC机制。这类拥塞控制的基本思想是,交换机通过不同的信号通知主机网络的拥塞情况,由主机方做出速率调整决策。主机驱动CC可进一步分为发送方驱动CC和接收方驱动CC。目前,发送方驱动的CC被广泛使用

动机

大多数数据中心主机驱动的CC机制都寻求提高吞吐量和减少排队延迟,并且性能正在改善。然而,他们很难快速实现公平。在本节中,我们首先调查和分析最先进的主机驱动机制的缺点,并激发对开关驱动机制的需求。然后,我们阐述了现有交换机驱动拥塞控制的部署和设计挑战。总的来说,RaceCC受到了激励

RaceCC的设计

RaceCC是一种基于速率的开关驱动CC机制。RaceCC的关键思想是,交换机计算一个公平的速率,并将该速率明确通知发送方。为了计算公平速率,我们在资源有限的交换机上设计了一种精确且响应迅速的速率调整算法。

理论分析

在本节中,我们基于控制系统理论分析了RaceCC的稳定性。首先,我们给出了交换机中速率调整算法的流体模型。然后,我们计算相位裕度对不同条件下的系统进行了分析,得出系统是稳定的,与流量无关。

评价

在本节中,我们使用NS3模拟器进行微观基准测试和大规模实验。我们基于HPCC中的开源代码(Anon,2021)实现了RaceCC。我们还根据其公共代码存储库(danushkam,2022)和各自的论文,实施了一些最先进的CC机制(Dukkipati,2008,Taheri等人,2020),这些机制未包含在存储库中。

讨论

增量部署:数据中心网络通常很难一次更新所有硬件,增量部署可能会导致RaceCC出现问题。一方面,如果某些主机不响应RaceCC,网络中可能存在多个CC机制共存,导致不同协议之间的公平性问题。解决这个问题的一种常见方法是将不同协议的流分离到不同的队列中,并执行WFQ(加权公平队列)调度

结论和未来工作

本文提出了一种新的数据中心网络拥塞控制机制RaceCC。RaceCC同时实现了拥塞控制的三个目标:高链路利用率、低队列长度和快速收敛到公平性。具体来说,RaceCC利用交换机传输速率和队列长度作为速率调整信号,以确保高链路利用率和低队列长度。采用以下组合设计精确更新以增加,RaceCC可以实现公平并快速收敛

CRediT作者贡献声明

姜绍:概念化、方法论、验证、写作——初稿。李明林:软件、验证、可视化。李欣怡:正式分析、写作–审查和编辑。刘国伟:写作——复习和编辑。刘森(Sen Liu):监督、写作——审查和编辑。刘斌:写作——复习。杨旭:概念化、监督、写作——审查和编辑。

竞争利益声明

作者声明,他们没有已知的竞争性财务利益或个人关系可能会影响本文所报道的工作。

致谢

这项工作由广东省重点区域研发计划(2021B0101400001年),国家自然科学基金(62150610497,62172108,62002066,62032013,62272258),中国科研资助委员会自然科学基金(62061160489),上海市自然科学基金(23ZR1404900元),的PCL重点项目(PCL2021A15型),以及浙江实验室开放研究项目(2017年2月10日).

姜绍目前是复旦大学的硕士生。他于2020年获得复旦大学学士学位。他目前的研究方向是拥塞控制、流量调度和数据中心网络。

参考文献(52)

  • 阿农米。

    赤脚豆腐

    (2020)
  • 阿农米。

    高精度变更控制

    (2021)
  • 阿农米。

    NS-3模拟器

    (2022)
  • Bai,W.、Chen,L.、Chen、K.、Han,D.、Tian,C.、Wang,H.,2015年。{Information-Agnostic}商品流调度。。。
  • 西。等。

    再多一个配置就足够了:为高速、缓冲区极浅的数据中心保存(DC)TCP

    IEEE/ACM传输。Netw公司。

    (2020)
  • 博沙特第页。等。

    P4:编程协议相关的数据包处理器

    ACM SIGCOMM计算。Commun公司。版次。

    (2014)
  • 卡德韦尔N。等。

    BBR:基于拥塞的拥塞控制

    Commun公司。ACM公司

    (2017)
  • Cho,I.,Jang,K.,Han,D.,2017年。数据中心的信用计划延迟拥塞控制。在:……会议记录。。。
  • 达努什卡姆一、。

    Rocc存储库

    (2022)
  • Dukkipati公司N。

    速率控制协议(RCP):拥塞控制以快速完成流

    (2008)
  • 富兰克林G.F.总平面图。等。

    动态系统的反馈控制,第4卷

    (2002)
  • Gao,P.X.、Narayan,A.、Karandikar,S.、Carreira,J.、Han,S.和Agarwal,R.、Ratnasamy,S..和Shenker,S.,2016年。网络。。。
  • 年。等。

    Dcqcn+:缓解以太网rdma中的大规模incast拥塞

  • 戈尔纳拉吉F、。等。

    自动控制系统

    (2017)
  • Goyal,P.、Agarwal,A.、Netravali,R.、Alizadeh,M.、Balakrishnan,H.,2020年。{ABC}:一个简单的显式拥塞。。。
  • Handley,M.、Raiciu,C.、Agache,A.、Voinescu,A.、Moore,A.W.、Antichi,G.、Wójcik,M.,2017年。重新架构。。。
  • 被(0)引用

    姜绍现为复旦大学硕士研究生。他于2020年获得复旦大学学士学位。他目前的研究方向是拥塞控制、流量调度和数据中心网络。

    李明林获得中国上海复旦大学学士学位。他目前正在复旦大学计算机科学学院攻读计算机技术硕士学位。他的研究兴趣包括拥塞控制和数据中心网络。

    李心怡2021年获得中国上海财经大学信息管理与工程学士学位。她目前正在中国上海复旦大学计算机科学学院攻读电子信息硕士学位。她目前的研究兴趣包括数据中心网络、拥塞控制和RDMA。

    刘国伟2019年获得中国北京邮电大学学士学位,2022年获得清华大学硕士学位。他的研究兴趣包括互连网络、传输协议和高性能计算。

    刘森(Sen Liu)现任复旦大学终身教职前副教授。在此之前,他获得中南大学博士学位,并于2018年至2019年在美国明尼苏达州双子城明尼苏打大学计算机科学与工程系担任访问学者。他的研究兴趣广泛涉及高性能分布式系统及其网络,包括分布式机器学习、高性能计算、联合学习及其应用、区块链系统和应用、拥塞控制、数据中心网络中的流量负载平衡,以及软件定义网络和可编程网络中的性能优化。

    刘斌(Bin Liu)现任中国清华大学计算机科学与技术系正教授。他的研究兴趣集中在高速交换技术、软件定义的网络和网络测量。

    杨旭是复旦大学计算机科学学院姚世华教授。他于2007年获得中国清华大学计算机科学与技术博士学位。他的研究兴趣包括软件定义网络、数据中心网络、分布式机器学习、边缘计算、网络功能虚拟化和网络安全。他发表了100多篇期刊和会议论文,在网络和计算的各个方面拥有10多项美国和国际授权专利。他曾担任许多国际会议的TPC成员,并担任多家著名期刊的编辑。

    查看全文