6.10 可扩展的数据中心通信架构
现在要解决的问题是:如何组织大型云数据中心的通信基础设施,以最低的成本获得最佳性能?数据中心网络为这个问题提供答案的(DCN)体系结构面临着主要挑战:(i)集群总带宽随着集群大小的增加而伸缩性较差;(ii)许多云应用程序所需的带宽价格很高,并且互连成本随着集群规模的增加而急剧增加;和(iii)根据通信模式,DCN的通信带宽可能会被一个重要因素超额订购。
我们只提到两种DCN建筑风格,三层结构和不含脂肪DCN。前者有一个多根树拓扑结构,有三层:核心层、聚合层和访问层。服务器连接到位于接入层。位于树根的企业交换机构成核心层并在骨料层将数据中心连接到Internet。的上行链路骨料层交换机将它们连接到核心层,其下载链接连接到访问层。三层DCN体系结构不适合计算机云,它不可扩展,二分法带宽不最优,核心层交换机价格昂贵且功耗巨大。
Fat-tree拓扑是计算机云的最佳拓扑,对于跨多个交换机的消息,带宽不会受到严重影响,互连网络可以使用商品交换机而不是企业交换机构建。中提出的脂肪树拓扑的实现[20]基于以下原则:
- i、。
网络应扩展到大量节点。
- ii、。
fat-tree应该有多个核心交换机。
- (三)。
网络应支持多径路由.等成本多径(ECMP)路由算法[244]应该使用在流之间执行静态负载拆分。
- (四)。
网络应使用具有最佳性价比的交换机。
每GigE的分层和无脂肪互连网络成本7已经减少了一个数量级,使用商品交换机构建的fat-tree的成本/性能指标几乎比分层网络低一个数量级别。选择多根胖树拓扑和多路径路由是合理的,因为在2008年,具有1:1超额订阅的单根核心128端口路由器所能支持的最大集群将被限制为节点。
WSC互连可以用k-端口交换机,,但组织可以支持任何k。网络由k个吊舱8每个豆荚有两层每个层的交换机。下层的每个交换机直接连接到服务器。其他的端口连接到属于k聚合层中的端口。交换机总数为连接到系统的服务器总数为;路径连接每对服务器。
带有的WSC服务器可以使用128端口交换机构建,而其中一个可以使用服务器需要512端口交换机。图6.14显示了一个无脂肪互连网络。核心层、聚合层和边缘层填充有-端口交换机。每个核心交换机都连接到每个机架聚合层的一个交换机。该网络有四个机架,每个机架上有四个交换机,两个位于聚合层,两个在边缘。每个机架连接四台服务器。
图6.14.具有k-端口交换机和k = 4.四个核心四路交换机位于根,有四个pod,两个交换机位于聚合层,两个位于每个pod的边缘层。机架边缘的每个交换机都连接到两台服务器。
交换机IP地址为; 开关从左到右编号,从下到上编号。核心交换机IP地址是,其中j个和我表示中的开关坐标核心交换机网格从左上角开始。例如,吊舱2的四个交换机都有IP地址,,,以及。服务器IP地址为,其中是边缘路由器子网中从左到右的服务器位置。例如,使用IP地址连接到交换机的两台服务器的IP地址是和.
任何一对服务器之间都有多条路径。例如,服务器使用IP地址发送的数据包到IP地址为的服务器可以遵循以下路线:
(6.5)
数据包路由使用两级路由表并支持两级前缀查找。此策略可能会增加查找延迟,但前缀搜索可以并行进行并补偿延迟的增加。主表条目的格式如下并且可以具有指向辅助表的附加指针,或者如果其条目都不指向辅助表,则可以终止。辅助表包括条目,可以由多个一级条目指向。
图6.15(左)显示交换机的两级路由表为具有IP地址的服务器路由两个传入数据包和; 传入的分组分别在端口1和3上转发。查找引擎使用三元版本的内容可寻址内存(CAM),称为TCAM。图6.15(右)显示TCAM存储地址前缀和后缀,这些前缀和后缀索引RAM,RAM存储下一跳的IP地址和输出端口。
图6.15.(左)交换机87.2.2.1的两级路由表。IP地址87.2.1.2和87.3.0.3的两个传入数据包分别在端口1和3上转发。(右)两级TCAM路由表的RAM实现。
前缀条目首先以数字较小的地址存储,右手(后缀)条目以较大的地址存储。对CAM的输出进行编码,以使具有数字最小匹配地址的条目成为输出。当数据包的目标IP地址同时匹配左手项和右手项时,则选择左手项。
这个kpod中的交换机具有该pod中子网的终止前缀。当位于同一机架中但位于不同子网上的两台服务器通信时,机架的所有高级交换机都将具有指向目标子网交换机的终止前缀。
对于所有传出的pod流量,pod交换机都有一个默认的/0前缀,该前缀带有一个二级表,与目标IP地址(服务器ID)的最小有效字节相匹配。流量扩散仅发生在数据包行程的前半部分。一旦数据包到达核心交换机,就正好有一条链路连接到其目标pod,并且该交换机将包含该数据包pod的终止/16前缀。一旦数据包到达其目标机架,接收上层机架交换机还将包括一个前缀将数据包定向到其目标子网交换机,最终在那里切换到其目标服务器。
每个pod交换机为同一pod中的子网分配终止前缀,并使用与s用于站点间通信。上部吊舱交换机的路由表是用以下伪代码生成的算法6.1.
算法6.1.生成聚合交换机路由表
对于较低的机架交换机,第3行中的/24子网前缀被省略,因为该子网自己的流量被交换,并且在较高的交换机之间应该均匀地分配板内和板间流量。核心交换机仅包含指向其目标pod的终止/16前缀,如中所示算法6.2一级前缀和二级后缀的最大数量为k和分别是。
算法6.2.为核心交换机生成路由表
pod交换机中具有动态端口重新分配的流分类克服了当两个流竞争同一输出端口时局部拥塞的情况,即使另一个与目的地成本相同的端口未得到充分利用。功耗和散热是云数据中心的主要关注点。数据中心互连高层的交换机消耗数千瓦,整个互连基础设施消耗数百至数千千瓦。