运营商内部云分级策略研究
来源:通信世界全媒体 时间:2023-12-28 08:14

    运营商目前将云计算业务划分为内部云和外部云,内部云是供运营商内部使用的云,外部云是对外部客户提供的云服务。运营商内部云是承载内部相关平台和应用的云,内部云资源池一般通过IT基础设施资源整合,遵循资源共享、能力集中、合理管控等原则统一规划建设,用以提升企业的资源利用率,降低企业运营成本,促进企业内部各类系统的能力和快速支撑响应能力的提升。

  近年来,运营商内部云建设规模巨大,逐渐成为机房资源占用的主力军。但其上承载的均是运营商自用系统,这些系统无法从重要性等角度进行分级。由于自用系统长期没有分级标准,机房往往“一刀切”按高等级规划建设,因而无法实现自用机房的分级规划建设。

  本文将分析上层业务系统灾备特点,在不影响业务感知的情况下对内部云进行分级,按照不同的等级对应不同的配置进行规划建设,有效降低整体建设成本。

  内部云架构及承载系统情况

  为实现对多资源池大规模资源的管理,增强资源池的可靠性和规模,每个内部云资源池系统由一个或多个资源节点组成,每个资源节点内包含多个最小支付单元(POD)。

  资源节点:考虑机房局址等实际情况,分为多个物理/逻辑区域(AZ);拥有独立的数据中心基础设施及网络出口,任意一个资源节点失效不会影响其他资源节点的正常工作。资源节点之间采用高速低时延连接,保证分区之间的通信畅通。

  POD:资源节点由多个POD组成。每个POD是以一组核心交换机为单位的建设单元,包含1000~3000台万兆服务器;POD之间通过二层或三层组网技术实现水平扩展,总体可达到数万台服务器规模。

  内部云上承载的系统种类和数量繁多,业务分类如表1所示。目前运营商内部云上承载的系统采用双活容灾、主备容灾及异地数据备份方式的案例较少,但随着运营商内部云承载系统容灾需求的提出(如业务支撑系统和管理信息系统有双活容灾、主备备份、“两地三中心”等容灾需求),内部云亟需构建同城异址双活容灾、异地主备容灾及备份等能力,从而满足不同业务对可靠性的差异化要求。

  内部云承载系统的容灾方案

  目前内部云承载系统可采用的容灾方案主要有异址主备、异址双/多活中心,“两地三中心”等。

  异址主备部署方式如图1所示,由主中心承担生产任务,灾备中心闲置负责容灾。早期业务支撑系统容灾大多采用此种方式建设。

  异址双/多活中心部署方式如图2所示,由双/多中心按区域或业务采用负载分担方式承担生产任务,且相互备份,不同中心在同城异址或者异地。当其中一个中心出现容灾场景时,通过上级的负载均衡,将全量业务切换到另一个中心。考虑容灾发生时的极端业务量,每个中心资源配置要有相应的冗余度,或具备自动弹性伸缩能力,以便在容灾场景发生时,单中心能够应对全量的业务冲击。目前大部分省份业务支撑系统采用此种方式。

  “两地三中心”部署方式如图3所示,由同城两中心按区域或业务采用负载分担方式承担生产任务,且相互备份,异地建设数据级容灾。当主中心发生故障时,通过上级负载均衡,将全量业务切换到另一中心;当主备双中心均发生故障时,利用第三中心异步备份数据恢复业务,备份中心需要重新全量地应用,因此容灾恢复时间较长。

  三种容灾方式对比如表2所示,可以看出,不同的容灾方案各有其使用场景、优缺点,对应的投资不同,且不同的容灾方案还与内部云资源池的机房布局紧密相关。因此,IT系统在具体容灾方案选择时,应结合系统的实际需求、技术特点和内部云的建设情况综合考虑。

  内部云分级方案

  分级原则

  内部云的分级原则如图4所示,要充分利用上层业务系统灾备特点,在不影响业务感知情况下,将灾备系统所在的局房动力层降级。同时还要统筹考虑基础设施配套层整体建设成本,不能因为减少配套而增加IT基础设施及业务系统成本。

  分级方案

  在不同的容灾方案下,可将内部云相应的资源分为A级和B级,其中A级对机房的电源配套保障要求较高,需要配置油机;B级对机房的电源配套保障要求等级较低,不需要配置油机。

  异址主备容灾:主用系统设备对应的资源设为A级,备用系统对应的资源降为B级。异址双/多活容灾:第一主中心设备对应的资源设为A级,第二主中心设备对应的资源降为B级。

  “两地三中心”容灾:第一主中心设备对应的资源设为A级,第二主中心、备用系统设备对应的资源降为B级。

  运营商内部云的建设以POD为单位进行,如图5所示。在分级前,不同的POD可以设置在同一个或者不同机房内,对POD的设置不必考虑主系统、备用系统、第一主中心和第二中心的区别,且POD内设备对安装机房没有任何限制。

  高保障的系统(A级)和低保障的系统(B级)分别设置在不同的POD内,同一POD的设备可部署在同一机房或不同机房内。

  在内部云分级后,机房等相关配套设施也可以相应地分为A级和B级,对于POD设置的约束条件增加,POD不能跨不同级别的机房设置,POD的设置要考虑系统的容灾方案。主系统、第一中心可设置在同一个POD内,且只能设置在A级机房内;第二中心和备用系统可设置在同一个POD内,且只能设置在B级机房内。

  从经济效益来看,分级后运营商内部云需考虑单独设置一个POD来部署备份系统所需的设备(称为“备份POD节点”),此部分POD系统所需的组网设备是分级后额外增加的,若按照内部云8个中心节点来考虑,且为了满足B域集中化的需求,需要每个节点均设置备份POD节点,即共计部署8个备份POD节点,按照此模型来计算,内部云分级后预计增加的费用将低于机房减配节省的费用。因此,从经济效益分析来看,内部云的分级是可行的。

  存在问题及建议

  实施内部云分级,将对内部云的规划建设和业务的开展带来一些挑战。

  一是机房规划建设要求高。对内部云资源池的选址提出了更高的要求,每个资源池节点的选择要具备同城双址的机房,可以满足某些业务的“双活”部署。建议在机房规划中,针对数据中心业务分级提前进行相应的机房储备建设工作。对于新建机房的建筑空间按全部A级预留规划,原则上不超过满配的一半,严禁“一刀切”按高标准配置,后续根据需求分步实施,油机不足部分可以增补,油机空余的位置可改造为机房使用。对于现有机房,鉴于需重新梳理各类存量设备用电负荷、电源系统及分路容量,增加失压线圈、开关等设备,重新布放大量电缆,以致改造难度大、割接风险大,建议不再统一开展存量机房分级改造,可以随机房整体搬迁、扩容等同步进行分级建设。

  二是资源池规划建设的复杂度高。由于规划时期的需求和实际业务需求有一定的偏差,分级建设完成后,这些偏差将影响资源的灵活使用,如规划建设在B级机房内的资源较多,但由于B级机房没有油机保障,就只能作为第二中心或备用系统来使用,无法灵活分配给相应的主系统或第一中心来使用。这大大增加了资源池规划建设的复杂性,降低了资源分配的灵活性。

  另外,以POD为单位进行分级,需要将A级POD和B级POD分别部署在A级/B级机房内,对机房空间资源的需求可能会增大,不利于机房的高效集中利用,不利于资源池采用标准化模块部署。

  综合上述问题,在资源池规划时,建议在考虑业务需求的基础上,充分结合机房的分级情况,制定业务需求与机房分级相匹配的规划方案,确保资源合理分配。

  三是增加业务的不稳定性。考虑到目前尚未进行业务容灾演练,且实施经验欠缺,实施分级将对业务的开展产生一定的风险,增加了业务的不稳定性。建议在实施分级后,要充分验证IT云容灾流程、性能及影响,并尽量减少对业务的影响。在落地实施阶段,建议以试点方式稳步推进,先从企业内部业务入手进行业务分级试点,以降低试错成本,避免对外部客户造成影响,并总结容灾试点经验,做好分级供电场景下的动力、业务与网元应急预案与演练,保障灾备系统的正常切换与运行。

  本文基于内部云承载系统的容灾方案特点,以不影响业务感知和不增加建设成本为目标,构建了内部云的分级方案。结合内部云的系统架构,以POD为单位进行分级,从而实现了不同容灾情况下的不同分级方案,为后续内部云的分级规划建设提供了参考。

  考虑到内部云搭配容灾系统运行复杂,建议采用试点的方式充分验证容灾性能,评估相关的风险,待相关技术论证成熟后再进行推广。同时还要考虑机房的不同情况,对于新建机房要全面推行分级建设的原则;对于存量机房,考虑到情况比较复杂,可参照标准逐步推广。

附件下载

扫一扫在手机上查看当前页面

相关链接