商业伙伴

登录

资讯

优秀应用案例 | 某市机场统一运维项目案例-华为技术有限公司

2022-7-28 20:30

 

案例背景

实施背景

 

 

 

 

 

 

某市机场位于珠三角区域,是中国境内集海、陆、空、铁联运为一体的现代化大型国际空港。

 

 

十三五期间,该机场启动数字化转型和智慧机场的总体规划和建设。在数字化转型进程中该机场与华为公司双方基于平台+生态的理念构建起了机场数字化平台 ,这个平台以华为ICT基础设施为底座,在底座之上叠加多个通用平台以及数字平台,并联合合作伙伴在平台之上构建行业生态系统,目前在新建平台上已运行几十个应用系统,可提供各类服务。

 

随着该机场数字化转型项目的实施,越来越多的ICT基础设施和业务系统部署上线、运行,运维团队所面临管理和技术的挑战也越来越多:

 

第一,管理角度:数字化架构中应用系统集成度越来越高,故障时业务影响范围和严重程度更大,运维管理风险和工作压力也就越大。业务系统运行中很多间题都是跨产品、跨系统和跨部门,需要“多兵种合成营”才能快速解决问题,但现实中间题处理均是临时抽调该机场不同职能团队以及相关技术领域中不同软硬件供应商(共计几十家)进行协同定位,存在沟通成本高、时效性差等不足。

 

第二,技术角度:由基础设施向上至各平台至各应用系统呈现种类繁多,各产品技术架构、集成架构复杂,同类产品中各厂家的规格、协议标准也有 所差别;该机场数字化架构中的新技术与现有运维手段存在技术鸿沟。

实施目标

 

 

为了快速改善和提升某市机场的运维能力,由该机场作为运维需求方,华为公司作为运维供给侧主导方联合构建了:某市机场面向数字化架构的统—运维体系 。

 

 

某市机场统—运维中短期目标

 

某市机场统—运维目标:

—、服务模式视角(短期目标):由被动响应式服务向主动预防式服务转变,构建核心业务系统的预防和应急策略,避免重大故障发生;

 

二、服务质量视角(中期目标):核心业务系统故障/事件响应时间<5分钟、恢复时间<30分钟、业务应用可用率>99.95%;故障/事件及时解决率>99%。

 

 

 

 

 

 

应用过程

实施方案

 

 

 

 

 

 

本次运维项目华为公司作为运维服务供方提供了:运维咨询、运维筹建、日常运维、持续改进等四项服务内容(图1) ,确保某市机场运维服务具备全生命周期、可闭环及可持续迭代的能力。华为运维服务架构中四大服务组件以《信息技术服务 运行维护 第1部分:通用要求》( GB/T 28827.1- 2012 ) 中 运行维护服务 能力模型(图2)、《信息技术服务 运行维护 第2部分:交付规范》( GB/T 28827.2-2012) 中交付规范作为参考模型并进行了相应适配。

 

 

 

 

 

华为运维服务架构

运行维护服务能力模型

 

华为作为服务供方向某市机场提供的运维服务体系建设的具体步骤如下:第一:在运维咨询环节,华为参考ITSS核心原理组成要素:人员(人员及其知识、经验和技能要求)、流程(事件管理、问题管理、变更管理、信息安全管理、服务级别管理等)、技术和资源(运维工具、服务台、知识库等)的要求对该机场运维能力进行了现状评估,基于该机场运维目标进行差距分析,并制定向运维目标演进的可行路线图。第二:在运维筹建环节,设置了该机场统一运维组织架构;首先设置运维服务供需双方的运维服务管理团队履行运维管理职能,其次服务供方构建一线,二线(含外场),三线的三级运维组织;制定了各相应团队/小组职责、岗位职责、人员绩效考核体系、人员培训机制、各技术领域运维技术规范(专业知识、综合知识)、统一服务台管理制度;制定了安全生产规范、运维操作管理规范等;优化了故障管理、问题管理、应急管理、变更管理、资产管理、重保等相关服务流程。第三:在日常运维环节,由统一运维组织基于服务级别要求进行响应式、例行式运维服务。第四:持续优化则基于该机场运维业务需求对运维服务状态、数字化架构态势进行数据分析和趋势分析为进一步运维业务优化和数字化架构演进提供数据依据。第五:提供统一运维平台,实现观察/感知、分析、决策、实施/执行、服务管理于一体的自动化运维能力。

 

实施过程

 

为了达成某市机场的运维目标,华为公司所提供的统一运维体系服务方案中主要构建了四个关键能力:统一运维组织、统一流程规范、统一运维管理框架和统一运维平台。

 

构建统一运维组织

多兵种合成营的建设

 

为了统筹和盘活某市机场内外部运维人员,将该机场自有人员与各软硬件供应商现场运维人员进行统一管理。从功能上设立运维服务管理团队和运维服务交付团队,其中运维服务管理团队由运维服务需方、供方分别设立并对接配合;设立专职运维经理,负责运维服务交付团队资源调度和工作质量管理,定期输出运维报告(日报,月报,季报,年报),并负责交付团队成员的直接考核和淘汰工作。运维服务交付团队(由多家软硬件供应商现场运维人员构成多兵种合成营)设置了 :一线 、二线/外线 、三线阶梯型运维组织。一线主要职能:作为服务台提供问题受理统一入口 ;提供7x24主动监控服务。二线主要职能:对内场对象进行故障定界/定位和分析,通过跨技术领域协同加速故障处理和减少业务受损;外场主要职能:对外场对象(例如:办公设备、无线网络、物联网外场等)提供现场运维和修复服务。三线作为故障定位中闭环环节,由各软硬件供应商的技术支持团队构成。在对统一运维组织中各运维岗位、角色进行设立时,华为项目组参考了《信息技术服务 运行维护 第4部分 数据中心服务要求》( GB/T 28827.4-2019) 中附录A-数据中心运行维护人员建议,对运维管理岗、技术岗、操作岗的岗位职责、技能需求、工作范围进行了明确,对运维工作界面分工、标准化交付提供了依据。

 

运维的交付模式:一线、二线均为现场交付,三线为各相关厂家提供远程为主现场为辅的交付。

 

主要交付成果:

1.某市机场统一运维咨询报告;

2.某市机场统一运维组织设置报告、统一运维组织系统建设;

3.统一运维各领域岗位职责、人员技能要求、人员绩效考核体系 ;

4.各技术领域运维技术规范、统一服务台管理制度等。

 

 

 

 

 

 

构建统一流程规范一被动晌应运维走向主动预防运维

通过对某市机场运维流程的重构和编排,推动该机场运维模式由被动响应式向主动预防式转变。我们首先基于统一运维组织视角对各运维流程(故障管理、问题管理、应急管理、变更管理、资产管理等)进行了优化和适配;其次从核心应用系统视角对各流程进行编排,形成针对核心应用系统的 主动预防式运维流程。主动预防式运维流程分为事前、事中、事后三个部分,事前聚焦:应急准备、隐患预警、巡检和变更整改(按需);事中聚焦故障处理和应急处置;事后进行总结优化并持续迭代主动式预防流程,见图3。

 

 

 

 

主动式预防流程

 

华为项目组在这个环节参考了《信息技术服务 运行维护 第3部分 应急响应规范》( GB/T 28827.3-2012 ) 中运行维护服务应急响应过程,见图4。

运行维护服务应急响应过程

 

 

 

 

 

在主动预防式运维流程基础上进—步的明确了:基于业务系统进行运维分层分级、故障/事件分级规范以及故障处理通报机制,从而促进该机场统一运维团队服务级别协议SLA的达成。

 

运维分层分级原则:基于业务系统是否属于生产系统以及相关重要性进行划分,运维级别分为4个等级,如图5所示 :

 

 

 

 

业务系统运维分级

 

 

 

 

 

故障分级原则基于影响范围和紧急程度,将故障/事件分为L1-L4 四个等级 。根据运维分层分级规则 ,以业务系统的T级与故障/事件的严重程度二维表作为故障/事件定级参考,如图6:巳按规则设定T1-T4的业务系统不可用时最高的故障/事件级别,原则上故障/事件的定级不能超过该T级所设定的事件级别。

 

 

 

 

故障/事件分级

 

 

 

 

 

为了及时响应、跟踪、加速故障/事件处理进程,我们在故障/事件分级管理的基础上明确了故障/事件通报规范。L1-L2故障/事件:5分钟上报各专业领域维护小组和该机场客户侧对口责任人;15分钟上报统一运维团队和该机场客户侧运维经理;30分钟前后向该机场主管信息化主管发送进展通报。

 

主要交付成果:

1.某市机场统一运维各流程优化适 配;

2.建立主动预防式主流程框架 ;

3.建立业务系统的运维分级规范 ;

4.建立故障/事件分级、定级规范以及通报规范。

 

 

构建统—运维管理框架及统—运维平台

为了进—步提升某市机场统—运维组织中多家软硬件供应商的运维 服务协同性和—致性,为了对该机场新型数字化架构中的服务对象提供全栈运维技术管理能力,本次项目对某市机场的运维管理框架进行了优化适配;促使该机场统—运维组织中多家软硬件供应商在统—运维管理框架指导下,在统—运维平台上进行标准化、规范化作业。

 

 

华为项目组参考了《信息技术服务 运行维护 第4部分 数据中心服务要求 》( GB/T 28827.4-2019 ) 中数据中心运行维护管理框架,见图 7 。

 

 

 

 

数据中心运行维护管理框架

 

 

 

 

 

 

本次项目通过引入华为统一运维平台(IMOC) 作为某市机场运维管理框架中:观察/感知、分析、决定和实施/执行四个关键环节的载体。

 

 

观察/感知:通过IMOC平台+各技术领域专业网管实现附加层物联网网元、机房动环、laaS、PaaS 、DaaS 、Saas层全栈监控(包括:各服务对象曰志/告警数据、资源状态数据、主动拨测数据、NPM数据、APM数据、数字平台调用链等 )。

 

分析:第一、运维目标大屏呈现:通过业务与数字化架构的需求关系、运维服务目标/服务SLA/服务指标(重大事故发生情况、服务按时恢复的事件比例、服务的可用程度、及时接通率、及时响应率、及时解决率);第二、关联性服务管控视角:提供各业务应用与对应的 DaaS 、PaaS 、laaS 的关联性智能 分析能力、设定各系统可用性阙值、容量阙值、配置管理数据,实现核心业务应用运行态势、各通用平台/数字平台运行态势以及各基础设施资源态势图形化展示,帮助该机场运维管理成员准确掌握数字化架构状态,对进一步的决策提供支撑。

 

决定:由智能分析结果作为输入依据制定运维中相关的决策方案。实施/执行:通过IMOC在线运维管理流程(故障 、变更、服务请求等管理流程)驱动和规范人员操作,并为运维质量分析和提升提供量化数据支撑,部分的运维实施活动通过IMOC上自动化引擎实现自动化。

 

主要交付成果:

1.某市机场统—运维平台 ;

2.统—运维管理框架;

3.某市机场统—运维平台上各运维资产:各运行流程、自动化脚本、各运维数据、各分析结果等。

 

 

 

 

 

 

应用效果

某市机场统一运维团队从2020年初组建以来,逐步扭转了被动救火式运维的手忙脚乱,稳步向核心业务系统视角的主动预防式运维转变,使得运维工作变的有条不紊,规范高效。

 

1.2020年,核心业务系统:故障响应时间<15分钟,事件恢复时间<60分钟,业务应用可用率>98%,用户求助及时解决率>90%。

 

2.得益于IMOC统一运维平台的部署,7x24 例行监控人力节省1.5倍,例行巡检效率提升9倍。

 

下一阶段运维目标:事件恢复时间<30 分钟,业务应用可用率>99.95%,用户求助及时解决率>99%

 

 

调整及建议

华为作为运维供给侧主导方,在本次项目中帮助某市机场建设了面向数字化架构的新型统一运维体系架构。华为运维服务解决方案实施中参考了:《信息技术服务 运行维护 第1部分:通用要求 》( GB/T 28827.1-2012 )、《信息技术服务 运行维护第2部分:交付规范》( GB/T 28827.2-2012 )、《信息技术服务 运行维护 第3部分:应急响应规范》( GB/T28827.3-2012 )、《信息技术服务 运行维护第4部分 数据中心服务要求 》 ( GB/T 28827.4-2019 )  各标准中核心原理、服务指标、运维框架、附录内容等。在服务实践中也遇到了一些问题,例如,ITSS是基于运行维护服务需求方、供给方两个维度进行标准制定,当前实际情况是运行维护供给方通常由多家供应商联合构成,在标准中没有针对运行维护供给侧多家供应商的关系管理内容。当前标准比较丰富,但缺乏—些最佳实践层面的标准原理应用案例。这样从理论指导到实际落地之间缺乏一些桥梁性解释文档。

 

建议ITSS有针对性推出一些案例,从基本原理中每个环节、要素进行最佳实践的案例性讲解和说明。将ITSS标准的学习和应用门槛降低,让ITSS不仅是具备一定运行维护经验人的使用工具,更是运行维护零基础从业人员的入门指引明灯。

 

ITSS 华为

猜你喜欢

超聚变两年增长六倍的秘诀:创新价值,纵横西东,AI为峰,同心聚力,共创算力新生态
重磅!维谛Vertiv加入英伟达NPN全球生态伙伴网络