2018年3月,据第十三届全国人民代表大会**次会议批准的国务院机构改革方案,国家市场监督管理总局由将国家工商行政管理总局的职责,国家质量监督检验检疫总局的职责,国家食品药品监督管理总局的职责,国家发展和改革委员会的价格监督检查与反垄断执法职责,商务部的经营者集中反垄断执法以及国务院反垄断委员会办公室等职责整合,组建国家市场监督管理总局。
经过3年多的整合,市场总局信息化工作已经步入正轨。目前市场总局已经纳管了101套相关核心业务应用系统。由于系统数量巨大,故障及各类变更事项增长迅猛,但目前并没有通过技术手段来进行有效管理,无法实现对业务应用系统的整体监控预警,无法控制诸多因素带来的系统中断风险。所以急需建设相应的业务应用系统监控预警平台,通过先进的IT技术手段来保证业务应用系统发生故障时**时间快速定位故障,缩短故障修复时间,提高业务应用系统的持续服务能力。
在不断推进的数字化建设大背景下,IT业务系统软硬件形态、运行规模、系统结构与运行方式等日益多样化和复杂化,不断扩大的软硬件资源规模和系统负载,所涉及的101套业务系统,对业务管理和监控提出了更高的要求。
目前基于IT硬件监控的工作模式相对片面的,监控感知能力只覆盖了硬件层面;针对软件系统层面的各种系统、应用的监控还处于空白之中,通过业务系统应用级监控系统的建设,通过一体化监控运维项目的建设应用,实现监控预警系统全面精准覆盖硬件层面及软件层面,实现业务应用系统全链路的监控预警是非常必要的。
用户遇到的问题:
1)由于需要接管大量的信息系统,同时信息系统面临互联网+大数据的架构变革,系统逐步迁移至私有云或公有云环境下,同时要求系统必须具备持续性对外提供服务的能力,不能间断。
2)由于业务应用较多,应用之间的关联又极其复杂,偶尔产生业务应用出现无法访问后故障定位时间很长,排除故障过程中涉及部门较多的情况。
具体情况如下:
1)缺乏全面的故障定位能力:当业务应用发生无法访问时,运维人员不能**时间得到故障信息并展开问题分析,运维人员往往是救火式运维,这种被动运维的效率很低,且业务负责部门意见非常大。
2)缺乏高效的故障定手段:依靠人工经验在各系统间排查故障,对故障原因无法快速定位,导致运维工作效率低下,故障修复时间长,从而对业务系统造成影响。
3)不具备数据整合能力:对IT基础设施、软件系统的运行状态等数据缺少集中管理,无法有效整合运维数据,无法满足对监控数据挖掘,不能产生任何价值。
4)由于业务应用系统过于庞大,涉及多家不同的开发公司,业务应用之间相互交叉,如何管理好5家公司的运维人员,避免因运维问题导致责任划分不清而导致的管理混乱。
我们的解决办法:
1)协助用户对全部IT资产进行全面梳理,定义每个设备对应的承载业务关系、部署上架位置、配置数据、运维归属部门、承载业务的运维人员信息、电缆连接信息等等。然后建立统一的综合运维监控系统:包括应用性能管理、IT基础设施监控、大数据日志分析、安全设备监控,实现完整业务资产可视化管理,实现资产与承载业务的关联。如下图:
2)何快速的定位故障?采用“业务应用+承载业务设备监控点”合集的方式,对业务应用就行“逻辑卡片”分组,如下图:
3)关于数据的整合能力,我司协助用户建立了Hadoop大数据存储+Hive实时数据分析及ELK集群的搭建,如何结合业务应用系统进行大数据分析的落地,我们持续进步中。
4)关于各业务承建单位的运维管理问题,我司拥有自主知识产权的AnMSA运维审计系统,可以对运维用户和资产进行授权划分,确保运维“不过界”,并支持对运维工作人员进行操作审计,为时候追责提供有力的依据。
总结与分享:
1)协助用户实现了故障的快速定位,提高了故障解决的效率。同时我司为客户开发了较为人性化的知识库,使得设备或监控点维修记录可以转至知识库,为类似的故障提供解决方案参考手册,
2)协助用户实现了监控告警与运维审计,使得运维人员在运维操作过程中谨慎细心,降低因人工误操作导致的业务事故发生概率。
只有深入了解业务,结合监控数据,才能挖掘出更有价值的监控视角,满足用户基于监控数据的深度挖掘。同时必须针对用户实际情况对监控系统进行优化改造,才能匹配用户的实际需求。
早期,从2017年开始,我们主要负责“国家食品安全抽检监测系统”运行平台的监控维护,随着市场总局的整合,我们一直持续为该系统提供监控预警服务。近期,在该平台的基础上,我们正在实施国家十三五战略规划中的“市场监管系统一体化监控预警系统”,为建设“大市场、大质量、大监管”的高标准体系贡献一份力量。