用户情况:
该银行为内蒙地区股份制银行,数据中心部署在北京大兴世纪互联IDC,有4个大型机房;灾备中心位于亦庄,有1个大型机房;海淀区有一个中等规模机房,主要承载办公网络;内蒙具备2个办公大楼,主要承载主要承载办公网络。数据中心合计拥有1100个机柜,合计约4500台IT设备,包括各类物理服务器及虚拟服务器2400余台、100余台存储设备、1600余台网络设备、200余台安全设备、200余台其他各类设备等。
用户遇到的问题:
1)需要维护的设备数量巨大,10人行方网络管理人员及15人二线外包团队组成的25人运维团队。整个团队运维工作非常繁重,加上日常业务变更及7X24小时值班,团队精力消耗过大,团队人员长期处于疲劳态。
2)行内对CMDB的管理基于EXECL表来管理,包括资产表、IP管理表、路由表、线路资产表、各类故障处理登记表等等,存在登记不及时、漏登记等情况,导致信息缺失!针对IT资产的查询非常低效,导致产品维护、产品巡检、业务变更等关联工作事项效率较低。
3)早期搭建的监控系统、运维审计系统是两套独立的系统,当ECC一线告警发出后,二线运维需要通过查询Excel表来确定故障设备的管理IP、承载业务、上架位置等基础信息。然后再登录运维审计系统进行故障处理,整个过程耗时3-5分钟,遇到核心设备出现重大问题时,很难满足银监会要求的20分钟解决故障的诉求。
4)早期的监控系统不能满足当前的监控需求,主动告警由于MIB的缺失,部分Trap告警无法进行正常解析,存在重要告警漏报的风险。
我们的解决办法:
1)整合监控系统与运维审计系统,实现系统间的无缝对接,在监控系统中可以直接调用运维审计系统,无需多次登录,即可实现快速登录故障设备,既高效,又省力!
2)利用我司开发的轻量级CMDB模块,对全部的网络设备和安全设备进行资产统计,每类资产合计约70个字段信息,并将信息导入至CMDB库,全部实现资产信息线上查询的功能,避免翻阅大量Excel表格。
3)梳理全部网络及安全设备的MIB文件,和各区域(外联区,内联区,安全区,管理区等)负责人逐个梳理关键OID,确保核心的监控项不被遗漏,虽然花费了大量时间,但给用户带来实实在在的安全及便利。
4)实现线上登记,线下双重核查的管理流程,确保数据中心发生的任何变动,均在**时间内同步至监控运维一体化平台。
5)针对多数据中心的设备监控,系统必须具备多数据中心管理的能力,我们根据用户的实际情况进行了定制开发,在CMDB中补充开发了“网络分区管理”,支持从数据中心、机柜资源、网络分区3个角度对各个数据中心进行筛选,同时定制开发了全局搜索功能,帮助用户快速定位IT资产。
6)针对大量的IT资产监控,监控点超过50000点,必须使用分布式部署架构,在实施过程中,我司采用了11台虚拟化服务器进行了分布式部署,通过F5实现了访问的负载均衡。实现了大并发监控及多用户访问(用户数超出50+)。
分布式架构规划如下图:
同时,我们结合实际运维情况,优化了运维流程,协助用户提高运维效率,如下图:
实施总结:根据用户实际需求定制开发了RDM跑批监控、ECIF重要客户资产跑批监控、ECC可视化告警大屏、优化了DC Monitor平台的CMDB模块。同时深入了解用户原有流程,将平台与流程匹配,优化工作过程中不合理的环节,协助用户提供效率,释放人力去关注更加核心的业务。