金智维K-ECC应急演练指挥调度平台,提升未知故障下应急管理能力
9月27日上午,A股三大股指继续上行,创2015年9月16日以来盘中最大涨幅。但火爆行情下,多位投资者反映上交所股票交易系统出现既无法卖出也无法撤单的情况,多家券商的委托系统出现延迟,让投资者原本顺畅的交易流程被打乱,这不仅影响了他们的投资决策,也对市场信心造成了一定的打击。
证券交易所交易系统出现故障并不鲜见,此前全球多家证券交易所曾出现宕机事件,而近几年间,发生的频率明显增加。在当前市场交易活跃度不断提升的背景下,金融业务需求激增、产品迭代速度越来越快,传统的单体架构模式已无法满足金融行业当前业务的发展需求。与此同时,由于金融行业涉及大量资金交易,系统往往涵盖多数据中心、多活、灾备、容器、虚拟机等众多复杂的基础设施,系统间的交互极为复杂。分布式架构技术的运用,进一步加大了基础设施复杂交互的难度,为系统运行增添了更多不确定性。
一、混沌工程将被动化为主动,为信息系统“打疫苗”
金融业务对系统的稳定性、可用性、可靠性都有着极高的要求,在这种情况下,提前“预知”并“演练”各种突发状况,成为了IT团队检验、增强系统稳定性的不二选择。
为了提高系统的稳定性和柔韧性,保证信息系统服务可用,检验应急场景处置的完整性和有效性,金智维创新性打造K-CTEST混沌测试平台,能够为企业提供全面的混沌测试解决方案,帮助企业发现并解决更多未知的影响业务稳定性的隐患与问题。
通过混沌测试,金融机构可以提前发现系统中的潜在问题。而下一步,运维团队则需要有效处理这些突发事件并配置应急预案,从而提高业务故障驱动下的应急分析能力,降低风险,提升金融行业IT系统的稳定性。
二、编写预案,轻松应对,提升未知故障下应急管理能力
金融系统的运维管理复杂度远高于其他行业,为保证业务系统的稳定性,除了可以应用金智维K-CTEST混沌测试平台,还能引入金智维K-ECC应急演练指挥调度平台,进一步增强金融机构应对突发事件的处置能力。
应急管理最主要的作用就是在相应的错误情况下启动对应的预案,金智维K-ECC应急演练指挥调度平台建立了一个指标矩阵,通过监控指标的绑定和阈值的设置,能够在指标突破阈值时迅速触发应急预案。这一功能使得平台能够实时监测系统的运行状态,及时发现潜在问题,为快速响应和处理提供了关键保障。
相较于其他方案,K-ECC应急演练指挥调度平台可以编写更多的子流程和任务节点,在预案启动执行的过程中,实现一边上报、一边排查、一边处理、一边切换。这种多线程的应急处理方式,能够极大地提高应急效率,确保在最短时间内解决问题,降低系统故障带来的风险。
此外,平台所有的应急动作都可以通过RPA去执行,避免了人为操作可能带来的错误和延误。现场运维和中心运维人员只需通过看板和群聊,即可了解应急进展情况,并执行相对应的任务,使得应急过程有条不紊。
金智维在运维领域具备十余年的技术沉淀和行业经验积累,一直以来始终坚持技术创新,并以卓越的产品和技术能力赢得了诸多市场荣誉。未来,金智维将继续积极探索新系统、新技术、新模式在运维实践中的运用,不断为企业构建完善的运维服务体系,助力千行万业加速实现运维数智化转型。