湖北农信:智能运维平台

来源:鑫智奖·2025第六届金融机构数智化转型优秀案例评选

获奖单位:湖北农信

荣获奖项:专家好评TOP10优秀案例奖

一、项目背景及目标

在当今数字化高速发展的时代,湖北农信面临着越来越复杂的业务环境和技术挑战。随着银行业务的不断扩展和创新,信息技术系统的规模和复杂性也在迅速增长。银行的核心业务系统、渠道系统和风险管理系统等关键应用需要保持稳定运行,以确保客户能够随时进行金融交易。

湖北农信的网络架构越来越庞大,涵盖多个数据中心、分支机构和外部机构的连接,且部分业务实现了云化部署,大大增加了监控和管理的难度。传统的运维监控方式已经无法满足现代银行的需求。人工监控效率低下,容易出现疏漏和误判。面对大量的监控数据,依靠人力进行分析和处理几乎是不可能的任务。随着金融科技的迅速发展,银行需要更智能化的手段来预测和防范潜在的风险,提前发现系统性能瓶颈,以便及时优化和调整。

为了解决这些挑战,建设智能运维平台成为必然选择。这个平台将整合银行各类监控资源,实现对云上云下硬件设备、软件系统和网络环境的全面监控。通过智能算法,能够自动分析监控数据,快速准确地识别故障和异常情况,并提供预警和解决方案建议。这将显著提高银行的运维效率和服务质量,降低运营风险,为银行的可持续发展提供有力的技术支持。

二、创新点

随着金融行业的数字化转型,银行面临着IT基础设施日益复杂化和多样化的业务需求。银行业的竞争日趋激烈,服务的稳定性和连续性成为银行吸引和留住客户的关键。传统的运维管理方式已经无法适应现代银行的复杂运维场景,存在着较高的故障率和较长的故障恢复时间,这直接影响到银行的业务连续性和客户体验。在新一代IT架构下充分利用可观测性以达到业务高可用、满足SLA等要求,亟需构建统一的智能运维管理平台。

1.全局可观测

统一智能运维管理平台通过采集客户端、应用端和数据库请求的数据,构建全局调用拓扑。可以监控关键渠道路径上的业务系统应用和组件,如手机银行、柜面系统等。通过客户端监控产品和服务端监控工具数据的联动分析,可以针对特定的用户、特定业务和特定接口进行关联分析,从客户端的角度分析用户功能瓶颈,提升用户服务。

2.实时动态监测

通过实时监测和动态可视化,平台能够快速识别性能问题和故障,减少检测和修复时间,提高银行服务的可用性和响应速度。

3.可视化

系统提供报表、仪表盘、可视化大屏等功能,通过全面数据可视化工具,展示系统各项关键指标的实时动态,包含交易量、响应时间、错误率等信息。帮助管理层和运维人员更直观地了解系统运行状态,让不同的用户角色可以根据自身需求查看相关数据,优化决策过程。

4.指标异常检测

平台可支持基于实时数据和业务需求的指标动态调整。运维人员可以根据不同的业务优先级和季节性需求,灵活地调整监控指标阈值,确保运维策略的有效性。此外,平台还能够检测业务黄金指标的异常变化,从而感知业务异常并及时报警。基于异常检测结果的智能告警,有别于传统的固定阈值告警方法,智能告警不需要用户再设置阈值及各种条件,从而减少了对人员经验及人工的依赖,大幅提升了问题发现效率。

5.指标智能预测

本平台利用机器学习算法,根据不同策略,进行指标智能预测。结合客户实际业务,基于算法中心的资源容量分析和预测,提前识别潜在的业务故障风险,保证资源配置合理,平衡资源与成本,利用动态缩扩容技术,快速满足突发业务需求。利用智能运维中的解决方案,通过分析业务量、业务性能以及资源的占用情况的历史数据,并结合业务量预测数据来建立容量规划模型,从而在保证业务性能最优的同时帮助用户节省运营成本。

6.日志异常检测

日志异常检测可实现发现系统异常行为,即时的异常检测使运维人员能够迅速定位故障,提高问题解决效率,减少宕机时间。基于日志的异常检测,能够提供较为丰富的系统运行或业务信息,辅助运维人员进行分析。

7.智能告警

系统利用先进的人工智能和机器学习算法,包括告警智能降噪、单指标预测等,对海量的运维数据进行分析,生成预测性告警。帮助运维团队及时发现问题并采取预防措施,降低系统故障率,提高系统稳定性。

三、项目技术方案

1.系统架构

系统的总体架构融合了智能算法中心、事件中心、智能监控中心、报表中心、可视化中心等全栈的运维产品模块,是一款面向业务价值与IT运维规划的全链路可观测的追踪分析和智能故障排查平台,以业务场景、业务系统、应用服务、基础设施为主要观测切入口,以算法为赋能,依托于指标、日志、调用链,为数字化转型提供强有力的解决方案。

①数据采集

整个数据流转经过数据采集,数据处理,数据存储,全链路数据应用。支持针对多种运维监控数据采集,可进行实时数据采集和定时任务数据采集。采集的整体技术方案架构如下:

系统内置丰富的脚本,用于深度发现属性采集和指标采集。深度发现任务在安装好采集插件后,会自动探测目标节点上所具有的服务,之后自动执行深度发现脚本,深度采集设备或服务属性相关指标信息。

②数据清洗

支持针对运维数据进行上层的数据加工管理,实现对采集的数据进行数据处理解析,实现数据的消费服务,并实现内外部运维平台进行交互。同时,实现数据指标的重要程度定义、健康度配置等。

③数据分析及应用

对全资源提供综合、立体、可视化的实时监控分析,面向企业业务价值与IT运维的顶层规划,以关系串联指标、日志、告警、属性、变更、trace等数据,结合算法,对业务、应用、服务、基础设施进行全资源统一监控、统一分析,统一智能故障分析定位,帮助快速发现、分析并定位故障。

④智能化

支持通过算法及专家经验实现根因的推荐,根因定位过程可视化,具备可解释性;算法定位功能包括但不限于调用链故障定位算法、指标异常定位方法及多维异常定位。可观测产品-告警中心提供具有强大算力的MeTow、MeREx和Noran算法,基于配置中心维护的关系,提取关联的指标序列,从时间的维度对指标相关性进行计算分析,以计算出可能的根因,同时算法可对用户的反馈进行方向学习,以保证下次计算的结果的可靠性。在左侧导航栏单击事件处置,进入事件处置页面。在页面中的事件列表单击目标事件名称,进入事件详情页,默认显示警报列表页签。单击智能根因,进入智能根因页签。

页签展示根据算法得出的故障原因,展示信息包括可信度、模型、根因资源、根因指标、维度、根因指标趋势和关联事件数量。单击目标根因资源,可跳转至资源监控查看资源详情。单击根因指标趋势,弹出指标详情对话框。在对话框中可对指标序列和相应的日志进行分析。

⑤可视化

系统提供报表、仪表盘、可视化大屏等功能,通过全面数据可视化工具,展示系统各项关键指标的实时动态,包含交易量、响应时间、错误率等信息。帮助管理层和运维人员更直观地了解系统运行状态。

四、项目过程管理

湖北农信于2024年3月启动智能运维平台项目,7月完成系统编码、测试和上线,2025年2月完成项目验收。

五、运营情况

自智能运维平台在湖北农信试运营以来,取得了显著成效。

在系统稳定性方面,该系统表现出色,有效保障了银行业务的连续运行。通过实时监控各项关键指标,能够及时发现并解决潜在问题,大大降低了系统故障的发生率。在效率提升方面,运维可观测及流程化管理,缩短了故障处理时间。同时,统一的智能运维管理平台使得运维人员能够更加便捷地掌握系统整体情况,提高了工作效率。

系统的稳定运行确保了业务办理的顺畅,减少了客户等待时间和因系统问题导致的业务中断情况,提升了客户体验。

六、项目成效

通过智能运维平台实施及智能算法场景的建设,取得了显著的成果。平台结合大数据分析及人工智能等功能,监控范围覆盖网络设备、服务器、应用系统、虚拟化、存储、动力环境、安全设备等,通过收集业务日志、监测指标以及业务链路关系等相关数据进行融合,构建业务拓扑链路。快速对故障进行分析、定位、快速恢复业务,保障业务的稳定性、安全性。项目通过全方位的系统监控和智能分析,优化了银行运维流程,提高了故障处理效率,降低了运营成本,并增强了客户服务质量。

具体体现为:

实现业务系统全链路可观测,全栈监控统一的监控平台,实现从基础设施、网络性能、应用性能、用户体验体验监控全覆盖,实现对资产运行状态可知;

终端用户体验明显提升,被动运维变为主动运维,降本增效,体现运维价值;

构建统一的运维集中事件处理平台,整合各个监控工具的告警事件,进行集中化的管理与处理,提高运维处理问题的效率,以及系统工具间的关联影响分析等场景功能;

基于数据的运维,构建统一监控中心,将采集的性能数据、配置数据、告警数据与业务关系数据进行互联互通,依托数据指标为基础,打造业务的运维体系。能够对故障实时预警,故障实时分析,故障及时处置。

以下是项目实施成效:

1.故障检测与处理效率

故障检测缩短至1分钟以内,处理耗时减少至15分钟以内。

2.监控覆盖率

覆盖云上云下资源,覆盖率提升至95%以上。

3.告警准确率

告警准确率提升至95%以上,有效降低误报率。

七、经验总结

智能运维平台,是采用数据驱动的运维模式,最终促使银行不断提升自身的技术水平和管理能力,以适应快速变化的金融市场环境。

首先它通过打通“竖井式”的数据壁垒,建立运维数据统一标准,集中数据采集、数据清洗、特征加工、规则模型、顶层场景的设计,把云上云下的运维对象所涉及的监控、日志、性能、配置、流程、应用运维等数据系统化、层级化关联,构建业务数字化“地图”的能力。

然后通过运维数据的深入挖掘及智能分析,不仅可以实时监测系统的运行状态,提前发现潜在的风险因素,实现高效的风险预警与故障排除,还可以结合数据分析报告,管理层全面了解到运维工作的成效和系统运行的健康状况,有助于优化银行的资源分配并推动持续的性能改进。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。返回搜狐,查看更多

More From Author

智能运维新范式,天翼云以AI赋能大数据SRE自治助力企业数智化跃迁

储能产品不止是“冷冰冰的柜子” 厦门新能安刘亚辉:双轮驱动为工商业储能的未来场景赋能