中小银行运维自动化经验分享
时间:2019-07-18 16:11

  中小银行运维自动化经验分享_互联网_IT/计算机_专业资料。中小银行运维自动化管理 解决之道分享 2014年7月 目录 1 ? ? ? ? 运维管理中的操作控制难题 作业任务精确控制 监控巡检准确定位 应急处置自动调度 ................

  中小银行运维自动化管理 解决之道分享 2014年7月 目录 1 ? ? ? ? 运维管理中的操作控制难题 作业任务精确控制 监控巡检准确定位 应急处置自动调度 ........................... 2 3 运维标准化自动化解决之道 运维标准化自动化实施要点 2 运维管理总体目标-防范风险、优质服务、◇•■★▼◆◁•控制成本、系统建设 - 应用整体监控 - 事件处置管理 稳定运行 精确控制 - 作业调度管理 - 安装规范核对 - 巡检全程控制 - 配置信息管控 - 知识维护使用 - 变更发布管理 -设备资源管理 运维 管理 资源管理 -运维服务标准化 -运行成本可计量 -技术规范体系化 -运维架构规范化 -制度体系层次化 -运行数据采集 -资源性能分析 -容量总体规划 -数据资源管理 标准服务 精确操控管理是运维管理的基础,也是科技服务质量的保障 作业管理 作业管理难题-漏做错做、任务异常、执行风险、隐患排查 ? 大型商业银行每日批作业任务数已达数千个,中小型商业银行也近几百个,随着业 务复杂度及三方业务增加,任务数有增无减,并且变更频率教高,控制难度增加; ? 多个系统、多个作业任务之间形成了非常复杂的逻辑关系,仅靠表格等手工管理方 式,很难降低任务执行差错率; ? 针对特殊日期的批作业任务临时变更,很难精确控制,一旦作业任务执行失误,影 响范围较大,很难处理; ? 很难精确记录作业任务执行时长、时点、报错等情况,无法统计分析,发现作业任 务执行过程中的潜在风险; ? ........................................................... 作业管理 作业管理手段-任务登记、★◇▽▼•变更控制、逻辑调度、过程记录、隐患排查 任务定义?关系管控?技术标准?过程监控?结果检查?故障联查?任务优化? 监控巡检 运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产 关键业务交易出现 问题,想排查故障 原因,▪…□▷▷•那么: ?网络环境如何? ?网络报文正常? ?系统资源有瓶颈 吗? ?中间件有问题吗 ? ?数据库有瓶颈? ?应用程序有报错 ? ?业务数据有问题 吗? ?客户请求端状态 如何? 监控巡检 运行监控难题-预警、发现、定位、排查、隐患、预估、采集、资产 2013年3月17日网络通路典型故障 2013年3月17日 监控报警情况---缺乏网络通路质量检测直接报警【只有表象报警、无原因报警】 15:37 ECIF系统:三条报警ToFront 0307 error、ToFront 0307 error服务测试异常 15:38 收单系统:03801 Success rate is low! Pb751 BUSY! 15:40 电子支付系统:EPAY thread is busy 15:44 个贷风险管理系统:plms4和plms2、plms5、plms6阻塞线 信贷风险流程管理系统:weblogic线程数高、▪▲□◁jdbc连接池等待 15:45 操作风险管理系统session锁等待 15:45 图前监控采集机10.1.7.15报错 15:46 验印系统ssl握手失败 分析:1、从15:37到15:46,10分钟内统一监控平台共有19条应用系统1级告警,但因总行 网络环境监控手段的缺失,未能第一时间发现网络线路质量问题,因此,如何提早发现网络 通路问题,如何快速定位故障点,是故障早发现快解决的关键。 应急处置 应急难题-经验积累、工具标准化、逻辑关系控制、△▪▲□△快速准确执行??? 其它运维操作 其它运维操作难题-数据全程管理、标准化变更发布、环境合规检查、资产动态采集验证 意义及思考 中小银行运维标准化自动化的意义--人员、经验、△▪▲□△风险、成本 ?实施运维操作自动化的关键目标是什么?:运维操作管理应该细分为如下几个领域,每 个领域的具体目标是不同的:1)操作控制:准确调度;2)监控诊断:固化知识;3)应急处置: 精确执行;4)变更发布:控制差错;5)规范检查:准确核对;6)资产采集:信息准确;7)数据 管理:全程控制; ?如何有重点分步骤的实施运维操作自动化?:根据细化后的运维操作流域及其管理目 标,分别设计方案及标准,然后按照:首先标准化,其次自动化,▷•●最后制度化的路线进行实施; ?运维操作自动化与哪些运维管理环节相关?:与一线建设、事件管理、应急处置、数据 管理、运维标准化等运维管理环节密切相关,同时考虑人力配备、技术能力问题【短期引入】; ?如何保持运维操作标准化的持续性?:通过问题日常跟踪机制【日积月累】、运维操作 维护工作流程【查缺补漏】、相关人员岗位规划、以及工具持续优化【实用原则】达成; 目录 1 2 运维管理中的操作控制难题 运维标准化自动化解决之道 ? 运维自动化领域的细分 ? ? ? 标准化是自动化的前提 管理体系是有效实现的基础 ........................... 3 运维标准化自动化实施要点 11 运维操作领域细分-领域不同,目标及要求则不同,实现策略与方法不同 ?操作控制:常规操作任务的定义、★△◁◁▽▼▽•●◆调度、执行、监控、变更、维护、优化 ?作业调度:风险控制、运行评测、变更控制、配套检查 ?操作控制:配置备份、环境比对、时点检查、标准安装 ?数据操作:系统备份、业务备份、恢复执行、查询流程、销毁控制 ?监控诊断:报警判断、故障定向、•□▼◁▼问题定位、二次采集、标准处置、资产核对 ?运行监测:系统、应用、数据、◆▼外联环节的主动探测,◇…=▲运行数据采集 ?故障诊断:监控集成、二次判断、故障定位、现场采集 ?故障处置:处置执行、状态判断、可用验证、◇=△▲故障隔离 ?应急处置:应急环境与条件自动检测、▲●…△应急流程实现与维护、应急操作自动执行 ?变更发布:变更评审关键点管理(非功能需求在线核对)、应用发布自动化(标 准)、●系统变更自动化(规范) ?规范检查:监管/管理规范核对、安全自动检测、配置信息自动核对、安装规范 运维操作管理的实现:1)标准化;2)工具化;3)自动化;4)制度化 作业管理体系 作业管理体系-制度细则、技术规范、监测优化 应急管理体系 应急操作管理体系-自上而下、从头落实、技术细化、持续改进 整体 预案 技术 预案 系统 手册 技术 演练 持续 维护 业务影响分析 整体预案制定 事件定级 流程设计 系统结构梳理 故障处置步骤 演练场景设计 实操与评测 日常变更管理 典型故障管理 技术操控管理重点范畴 识别业务风险 控制故障影响 指导整体工作 分析 明确故障升级 及处置整体流 程,建立规范 建立 整体了解关键业务 以实战出发设计 系统结构,梳理各 演练场景,验证 类故障处置方法 操作有效性 将系统的变更、典型 故障,及时维护到应 急管理手册之中 评估 整体工作落实策略 设计 实操 监控管理体系 监控巡检管理体系-认识对象、明确指标、操作测量、评估优化 对象构成信息 (按层次、分维度) (分层级指标、二次诊断定义) 监控KPI指标集 监控策略实施说明 (按工具设计、分对象定级) ? Check change records ? Roll back application to old level 以体系化的监 控指标为参考 全方面多维度 梳理应用监测点 基础层面构成信息 - 存储:通道等 - 网络:通路、会话等 - 系统:信号量等 - 数据库:实例等 - 专用设备信息 应用内部构成信息 - 进程、服务、队列等 应用外部关联信息 - 链路、文件、接口等 应用交易信息 - 交易分类、◆●△▼●交易名称、返回码 分层级按维度说明指标 - Level 1: 常规监测指标 - Level 2: 初步定位指标 - Level 3: 深入诊断指标 指标二次诊断定义 - 如:链路中断报警,需确认哪一个层面 策略统一编码,整体描述应用 策略按照不同对象定义报警级别 说明策略的启动条件、频率 指标的详细说明(知识库) 指标采集及处理方式说明 目录 1 2 运维管理中的操作控制难题 运维标准化自动化解决之道 运维标准化自动化实施要点 ? ? ? ? 运维操作经验的积累与获取 识别阶段工作的重点与难点 工具适用性选择与人员调整 ........................... 3 17 作业管理实施 作业管理实施要点-识别作业管理关键点、分析关键问题分布实现 ?作业逻辑控制:各个作业任务之间往往存在先后逻辑关系,尤其是跨 应用系统的逻辑管理需要严格控制 开发中心 批量开发 ?作业时间调度:很多作业需要控制执行日期及时间,如周一至周五某 批量开发岗 批量作业拆分 时刻做,每月最后工作日做等等 测试部门 业务逻辑实现 ?作业权限控制:关键作业需要特定角色或者多人复核等,需要进行严 格控制 裁减 批量测试 批量作业流程设计 ?作业自动执行:对于将要实施自动执行的任务,应具备哪些条件、应 流程测试 如何改造、如何控制风险 调度接口配置 运维部门 ?作业临时干预:在特殊情况下,如业务部门特殊要求,某些作业不按 批量上线 批量调度岗 裁减 照计划的时间等条件执行,能否有效控制是关键 ?作业管理成体系:对于作业管理中的人员、信息、流程等要素进行系 流程启停 批量维护岗 运维部、系统部 统化管理,将作业的基础信息、变更流程、人员工作等环节落实在一套 管理制度及工具中 批量维护 批量调度岗 批量变更 任务操作 批量操作岗 ?作业变更标准化:严格控制作业任务在系统投产、节假日处理等情况 下的变更及实施 日常维护 系统管理岗 应急处置实施 应急处置面临的复杂性-系统间关联性高、同城异地灾备环境 应急处置实施 应急处置操控实施-处置操作标准化、整体设计处置流程、自动操控 监测采集实施 监测采集实施-识别监测对象与指标、监测采集过程标准化、实时自动监测采集 监测采集实施 监测采集实施-运行数据采集目标确定、采集手段梳理、采集流程设计实现 监测采集实施 关键生产环节的可用性保障-梳理整体环境及链路、确认测试方法、自动测试 运维操作实现的关键因素—技术经验、人员能力、★▽…◇工具实现、持续优化 技术经验 ? 首先要将内部日常运维工作逐步标准化规 范化,并形成简洁有效的运维管理过程, 记录每个故障、◁☆●•○△分析成因、○▲-•■□跟踪问题,技 术经验、解决方案的日积月累。 ? 外部技术经验及解决方案的引入,如网上 资料、外包资源、项目资源等。 工具实现 ? 首先要明确各运维领域细化目标及需 求,基于此分析对于工具的详细需求 。 ? 工具必须具备较强的二次开发能力, 充分掌握核心代码,以结果为导向整 体设计,不断持续改进 人员能力 ? 运维管理分工的细化,由按系统分工模 式,逐步调整为技术专业领域分工。 ? 充分利用外包、驻场、•☆■▲项目资源,将上 述人员能力,按照标准化模式,输出成 为知识、☆△◆▲■解决方案,形成自身人员能力 。 持续优化 ? 在实施运维管理的同时,▲=○▼必须考虑配 套制度规范及细则的设计,以及技术 标准的建立,同时形成不断查缺补漏 的工作机制。 ? 将运维操作领域进行细化分工,在系 统设计、开发、投产、运行监测、优 化改进等环节持续落实。 24 24 运维自动化工具思考-不是简单的流程化、复杂逻辑控制、实际处理难题....... ?任务的暂停、延迟、跳过、置换、提前:任务的法定时间因子、前序条件因子、▲★-●执行令牌 因子(临时干预)【任务暂停、任务略过、任务提前、临时调换两个任务的先后顺序等功能 支持的情况】 ?任务的时点报警、时长报警:可给固定参考值阀值、□◁▼▲也可根据平均时间动态计算阀值 ?任务流的暂停、终止:向其它相关流程发送全局变量信息 ?多个任务流程直接的信息交互:通过全局变量、消息队列等实现 ?对于已经启动的任务流中临时增加任务:实例化后流程可动态修改 ?任务流的单步执行:可控制流程进行单步执行 ?任务执行失败后的重做:任务执行失败后,可选择执行错误任务进行纠错、★-●=•▽判断、◆■报警等 感谢交流 哈尔滨银行科技发展部:姜岩▼▼▽●▽●