欢迎您访问宣城市人力资源和社会保障局网站!

今天是:
关于印发《宣城市人社局信息系统应急管理预案》的通知
阅读次数:1854 信息来源: 市人社局 发布时间:2019-07-03 08:27
[字体:  ]

宣城市人社局信息系统应急管理预案

 

为规范宣城市人社局计算机信息系统的突发事件应急管理,提高应对突发事件的管理水平和应急处置能力,有效防范计算机信息系统风险,减少计算机信息系统故障对业务造成的影响,确保计算机信息系统运行的连续性,特制订本应急管理预案。

一、应急工作组织保证

在发生计算机信息系统突发事件时,能够做到及时实施专项应急处置工作,降低突发事件可能造成的损失,组建应急团队,明确职责,以落实和完善应急预案为基础,全面加强计算机信息系统应急管理工作,保证各项应急工作的真正落实。

(一)成立领导小组。成立突发事件应急领导小组,领导小组由分管领导担任组长,信息中心主任为副组长,相关科室负责人及有关人员为成员。明确日常工作机构,负责应对突发事件日常工作。

(二)明确主要工作职责。突发事件发生时,应急领导小组应当立即到现场指挥处理,控制事态,掌握情况,现场处置,做好对服务对象的解释工作,维护公众的合法权益和财产安全,及时做好善后处理工作。遇重大事故要在第一时间内向信息中心组长报告,由组长根据情况进行逐级上报,遇到重大故障系统要长时间停机则要向社会发布公告。

(三)落实全员责任。全体工作人员都有责任及时将突发事件报告应急领导小组,并主动积极的参与处理突发事件,服从统一指挥。

二、应急准备

为保证信息系统重大突发事件发生后应急工作的顺利有序进行,必须在平时做好各项应急准备工作。

(一)人员准备

为保证应急情况下应急组织的迅速到位,应急人员在平时应作如下准备:

  1. 应急组织所有岗位应为AB角双人配置。
  2. 任何时间,应急组织任何岗位应保证AB角中有一人在本市,各组长负责组内人员离开的审批工作,并落实备份人员。
  3. 应急组织所有人员应在24小时内保持电话畅通,其中技术人员还应开通邮箱和微信。
  4. 应急组织和信息系统主要产品、服务供应商的管理层、技术层之间应建立畅通的沟通渠道。产品和服务供应商熟知并认可其在本应急预案中应承担的职责。
  5. 应急组织组成名单和应急联络方式应保持更新,并由应急技术小组负责维护。

(二)设备准备

为尽快恢复信息系统,须在设备方面做好如下准备:

  1. 重要信息系统的所有设备均应实现冗余配置,避免单点故障。
  2. 对重要部件和常见易损部件应在机房附近准备备件或者同设备供应商签订高级别的备件保障协议,便于应急取用。
  3. 重要信息系统的所有设备和软件、线路应保障7×24×4小时保修服务,其中对核心业务系统有关软硬件应保障最高级别响应时间的保修服务,甚至要求技术专家驻场服务。
  4. 所有涉及核心业务系统均属于重要信息系统。

(三)文档准备

准备工作文档应向相关应急人员的发布、并保存在安全且易于获取的地方。应急前应做好如下文档准备工作:

  1. 本应急预案;
  2. 系统维护文档至少包括各类故障定位、系统修复、系统关机、系统重启内容;
  3. 日常操作手册;
  4. 应急操作手册;
  5. 应急组织人员名单及其联系电话;
  6. 应急联络方式。

 

 

(四)其他

需要完成的其他准备工作有:

  1. 建立重大变更备案制度,对信息系统运行环境、系统、应用方面有重大影响的变更,以及来自电力、电信、安全单位的计划内维护通告,应进行登记备案,并告知应急技术小组所有成员。备案情况应同时放置在信息中心备查,以利于应急处理中的故障定位工作。
  2. 本应急预案的内容应不断完善。新出现的重大事故,应在事故处理完成后,经过讨论形成处理预案,经过测试和审批后,补充到本预案中。已经发生过的事故,如果处理流程有变化,也应对其处理预案予以更新。
  3. 有关应急文档应妥善保存,并在应急场地备有多份硬拷贝;应急文件应该有醒目的颜色标示,如:红色信封等。
  4. 本应急预案应经过演练,所有应急人员熟悉应急预案中与自己相关的内容。

三、应急故障处理流程

(一)事件上报

在发现信息系统故障后,相关技术人员等都应及时进行故障定位和排除,如果未能及时解决,达到所定义的重大突发事件后,应向信息中心组长报告。

(二)事件通知

信息中心接到重大突发事件报告或者发现自身的重大突发事件后,应立即进行第一时间的事件通知工作。

(三)影响评估和应急指挥

接到通知后,应急技术小组人员应第一时间响应,通过远程访问手段直接连接系统进行处理。若远程处理不了,则应迅速赶赴现场解决问题。

应急技术小组人员应在接到通知后迅速进行影响评估,并根据评估结果,组织第二时间的人员通知和现场响应,并制订故障排除和系统恢复方案。应急技术小组组长应将评估结果报应急领导小组组长,并提出是否启动业务应急处理的建议。

对于事件原因和影响清晰、处置措施明确的事件(如接到机房严重失电的通知),应急技术小组组长应立即授权处置人员按照预定技术恢复预案进行处置。

(四)技术恢复

根据故障情况,开展技术恢复工作。工作步骤如下:

  1. 如可以实施问题隔离,则隔离问题,首先恢复系统运行;
  2. 如发生需要跨部门协调的重大通信、电力、信息安全、突发事件等,请求有关行业部门提供支持;
  3. 根据影响评估情况,借助厂商支持,按照预先制定的技术恢复预案,或者紧急制定问题解决具体技术方案,解决问题,彻底恢复系统。

(五)业务应急

根据预计恢复时间等评估结果,在必要的情况下,启动业务应急。工作步骤如下:

  1. 应急领导小组组长决策启动业务应急;
  2. 应急业务小组组织业务应急有关人到位,按照有关业务应急预案启动业务应急。

(六)情况上报和信息发布

根据影响评估情况,开展情况上报和信息发布工作。工作步骤如下:

  1. 应急公共关系小组、应急业务小组和应急技术小组确定信息披露口径,并报应急领导小组同意;
  2. 应急公共关系小组按照有关规定要求组织报告内容,并进行报告和发布政府公告;
  3. 应急公共关系小组视情况主动或者被动和媒体沟通情况。

(七)恢复后工作

信息系统彻底恢复运行后,需要开展通告、总结、上报等后续工作。

工作步骤:

  1. 应急技术小组(和应急保障小组)完成技术恢复,并得到应急业务小组的测试确认,向应急领导小组汇报;

2.应急业务小组停止业务应急处理;

3.应急公共关系小组通知相关部门,业务恢复正常;

4.信息中心补充完整事件受理应急处理过程的记录,主要内容包括:主要处理步骤、参与人员、时间点等;

5.应急技术小组负责撰写技术分析报告;

6.应急领导小组组织有关人员根据事件过程记录、影响分析、对外宣告口径、技术分析报告完成总结报告;

7.应急技术小组、应急保障小组、应急业务小组制订改进建议,报应急领导小组审批后,按照有关流程,开展改进工作,预防事件再次发生。

四、应急处置措施

(一)网络故障

1.网络硬件故障

值班运行员负责收集网络设备的工作状况,一旦发现设备发生故障,应及时报告网络管理员判断对业务的影响程度。

若对业务不产生影响或轻微影响,由值班人员登记情况并向中心负责人汇报,由中心负责人(或责成网络管理员)与保修(供货)商联系并及时处理故障。

若对业务产生重大影响,热备份设备应自动切换至备机工作(冷备份设备由网络管理员手动切换至备机工作),此时网络管理员应严密监测切换情况,在确保业务正常开展的同时,及时报告技术负责人。若热备份设备未能自动切换至备机,由值班人员即时汇报中心负责人,由中心负责人调集网络管理员等人员及时查明原因手工切换至备机工作,并与保修(供货)商联系,要求立即解决故障,同时逐级上报。

若出现灾难性事故,主、备机同时不能工作,网络管理员即时通报中心负责人,逐级上报,同步联系设备保修(供货)商临时调用备用机;由中心负责人联系相关部门,请求相应的技术支持。

2.网络线路故障

局域网线路,因采用五类或超五类双绞线而制成,难免发生电器性能的下降、虫蛀鼠咬、意外绷断,发现故障或接到报告后,管理员在检查本机的网卡工作正常情况下,网关不通时,应用测线仪测试线路,急用时通报网络管理员和中心负责人,由中心负责人调集相关人员落实现场人员采用临时拖线处理,事后采用标准布线方式恢复。

广域网线路,值班人员在网络检查或接到报告发现链路中断的情况时,立即向网络管理员和中心负责人汇报,技术人员查明故障原因,确定为线路故障的向网络运营商申告故障修复,以降低全局风险发生几率。若主、备线路同时出现故障,且网络运营商短时内无法修复的,要求网络运营商实行临时紧急布线处理并向“应急领导小组”汇报,确定是否启用重大应急措施。

(二)主机硬件故障

1.后台主机硬件故障

值班人员一旦发现主机发生故障,应及时报告系统管理员判断对业务的影响程度。

若对业务不产生影响或轻微影响,则登记情况并向中心负责人报告,由中心负责人与保修服务商联系并及时处理故障。

若对业务产生重大影响,系统应手动切换至备机工作,此时系统管理员在严密监测切换情况,确保业务正常开展的同时,及时逐级上报。

若出现灾难性事故,主、备机同时不能工作,则即时通报主管主任和“应急领导小组”,同步联系相关部门临时调用备用机;并报告上级管理部门,请求相应的技术支持;由“应急领导小组”据情决定上报上级部门,恢复硬件系统后,继续按软件故障应急方案处理。

2.磁盘阵列故障

如若单个硬盘故障不影响业务正常开展的,则登记情况并及时向主管主任汇报。由主管主任(或技术负责人)与保修服务商联系,要求立即更换硬盘。

多个硬盘或阵列出现故障,视为严重故障,则应即时报告主管主任和“应急领导小组”,同步联系设备保修服务商现场支持,根据情况,在多硬盘同时故障情况下,尽量不动现在的存储,而是采用新存储替换模式进行更换,尽量保证原存储数据结构不被破坏,将数据拷贝到新存储来恢复数据应用,恢复硬件系统后,继续按软件故障应急方案处理。

(三)系统软件故障

包括主机系统软件故障、数据库故障、中间件故障

主机若发生故障,首先判断对业务的影响程度,若对业务不产生影响或轻微影响,登记情况并向中心负责人汇报。自行不能解决的立即与系统服务商联系并及时处理故障。

若对业务产生重大影响,系统应切换至备机工作,此时系统管理员在严密监测切换情况,确保业务正常开展的同时,逐级上报;若系统未能切换至备机,则即时汇报主管主任,由主管主任调集人员及时当场查明原因手工切换至备机工作,并与系统服务商联系,要求立即解决故障,同时上报上级领导,由领导据情确定是否上报。

若出现灾难性事故,主、备机同时不能工作,系统管理员即时通报信息中心负责人,请求相应的技术支持;由“应急领导小组”据情决定上报分管领导,确定是否启用重大应急措施。

(四)外围设备故障

1.供电故障

A.市电供电故障

如遇停电,在UPS接替供电的同时,了解停电原因、估计停电持续时间、检查UPS状态、确认UPS后备电源可供电时间,根据具体供电情况确定是否启动应急发电机。市电恢复后,直到确认供电稳定后,恢复市电接入。

B.UPS供电故障

值班人员在检查或接到报告发现UPS供电发生故障,立即通知中心强电负责人,由中心强电负责人组织人员对故障原因进行诊断,若是UPS问题则启用备机,同时与保修服务商联系要求解决;若是供电线路原因引起UPS供电故障的,则及时联系电气操作员进行故障处理。如果备机不能使用,则直接通过市电(或加稳压电源)方式对设备进行供电。

C.应急发电机供电故障

在必须启用应急发电机进行供电时,出现发电机故障,立即逐级上报,并联系相关人员进行故障处理,若短时间内无法解决的,由信息中心联系相关部门临时调用发电机或要求电力部门尽快恢复供电。

因供电故障对业务产生重大影响的,由“应急领导小组”据情决定上报分管领导,确定是否启用重大应急措施。

2.空调故障

机房空调不能正常工作(包括断电),则即时向中心机房环境负责人汇报,落实人员,采用降温设备(依情采用临时性家用空调(发电机供电)、电风扇以及冰块),除、增湿设备(依情采用临时性家用干燥剂、增湿器)等临时设备,尽可能满足中心设备运作环境要求;确应设备故障的中心机房环境负责人应与设备保修服务商联系,在最短时间内解决。

3.火警

一旦发现火情(听到消防报警声或目睹火情),当班人员要以最快速度判明起火点位置,按照流程进行处理。在场员工应在避免人员伤亡的前提下全力以赴,奋勇扑救。灭火的同时,当班人员要立即报告中心主任。若火势较大,当班人员应迅速报警(119),并报告安全保卫部门。

以上各类故障处理由“应急领导小组”负责监督各工作小组执行,并做相关处理记录。

五、保障措施及要求

(一)数据保障。信息系统数据库应建立本地实时备份和异地实时容灾备份,保证重要数据在受到破坏后,可紧急恢复。并且各备份系统应具有一定兼容性,在特殊情况下各系统间可互为备份。数据安全是重中之中,要确保数据备份的有效性,需要中心相关负责人经常查看,同时需要专业服务商按时巡检并对备份数据以及容灾系统数据查验,并在一定时间间隔进行数据恢复性测试;并且要求专业服务公司必须具备专业的数据灾难恢复工具和数据修复后台支撑。

(二)应急队伍保障。建立应急保障队伍,充分发挥各自专长的专业公司技术力量的作用,必要时能够有效协调相关单位的保障力量,进行技术支援。

(三)应急装备保障。在建设系统时应事先预留出一定的应急设备,建立信息网络硬件、软件、应急救援设备等应急备品备件库。在突发事件发生时,由突发事件应急领导小组负责统一调用。

(四)严格执行制度。应急方案启动期间,必须严格执行有关内控制度,尽可能减少由此引起的法律风险和制度风险。

(五)做好解释工作。在排除故障期间,应做好解释工作,避免产生不必要的纠纷和不良社会影响。

(六)完善过程记录。对应急过程涉及的设备、采取的措施、参与处理人员要做好详细记录。

(七)总结经验教训。在故障排除后,信息中心核实恢复情况,系统运行部门要分析故障原因和下步防范措施,要会同有关部门总结经验教训,并提交事故处理报告,详细说明故障的现象、原因、处理方法和处理结果;对人为造成的故障或因未按规定操作而导致故障升级,应对有关当事人做出严肃处理。