1、計算機系統重大突發性事件應急預案第一章 計算機系統重大突發性事件應急預案1.說明華夏人壽保險股份有限公司信息系統應急方案是為了確保當華夏人壽關鍵系統發生故障或供應鏈因以外中斷時,關鍵業務仍可繼續運作,而預先制定和準備的一系列操作方案。本應急方案并不能代替解決問題的工作,它只提供一個最低可接受的服務水平,以便有充足的時間去修復出現故障的系統。其價值在于,計劃和方案在危機出現前就已經制定好,能最大限度地爭取時間。通過應急方案主動的有預見性的,而不是被動地倉促地對緊急情況做出反應。2.應急方案的目標/范圍 2.1目標與范圍 (1)業務連續:確保華夏人壽的日常業務能夠連續運行,不出現中斷。在某些系統或
2、子系統功能失效的情況下,關鍵系統不至于癱瘓,主要功能不會喪失。(2)降低風險:應急方案必須采取各種措施,把由于問題而產生的風險降到最低。(3)減少損失:對于可能產生的風險,采取技術和管理方面的補救措施,盡量將各種損失減少到最低。(4)避免災害:盡量避免因為系統故障而產生災害的高危系統造成的直接或間接影響,確保人民生命財產安全和社會穩定。 目前,華夏人壽保險公司基于計算機和網絡的業務處理系統主要包括核心業務系統、財務系統和辦公系統。2.2關鍵業務系統描述核心業務系統業務生產系統配置1臺HP rp8420服務器和1臺rp7420,rp8420和rp7420分別劃分兩個硬件分區,一個硬件分區配置是4
3、CPU、8G內存作為業務系統的數據庫服務器,另一個硬件分區是4CPU、4G內存作為業務系統的應用服務器。一套磁盤陣列EMC CX500,作為核心業務系統和財務系統的硬件支撐平臺。另外配置一臺HP rp3410作為核心業務系統及財務系統的測試服務器,運行非關鍵的開發和測試工作。財務系統財務系統安裝在1臺HP rp4440服務器上,同時與核心業務系統共用一套磁盤陣列EMC CX500。Rp4440也劃分兩個硬件分區,一個硬件分區配置是2CPU、4G內存,運行財務系統的數據庫,另一個硬件分區配置是2Cpu、2G內存,運行財務系統的應用程序。核心業務系統的服務器與財務系統的服務器做雙機互備,平時業務系
4、統運行在rp8420上,財務系統運行在rp4440上,當一臺服務器的一個分區發生故障時系統切換到另一臺服務器的相應分區上運行。3.應急團隊組織結構應急方案都是在發生災害的非常時期進行。因此,充足的人力資源配備和明確的責任分工顯得尤為重要。如果沒有一個組織有序的團隊,很難保證災難發生時能夠在既定時間內完整、成功地實現災難處理和業務恢復。從華夏自身來看,其實施應急的團隊組成不僅要橫跨各個部門,還要縱向包含省分和市分等多級機構。因此,合理地組織華夏各級機構的各個業務部門的人力資源,根據災難恢復方案的需要明確各個團隊成員分工,是保證應急方案順利實施的基礎。更重要的一點是,將各個組織部門的管理層納入應急
5、實施團隊或至少得到他們的充分承諾是整個應急系統成功的關鍵因素之一。這里需要說明的是:由于災難的偶然性和突發性,應急團隊并不需要全職地投入到應急工作中。實際上,整個團隊中除了應急實施負責人和協調人之外,其他成員在日常工作中都是兼職地加入應急團隊,其擔負的任務和責任也只是其日常工作地一部分而不是全部。但是,整個應急團隊需要在建立和修訂應急方案時全職地投入應急工作,這些工作至少持續到整個方案測試結束,以保證團隊對應急方案的實施能力。3.1 團隊負責人根據華夏的組織結構情況,設立應急負責人組成整個應急系統的最高管理層。應急負責人是整個應急系統的最高負責人,是具體實施應急的領導者。作用應急負責人全面負責
6、整個華夏的業務持續和災難恢復工作,包括方案制定、人員組織溝通、方案演練、文檔和測試工作。應急負責人的主要作用就是保證華夏能夠在發生災難的情況下保持關鍵業務的持續運行,將災難損失降低到最小程度。職責l 保持和本級高級管理層的聯絡;l 具體負責應急方案的制定和實施;l 保證所負責的區域內的災難恢復和業務持續;l 共同保持整個華夏范圍內的應急知識普及;l 協同華夏各部門的應急工作。3.2 應急協調人作用具體聯絡相關小組實施應急負責人下達的各項任務,協調上下級之間和各部門之間的聯絡和協同,并且他們還要作為制定和實施應急方案的聯絡人。職責l 組織和協調所負責區域的應急相關的各項工作;l 對本區域的人員進
7、行相應的應急知識培訓;l 組織各部門的應急演習和評審;l 聯絡和溝通本區域的各個部門以及外部供應商和服務商。3.3 災難恢復小組災難恢復小組是應急方案的具體執行者,負責執行和災難恢復相關的具體職能。根據各項職能的要求,每個小組大約包括3到5名成員,由組長負責本組的工作,并且在每個組中還要有一個候補的小組負責人。各個小組都需要由應急中心和所支持的省公司的相關人員共同組成,在災難發生時共同利用應急中心的資源完成災難恢復和業務延續。 各個小組在應急負責人的領導下進行工作,通過應急協調人和各級部門之間進行溝通。根據實際工作的需要,可以對小組的工作進行具體的詳細劃分,或者增加新的職能小組。應急負責人、協
8、調人和各小組的組長一起構成整個應急團隊的管理層,由他們負責指導華夏應急方案的制定和實施。以下具體描述各小組的職能和組成。設施恢復組設施恢復組負責監控本區域內所有的物理設施,包括平時的預防工作和災難發生時的損失評估、保護、維修和轉移,以及在應急管理層的指導下,進行災難地和應急中心之間地物理設備切換。根據其職能,設施恢復組主要包括以下人員:l 設施規劃和運行維護人員;l 資產管理和審計人員l 供應商和服務商聯絡人員l 設施相關的技術專家l 安全管理人員l 法律和保險管理人員行政管理組行政管理組負責為其他職能部門作好所需的后期保障工作,包括運輸、安全保衛、資金、人員調配和公共關系等。行政管理組主要包
9、括以下人員:l 具有足夠資源調度授權的經理;l 運輸、財務、人事、安全保衛、公共關系相關人員;l 外部服務商、供應商聯絡人員;l 行政助理系統恢復組系統恢復組負責保證支撐關鍵業務應用的平臺系統的恢復,并及時提供給相關的業務部門。系統恢復組主要由以下人員組成:l 系統管理員l 供應商聯絡人員通訊恢復組通訊恢復組負責維護和保障應急方案中的通訊需要,包括語音通訊和數據通訊,尤其是災難恢復所需的指揮通訊和恢復關鍵業務應用所需的數據通訊。通常通訊恢復組需要借助第三方的網絡供應商來完成所需的通訊保障工作。因此,通訊恢復組包括:l 網絡及通訊系統維護人員l 網絡服務供應商聯絡人員;l 設備供應商聯絡人員;用
10、戶聯絡組用戶聯絡組負責應急團隊和各業務部門的溝通和聯絡,以使應急團隊及時了解詳細的災難影響以及來自業務部門的需求,同時,也是業務部門了解應急團隊的災難恢復工作進展情況,幫助雙方更準確地進行相應的決策。用戶聯絡組人員組成:l 各業務部門代表l 應用系統專家數據控制組數據控制組負責應急的數據備份和恢復工作,包括制定相應的備份計劃、恢復優先級的評估以及恢復方式,并在災難發生時負責實施相應的數據恢復工作。數據控制組由以下人員組成:l 數據控制經理;l 數據備份管理人員;l 備份介質管理人員;l 原始單據管理人員;l 數據錄入組織人員;應用恢復組應用恢復組負責業務應用系統的恢復,這個小組和系統恢復組、數
11、據控制組一起完成業務支撐應用系統的恢復工作,實現業務的延續運行。應用恢復組的成員主要有:l 應用系統管理員;l 應用系統開發商維護人員;配合協作組配合協作組負責應用系統發生問題時,和其它恢復小組一起完成業務支撐系統的恢復工作。主要成員根據業務系統影響的范圍而定,例如在與分公司、支公司或者營銷部的某些業務受到影響時,則需要當地技術人員的配合,一同完成業務系統的恢復工作。4.關鍵業務監控技術平臺針對華夏人壽業務系統技術新、規模大、可用性要求高、管理任務重的特點,華夏人壽除了配備了高素質的技術支持團隊,而且采用了完整的數據庫管理解決方案,能夠完全滿足壽險核心業務系統管理需求。5.應急處理流程應急處理
12、流程分為事件級別判定、事件處理及升級程序。5.1事件級別判定事件級別定義:序號事件級別顏色標識故障現象描述1一級故障紅色系統運行中斷,對用戶業務的運行有嚴重影響。2二級故障橙色系統中重要功能受損、主要性能指標嚴重下降,影響和限制了部分業務運營。3三級故障黃色在系統主要功能及性能指標運行正常的情況下,系統部分功能與性能受損。對于華夏人壽重要的核心業務系統、財務系統,主機、數據庫、網絡系統有著至關重要的作用,根據事件級別的定義,主機、數據庫、網絡系統的事件級別判定標準如下:事件 級別顏色標示故障現象描述主機系統數據庫網絡一級故障紅色系統運行中斷,對用戶業務的運行有嚴重影響。核心業務主機癱瘓。業務數
13、據庫掛起或者無法正常使用。核心交換機、骨干網絡線路不能使用。二級故障橙色系統中重要功能受損、主要性能指標嚴重下降,影響和限制了部分業務運營。核心業務主機運行緩慢、出現嚴重報警信息或硬件錯誤。 核心數據庫響應緩慢,部分應用出現數據不一致性等錯誤。交換機或路由器性能下降,或者網絡帶寬使用率超出承載能力。三級故障黃色在系統主要功能及性能指標運行正常的情況下,系統部分功能與性能受損。核心主機基本上正常工作,但存在硬件或系統級錯誤,使得主機系統性能有所下降。數據庫工作基本正常,但是某些非重要數據存在問題或者運行不夠穩定。網絡基本正常,但是出現網絡數據偶爾停頓等現象。四級故障藍色在系統無故障或不影響用戶業
14、務運行的情況下,用戶對系統的功能、安裝、配置、性能優化或使用方面提出技術咨詢服務要求。主機系統運行正常,但是在主機系統參數配置、或性能優化方面需要改進。數據庫系統運行正常,需要對數據庫系統配置參數進行調整。網絡運行正常,對網絡鏈路使用或設計方面有待改進。5.2事件處理程序類型事件事件級別預防措施緊急處理程序機房環境機房強電停電,停電時間超過UPS備援時間二級定期對UPS運行狀況和電池進行檢測,增加UPS待機時間關閉非關鍵業務服務器,與相關系統管理員聯系,做好系統關機準備。機房環境空調上水和凝水管小面積漏水,不超過單個機房面積的1/3,沒有淹及強、弱電模塊,不影響主機和網絡設備的運行三級安裝防漏
15、水報警系統,加強機房環境巡檢,做好機房頂層的防水工作立即聯系物業公司吸掃漏水,切斷水源,聯系相關廠商查找原因和解決問題。機房環境機房漏水,漏水面積超過單個機房面積的1/3,水深已經引起地面強電短路、弱電模塊不能正常通信一級安裝防漏水報警系統,加強機房環境巡檢,做好機房頂層的防水工作立即聯系物業公司吸掃漏水,切斷水源,聯系相關廠商查找原因和解決問題。主機系統業務生產主機、財務生產主機運行主機宕機二級施行雙機熱備,加強系統巡檢,加強數據和系統備份立即與集成商、廠商聯系報告故障,并手動切換到備份主機,啟動備份主機上的相關服務主機系統磁盤陣列宕機一級加強系統巡檢,與廠商聯系定期進行診斷,加強數據和系統
16、備份迅速與集成商、廠商聯系分析原因和解決問題主機系統郵件系統故障,服務不能在短時間內恢復二級加強系統備份,加強系統巡檢,提前發現并解決問題,增加硬件冗余措施立即通知受影響的用戶,聯系軟件廠商進行緊急修復。網絡系統與分公司的單條線路出現故障,處理時間超過2小時三級考慮硬件冗余,考慮線路冗余,加強日常監控立即與電信運營商、系統集成商聯系分析原因和解決問題網絡系統分公司與中心支公司連接的分公司匯聚端出現故障,影響分公司與所有下轄機構的通信二級考慮硬件冗余,考慮線路冗余,加強日常監控立即與電信運營商、系統集成商聯系分析原因和解決問題網絡系統分公司與中心支公司相連的單條線路出現故障,處理時間超過8小時三
17、級考慮硬件冗余,考慮線路冗余,加強日常監控立即與電信運營商、系統集成商聯系分析原因和解決問題網絡系統總公司廣域網匯聚端出現故障,影響總公司與所有分公司的通信一級考慮硬件冗余,考慮線路冗余,加強日常監控立即與電信運營商、系統集成商聯系分析原因和解決問題網絡系統核心路由器或核心交換機單臺故障 二級考慮硬件冗余,加強日常監控,加強數據和系統備份立即與集成商聯系,并手動切換到備份設備網絡系統2臺核心路由器或2臺核心交換機都發生故障一級考慮硬件冗余,加強日常監控,加強數據和系統備份立即與集成商、廠商聯系,借用設備暫時恢復服務,并立即查找原因并對設備進行修復。安全事件網絡遭受拒絕服務攻擊Internet出
18、口堵塞二級安裝防火墻修改外網IP地址,立即聯系集成商、廠商進行分析和處理內部網絡遭入侵,內部機密資料泄露一級安裝防火墻加強安全意識教育立即關閉遭受攻擊的端口,備份重要日志文件,并聯系集成商、廠商進行分析和處理5.3 事件處理時限和升級程序時間一級故障二級故障三級故障四級故障30分鐘相關業務部門、主管高級工程師相關業務部門、(分公司)主管工程師(分公司)主管工程師(分公司)主管工程師1小時信息技術部門領導分公司)主管高級工程師4小時分管信息工作的公司領導信息技術部門領導、(分公司)信息管理領導(分公司)主管高級工程師8小時公司領導信息技術部門領導(分公司)主管高級工程師24小時保監會分管信息工作
19、的公司領導信息技術部門領導、(分公司)信息管理領導48小時公司領導72小時信息技術部門領導信息技術部門領導、(分公司)信息管理領導第二章 信息系統重大事項匯報制度一、概述本制度定義了部門工作中,可能引起或已經產生嚴重不良后果的事項:包括重大項目和重大事故,統稱為重大事項。本制度針對不同的情況規范了對此類事項的匯報過程和實施、處理途徑。目的l 制訂本制度的目的是:改善部門內部溝通機制,保證部門負責人對重大事項及其可能產生的不良影響有充分的了解。并在此基礎上充分運用其崗位職能,協調組織重大項目的實施工作和重大事故的處理工作,從而最大限度的避免潛在隱患的發生、降低事故造成的影響。重點l 重大項目的匯
20、報實施制度重點在于實施前的周密計劃和嚴謹設計、實施過程中的科學控制和嚴格測試。l 重大事故的匯報處理制度重點在于匯報過程的及時、匯報內容的準確完整、處理過程的高效率和高質量、事故處理完成后的及時總結。二、重大事項的定義重大事項指部門日常工作中,可能引起或已經產生嚴重不良后果的事項,它包括重大項目和重大事故。(一)重大項目重大項目指具有較高復雜性的、實施細節比較陌生且有一定難度的,影響面較大的并且因為上述特點而存在較大的實施風險的工作。重大項目包括但不僅指如下工作:(1)核心業務系統更換或核心業務系統中重要功能的開發、改造:系統整體更替或改造、一級模塊的整體改造(如 保全流程改造),公用模塊的開
21、發、改造(如 統一核保)或其他重要項目。(2)重要系統的硬件平臺遷移,操作系統、應用服務器、數據庫管理系統產品更替、版本升級或為了調整現有系統性能而修改系統配置和參數。(3)比較復雜的新型產品上線:現有系統不能完全支持,需要進行較大規模修改的新型產品(如 萬能險、投資連結險)。(4)辦公系統、外掛業務系統的開發或重大改造。(5)對公司經營具有重要戰略意義的項目(如數據倉庫,CRM,Call Center)。(二)重大事故重大事故在部門日常工作中因為各方面的原因造成或可能造成嚴重不良影響的事件。重大事故包括但不僅指如下情況:(1)生產系統數據庫或應用服務器非正常宕機:因為系統硬件故障、系統軟件錯
22、誤、惡意攻擊或管理員操作失誤導致系統較長時間(定義)無法正常使用。(2)生產系統數據嚴重錯誤:因為業務部門提供的數據錯誤、上傳數據失誤、手工操作數據失誤,程序邏輯錯誤等原因造成的大量系統基礎數據或業務數據錯誤,嚴重影響正常的業務結果(如大量的保單打印錯誤、收費、紅利、生存金數據錯誤)。(3)公司網絡大面積癱瘓或阻塞,嚴重影響生產系統、辦公系統的運行:因為網絡提供商的責任、主干線路或節點設備的物理損壞、惡意攻擊等原因造成的公司網絡的大面積癱瘓或阻塞導致生產系統、辦公系統較長時間(定義)不能正常使用。(4)公司電腦系統的安全正在或可能受到嚴重的外來侵害:公司計算機系統自外部被攻破,遭到或即將遭受嚴
23、重破壞。惡性計算機病毒在公司計算機系統內出現,已經或可能嚴重破壞公司計算機系統。(5)貴重設備、重要數據損壞或遺失。(6)各種原因造成的設備損壞或遺失、各種原因造成的備份數據損壞或遺失。三、重大事項的匯報(一)重大項目的匯報重大項目的匯報過程也是項目實施的前期準備過程。部門負責人指定的項目負責人有義務通過書面或當面報告,讓部門負責人了解整個項目的內容、復雜程度、可能存在的風險等情況。必要時應該編寫項目可行性分析報告。部門負責人確定某項目為重大項目后,項目負責人應該編寫項目計劃書。項目計劃書應包括項目實施的目標,責任分解表,項目進度表,項目實施中各項責任的負責人,項目實施各階段的關鍵指標及檢測要
24、點。項目負責人在編寫完項目計劃書后應該及時發送給部門負責人確認。項目負責人根據項目計劃書和項目具體情況安排相關人員編寫項目實施方案和檢測方案,對于項目實施一旦失敗可能造成業務停頓等嚴重后果的項目還應編寫項目實施過程應急預案。對于軟件開發項目,實施方案指需求規格說明書和概要設計,檢測方案指內部測試計劃書;對于其他項目應該根據具體情況編制實施方案和檢測方案。實施方案、檢測方案和項目實施過程應急預案經部門負責人確認后,項目進入實施階段。(二)重大事故的匯報當部門工作因為各方面的原因,不可避免的發生了重大事故時,部門內的每一位員工都有義務及時將事故原因和嚴重程度向部門負責人直接匯報。以便其對內協調相關
25、資源及時解決問題,減少損失,杜絕后患;對外澄清事實,明確部門間責任,爭取主動,體現部門整體工作效率。對于明顯屬于第二節中所列舉的重大事故和其他可以肯定會產生嚴重不良影響的事故的必須在第一時間直接匯報;對于無法直接確定為重大事故的,應先向相關人員報告,確定為重大事故后再匯報。對于尚未造成嚴重影響或錯誤正在發生的事故,應該先設法阻止不良影響的蔓延,然后匯報,匯報后再設法徹底解決問題;對于已經產生嚴重后果的事故,應該在第一時間直接匯報,匯報后再設法挽回損失、杜絕后續影響。四、重大事項的實施、處理(一)重大項目的實施重大項目實施方案經部門負責人確認后,項目負責人應該嚴格按照項目計劃書組織相關人員開展項
26、目實施。每一個項目參與成員應該嚴格按照實施方案完成自己的各項工作任務,對于需要檢測的部分應該按照和檢測方案仔細檢測。項目責任人應該定期向部門負責人或其指定人員匯報項目進展情況,如果項目實施過程中遇到困難應該及時向部門負責人匯報。項目在實施過程中如果發生了影響公司正常運做等情況時,項目責任人應該依據項目實施過程應急預案采取有效措施及時消除不良影響。無法及時消除影響的,應該參照本制度中關于重大事故的規定進行處理。項目實施完成后應該報告部門負責人,并對項目實施后產生的問題做及時的處理。(二)重大事故的處理部門負責人接到重大事故的匯報后,對內應該根據事故的嚴重程度以及相關人員的建議,指定對該事件處理的
27、第一責任人、安排處理方案、確定處理進度表、監督處理過程;對外則根據具體情況履行其對外責任,如澄清事實,明確部門間責任,協調必要的外部資源等。事故處理完畢后,如有必要應該總結經驗,有針對性的制定相應制度,避免類似事故再次發生。參與處理重大事故的人員在第一責任人的安排下,和相關人員一起(包括各廠商的技術支持人員)落實處理方案,及時匯報處理進度和結果,及時反映處理過程中遇到的困難。事件處理完畢后,有關人員應該總結經驗,因為人為原因導致錯誤的有關人員應該設法改進工作方法(可能是個人的工作方法,也可能是團隊的工作方法),杜絕事故再次發生的可能。由于重大事故的處理要求較高的時效性,因此事故匯報、處理過程中不要求形成書面文檔,如果確有必要可以在事故處理完成后在事故處理總結報告中說明。