銀行分行運維服務信息系統應急恢復預案(12頁).doc
下載文檔
上傳人:故事
編號:568163
2022-09-01
12頁
178KB
1、某銀行省分行網絡設備運維服務應急恢復預案1. 文檔屬性文檔屬性內容文檔名稱某銀行省分行網絡設備運維服務應急恢復預案V1.0報告文檔版本號A1文檔狀態正式稿文檔編寫完成日期2016年8月18日目 的本預案用于網絡系統突發事件應急響應和恢復工作的參考文件和檢查表。是為規范各種緊急事件的處理程序,提高故障處理效率,以確保現信息系統、業務系統正常進行所依據的策略、資源、步驟和流程。密級說明:一般商密。此計劃中包含的信息不得以任何形式泄露給某以外人員。作 者2. 文檔變更歷史清單文件版本號修正日期修正人備 注3. 分發對象報告的目標讀者包括項目相關客戶、領導、技術專家、項目組成員、某維保工程師、相關部門2、經理、銷售經理、銷售總監。目 錄1.概述41.1.介紹41.2.目標41.3.原則41.4.依據51.5.適用對象及范圍52.網絡系統固有屬性62.1.信息系統基本信息描述62.1.1.網絡拓撲圖62.2.系統可能存在的風險、損失和影響分析62.3.需要處置的風險場景83.應急處置說明103.1.應急處置條件和資源103.2.網絡設備故障定位103.2.1.明確故障影響的范圍113.2.2.判定故障產生的原因113.2.3.判定故障恢復所需時間113.2.4.要求服務商協助定位故障113.3.應急處置過程及步驟說明113.3.1.網絡故障應急處理步驟123.4.應急響應聯系方式123.5.應急3、終止條件及后續保障措施131. 概述1.1. 介紹本預案用于某銀行省分行運維服務信息系統突發事件應急響應和恢復工作的參考文件和檢查表。是為規范各種信息系統緊急事件的處理程序,提高故障處理效率,以確保現信息系統、業務系統正常進行所依據的策略、資源、步驟和流程。1.2. 目標 對某維保的網絡系統的非計劃性停止進行快速反應; 加速網絡系統的硬件、軟件、端口和通訊的恢復; 減少突發事件對客戶的技術和業務運營的影響,減少財務損失; 減少突發事件造成的混亂; 減少由于疏忽和遺漏造成的工作錯誤。1.3. 原則應急預案編制應遵循以下基本原則: 有效性原則:應急預案應在一定范圍內及時有效地應對緊急事件。 可操作4、性原則:應急預案應具有較強的可操作性,宜以流程圖等形式表示。 規范性原則:應急預案的編制應符合國家、行業規范、監管部門、上級行的要求。 一致性原則:總體預案與專項預案、以及專項預案之間應保持統一和相互配合。 可擴展性原則:應急預案的編制應針對現行信息系統,也應考慮將來可能的擴展。 保密性原則:應急預案應根據有關制度,嚴格注明保密級別和范圍。 1.4. 依據該預案依據行業規范、某重大事件上報等相關管理制度進行編寫制定。1.5. 適用對象及范圍本預案僅適用于某科技維保的網絡系統的非計劃性的生產類緊急事件,特指安全事故類突發緊急事件:如重大設備運行事故。2. 網絡系統固有屬性2.1. 信息系統基本信5、息描述2.1.1. 網絡拓撲圖2.2. 系統可能存在的風險、損失和影響分析 硬件故障 網絡設備硬件故障導致的停機或者部分功能不可用,進而引發業務無法正常開展 軟件風險 網絡設備操作系統崩潰導致設備宕機,進而引發業務無法正常開展 網絡維護人員操作失誤導致的網絡設備故障,進而引發業務無法正常開展 運營商線路風險 運營商端口硬件、端口配置、光纜線路中斷引起的網絡故障,進而引發業務無法正常開展 機房環境風險 機房內UPS、PDU、空調原因而導致的網絡故障,如UPS、PDU停止供電而引起網絡設備斷電宕機,空調控溫失敗而導致網絡設備超過溫度警戒線而自動重啟,進而引發業務無法正常開展 病毒爆發或網絡入侵風險6、 大面積的病毒爆發或網絡入侵有可能會導致網絡等異常中止,進而引發業務無法正常開展 自然災害風險(火災、水災、地震) 自然災害類的事件有可能會導致網絡系統的硬件遭到破壞,進而引發業務無法正常開展 結合風險分析結果和中斷損失影響程度,確定各業務功能對恢復時間的敏感程度要求,確定網絡系統應急恢復的RTO技術指標。 恢復時間目標(RTO: Recovery Time Objective)災難發生后,系統或業務功能從停頓到必須恢復的時間要求:根據客戶系統重要性等級劃分和恢復要求設定的恢復時間目標。2.3. 需要處置的風險場景 硬件故障:經分析可以明確定位是網絡設備由于硬件出錯而導致的設備故障,如cisc7、o 路由器 交換機硬件問題。問題現象: 頻繁/突然重啟,并產生異常CRASH/Core信息及日志; 進入rommon狀態 網絡端口無響應 Console端口無響應 設備板卡、電源、風扇等工作異常,相關模塊的LED指示燈異常板卡無法識別。 設備、板卡無法啟動問題分析:硬件故障有以下可能: 設備、板卡老化; 雷擊,或者異常電壓引起硬件故障; 人工意外、運輸意外損壞; 具有冗余性的設備出現單臺硬件故障,雖然不會影響生產,但存在隱患,需及時處理。冗余設備同時出現硬件故障需要使用備件及時替換,否則會影響生產。 端口故障: 經分析排查可以確認是網絡設備端口故障或端口所連接網線中斷所導致的故障。問題現象:設8、備端口由原正常轉發數據狀態突然變成數據不能轉發,不能接受數據,表現為正常業務中斷或不通;設備端口指示燈不亮或其他異常狀態。問題分析:端口故障有以下可能原因: 端口硬件故障 端口所連接網線故障 其它突發性故障:電力系統異常中斷問題現象:機房設備電力異常網絡設備全部中斷后重啟問題分析:設備重啟后無法正常工作。問題處理: 緊急切換線路至冗余設備上 備件替換3. 應急處置說明3.1. 應急處置條件和資源 應急預案的啟動條件 客戶生產系統重要網絡設備發生故障 客戶設備完全或部分喪失運行的情況, 導致網絡不可操作、 重大故障甚至癱瘓, 或對最終用戶的業務使用有嚴重影響, 需要立即采取措施進行處理的故障 客9、戶根據現場情況判斷需要啟用應急預案 應急處置資源清單和環境描述 硬件設備:路由器、交換機、防火墻等網絡設備 軟件資源:得到授權相關IOS軟件 預案實施地點:省分行網絡機房3.2. 網絡設備故障定位在網絡出現故障時,首先應對其故障進行定位,包括明確故障影響的范圍,判斷故障所造成的危害程度以及初步判定故障產生的原因,并由此進一步制定相應的緊急處理措施。3.2.1. 明確故障影響的范圍確定網絡故障是發生在省分行的個別區域、局部區域,還是整個網絡系統的故障。確定故障對省分行的影響程度。3.2.2. 判定故障產生的原因根據故障現象并通過PING、Traceroute以及簡單show命令初步判定故障是配置10、錯誤、設備硬件故障還是線路故障或者是由于供電原因導致的設備斷電。3.2.3. 判定故障恢復所需時間判斷信息系統故障通過應急處理是否可以在短時間內恢復。3.2.4. 要求服務商協助定位故障出現網絡故障后,若無法及時進行故障的定位與處理,需要立刻聯系服務商進行協助進行故障定位與處理。3.3. 應急處置過程及步驟說明可結合上述風險場景分類從引發業務中斷的線路故障、硬件故障、端口故障、軟件故障、機房環境問題分別表述應急處置過程及步驟,如涉及到指令操作,要細化到具體的指令。3.3.1. 網絡故障應急處理步驟(1)故障描述:辦公或業務無法正常應用應急處理過程:1、查看省出口路由器:協議、端口、路由等是否正11、常2、查看省核心交換機:HSRP、VLAN、端口等是否正常3、緊急把辦公或業務線路遷移至另一臺交換機(2)故障描述:運營商專線故障現象描述:上聯運營商接口燈滅應急處理過程:1、ping直連地址2、配置遷移至冗余接口3、聯系運營商排查首先,省分行網絡設計為單點故障冗余,發生硬件故障后,相關人員應及時查找、確定故障原因,進行先期處置。若故障在短時間內無法修復,相關人員應本著先搶通再搶修的原則,先恢復業務正常運行,再進行故障排除工作。某備件庫按照維保合同提供設備備件,如果發生故障,能夠在第一時間提供備件并進行更換3.4. 應急響應聯系方式公司姓名職務聯系電話某科技現場工程師/項目經理某科技二線工程師某科技二線工程師某科技技術經理某科技技術經理某科技銷售總監3.5. 應急終止條件及后續保障措施 應急終止條件:業務能夠正常辦理,對外服務恢復正常。 后續保障措施:業務運行正常后,持續觀察24小時。