1、數據中心機房應急預案 目 錄一、基本原則3二、應急事件級別定義3三、組織機構及職責43.1 應急領導小組組織機構43.2應急領導小組職責43.3應急小組成員職責5四、應急響應機制64.1基本處理流程64.2機房應急開關機具體措施74.3服務器及存儲設備故障處理7五、應急方案85.1網絡故障事件應急預案85.2服務器故障應急預案85.3災害性事件應急預案105.4其他突發事件應急預案10六、后期處置10七、應急保障11一、基本原則(1)居安思危,預防為主。實行突發事件統一管理、統一指揮、各級負責的原則;(2)統一領導,分級負責,全面規劃、及時發現、快速反應、措施果斷的原則,并按照事件級別迅速上報
2、相關領導和責任人。(3)制度規范,加強管理。嚴格按照事件處理流程規范操作,使突發應急的工作規范事件化、制度化。(4)快速反應,協同應對。當突發事件發生時,各級要立即按應急預案,投入應急工作;加強各個部門配合協作。形成統一指揮、反應靈敏、功能齊全、協調有序、運轉高效的應急管理機制。(5)主動報告原則:當突發事件發生后,要及時報告應急預案實施情況。二、應急事件級別定義根據網絡與信息安全突發公共事件的可控性、嚴重程度和影響范圍,一般分為四級:I級(特別重大)、II級(重大)、III級(較大)、IV級(一般)。國家有關法律法規有明確規定的,按國家有關規定執行。(1)I級(特別重大):重要網絡與信息安全
3、系統發生全市性大規模癱瘓,事態發展超出相關主管部門的控制能力,對國家安全、社會秩序、經濟建設和公共利益造成特別嚴重損害的突發公共事件。(2)II級(重大):重要網絡與信息安全系統造成全市性癱瘓,對國家安全、社會秩序、經濟建設和公共利益造成嚴重損害,需要跨部門、跨地區協同處置的突發公共事件。(3)III級(較大):某一區域的重要網絡與信息安全系統癱瘓,對國家安全、社會秩序、經濟建設和公共利益造成一定損害,但不需要跨部門、跨地區協同處置的突發公共事件。(4)IV級(一般):重要的網絡與信息安全系統受到一定程度的損壞,對公民、法人和其他組織的權益有一定影響,但不危害國家安全、社會秩序、經濟建設和公共
4、利益的突發公共事件。三、組織機構及職責3.1 應急領導小組組織機構3.2應急領導小組職責 1、應急總指揮職責(1)保證在任何時間,及時協調應急行動所有涉及的崗位人員;(2)提供必須的緊急響應設備;(3)在緊急情況下全面負責緊急行動;(4)在必要時向外界求救,例如:119、110、120等。2、應急副總指揮職責(1)在總指揮領導下具體開展工作,當總指揮不在時履行總指揮職責;(2)根據獲得的應急信息下達命令。3、各相關設備負責人職責(1)負責盡快收集信息向應急總指揮匯報事故情況;(2)負責現場臨時設備搶救和對事態的控制;(3)聽從上級指揮人員的指揮。3.3應急小組成員職責(1)值班人員平時應做好應
5、急事件的監控、預警工作,當應急事件發生后,迅速生產事件上報相關領導,并進行先期處置,如有必要通知二、三線工程師。(2)二線、三線工程師在接到應急信息后,應積極配合值班人員進行先期處置,迅速趕往故障現場提供技術援助。(3)對于在應急故障處理期間發生的新問題、新情況,應認真登記,及時上報。對于超出應急預案界定的應急事件,應及時匯報應急領導小組,爭取盡早提出補救措施進行恢復。四、應急響應機制4.1基本處理流程 (1)值班人員平時應做好應急事件的監控工作,對于突發事件應認真分析、準確判定故障發生的數據域,負責跟蹤該事件直至其結束。對于不在運維中心的故障,應在第一時間內通知負責人去現場處理,密切關注事件
6、流程及進展情況,并做好登記工作上報領導。(2)正常情況下,要求值班人員在30分鐘內進行事件確認。如果屬于一般事件則按照事件流程進行分派處理,否則應迅速啟動應急預案,并嚴格按照應急預案所規定的步驟快速實施應急處置,及時匯報上級領導,掌握實時處理情況。(3)在處理過程中,如需其他部門去現場增援處理,應及時向上級領導部門匯報,協調溝通,盡快聯系技術工程師或廠家技術支持趕赴現場援助處理。4.2機房應急開關機具體措施機房各設備關閉順序如下:4.3服務器及存儲設備故障處理排錯流程五、應急方案5.1網絡故障事件應急預案1.發生網絡故障事件后,系統使用人員應及時報告應急小組。2. 應急小組及時查清網絡故障位置
7、和原因,并予以解決。3.不能確定故障的解決時間或解決故障的期限并屬較大(III級)及其以上的,應急小組應報告所領導。4. 網絡系統故障突發事件分級:故障等級故 障 現 象1級網絡完全擁塞或設備宕機網絡或設備處理能力嚴重受影響,對最終客戶的業務運作有嚴重影響網絡或設備故障對重要的客戶(公司經理級或重要的部門)造成嚴重影響2級網絡或設備的性能嚴重下降,對最終客戶的業務運作產生重要影響部分區域網絡故障一般網絡節點發生故障大部分客戶的網絡通訊質量下降3級網絡或設備性能受損,但最終客戶大部分業務仍可正常工作報警出錯和操作命令反常4級其它一般的故障,不影響系統的整體運行,不影響大部分客戶的使用5.2服務器
8、故障應急預案1.服務器故障后,應急小組確定故障設備及故障原因,并通知相關廠商。2.根據服務器修復和恢復系統所需時間,由所領導決定是否啟用備份設備。3.如啟用備份設備,在服務器故障排除后,應急小組在確保不影響正常業務工作的前提下,利用網絡空閑時期替換備用設備。如不啟用備份設備,應急小組應積極配合相關廠商解決服務器故障事件。5.3空調設備故障處理若空調損壞,應第一時間通知廠家上門進行維修,并及時報告信息部相關領導請示,獲得授權后按機房設備關閉順序關閉各類設備。5.4消防設備故障處理一旦機房發生火災,應遵照下列原則:首先確保人員安全;其次保護關鍵設備、數據安全;三是保護一般設備安全;人員疏散的程序是
9、:機房工作人員立即按響火警警報,并通過119電話向公安消防請求支援,所有人員戴上防毒面具,所有不參與滅火的人員按照預先確定的線路,迅速從機房中撤出;人員滅火的程序是:首先切斷所有電源,啟動自動噴淋系統或使用滅火器,滅火值班人員戴好防毒面具,從指定位置取出泡沫滅火器進行滅火。5.5 電源設備故障處理在緊急情況發生時,應按如下步驟進行關機:(1)確認所有負載均已安全關機。(2)關閉UPS負載電源。(3)將UPS的系統啟用開關切換到off 的狀態。(4)將DC電池連接斷路器切換到off的位置。(5)將所有電池拉出到紅色電池斷開線以外。(6)斷開PDU上的斷路器。(7)將PDU后面總輸入斷路器切換到斷
10、開位置。(8)將每個上行主電路斷路器切換到斷開位置。5.3災害性事件應急預案1.一旦發生災害性事件,應急小組每一位成員都應有責任在第一時間進入機房搶救服務器及存儲設備。2.應急小組對服務器及存儲設備的損壞程序進行評估。如服務器損壞或存儲設備損壞無法使用,立即聯系相關廠商,進入維保服務程序。3.根據服務器或存儲設備修復和恢復系統所需時間,由所領導小組決定是否啟用備份設備。5.4其他突發事件應急預案應急小組立刻派出技術人員進入現場,制定相應措施,根據實際情況靈活處理,并按要求報告所領導小組。六、后期處置1 故障排除后,應急小組向各部室發出故障解除、系統恢復正常運行通知。2. 系統恢復運行后,相關操
11、作人員盡快通知參保單位和個人辦理社會保險業務事項,并對故障發生前所進行過的業務操作進行檢查,核對業務數據是否正確或有無丟失,不正確或有丟失的應馬上更正或補錄,確保數據的正確和完整。對在故障期間采用手工受理的事項,應及時在系統中補充完善。3. 所領導組織有關人員及有關技術專家組成事件調查組,對事件發生原因、性質、影響、后果、責任及應急處置能力、恢復重建等問題進行全面調查評估,總結經驗教訓,完善信息系統應急處理預案,整改信息系統存在的隱患。七、應急保障1. 預留一定數量的網絡硬件設備和服務器,用于預防或應對信息系統突發事件。2. 選擇熟悉信息系統軟硬件的專業公司作為信息系統應急處理的社會應急支援單位,提供技術支持和服務。信息系統服務器以及存儲設備要與專業廠商簽定維保協議,明確備用設備的供應時間。3. 強化信息安全宣傳教育,提高信息安全防御意識。每年至少組織開展一次全局范圍內的信息網絡安全教育,提高全局職工信息安全防范意識和能力。