計算機機房網絡突發事故應急預案(29頁).doc
下載文檔
上傳人:奈何
編號:561853
2022-08-30
28頁
1.99MB
1、計算機機房應急預案前 言近年來,經常會聽到某地機房發生因某種原因導致災難性的事件;由于處理不及時或人為因素操作不當,導致嚴重后果,造成了巨大的經濟損失。為了避免類似事情發生,項目組每年對應急預案進行修訂,優化使用流程及操作步驟,保障在突發情況下及時、有效處理各類應急情況。本應急預案編制依據單位網絡系統運行管理規定而編寫。根據單位領導提出新的改進建議,應急預案的版本修訂相比之前有了較大的改動,項目組結合機房的實際情況,針對所涉及故障及其處理方法分別進行說明并細化了每一個處理步驟,增加了非工作時間機房出現突發事件的處理步驟及緊急聯系人相關信息,確保維護人員能夠直觀、及時、有效地處理突發情況,在維護2、人員不能第一時間到達現場,其他人員也能以及有效協助處理突發情況。項目組每年組織兩次的機房應急演練,模擬機房設備故障,維護人員參照應急預案能夠熟練操作并進行突發事件的處理,驗證應急預案對于機房的有效性和可用性。 目 錄1概述11.1目的11.2應急預案存放11.3編制依據11.4技術資料12 適用范圍及啟動條件13 應急組織和職責24應急響應流程34.1 應急事件響應34.2 應急事件升級35應急執行流程45.1 影響程度的評估45.2 宣告啟動應急45.3 應急恢復55.4 事后處理55.5 應急注意事項56應急恢復步驟66.1強電系統故障66.2 UPS故障96.3 網絡系統故障106.4 3、機房漏水126.5 空調故障146.6 機房火災17附表一 交換機信息22附表二 自主運維辦公交換機信息22附表三 交換機常用命令23附表四 機房應急預案聯系人信息表23附表五 機房服務器聯系人信息表237 預案附錄24附錄一 機房示意圖24附錄二 配電柜操作說明書24附錄三 UPS操作說明24附錄四 空調操作手冊24附錄五 設備監控軟件使用說明書241 概述1.1 目的為了提高單位計算機機房、網絡突發事件的應急處理能力,最大程度地預防和減少突發事件及其造成的損害,保障設備正常運行,制定本預案。本預案參照單位領導的要求,對機房空調、電力、消防、漏水以及網絡系統五種突發情況制定具體的應急工作流程4、。1.2 應急預案存放1)電子版本本應急預案電子版存放于單位共享服務器及所有項目組成員工作電腦中。2)紙質版本本應急預案紙質文檔存放于機房緩沖區桌面、運維人員辦公室。1.3 編制依據本應急預案編制依據單位安全管理規定編寫。1.4 技術資料序號資料名稱存放地點獲取方式1UPS使用手冊機房緩沖區桌面進入機房獲取2機房專用空調操作維護指南機房緩沖區桌面進入機房獲取3消防使用手冊機房緩沖區桌面進入機房獲取2 適用范圍及啟動條件1) 地域范圍:本預案適用于本單位機房及網絡運行中發生故障時使用。2) 人員范圍:本預案在執行中涉及的人員包括機房、網絡運維人員,相關主管領導,大樓安保人員以及機房內各應用系統負5、責人等。3) 啟動條件機房、網絡運行中出現的一般性突發事件和重大突發事件。一般性突發事件:是指機房、網絡突發故障,將影響機房提供正常服務及網絡服務的能力且預計修復時間大于30分鐘,此時應立即啟動應急預案,主要包括:1) 市電中斷和UPS故障引起的電力供應中斷。2) 機房空調冷凝水或上下水管道漏水。3) 機房溫度超過30。4) 網絡故障影響用戶范圍超過20%,預計修復時間在2小時以內。 重大突發事件:是指一般性突發事件在特定的時間內無法修復或發生特殊事件時,嚴重影響機房提供正常服務及網絡服務的能力,并且修復時間大于2小時,此時除了立即啟動應急預案外還應升級為重大事件,其中包括但不限定于以下分類:6、1) 機房出現火災。 2) 市電中斷和UPS故障引起的電力供應中斷。3) 機房溫度超過40。 4) 網絡故障造成全網中斷,預計修復時間超過2小時。 3 應急組織和職責計算機機房應急組名單如下:表1 應急小組名單部門/崗位職責姓名聯系方式單位領導重大應急決策指揮部門主任應急決策指揮應急小組組長負責評估應急事件并協調處理應急預案操作崗啟動應急預案并實施4應急響應流程4.1 應急事件響應1、發生突發事件時,通過電話或當面通知應急小組組長報告情況。2、必要時第一時間啟動應急預案。3、應急小組組長根據實際情況啟動應急預案,參照應急恢復步驟組織協調相關人員進行應急處理。4、電話通知機房內生產業務系統管理員7、做相應的應急措施。5、應急小組組長根據情況判定是否需要將事件升級為重大事件。6、事件處理完畢后,應急小組組長將事件處理詳細經過形成書面報告,上報部門主任和單位領導。4.2 應急事件升級在應急小組組長認定突發事件升級為重大事件時,應按以下步驟操作:1、立即通知部門主任。2、通知機房內生產業務系統管理員事件升級為嚴重,參照應急恢復步驟做相應的應急措施。3、根據應急決策領導的決策指令處理故障。4、事件處理完畢后,應急小組組長將事件處理詳細經過形成書面報告,上報部門主任和單位領導。5應急執行流程5.1 影響程度的評估表2 影響程度評估表序號故障類型影響程度及范圍一般性突發事件重大突發事件1市電中斷和U8、PS故障引起的電力供應中斷。影響程度大,修復時間大于30分鐘,小于2小時的電力供應中斷,影響范圍為機房內所有設備及系統。影響程度為重大,修復時間2小時以上的電力供應中斷,影響范圍為機房內所有設備及系統。2機房漏水影響程度一般,機房出現小攤積水,修復時間大于30分鐘,小于2小時的機房漏水,影響范圍為機房內所有設備及系統。影響程度重大,機房出現大面積漏水,或者漏水修復時間2小時以上的機房漏水,影響范圍為機房內所有設備及系統。3機房溫度過高影響程度大,機房溫度超過30度,修復時間大于30分鐘,小于2小時的,影響范圍為機房內所有設備及系統。影響程度重大,機房溫度超過40度,修復時間2小時以上的空調故障9、,影響范圍為機房內所有設備及系統。4網絡系統故障影響程度大,修復時間大于30分鐘,小于2小時的網絡系統故障,影響范圍為生產業務系統及影響用戶范圍超過20%。影響程度重大,修復時間2小時以上的網絡系統故障,影響范圍為生產業務系統及影響用戶范圍超過20%。5機房火災-影響程度重大,影響范圍為機房內所有設備、系統及用戶。5.2 宣告啟動應急應急小組組長宣告啟動應急預案,并通知應急預案操作崗所有成員參與預案的執行。重大事件時要向部門主任、單位領導匯報。5.3 應急恢復突發事件發生后,應急組長根據不同的啟動條件執行應急預案進行應急恢復。表3 應急恢復步驟序號啟動條件恢復步驟操作人員備注1市電中斷見步驟610、.1應急小組組長、應急預案操作人員2UPS故障見步驟6.2應急小組組長、應急預案操作人員3網絡系統故障見步驟6.3應急小組組長、應急預案操作人員4機房漏水見步驟6.4應急小組組長、應急預案操作人員5空調故障見步驟6.5應急小組組長、應急預案操作人員6機房火災見步驟6.6應急小組組長、應急預案操作人員5.4 事后處理事后仔細分析事件發生的原因,查找引起事件發生的根本原因,力爭杜絕類似問題的再次發生;總結每次應急處理的經驗與不足,及時進行總結記錄,作為知識儲備,進行共享;重大事件處理完畢時,要向部門主任、單位領導及時匯報整個事件的處理過程,并提出預防措施建議。5.5 應急注意事項為了在突發事件發生11、時,能夠及時順暢地執行預案,應保證以下幾點:n 平時多做應急演練,對應急小組的組織和預案執行力進行檢驗和加強。n 熟讀應急預案,責任分工明確,應急流程掌握熟練。n 加強技術能力和業務能力。n 通訊保持暢通,應急小組的人員要保持24小時手機開機。n 處理應急突發事件時要認真做好應急處理記錄,有利于進行問題回溯。6應急恢復步驟6.1強電系統故障6.1.1 市電中斷1) 當發生市電中斷或同時收到UPS輸入、電量儀、空調及數據庫讀取異常等告警短信,立即到機房檢查UPS工作狀態。非工作時間發生電力中斷時,電話聯系保安人員進入機房確認是否停電,同時聯系附近的緊急聯系人協助處理,并直接跳到第三步。緊急聯系人12、姓名聯系電話備注(住所)2) 檢查UPS的負載量及電池能夠支持的時間:步驟:雙擊UPS控制面板“ESC”按鍵,點擊“”鍵,找到相關信息,查看電池負載;在“電池參數顯示”處,查看備用時間確認UPS供電剩余時間。(具體詳情可參照附錄三:UPS操作說明進行操作。圖1 UPS控制面板3) 立即撥打物業電話,詢問斷電原因及斷電預計恢復時間,同時通知應急小組組長。(如電話無人接聽,立即撥打物業人員手機詢問具體情況,物業人員詳細聯系方式可參照附表三:聯系人信息表進行查詢)4) 當發生單路供電中斷時,應立即通知物業切換至另一路供電,觀察UPS狀態是否供電正常,等待第一路供電恢復切回。5) 如物業通知無法切換電13、路且30分鐘內無法恢復供電,應立即按照附表五:機房服務器聯系人信息表的清單順序通知各生產業務系統管理員進行系統備份并關閉系統。同時維護項目組關閉機房內負責的所有設備。6) 向部門主任及單位領導匯報當前情況。7) 確認所有服務器關閉后,直接手動拉下配電柜01后面A4、A5、A6、B2、B5、C3機柜輸出開關,關閉網絡設備。8) 當機房溫度超過40度時,為確保機房內服務器安全,經單位領導許可,維護組人員按順序直接拉下位于配電柜01后面所有機柜輸出開關,關閉機房內所有設備。圖2 配電柜019) 待市電恢復供電后,打開網絡機柜對應的輸出開關,啟動網絡設備。10) 按附表五中的清單分批次對系統服務器加電14、,通知相關人員進行測試,并要求相關人員電話回復系統測試結果。11) 如UPS故障造成的電力供應中斷,手動重啟UPS,查看UPS故障是否解除并恢復正常。(在UPS顯示屏上點擊“開機”,查看UPS是否正常啟動)12) 如UPS故障依舊,立即通知各生產業務系統切換備份系統。13) 向部門主任和單位領導匯報當前情況,并聯系廠商對UPS進行檢修。 14) 待所有系統恢復正常后,提交處理報告,上報部門主任和單位領導。6.1.2 市電中斷流程圖圖3 強電系統故障處理流程圖6.2 UPS故障6.2.1 UPS電池漏液、冒煙1) 發生機房電池漏液、冒煙或監控組人員發現機房電池柜冒煙,立即到機房查看電池狀態。(電15、池柜位于儲藏室內部)圖4 機房電池柜2) 如發現是電池漏液、冒煙導致,應按照下列處理方法操作。并密切觀察UPS工作狀態。3) 關閉電池供電時,先將機房手提式干冰滅火器放置電池柜附近。4) 打開兩組電池柜,手動關閉電池開關。開關位于電池柜的下方,此時應用力向左撥動電池開關,直至開關顯示“OFF”狀態。圖5 電池柜的開關位置5) 如電池出現火情,使用事先準備的手提式干冰滅火器進行滅火。6) 確認無火情后,查看UPS狀態,供電情況,立即聯系廠商工程師進行檢修。注意:關閉電池開關不會影響機房的正常供電。7) 向部門主任做口頭匯報,電話上報單位領導。8) 事件處理完畢后,將事故處理報告,單位領導。6.216、.1 電池火情無法控制導致機房火災1) 處理電池漏液、冒煙過程中,無法使用手提滅火器控制火情。2) 打開電池柜,手動關閉電池開關。3) 立即按照機房火災處理步驟進行操作。(詳情見步驟6.6機房火災進行操作)4) 火災處理完畢后,消除火災報警,恢復市電,查看UPS運行狀態, 如無法恢復市電,立即通知物業切換備用電路,觀察UPS狀態是否正常供電。步驟:打開機房配電柜2,手動用力推上機房電力閘恢復市電供應。圖6 機房電力總開關5) 立即聯系UPS廠商進行處理并向部門主任做口頭匯報,電話上報單位領導。(詳細聯系方式可參照附表三:聯系人信息表進行查詢)6) 統計火災造成損失,提交相關更換UPS電池的申請17、。7) 事件處理完畢后,將事故處理報告,上報部門主任和單位領導。6.2.3 UPS故障處理流程圖7 UPS故障處理流程圖6.3 網絡系統故障局部樓層網絡中斷1.如果是局部樓層斷網,首先判斷是否是交換機故障;2.遠程PING交換機管理地址(各樓層管理地址詳見附表1)看是否可以正常PING通3.如果可以PING通,證明交換機本身沒有故障,網線沒有故障。交由網絡管理員處理。4.如果不能PING通,說明交換機主線斷或交換機宕機,應去弱電機房找到該樓層交換機上聯端口和電源燈狀態是否正常,如果上聯端口不亮(光纖口),證明主線有問題,更換主線測試。5. 如果看到交換機電源燈不亮,證明交換機掉電,檢查電源和電18、源線。6. 如果以上通過檢查交換機和線路后故障現象仍然存在,由此判斷可能交換機存在異常,按交換機故障進行處理。交換機故障1. 當確認是交換機出現故障時,應首先從庫房中找備用交換機進行更換;2. 若原有故障交換機有配置,應立即聯系網絡管理員對更換的交換機進行配置(網管應有所有交換機的配置備份)3. 配置完成后,測試是否正常;全網中斷1.首先測試網絡的連通性,查看是否可以PING通網關地址,如果可以PING通說明從PC到核心交換機之間的鏈路正常,如PING不通應檢查接入交換機是否有故障、是否掉電或者交換機主線是否不通;如果確實不通,按照局部樓層網絡中斷中的第4條、第5條處理。2.通過訪問郵件、外網19、網站,判斷是局域網問題還是廣域網問題,如果局域網正常;無法訪問互聯網說明廣域網中斷,向運營商進行報修。3.PING 核心交換機到核心路由器的互聯IP地址的連通性,如果可以PING通,說明路由器以下網絡連通性正常;4.用tracert命令tracert辦公網網段的任意地址如果tracert結果可以從出去,但不能到達外部網絡,說明有可能是核心路由器上聯鏈路中斷,向運營商進行報修。 5.若可以訪問辦公地址,無法訪問互聯網網站如:百度、搜狐,需要檢查代理服務器是否正常,PING是否可以連通,向運營商進行報修。其他網絡中斷故障1.當辦公網部分用戶無法獲取IP地址,不能上網的時候,嘗試用能上網的主機,進行20、IP測試。2.用PING命令去DHCP服務器是否可以PING通,并通知網絡管理員登陸DHCP服務器進行檢查服務是否正常,如果是DHCP服務器故障,應立即切換備用DHCP3.如果從網管員處確定DHCP服務器沒有故障,應PING核心交換機的這個IP地址看是否有延時長、丟包的現象,如果有應該可以初步判斷院內有ARP廣播風暴形成環路或者大面積病毒爆發;再次交由網絡管理員處理。 6.4 機房漏水1根據機房環境監控檢測的漏水示意圖,查找漏水位置,判斷漏水嚴重性。2. 在非工作時間,通過電話第一時間通知值班室保安,關閉上水總開關。3機房漏水并觸發告警分為以下3種情況:1) 上水管漏水:使用地吸打開空調前地板21、,查看上水管漏水位置(1層飲水間通過走廊從機房6號空調地板下進入機房)。圖8 空調上水管道2) 發現漏水位置,應立即關閉位于一樓飲水間頂棚的上水總開關,將水跡擦干。3) 立即聯系機房工程有限公司,處理水管漏水故障。(詳細聯系方式可參照附表三:聯系人信息表進行查詢)4) 空調冷凝漏水:分別檢查3臺空調地板的下水管道是否漏水,空調下水開關是否打開。(開關逆時針旋轉為打開,順時針旋轉為關閉)圖9 機房1、2號空調下水管道及開關圖10 機房3號空調下水管道及開關5) 如下水開關正常打開,冷凝水無法下水,說明下水管道堵塞。6) 首先關閉機房內空調及空調下水管閥門(下水閥門1-4)7) 分別打開上水閥門122、和上水閥門4,進行機房下水反沖。圖11 機房上下水管道及閥門示意圖8) 空調反沖過程中,密切關注機房溫度,確保溫度不影響機房內設備的運行。9) 反沖完成后,首先關閉上水閥門,然后打開空調下水閥門并打開空調。10) 如故障依舊,聯系廠商進行檢修。11) 空調壓縮罐瓶體結霜:打開空調前面板,查看壓縮罐上是否結霜。(拆卸面板工具在機房緩沖區的工具箱里)圖12 機房1、2號空調壓縮罐位置 圖13 機房3號空調壓縮罐位置12) 關閉空調,將壓縮罐上的霜及滴下的水跡擦干。13) 嘗試重新開啟空調,觀察空調運行狀態。14) 如故障依舊,立即聯系廠商進行處理。4. 事件處理完畢后,將事故處理報告,上報部門主任23、和單位領導。6.4.3機房漏水處理流程圖圖14 機房漏水處理流程圖6.5 空調故障6.5.1 高壓報警1) 收到空調高壓告警后,立即進入機房查看空調運行狀態。2) 嘗試將報警空調進行復位,進行啟動恢復。步驟:1、2號空調點擊空調控制面板的“報警復位”按鍵,3號空調點擊面板上的“消音”按鍵。3) 若故障依舊,將高壓報警空調關閉。步驟:在空調控制面板點擊“關機”按鈕,邏輯關閉空調,再將空調左側物理開關關閉。圖15 空調控制面板圖16 空調物理開關4) 檢查室外風機過濾網及空調過濾網是否塵土較多。(室外機在機房后面,院食堂正對面;空調過濾網在空調正上方)圖17 空調室外機圖18 空調室過濾網5) 若24、為室外風機過濾網臟,應進行沖洗,若室內機空調過濾網臟,應聯系廠商更換。(詳細聯系方式可參照附表三:聯系人信息表進行查詢)6) 沖洗室外機,應打開上水閥門2(室內)和閥門6(室外),開始沖洗。沖洗完畢后,關閉閥門2和閥門6。圖19 室內上水開關圖20 室外上水開關圖21 沖洗室外機7) 重新啟動空調,按住空調減壓閥釋放壓力。(減壓閥的位置在壓縮罐上一個紅色按鈕)圖22 空調壓縮機減壓閥8) 若仍然存在高壓告警的現象,應聯系空調廠商進行處理。(詳細聯系方式可參照附表四:聯系人信息表進行查詢)9) 高壓故障處理完畢后,將事故處理報告,上報部門主任和單位領導。6.5.2 低壓報警1) 收到空調低壓告警25、的短信后,立即進入機房查看空調運行狀態。2) 查看控制器面板,確認空調發生低壓報警。(見圖29)3) 嘗試將報警空調的告警進行復位,進行啟動恢復;復位報警空調方法見高壓報警處理第一步。4) 若故障依舊,關閉低壓故障的空調;關閉空調方法見高壓報警處理第二步。5) 立即通知空調廠商對空調進行檢修。6) 低壓故障處理完畢后,將事故處理報告,上報部門主任和單位領導。空調故障處理流程圖圖23 空調故障處理流程圖6.6 機房火災機房采用自動報警裝置,具有感煙和感溫功能探測器,并采用自動滅火裝置,當機房內發生火災時按以下流程進行處理。如非工作時間內機房發生火災時,在維護人員無法迅速趕到時,由保衛處保安按照應26、急步驟進行火災處理并及時聯系附近的相關同事協助處理。緊急聯系人姓名聯系電話備注(住所)1) 查找火源位置。圖24 機房防護區指示燈2) 在配電柜01后關閉著火點位置的輸出開關,切斷著火點供電。圖25 配電柜013) 根據火情情況,使用機房內手提式干冰滅火器進行滅火。(機房各進出門附近安放兩個干冰滅火器;機房物品間處安放兩個干冰滅火器)。圖26 干冰滅火器滅火器使用方法(詳情見滅火器瓶體):1、 拉出保險銷2、 站在上風處,噴口對準火焰基部3、 按下壓把即可噴射滅火圖27 干冰滅火器使用方法4) 機房消防系統開啟氣體滅火自動噴灑,在溫感(68攝氏度)和煙感同時報警時,會自動啟動。5) 若在氣體滅27、火沒有自動噴灑前發現火勢較大無法控制時,確保機房內人員撤離,可手動啟動氣體機房滅火裝置進行滅火。直接按下控制器上的紅色按鈕,機房內七氟丙烷滅火裝置將在延遲30秒后進行全淹沒式噴射,如按下位于控制器下方的紅色按鈕,滅火裝置將立即噴射。圖28 緊急氣體滅火按鍵6) 滅火處理后,確認機房內無火情,按排煙風機綠色按鈕,進行排風換氣處理氣體;圖29 排風扇控制器7) 火災處理完畢后,統計火災損失,立即向部門負責人做口頭匯報,電話上報單位領導。8) 事件處理完畢后,將事故處理報告,上報部門主任和單位領導。6.6.3火災系統流程圖圖30 火災系統處理流程圖附表一 交換機信息編號位置設備名稱網絡層次管理IPS28、NMPSNMP version只讀團體名附表二 自主運維辦公交換機信息序號設備名稱及端口數設備管理IP地址 DHCP地址池物理位置強插號附表三 交換機常用命令說明命令閥值查看交換機CPUDisplay cpu60%為CPU過高,接近90%說明CPU已經滿載,說明流量過大導致交換機背板帶寬過大查看交換機上聯口Display int 上聯端口看是否有大量的error信息檢測連通性P看是否有連通或者延時過大路由追蹤T檢查是否路徑已經到達查看交換機實時日志Display log除接口up down信息以外的異常信息附表四 機房應急預案聯系人信息表部門名稱聯系人電話備注附表五 機房服務器聯系人信息表機柜使用單位機柜位置規格及型號用途聯系人電話如機房發生事故,在第一時間查看附表四中的人員信息表,逐級進行匯報。根據各應急預案模塊中的嚴重程度,通知附表五、附表六中的相應業務系統管理員。 7 預案附錄附錄一 機房示意圖附錄二 配電柜操作說明書附錄三 UPS操作說明附錄四 空調操作手冊附錄五 設備監控軟件使用說明書