科技企業運維應急響應管理制度(23頁).docx
下載文檔
上傳人:正***
編號:789198
2023-11-14
23頁
49.12KB
1、科技企業運維應急響應管理制度編 制: 審 核: 批 準: 版 本 號: ESZAQDGF001 編 制: 審 核: 批 準: 版 本 號: 目錄1 目的52 術語定義與引用標準52.1術語定義52.2引用標準53 適用范圍64 工作原則64.1統一指揮、有效組織64.2突出重點,加強演練64.3技術支撐,健全機制65 風險評估65.1系統重要性評估75.2影響度評估75.3發生幾率評估75.4發生時段評估85.5風險等級評估85.6進行風險評估96 事件分級96.1信息系統重要性96.2信息系統服務時段106.3事件定級107 組織機構和職責117.1公司內部組織11總負責人11應急指揮小組12、1應急工作小組11相關外部角色128 應急要素與體系128.1事件處置要素12管理層面12技術層面12事件歸口13分級響應138.2指揮和協調138.3信息共享和處理148.4通訊148.5外部溝通148.6服務需方148.7供應商159 運行機制159.1日常監測和預警159.2應急啟動159.3事件報告159.4應急調度169.5排查和診斷169.6處理和恢復169.7事件升級179.8持續服務179.9應急事件關閉17申請17核實18事件通報189.10總結改進18應急工作總結18應急工作審核1910 保障措施1910.1通信保障1910.2物資保障2010.3技術保障2010.4經費保3、障2010.5人員保障2011 宣傳、培訓和演練2011.1宣傳2011.2培訓2011.3演練2112 應急響應管理關鍵指標231 目的為了規范客戶的各類信息系統應急事件的應急管理,提高應對應急事件的管理水平和應急處理能力,有效防范信息系統風險,減少信息系統故障對生產業務造成的影響,確保信息系統運行的連續性,特制定本預案2 術語定義與引用標準2.1 術語定義服務級別管理術語定義如下:術 語縮略詞定 義重點時段保障important period assurance提升服務級別以確保某一時間段內重要活動或重點業務的開展所采取的措施和活動。應急事件emergency event導致或即將導致運行4、維護服務對象運行中斷、運行質量降低,以及需要實施重點時段保障的事件。應急響應emergency response組織為預防、監控、處置和管理應急事件所采取的措施和活動。2.2 引用標準l GB/T 28827.12012 信息技術服務 運行維護 第1部分:通用要求;l GB/T 28827.22012 信息技術服務 運行維護 第2部分:交付規范;l GB/T 28827.32012 信息技術服務 運行維護 第3部分:應急響應規范;l ITSS 1-2015 信息技術服務 運行維護服務能力成熟度模型V1.0;l ISO/IEC 27001:2013信息技術-安全技術-信息安全管理體系要求。3 適5、用范圍本制度適用于公司運維業務范圍內的信息系統、網絡系統、數據中心等應急事件。本制度用于指導和規范公司運維業務范圍的信息系統、網絡系統、數據中心等應急預案,建立自上而下、分級負責應急事件應急處置體系,規范處理突發事件的逐級匯報流程。本制度適用于應急預案編制、預案評審、預案實施、應急隊伍、培訓教育、應急裝備、應急演練等工作。4 工作原則4.1 統一指揮、有效組織成立應急總負責人,由公司總經理擔任;應急指揮小組,由公司副經理,技術骨干等組成;并成立應急工作小組。組織開展事件預防、應急處置、恢復運行、事件通報等各項應急工作。相關部門要主動協調有關各方面,參與實施部門聽從指揮、步調一致。4.2 突出重6、點,加強演練對關鍵信息系統加大監控和應急處理力度,確保應急信息及時準確傳遞。每年開展應急演練工作,確保應急措施合理、有效。4.3 技術支撐,健全機制在充分利用客戶現有的信息資源、系統和設備基礎上,采用先進適用的預測、預防、預警和應急處置技術,改進和完善應急處理的裝備、設施和手段,提高應對信息系統應急事件的技術支撐。建立健全應對信息系統應急事件的有效機制。5 風險評估應急響應小組每年對重要信息系統進行一次風險評估,并根據風險評估結果來制定或更新應急預案。風險評估方法如下:5.1 系統重要性評估等級描述賦值1級將對客戶造成極嚴重的或災難性的損失42級將對客戶造成較重要的損失33級將對客戶造成一定損7、失24級將對客戶造成有限損失1根據上表對信息系統以及相關外部環境進行重要性評估。5.2 影響度評估等級賦值影響度描述高3核心業務全面中斷;影響大面積用戶正常使用;中2部分核心業務中斷;影響一定范圍內用戶的正常使用;低1單一業務中斷;影響個別用戶正常使用;根據上表對信息系統以及相關外部環境進行影響度評估。5.3 發生幾率評估等級可能性取值可能性描述(威脅發生的頻率)經常3可能每個季度發生一次或者以上偶爾2可能每半年會發生一次極少1可能每年發生一次或更少根據上表對風險發生幾率進行評估。5.4 發生時段評估等級賦值時段程度描述高3核心業務并發高峰期;核心業務關鍵程序執行期;中2部分核心業務并發高峰期8、;部分核心程序執行期;低1非核心業務并發期;非核心程序執行期;5.5 風險等級評估按照重要性、影響度、發生幾率賦值相乘,得出信息系統以及相關環境的風險等級。等級描述如下:可能性123影響度123123123重要性1123246369224648126283369612189874481281624246風險值 重要性 風險發生可能性 風險發生的嚴重性風險等級風險值n高(H)n=12中(M)12n4低(L)n=45.6 進行風險評估按照風險等級評估,列出信息系統以及相關外部環境,描述可能發生的風險,針對每一個風險制定控制措施,并明確相應責任人,形成風險評估表,撰寫風險評估報告。6 事件分級根據信9、息系統事件的分級考慮要素,將信息系統事件劃分為三個級別:I級事件、II級事件、III級事件。l 一般(III級):綜合分值在1-4分;l 較大(II級):綜合分值在5-12分;l 重大(I級):綜合分值在大于12分;6.1 信息系統重要性信息系統的重要性由以下要素決定:1) 信息系統所屬類型,即信息系統資產的安全利益主體。2) 信息系統主要處理的業務信息類別。3) 信息系統服務范圍,包括服務對象和服務網絡覆蓋范圍。4) 業務對信息系統的依賴程度。其中第1)與 2)個要素決定信息系統內信息資產的重要性,第3)與第4)個要素決定信息系統所提供服務的重要性,而信息資產及信息系統服務的重要性決定了信息10、系統的重要性。信息系統分級及賦值如下:賦值描述14級信息系統23級信息系統32級信息系統41級信息系統6.2 信息系統服務時段信息系統服務時段劃分為3級。依據應急事件發生的不同時間,對信息系統恢復正常服務所需的時間要求而確定。賦值描述1非系統服務時段(不含系統服務時段即將開始)2系統服務時段或系統服務時段即將開始3系統處于重點時段保障(業務必須正常運行時間)或處于服務高峰時段信息系統損失程度賦值應急事件造成的信息系統損失程度劃分為3級。依據故障發生對信息系統提供的服務能力的下降程度而確定。系統性能系統功能功能無損部分損失全部損失小于閾值13大于或等于閾值123重點時段保障的損失程度賦值為36.11、3 事件定級將以上應急事件三個要素的賦值相乘,事件級別如下表所示:范圍級別16III事件818II事件2636I事件7 組織機構和職責7.1 公司內部組織公司內成立應急處置領導小組、指揮小組、工作小組。應急組織設置根據實際項目的應急組織管理機制,受客戶的應急組織領導。7.1.1 總負責人總負責人的主要職責:統一領導信息系統的應急事件的公司內部應急處理工作,發起研究重大應急決策和部署,決定實施和終止應急預案。7.1.2 應急指揮小組應急指揮小組的主要職責:接受應急總負責人的領導,傳達和落實應急總負責人的各項指令,匯總和上報應急信息,負責應急工作小組成員的協調溝通,協調應急事件處置工作中的重大問題12、。7.1.3 應急工作小組應急工作小組主要職責:落實應急總負責人及應急指揮小組布置的各項任務;組織制定應急預案,并監督執行情況;掌握應急事件處理情況,及時向應急總負責人和應急指揮小組報告應急過程中的重大問題。角色角色匹配總負責人總經理、工程運維中心總監(副總經理)應急指揮小組運維部經理、技術支持部經理、運維項目經理、綜合管理部、質量管理部經理應急工作小組技術支撐主管、研發主管、運維主管、運維工程師、備件管理員等運維團隊成員、質量管理員7.1.4 相關外部角色服務需方應急響應責任人與供應商等外部聯絡人及相關人員。8 應急要素與體系8.1 事件處置要素8.1.1 管理層面1) 啟動指揮體系:I級事13、件的啟動和指揮由應急總負責人負責,II、III級事件的啟動應急指揮小組負責。2) 掌握事件動態:事件動態由應急工作小組人員收集并及時反饋給應急指揮小組,應急指揮小組決定信息的共享、溝通、處置。3) 處置實施:l 控制事態防止蔓延l 做好處置消除隱患4) 后期處置:事件調查報告和經驗教訓總結及改進建議。5) 保障措施:包括通訊與信息保障,應急支援與設備保障,技術儲備與保障,宣傳、培訓和演練,監督檢查等。8.1.2 技術層面信息系統事件發生后,事發部門應立即啟動相關應急預案,實施處置并及時報送信息。1) 控制事態發展,防控蔓延。事發部門先期處置,采取各種技術措施,及時控制事態發展,最大限度地防止事14、件蔓延。2) 快速判斷事件性質和危害程度。盡快分析事件發生原因,根據信息系統運行和承載業務情況,初步判斷事件的影響、危害和可能涉及的范圍,提出應對措施建議。3) 及時報告信息。事發部門在先期處置的同時要按照預案要求,及時向上級報告事4) 做好事件發生、發展、處置的記錄和證據留存。8.1.3 事件歸口發生應急事件的歸口部門是應急體系啟動的責任部門。8.1.4 分級響應發生I級事件,由應急工作小組初步判定事件級別后,將信息通知應急指揮小組并注意持續監控事態、收集信息、做出應急準備;應急指揮小組響應判斷為I級事件后,立即通知應急總負責人,并由應急總負責人啟動應急預案。發生II、III級事件,由應急工15、作小組初步判定事件級別后,將信息通知應急指揮小組并注意持續監控事態、收集信息、做出應急準備;應急指揮小組響應判斷為II、III級事件后,立即啟動應急預案。應急事件的級別應置于動態調整控制中。8.2 指揮和協調I級級事件,由應急工作小組收集信息,應急指揮小組做出預判,并迅速通知應急總負責人,由應急總負責人進行指揮和決策。II、III級事件,由應急指揮小組進行指揮和決策,并及時將處理過程、報告等上報應急總負責人。8.3 信息共享和處理I級事件,由應急工作小組收集信息并提交給應急指揮小組和應急總負責人,由應急總負責人決定信息的分發、共享和處置。II、III級事件,由應急指揮小組決定信息的分發、共享和16、處置,并上報應急總負責人。8.4 通訊應急響應小組和工作小組建立通信錄,并24小時開通聯系電話,保持通信順暢。通信錄應上報應急總負責人。事件處理過程中的值班人員必須擁有完整的通信聯系方式,并有足夠的通信手段保證聯系順暢。8.5 外部溝通應急組織應與外部相關利益方進行溝通確認統一的溝通流程和方式。8.6 服務需方當應急事件發生時,若是由用戶報障到服務臺,服務臺人員應向用戶詳細了解事件情況。項目經理接單后應立即與客戶方負責人溝通,盡快開展工作。若是由現場工程師主動發現,則應立即通知客戶方負責人。在事件解決過程中,現場負責人應及時向客戶方相關人員通報最新情況。完成處理與恢復后,現場負責人應告知客戶方17、負責人,由客戶方負責人進行現場確認。之后應組織運行維護人員提供持續性服務,并定期向客戶方負責人匯報。在持續性服務證實一切正常后,由客戶方負責人在事件單上簽字,并由服務臺進行回訪確認后,現場負責人可向應急指揮小組申請關閉事件。在應急事件關閉后,應急總負責人應授權應急指揮小組向相關利益方通報事件信息。8.7 供應商在應急事件解決過程中,可能會需要供應商提供服務。此時現場負責人應根據應急預案,與供應商聯系。9 運行機制9.1 日常監測和預警組織應該對運行維護服務對象的運行情況進行監測與預警,以跟蹤和判別以下對象的容量、可用性和連續性。1) 應用系統;2) 支撐應用系統運行的系統軟件、工具軟件;3) 18、網絡及網絡設備;4) 安全設備;5) 主機、存儲、外設、終端等設備;6) 安防、一卡通、會議等智能化設備。如發現有異常情況時,要及時處理并向現場負責人報告,并及時排除信息系統中存在的風險隱患。9.2 應急啟動應急預案的啟動有以下兩種方式:1) 遇到I級事件,事件信息由應急工作小組提供并提交給應急指揮小組,應急指揮小組做出初步判斷和初步事件級別的確認,初步確認為I級事件的,呈報應急總負責人,由應急總負責人下達啟動應急預案。2) 遇到II、III級事件,應急指揮小組自行啟動應急預案,并及時上報應急總負責人。9.3 事件報告當發現各類信息系統事件時,應按照事件等級逐級匯報。報告分為緊急報告和詳細匯報19、。緊急報告是指相應部門在事件發生后,立即向本部門應急指揮小組以口頭和應急報告表形式匯報事件的簡要情況;詳細匯報是指由相應部門應急處理機構在事件處理暫告一段落后,以書面形式提交的詳細報告。應急指揮小組對各類事件的影響進行初步判斷,匯報矩陣如下:事件級別報告事件要求報告對象I10分鐘內總負責人II30分鐘內總負責人III60分鐘內總負責人報告內容應準確、詳實,任何部門和個人均不得緩報、瞞報、謊報或者授意他人緩報、瞞報、謊報事件。事件報告信息一般包括以下要素:發生事件的信息系統名稱及業務部門、地點、原因、信息來源、事件類型及性質、危害和損失程度、影響部門及業務、事件發展趨勢、采取的處置措施等。9.420、 應急調度公司應該按照預案開展統一的應急調度,包括人員、資金和設備等。應急調度由應急總負責人授權應急指揮小組執行。9.5 排查和診斷組織應明確故障排查和診斷流程;應急事件的排查與診斷流程參考事件與服務請求過程,排查與診斷過程需在應急事件報告進行記錄。處置應急事件的過程中,現場負責人應及時與相關利益方就排查、診斷結果進行溝通和問題確認。9.6 處理和恢復應急事件的處理與恢復應基于應急響應預案、配置管理數據庫、知識庫等進行故障處理和系統恢復。必要時可啟用備品備件、災備系統等。應急事件的處置與恢復流程參考事件與服務請求過程,處理與恢復過程需在應急事件報告進行記錄,并及時告知利益相關方。在處理和恢復應21、急事件時,應在滿足事件級別處置時間要求的前提下,盡快恢復服務。事件級別處置時間要求如下:事件級別處置時間要求I2小時II4小時III6小時9.7 事件升級當事件處置超過事件級別處置時間要求時,應急工作小組應向應急指揮小組申請事件升級,遞交應急事件升級審批表。事件升級的實施授權應由應急指揮小組負責人啟動。應急指揮小組應對事件升級可能造成的影響進行評估,并在相關利益方間達成一致。9.8 持續服務完成處理與恢復后,應組織運行維護人員提供持續性服務。應急響應組織應對持續性服務的效果進行評價。持續服務的評價結果,應作為應急事件關閉的輸入。I級應急事件應急處理結束后應密切關注,監測系統2周,確認無異常現象22、。II級應急事件應急處理結束后應密切關注,監測系統1周,確認無異常現象。III級應急事件應急處理結束后應密切關注,監測系統3天,確認無異常現象。9.9 應急事件關閉9.9.1 申請在同時滿足下列條件下時,應急工作小組負責人可向應急指揮小組提出關閉申請。l 應急事件處理已經結束,設備、系統已經恢復運行。l 持續服務階段系統無異常,持續服務階段結束。l 服務需方應急響應負責人同意事件關閉。l 應急事件處置的過程文檔已整理完成。9.9.2 核實應急指揮小組接到關閉申請后,應逐項核實報告內容,以判別應急事件處置過程和結果信息是否屬實之后通報應急總負責人,由應急總負責人做出關閉決定。9.9.3 事件通報23、應急總負責人應授權應急指揮小組向相關利益方通報事件信息,內容應包括:l 事件發生的原因、事件級別及影響范圍;l 事件對應的預案;l 事件的處置過程和方法;l 事件的調整升級情況;l 持續性服務情況;l 事件處置評價;l 事件關閉申請的處理意見;l 關閉通報的范圍和涉及接受者。應急事件發生的原因、處置過程和方法應記入知識庫。9.10 總結改進9.10.1 應急工作總結組織應定期對應急響應工作進行分析和回顧,總結經驗教訓,并采取適當的后續措施。對應急響應工作的分析和回顧應考慮以下方面:l 應急響應工作的績效;l 應急準備工作的充分性和有針對性;l 應急事件發生原因、數量及頻率;l 應急事件處置的經24、驗得失;l 應急事件的趨勢信息;l 信息系統中潛在的類似隱患。對應急響應工作的分析和回顧應形成應急響應工作總結報告,并將總結報告作為改進應急響應工作及信息系統的重要依據。9.10.2 應急工作審核應急總負責人應定期發起對應急響應工作的評審,以確保應急響應過程和管理符合預定的標準和要求。審核的結果應該正式存檔并通知給相關利益方。評審至少每年一次,可于公司內審時進行。1) 審核時應考慮的要素包括:2) 相關利益方的要求和反饋;3) 組織所采納的用于支持應急響應的各種資源和流程;4) 風險評估的結果及可接受的風險水平;5) 應急預案的測試結果及實際執行效果;6) 上次評審的后續活動跟蹤;7) 可能影25、響應急響應的各種業務變更;8) 近期在處置應急事件過程中總結的經驗和教訓;9) 培訓的結果和反饋。10) 審核的輸出結果應該包括:l 改進目標;l 改進的具體工作內容;l 所需的各種資源,包括人員、資金和設備等。10 保障措施10.1 通信保障指揮、通信聯絡和信息交換的渠道主要有外線電話、手機、傳真、電子郵件、微信、QQ等方式,有關應急聯系人員手機應保持每天24小時處于開機狀態。10.2 物資保障各部門根據信息系統事件防治工作所需確保經費,配備相應的應急設施,以確保事件應急工作的順利進行。應急物資主要有備品備件、常用工具等。10.3 技術保障任何狀態下,應提供充足的技術保障,如網絡拓撲圖、服務26、器清單、網絡設備配置、訪問控制策略、應用系統和各類軟件的版本,并定期進行數據備份,以保障發生事件時,受影響的信息系統能及時恢復。重視信息系統事件體系的建設、運維和升級換代,確保信息系統的穩定與安全,確保在事件處置過程、系統恢復或重建過程中有足夠的技術支撐。10.4 經費保障各部門應保障應急培訓、演練、添置應急物資等所需經費。10.5 人員保障各部門需加強信息系統應急事件應急技術支持隊伍的建設,提高人員的業務素質、技術水平和應急處置能力。確保在事件處置過程和系統恢復或重建工作中人員在崗并具有處置能力。11 宣傳、培訓和演練11.1 宣傳公司各部門應加強應急工作的宣傳和教育,提高各級人員對應急預案27、重要性的認識,加強各部門和部門之間的協調與配合。11.2 培訓各信息系統應急預案涉及人員應定期開展應急預案的培訓,做好信息系統相關知識的宣傳和普及,增強各運維人員的責任意識,熟練掌握應急響應的程序和應急處置技能等內容。11.3 演練公司要組織對預案進行定期演練,通過演練驗證預案的合理性,及時修訂和完善不符合實際的應急處置情況,有針對性地改進信息系統應急事件處置能力,確保事件發生后應急處理手段及時到位和有效。相關部門在做應急演練前要做好相關準備工作,確保演練工作的安全。要明確演練的目的和要求,記錄演練過程,對演練結果進行評估和總結。附件1:應急響應體系矩陣表如下:事件級別級別判定預案啟動指揮和決28、策信息分發、共享和處置事件升級、應急調度關閉及通報I級指揮小組領導小組領導小組領導小組指揮小組領導小組II級指揮小組指揮小組指揮小組指揮小組指揮小組領導小組III級指揮小組指揮小組指揮小組指揮小組指揮小組領導小組附件2:應急響應負責人和應急小組責任人登記表責任人姓名職務辦公電話手機組長王增強總經理0551-65331855副組長趙存會副總經理0551-653318549副組長吳喆峰運維部經理0551-65309185組員運維研發主管0551-65331851組員技術支撐主管0551-65309162組員質量管理部經理0551-65309162組員綜合管理部0551-65309123組員人力資源29、部0551-6530915215357908027組員運維部0551-62212999組員運維部0551-65309185組員運維部0551-65309185組員運維部0551-65309185組員運維部0551-65309185組員運維部0551-65309185組員運維部0551-653091621806646008組員運維部0551-62212999注:所列事項發生變更時,須重新報運維部、質量管理部、綜合管理部備案。12 應急響應管理關鍵指標應急響應管理的工作指標應每年組織進行評估,根據評估結果確定是否需要調整指標或指標目標值。指標名稱考核要求考核指標應急響應宣貫體系建設每半年度至少進行一次重點項目應急培訓、演練針對應急預案,重點運維項目是否制定演練計劃、演練腳本、培訓應急工作審核每半年度至少進行一次應急工作組織會議,對應急響應工作進行評審與總結每半年度組織人員對應急響應工作進行評審逐項應急演練次數不小于一次檢查所有運維項目的應急演練記錄每年度所有運維項目應組織一次應急演練