通信公司私有云維護及網絡策略管理規定22頁.doc
下載文檔
上傳人:職z****i
編號:1099968
2024-09-07
21頁
922.49KB
1、通信公司私有云維護及網絡策略管理規定編 制: 審 核: 批 準: 版 本 號: ESZAQDGF001 編 制: 審 核: 批 準: 版 本 號: 目 錄第一章 概述3第二章 維護組織4第一節 維護組織機構及職責4第二節私有云維護部門與業務部門和機房管理單位間的責任劃分5第三節私有云與其它系統間的責任劃分6第三章 日常維護7第四章監控管理9第五章資源管理9第五章 故障管理11第六章 投訴管理13第六章割接管理14第七章網絡策略管理15第八章安全管理15第九章機房管理16第十章質量管理17附錄一:私有云資源分配、變更流程18附錄二:私有云資源回收流程19附錄三:私有云故障處理流程20附錄四:私有2、云投訴處理流程21第一章 概述第一條 云計算是一種IT資源的使用模式,通過硬件虛擬化、安全隔離、集中管理、靈活計量和彈性資源調度等技術,將靜態分配、長期固定的物理設備(如服務器、存儲設備和網絡設備等)抽象為可管理、易于調度、按需分配的虛擬資源池,從而向用戶提供能按需靈活使用的各類IT資源。第二條 云計算系統由云管理平臺、資源池系統組成:1、 云管理平臺:提供云計算服務使用界面和運營維護手段,并對資源池系統以及其中的各類資源進行集中管理;2、 資源池系統:管理虛擬化資源池,并對外提供各類IT資源。資源池系統包括:資源池管理平臺(功能包括各類資源接入、配置管理和信息采集匯總等),資源管理軟件(包括3、虛擬化系統、日志詳單系統、分布式文件系統、備份系統、云數據庫系統、云中間件系統等)和各類硬件資源(包括但不限于服務器、磁盤陣列、負載均衡器、交換機、路由器、防火墻等)。第三條 云計算系統可劃分為公眾服務云、企業私有云和混合云。第四條 為了規范企業私有云(以下簡稱私有云)的維護管理,合理、可靠、安全、高效地組織管理私有云,提高私有云的資源利用效率和維護質量,提高維護隊伍整體素質和水平,特制定本管理辦法。第五條 本管理辦法適用于私有云(包括一級私有云和省級私有云)及相關配套設備,上層業務應用不屬于本管理辦法適用范疇。第六條 本管理規定按照網絡運行維護規程框架編制,未詳盡描述部分參照網絡運行維護規程4、執行。第七條 各級維護管理部門應認真執行本規定。總部及各省公司應在本規定的基礎上,結合實際情況編制實施細則,以確保私有云安全、可靠、高效地運行。第八條 本管理規定的解釋權和修改權屬于通信有限公司網絡部。第二章 維護組織第一節 維護組織機構及職責第九條 私有云的維護管理按照統一領導、分級管理原則,在總部統一領導下,各省公司負責各自管轄范圍內私有云的維護管理工作。基地、各省公司私有云(含一級私有云及省級私有云)維護部門統稱為屬地省公司私有云維護部門(以下簡稱屬地省公司)。第十條 總部網絡部主要職責為:1、 負責組織制定私有云的維護管理規定,明確日常維護、資源管理、故障處理、投訴管理等私有云相關流程5、制度和要求,監督屬地省公司對維護規定的落實情況,對屬地省公司的維護工作給予指導。2、 負責制定私有云運行質量考核指標和考核辦法,定期檢查私有云運行質量,組織考核評比。3、 負責私有云重大故障和重大安全事件的管理。4、 負責為私有云的設備維護、優化和故障處理提供技術支援。5、 負責制定私有云網絡組織、資源管理、局數據配置、需求和版本管理相關原則,指導屬地省公司落實相關安全要求。6、 組織制定私有云應急通信保障原則,制定一級私有云應急保障方案并組織實施,指導屬地省公司制定省級私有云應急保障方案。7、 定期協調屬地省公司統計分析系統運行情況,指導屬地省公司開展私有云的優化調整工作。8、 負責完成一級6、私有云資源的分配、變更和回收。9、 對一級私有云屬地省公司的維護作業計劃執行情況、故障處理、資源管理、投訴處理及其他維護工作進行監督、考核。10、 負責監督一級私有云的運行情況,對一級私有云重大、嚴重故障進行實時監控和派單督辦。11、 參與一級私有云建設和驗收,參與一級私有云業務方案的制定和部署。12、 參與私有云相關技術規范的編制工作,結合私有云實際運維情況提出私有云相關技術規范的修訂要求。13、 牽頭組織私有云維護人員的技術、業務交流與培訓。第十一條 各屬地省公司主要職責為:1、 貫徹總部關于私有云維護管理規定,根據實際情況制定切實可行的屬地維護管理實施細則。2、 負責落實總部關于私有云運7、行質量管理要求,建立質量分析和質量監督制度。3、 負責724小時實時監控屬地私有云運行狀況。4、 在總部的指導下,負責屬地私有云日常維護、故障處理、投訴處理、資源管理、系統優化、需求和版本管理、安全管理工作。5、 負責進行屬地私有云系統軟件及補丁測試及裝載、局數據制作等工作。6、 按照重大故障管理要求及時向總部上報屬地私有云的重大故障。7、 負責定期統計分析屬地私有云的運行狀況,在總部指導下開展屬地私有云優化提升工作。8、 在總部的指導下,完成屬地一級私有云網絡結構調整、資源管理、局數據配置、需求和版本管理等具體實施工作。9、 在總部指導下,制定省級私有云應急保障方案并定期演練;一級私有云所在8、省參與總部組織的一級私有云應急演練。10、 參與屬地私有云建設和驗收,參與屬地私有云業務方案制定和部署。11、 定期組織維護技術人員的交流和培訓工作。第二節私有云維護部門與業務部門和機房管理單位間的責任劃分第十二條 私有云為上層業務應用提供IT資源,維護責任劃分基本原則為:私有云由私有云維護部門進行維護,上層業務應用由業務歸屬部門進行維護。第十三條 私有云維護部門主要職責包括:1、 對私有云管理平臺、私有云資源池管理平臺進行維護管理;2、 對私有云各類資源管理軟件(虛擬化系統、日志詳單系統、分布式文件系統、備份系統、云數據庫、云中間件等)進行維護管理;3、 對私有云相關全部硬件設備(服務器、磁9、盤陣列、負載均衡器、交換機、防火墻、路由器以及能夠納入資源池統一管理的上層業務系統專用設備如小型機、一體機等)進行維護管理;4、 對私有云自身運營維護相關的應用(如代理軟件等)進行維護管理;第十四條 私有云承載業務各歸屬部門主要職責包括: 對在私有云各類邏輯資源上部署的業務系統相關軟件和數據進行維護管理,包括但不限于:業務系統自有應用軟件、數據、文檔等。第十五條 SaaS應用屬于上層業務應用范疇。對于在私有云上部署SaaS業務的省份,維護部門可結合自身實際情況明確私有云和上層業務應用間的責任劃分。第十六條 機房管理部門負責私有云系統所在機房的安防管理、環境衛生、動力和空調維護、列頭柜維護等。第10、三節私有云與其它系統間的責任劃分第十七條 私有云與CMNet承載網的維護分工界面是私有云到CMNet承載網接入設備的接口:CMNet承載網接入設備接口以下歸屬私有云,接口以上歸屬CMNet承載網專業。第十八條 私有云與IP專用承載網的維護分工界面是私有云到IP專用承載網接入設備的接口:IP專用承載網接入設備接口以下歸屬私有云,接口以上歸屬IP專用承載網網絡。第十九條 對于通過CMNet承載網或IP專用承載網連接私有云的業務系統,私有云與這些業務系統的維護分工界面同CMNet承載網或者IP專用承載網,這些業務系統包括但不限于:電子運維系統、業務網管系統、遠程維護終端、非本地私有云承載系統等。第二11、十條 對于通過專線連接私有云網絡的業務系統,私有云和這些業務系統的維護分工界面是業務系統到私有云專線接入設備的接口:私有云專線接入設備接口以內歸屬私有云,接口以外歸屬業務系統。第三章 日常維護第二十一條 私有云維護主要指私有云平臺和設備的維護,包括巡檢作業、故障處理、割接升級、系統優化、數據備份、資產管理、安全管理等。第二十二條 屬地省公司參照本規定中所規定的維護監測項目、周期和要求, 制定詳細的作業計劃,并根據總部網絡部要求定期上報私有云作業計劃執行情況和設備檢測結果。第二十三條 屬地省公司應制定完善的私有云割接、升級、調整等操作實施方案,盡量降低對上層業務系統的影響;對于可能影響上層業務系12、統的各類操作,應全面評估操作影響,并提前通知相關業務部門具體操作計劃安排,在相關業務部門同意后方可執行操作。第二十四條 私有云維護部門應持續提升私有云對于上層業務的支撐能力,密切關注業務部門對于私有云的功能及性能需求,積極解決業務與平臺適配問題,并結合實際維護情況開展相應的功能開發和性能優化工作。第二十五條 私有云維護部門應嚴格落實集團公司相關安全管理要求,建立適用于私有云運營維護的安全管理細則,及時發現、妥當處理私有云存在的安全問題和隱患,監督并配合業務部門解決上層業務應用相關的安全隱患,確保私有云的安全運行。第二十六條 私有云日常維護檢查項目和周期見下表。私有云維護部門可根據各自設備的實際13、情況自行補充,周期可根據實際情況調整,頻度不得低于下表規定。類別項目周期備注系統狀態私有云管理平臺運行狀態實時資源池管理平臺運行狀態實時虛擬化系統運行狀態實時塊存儲系統運行狀態實時分布式文件系統運行狀態實時日志詳單系統運行狀態實時設備狀態設備運行狀態實時設備硬件狀態實時設備現場巡檢日數據備份私有云局數據備份周統計分析計算資源利用率周存儲資源利用率周網絡資源利用率周資源可用性月安全管理安全審計季資產管理資產盤點年第四章 監控管理第二十七條 按照職責分工原則,網絡部負責對私有云相關硬件和資源進行7x24監控,業務方負責對業務應用運行狀況進行監控。對于部署在業務層面的監控手段(如主機代理等),業務部14、門應確保其正常運行,發現問題應配合網絡部及時處理和恢復。因業務方面原因造成上述監控手段未正常運行的,相關后果應由業務部門承擔。第五章 資源管理第二十八條 私有云資源管理包括私有云各類計算資源、存儲資源和網絡資源的分配、變更、回收和維護優化等。第二十九條 私有云維護部門應制定適用于私有云整體運營的資源管理機制,通過建立資源需求分析評估模型、資源使用情況后評估、資源分階段配置、資源預算管理、制定資源回收原則等方式,實現各類私有云資源的科學管理,在滿足上層業務應用需求的同時最大化提升私有云整體利用率,發揮私有云的規模效應。第三十條 業務系統需要占用新的計算資源、網絡資源、存儲資源時,相關需求部門應啟15、動資源分配流程;業務系統需要對已占用資源的相關配置進行變更且不占用新增資源時(如安全策略調整、網絡配置調整等),相關需求部門應啟動資源變更流程。第三十一條 業務系統因退網或調整等原因造成資源閑置、或業務系統資源使用過低,不滿足私有云整體運營要求時,應由私有云維護部門與業務部門共同協商啟動資源回收流程。第三十二條 私有云資源分配、變更流程包括:1、 申請:相關需求部門應向私有云維護部門提出明確的資源分配、變更申請;2、 審批:私有云維護部門應評估資源需求申請、私有云資源占用、配置變更情況,對當前資源池能夠落實的需求予以審批通過;3、 配置:私有云維護部門嚴格按照申請制定具體配置方案,并完成資源分16、配、變更配置;4、 測試:私有云維護部門配合相關需求部門完成業務部署相關的資源調測,相關需求部門確認完成資源分配、變更;5、 歸檔:私有云維護部門對資源分配、變更任務進行記錄歸檔,并對問題和經驗進行總結。資源分配、變更流程圖見附錄一。第三十三條 私有云資源回收流程包括:1、 啟動:業務部門與私有云維護部門共同協商并明確需回收的資源情況,由業務部門啟動資源回收流程;2、 審核:私有云維護部門確認被回收資源是否處于可回收狀態,回收申請是否清晰準確,并制定具體資源回收操作方案;3、 回收:私有云維護部門嚴格按照申請執行資源回收操作,被回收資源重新回到可分配狀態;4、 確認:私有云維護部門與業務部門確17、認回收完畢;5、 歸檔:私有云維護部門對本次回收任務進行記錄歸檔。資源回收流程圖見附錄二。第三十四條 私有云維護部門應持續關注私有云各類資源的維護優化工作,不斷提升私有云對上層業務應用的支撐能力。第三十五條 私有云維護部門應通過代理軟件、資源管理軟件接口上報等方式對已占用的私有云資源使用情況進行監控、統計和后評估,并提出私有云資源管理建議,持續提升私有云運營維護能力和資源利用效率。第三十六條 私有云維護部門應定期分析和評估資源使用情況,在資源即將用盡或不能滿足業務需求時應進行預警,并進行相應的優化調整。第五章 故障管理第三十七條 私有云維護部門應建立完善的私有云故障管理體系,加強私有云故障響應18、和處理能力,提升私有云運行質量和維護水平,降低對業務系統的不良影響。按照職責分工,私有云資源池層面的故障由網絡部牽頭處理,業務應用層面的故障由業務為部門牽頭處理。第三十八條 故障級別分為重大故障、嚴重故障和一般故障三級。第三十九條 私有云重大故障:以下情況發生任意一種即為重大故障:1、 因各種原因導致各資源管理軟件(如日志詳單系統、分布式文件系統或NoSQL系統等)下轄全部資源不可用,故障歷時超過60分鐘;2、 因各種原因導致私有云下轄塊存儲(磁盤陣列)全部資源不可用,故障歷時超過60分鐘;3、 私有云下轄負載均衡器故障退出服務,導致其承載的業務全部阻斷且未能切換至備份設備,業務全阻歷時超過619、0分鐘;4、 因各種原因導致私有云至CMNet通信全阻,故障歷時超過60分鐘;5、 因各種原因導致私有云至IP專用承載網通信全阻,故障歷時超過60分鐘;6、 因各種原因導致私有云管理平臺或資源池管理平臺不可用,故障歷時超過4小時;7、 因各種原因導致資源池管理平臺至私有云管理平臺接口(包括控制接口及網管接口)全阻,故障歷時超過4小時;8、 因各種原因導致各資源管理軟件(虛擬化系統、日志詳單系統或分布式文件系統等)至資源池管理平臺接口(包括控制接口及網管接口)全阻,故障歷時超過4小時。第四十條 私有云嚴重故障:1、 各資源管理軟件(虛擬化系統、日志詳單系統、分布式文件系統等)關鍵模塊、功能故障導20、致資源使用異常或資源管理功能異常;2、 私有云下轄核心交換機關鍵模塊、功能故障;3、 私有云下轄匯聚交換機關鍵模塊、功能故障;4、 私有云下轄接入交換機關鍵模塊、功能故障;5、 私有云下轄負載均衡器關鍵模塊、功能故障;6、 私有云下轄IP專用承載網出口路由器關鍵模塊、功能故障;7、 私有云下轄CMNet出口路由器關鍵模塊、功能故障;8、 私有云下轄CMNet出口防火墻關鍵模塊、功能故障;9、 私有云下轄核心生產區防火墻關鍵模塊、功能故障;10、 私有云下轄虛擬防火墻(池)或虛擬交換機(池)整體故障退出服務或關鍵功能故障;11、 私有云下轄塊存儲關鍵模塊、功能故障;12、 私有云下轄塊存儲光纖交21、換機關鍵模塊、功能故障;13、 私有云管理平臺關鍵模塊、功能故障;14、 資源池管理平臺關鍵模塊、功能故障;15、 資源池管理平臺至私有云管理平臺管理接口故障;16、 各資源管理軟件(如虛擬化系統、日志詳單系統、分布式文件系統或NoSQL系統等)至資源池管理平臺接口故障;17、 私有云下轄其它關鍵硬件設備或系統功能故障,導致上層業務應用受影響或存在較大風險;18、 除上述情況外,私有云維護部門可根據實際情況對嚴重故障進行補充。第四十一條 私有云一般故障:除重大故障和嚴重故障外的其他故障為一般故障。第四十二條 由于私有云系統與上層業務應用關系較為密切,維護人員應關注私有云故障對上層業務的影響情況22、;對于影響上層業務應用的故障,應立即通知業務部門相關情況,并按照“優先搶通業務”的原則協同業務部門進行故障處理和業務恢復,避免故障影響進一步擴大。第四十三條 各級故障處理時限、上報要求與網絡部現行相關故障管理辦法一致。第四十四條 私有云故障處理流程見附錄三。第六章 投訴管理第四十五條 私有云向上層業務提供各類IT資源服務,當IT資源服務出現異常導致業務系統受影響時,業務維護部門可通過EOMS系統向網絡部發起投訴。根據投訴原因可將投訴分為以下三類:1、 故障類:業務部門認為私有云為業務提供的相關IT資源發生異常或故障,導致業務的運行和維護受影響。2、 性能類:業務部門認為私有云提供的各類資源無法23、滿足業務運行的性能需求,導致業務性能下降,需進行相應優化、調整或擴容等。3、 功能類:業務部門在使用私有云管理平臺、資源池管理平臺或各類云資源過程中發現相關功能不滿足使用需求(如功能異常或不具備相關功能等)。第四十六條 投訴根據其重要級別可以分為一級(緊急)投訴、二級(重要)投訴和三級(一般)投訴。第四十七條 一級投訴:上層業務系統嚴重受影響,且業務全阻或者嚴重降質;第四十八條 二級投訴:上層業務系統受影響,但業務未全阻或未嚴重降質;第四十九條 三級投訴:未導致業務運行直接受影響,但存在潛在風險或影響業務維護工作,若不進行及時處理將導致影響加劇。第五十條 在下述情況下,業務部門可酌情提升投訴級24、別,加快投訴處理進度:1、 業務受影響的程度加重,滿足更高級別的投訴標準時,應根據對業務影響情況派發對應級別投訴;2、 多套業務系統同時出現類似的問題時,可在原投訴級別基礎上提升一個級別;3、 同一問題未得到妥善解決進行重復投訴的,可在原投訴級別基礎上提升一個級別。第五十一條 各級投訴處理時限及要求與網絡部現行相關投訴管理辦法一致。第五十二條 對于無法在規定時間內解決的投訴,應與投訴發起人溝通解決建議或后續處理計劃,在征得投訴發起人同意后可回復投訴工單。第五十三條 私有云投訴處理流程見附錄四。第六章 割接管理第五十四條 私有云系統割接流程如下:1) 網絡部制定私有云系統割接方案,并確認割接是否25、對業務系統造成影響。2) 對于不影響業務系統的割接,網絡部自行完成割接方案的事前準備、事中處理和事后測試工作。3) 對于影響業務系統的割接,網絡部應提前與業務維護部門溝通確認割接方案及時間計劃,通過遷移、備份等方式做好充分的割接準備。4) 割接過程中,業務維護部應對業務系統運行情況進行監控,出現異常時應及時與網絡部溝通,雙方按照事先約定啟動應急預案,盡快將業務恢復至正常狀態。5) 割接操作完成后,網絡部應與業務維護部門確認業務運行狀態,雙方共同完成業務測試并確認割接完畢。業務系統割接可由業務維護部門自行開展。若割接完成后需要進行業務壓力測試,業務維護部門應提前與網絡部確認測試方案對私有云無影響26、。私有云封網期間原則上不允許進行任何割接操作。第七章 網絡策略管理第五十五條 當業務系統需要進行網絡策略的配置和調整時,業務維護部門應填寫網絡策略配置需求表,明確需要新增、刪除和變更的網絡策略以及具體操作時間,并通過EOMS系統提交網絡部。第五十六條 網絡策略配置需求表需遵守集團網絡安全管理規范,業務方須確保需求準確有效,配置策略的需求應僅限于業務系統自身業務范疇。在配置訪問規則時,源地址、目的地址、服務或端口的范圍必須以實際訪問需求為前提,盡可能縮小范圍。禁止源到目的全部允許規則,禁止目的地址及服務全允許規則,禁止全服務訪問規則。第五十七條 網絡部應及時響應和審核業務部門的配置需求,并與業務27、部門確定配置計劃和測試方案,按照割接流程完成網絡策略配置。第五十八條 網絡部應定期整理和更新各業務系統網絡策略配置表,并發布至各業務維護部門,確保業務系統網絡策略的準確性和實時性。第八章 安全管理第五十九條 網絡部按照相關安全管理規范定期開展私有云資源池及業務系統的安全檢查和評估,包括:病毒掃描:對所有資源和業務進行定期病毒掃描和預警;配置核查:對所有系統的配置進行基線配置核查;漏洞掃描:對所有資源、業務系統進行脆弱性漏洞檢查;滲透測試:對私有云網絡進行滲透性測試。第六十條 業務上線后,操作系統及業務應用的安全管理由業務維護部門負責;業務部門應配合網絡部進行安全檢查,并對不符合要求的主機或應用28、系統進行整改。第九章 機房管理第六十一條 機房管理包括機房出入、安防、環境衛生、動力、空調、列頭柜、走線管理等工作,職責及分工如下:l 機房出入管理:建議私有云專用機房由網絡部負責,共用機房由主要使用部門負責;l 安防管理、環境衛生、動力和空調維護:機房歸屬管理部門負責;l 走線管理:走線應隨系統項目建設或重大割接完成,牽頭方應為計劃部或負責系統割接的業務部門、網絡部可配合。l 列頭柜:由機房維護牽頭部門負責本機房列頭柜的維護。如果多部門混用機房,列頭柜維護由該列設備的維護部門負責。(目前啟用的國際信息港機房共4個,3050(私有云)、3032(數據、交換、網管主設備)維護牽頭部門為網絡部,229、032維護牽頭部門為業支 部,2050維護牽頭部門為政企公司)業務上線后,原則上不再受理該業務進出機房申請。除特殊情況需要進入機房操作的,業務維護部門所有維護操作都應通過4A系統遠程實施。對于需要進入機房進行操作的,業務維護部門應提前向網絡部發起機房進出申請,通過后網絡部可授權相關人員進入機房。在公司規定封網期間,原則上不受理任何機房出入申請。其它工作職責分工及流程應遵照機房管理部門相關管理辦法執行。第十章 質量管理第六十二條 為完善對私有云的運行維護質量控制,私有云維護部門應建立私有云運維質量管理制度。第六十三條 總部網絡部負責組織建立私有云的運維質量管理制度,屬地省公司按總部要求制定具體的30、維護管理細則。第六十四條 私有云維護質量指標主要包括但不限于以下內容:1、 重大故障次數;2、 業務影響次數;3、 關鍵功能模塊(私有云管理平臺、資源池管理平臺等)故障次數;4、 關鍵設備(核心交換機、負載均衡器、出口網絡設備等)故障次數;5、 故障工單受理/處理及時率;6、 投訴工單受理/處理及時率。第六十五條 私有云運行性能指標主要包括但不限于以下內容:1、 系統中斷時長;2、 關鍵功能模塊中斷時長;3、 計算資源(CPU、內存等)整體利用率;4、 存儲資源(吞吐量、存儲空間)整體利用率;5、 網絡資源(帶寬等)整體利用率。第六十六條 對各項運行維護指標的考核評定以運行維護考評體系的規定為準。附錄一:私有云資源分配、變更流程附錄二:私有云資源回收流程附錄三:私有云故障處理流程附錄四:私有云投訴處理流程