項目系統運維方案(14頁).doc
下載文檔
上傳人:正***
編號:874784
2024-01-05
14頁
24KB
1、項目系統運維方案XX項目系統運維方案 2021年11月 目錄 1XX系統的服務內容 (3) 1.1服務目標 (3) 1.2信息資產統計服務 (3) 1.3網絡、安全系統運維服務 (4) 1.4主機、存儲系統運維服務 (6) 1.5數據庫系統運維服務 (9) 1.6中間件運維服務 (10) 2運維服務流程 (11) 3服務管理制度規范 (13) 3.1服務時間 (13) 3.2行為規范 (13) 3.3現場服務支持規范 (14) 3.4問題記錄規范 (14) 4應急服務響應措施 (16) 4.1應急基本流程 (16) 4.2預防措施 (16) 4.3突發事件應急策略 (17) 1XX系統的服務內2、容 XX可為提供的運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備的運行維護服務,確保用戶現有的信息系統的正常運行,降低整體管理成本,提升網絡信息系統的整體服務水平。同時依據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的確保。 用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件如:數據庫軟件、中間件軟件等、業務應用軟件等。 XX通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的內部運作,改善網絡信息系統部3、門與業務部門的溝通,提升服務質量。結合用戶現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構。將用戶的運行目標、業務必需求與IT服務的相協調一致。 XX提供的信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性狀況和健康狀況,創建一個可知可控的IT環境,從而確保用戶信息系統的各類業務應用系統的可靠、高效、繼續、安全運行。 服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標: 運行狀態、故障狀況 配置信息 可用性狀況及健康狀況性能指標 此項服務為基本服務,包涵4、在運行維護服務中,幫助我們對用戶現有的信息資產狀況進行了解,更好的提供系統的運行維護服務。 服務內容包括: 硬件設備型號、數量、版本等信息統計記錄 軟件產品型號、版本和補丁等信息統計記錄 網絡結構、網絡路由、網絡IP地址統計記錄 綜合布線系統結構圖的繪制 其它附屬設備的統計記錄 硬件設備清單如下表統計: 1.3網絡、安全系統運維服務 從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。網絡、安全系統基本服務內容: (1)用戶現場技術人員值守 XX可依據用戶的必需求提供長期的用戶現場技術人員值守服務,確保網絡的實時連通和可用,確保接入交換機、匯聚交換機和核心交換機的正常運5、轉。現場值守的技術人員天天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的建議。 現場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行推斷和解決,及時發現問題,防患于未然。 同時能夠對設備的運行數據進行記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括: 配置數據 性能數據 故障數據 (2)現場巡檢服務 現場巡檢服務是XX對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備6、運行的第一手資料,最大可能地發現存在的隱患,確保設備穩定運行。同時,XX將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。 巡檢包括的內容如下:(3) 網絡運行分析與管理服務 網絡運行分析與管理服務是指XX 工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務,其內容包括: (4) 重要隨時專人值守服務 XX 深入知道確保重要隨時設備穩定運行對客戶成功尤為關鍵,因此,XX 可 對客戶提供重要隨時的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產7、生重大影響的隨時。 如必需專人值守,客戶必需至少提前3周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均必需按事先合同約定提供專人值守服務。客戶如必需超出合同約定范圍的更多值守支持,必需額外支付相應人力和差旅費用。 1.4 主機、存儲系統運維服務 XX 提供的主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。 主機存儲系統基本服務內容: XX現場值守人員可進行監控管理的內容包括: CPU 性能管理; 內存使用狀況管理; 硬盤利用狀況管理; 系統進程管理; 主機性能管理; 實時監控主機電源、風扇的使用狀況及主機機箱內部溫8、度; 監控主機硬盤運行狀態; 監控主機網卡、陣列卡等硬件狀態; 監控主機HA運行狀況; 主機系統文件系統管理; 監控存儲交換機設備狀態、端口狀態、傳輸速度; 監控備份服務進程、備份狀況起止時間、是否成功、出錯告警; 監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題; 對存儲的性能如高速緩存、光纖通道等進行監控。 XX提供的數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。 XX提9、供的數據庫運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決數據庫性能問題,維護高效的應用系統。 XX的數據庫運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提升用戶的工作效率。 具體數據庫運行維護監控的基本服務內容包括: 中間件管理是指對BEA Weblogic、MQ等中間件的日常維護管理和監控工作,提升對中間件平臺事件的分析解決能力,確保中間件平臺繼續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。 執行線程:監控WebLogic配置執行線程的空閑數量。 JVM內存:JVM內存曲線正常,能夠及時的進行內存空間10、回收。 JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等 于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。 檢查W EBLOG日志文件是否有異常報錯 如果有WEBLOG集群配置,必需要檢查集群的配置是否正常。2 運維服務流程 XX 建議用戶采納的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。 技術人員現場值守運行維護服務的基本操作流程如下列圖所示: IT 資資 資資 資資資資資資資資資資資資資資 定期巡檢結合故障現場運行維護服務的基本操作流程如下列圖所示: IT資資資資資資 資資資資資資資資資資資資資資資資資資資 3服務管理制11、度規范 (1)接收服務請求和咨詢: 在5*8 小時工作時間內設置由專人職守的熱線 ,接聽內部的服務請 求,并記錄服務臺事件處理結果。 (2)在非工作時間設置有專人7*24 小時接聽的移動 熱線,用于解決內 部的技術問題以及接聽7*24 小時機房監控人員的機房突發狀況匯報。 (3)服務響應時間: 技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的 文檔,力爭恢復到故障點前的業務狀態。關于“系統癱瘓,業務系統不能運轉的故障級別,如果不能于12小時內解決故障,XX將在16小時內提出應急方案,確保業務系統的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用12、的方法及故障損失等狀況。 (1)遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。 (2)與用戶運行維護體系其他部門和環節協同工作,密切配合,共同展開技 術支持工作。 (3)出現疑難技術、業務問題和重大緊急狀況時,及時向負責人報告。 (4)現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電 話時要文明禮貌,語言清楚明了,語氣和善。 (5)遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的 運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。 (1)現場支持工程師應著裝整潔、言13、行禮貌大方,技術專業,操作熟練、嚴 謹、規范;現場支持時必需遵守用戶單位的相關規章制度。 (2)現場支持工程師在進行現場支持工作時必需在確保數據和系統安全的 前提下展開工作。 (3)現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并 及時上報負責人,尋找其他解決途徑。 (4)故障解決后,現場支持工程師要具體記錄問題的發生時間、地點、提出 人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因 及預防方法和解決技巧。 依據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快14、速和實時的特點,該問題到現場支持人員處即可中止,關于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節確實認修改,必需要經過逐級提交、診斷、確認、處理和回復等環節,處理解決必需要XX項目組的分析確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程如下: (1)問題提交。應用信息系統的用戶發現屬于系統缺陷類的問題時,填寫系 統缺陷類問題提交單,提交服務支持中心。 (2)問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單 中描述的問題進行分析研判,確定問題的類型(技術問題、業務問題或者操作問題)。屬于技術問題,提交服務中心技術人15、員對存在的問題提出具體的處理看法和建議;屬于業務問題,提交服務中心業務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統缺陷類問題提交單轉為系統咨詢類問題提交單。 (3)問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類問題 提交單后,對提交的問題進行歸類匯總和分析、確認。可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。 (4)問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交 單后,上報服務中心。 (5)問題回復。服務中心16、依據提交問題的進行分析,制定解決方案并進行實 施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。4應急服務響應措施 XX已經針對本項目制定了詳盡的制定、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外狀況將難以完全避免。下面,我們將對項目實施的突發風險進行具體分析,并且針對各類突發事件,制定了相應的預防與解決措施,同時提供了完整的應急處理流程。 維護服務應急處理流程 針對上門服務過程中可能碰到的各種各樣的風險,XX總結多年維護服務經驗,針對一些可能出現的狀況,制定了一系列預防處理措施,舉例如下: 系統運維應急17、方案是對中斷或嚴重影響業務的故障,如宕機、數據丟失、業務中斷等,進行快速響應和處理,在最短時間內恢復業務系統,將損失降到最低。在系統維護過程中,突發事件的出現將是很難完全避免的,針對這種狀況,XX 制定了完善的突發事件應急策略。 系統巡檢人員要定期規范檢查各硬件設備的運轉狀況和應用軟件運行狀況,同時做好日常的數據增量備份和定期全備份。對發現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急狀況的發生。 對發現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急狀況的發生。 XX不但擁有經驗豐富的技術支持工程師,而且依據長期以來的客戶服務工作經驗,建立了常用知識庫,其中包括多種常見技術故障和突發事件的應急策略。當獲悉出現突發事件時,技術支持人員可以馬上從知識庫中獲取相應的應急策略,并綜合用戶方的具體狀況,給出相關解決方案,然后在第一時間以 、郵件支持或現場服務的方式幫助用戶解決問題,盡最大努力減小突發事件對用戶日常應用的影響。 突發事件應急策略服務流程圖如下: