軟件運維項目系統運維方案(19頁).doc
下載文檔
上傳人:正***
編號:876564
2024-01-08
19頁
808.50KB
1、軟件系統運維方案2019年08月目 錄1XX系統的服務內容31.1服務目標31.2信息資產統計服務31.3網絡、安全系統運維服務41.4主機、存儲系統運維服務61.5數據庫系統運維服務91.6中間件運維服務102運維服務流程113服務管理制度規范133.1服務時間133.2行為規范133.3現場服務支持規范143.4問題記錄規范144應急服務響應措施164.1應急基本流程164.2預防措施164.3突發事件應急策略171 XX系統的服務內容1.1 服務目標XX可為提供的運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備的運行維護服務,保證用戶現有的信息系統的正常運行,降低整體2、管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。XX通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的內部運作,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構3、。將用戶的運行目標、業務需求與IT服務的相協調一致。XX提供的信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性情況和健康狀況,創建一個可知可控的IT環境,從而保證用戶信息系統的各類業務應用系統的可靠、高效、持續、安全運行。服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標: 運行狀態、故障情況 配置信息 可用性情況及健康狀況性能指標1.2 信息資產統計服務此項服務為基本服務,包含在運行維護服務中,幫助我們對用戶現有的信息資產情況進行了解,更好的提供系統的運行維護服務。服務內容包括: 硬件設備型號、數量、版4、本等信息統計記錄 軟件產品型號、版本和補丁等信息統計記錄 網絡結構、網絡路由、網絡IP地址統計記錄 綜合布線系統結構圖的繪制 其它附屬設備的統計記錄硬件設備清單如下表統計:1.3 網絡、安全系統運維服務從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。網絡、安全系統基本服務內容:序號服務模塊內容描述提供方1現場備件安裝配合用戶進行,按備件到達現場時間工程師到達現場XX2現場軟件升級首先分析軟件升級的必要性和風險,配合用戶進行軟件升級XX3現場故障診斷按服務級別:724小時 58小時XX4電話遠程技術支持724小時XX5問題管理系統對遇到的問題進行匯總和發布XX網絡核心5、交換機巡視典型作業計劃書系統管理單位: 維保單位: 設備名: 設備型號:管理IP:檢查內容參考標準檢查結果檢查結論巡視方法描述巡檢周期硬件運行狀態電源運行狀態正常 異常風扇運行狀態正常 異常模塊運行狀態正常 異常系統運行狀態檢查VLAN 狀態正常 異常配置 狀態正常 異常OSPF 狀態正常 異常日志檢查日志 狀態正常 異常其他檢查內容正常 異常正常 異常正常 異常(1) 用戶現場技術人員值守XX可根據用戶的需求提供長期的用戶現場技術人員值守服務,保證網絡的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉。現場值守的技術人員每天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路6、由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的建議。現場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患于未然。同時能夠對設備的運行數據進行記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括: 配置數據 性能數據 故障數據(2) 現場巡檢服務現場巡檢服務是XX對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備運行的第一手資料,最大可能地發現存在的隱患,保障設備穩定運行。同時,XX將有針對性地7、提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。巡檢包括的內容如下:編號巡檢內容1硬件運行狀態檢查項目單板狀態檢查電源模塊狀態檢查風扇狀態檢查整機指示燈狀態檢查機框防塵網檢查機房溫度、濕度檢查設備地線檢查2軟件運行情況檢查項目設備運行情況檢查網絡報文分析設備對接運行狀況檢查路由運行情況檢查3網絡整體運行情況調查網絡運行問題調查網絡變更情況調查網絡歷史故障調查(3) 網絡運行分析與管理服務網絡運行分析與管理服務是指XX工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務,其內容包括: 服務內容服務優點向客戶提供網絡專家電話號碼。保證重大8、問題第一連線至網絡專家。網絡專家組每周與客戶進行不少于2小時的電話技術交流以最小成本保證及時解答客戶關心的技術問題,并就某一領域技術問題展開深層次溝通。每月向客戶提交CASE匯總分析報告,并可擴展到每年17次(月度、季度、年度)使客戶了解網絡歷史故障情況以及故障預防建議,最大程度減少網絡故障隱患,更高效的進行網絡管理。(4) 重要時刻專人值守服務XX深刻知道保證重要時刻設備穩定運行對客戶成功尤為關鍵,因此,XX可對客戶提供重要時刻的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。如需專人值守,客9、戶需至少提前3周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定范圍的更多值守支持,需額外支付相應人力和差旅費用。1.4 主機、存儲系統運維服務XX提供的主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。主機存儲系統基本服務內容:序號服務模塊內容描述提供方1現場備件安裝配合用戶進行。按備件到達現場時間工程師到達現場設備廠商、xxxxxxxx公司2補丁服務消除軟件漏洞給系統帶來的安全隱患,并對安裝補丁所引起的系統連鎖反應進行合理的平衡。xxxxxxxx公司3升級服務對10、系統進行軟件或硬件的升級,以改進、完善現有系統或消除現有系統的漏洞。xxxxxxxx公司4現場故障診斷按服務級別:724小時 58小時xxxxxxxx公司5電話遠程技術支持724小時xxxxxxxx公司6問題管理系統對遇到的問題進行匯總和發布xxxxxxxx公司7系統優化對客戶系統的括主機、存儲設備、操作系統、提供優化服務。XX現場值守人員可進行監控管理的內容包括: CPU 性能管理; 內存使用情況管理; 硬盤利用情況管理; 系統進程管理; 主機性能管理; 實時監控主機電源、風扇的使用情況及主機機箱內部溫度; 監控主機硬盤運行狀態; 監控主機網卡、陣列卡等硬件狀態; 監控主機HA運行狀況; 主11、機系統文件系統管理; 監控存儲交換機設備狀態、端口狀態、傳輸速度; 監控備份服務進程、備份情況(起止時間、是否成功、出錯告警); 監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題; 對存儲的性能(如高速緩存、光纖通道等)進行監控。小型機系統巡檢典型作業計劃書(HP服務器部分)系統管理單位: XX供電公司設備名: 設備型號設備序列號管理IP:檢查內容參考標準檢查結果狀態是否正常巡檢方法描述巡檢周期硬件運行狀態電源指示燈正常 異常面板指示燈正常 異常內置磁帶機正常 異常CPU 狀態正常 異常內存狀態正常 異常磁盤狀態正常 異常網卡狀態正常 異常HBA卡運行狀態正常 異常系統檢查12、系統日志正常 異常Mail正常 異常文件系統,包括磁盤卷剩余空間正常 異常硬件檢測正常 異常交換分區正常 異常固件版本正常 異常補丁包版本正常 異常系統鏡像正常 異常存儲磁盤正常 異常存儲驅動正常 異常進程狀態正常 異常系統性能檢查CPU利用率正常 異常內存利用率正常 異常磁盤I/O性能正常 異常數據庫運行狀態數據庫安裝目錄正常 異常數據庫進程狀態正常 異常集群檢查集群進程狀態正常 異常集群日志正常 異常存儲檢查存儲設備故障燈狀態正常 異常SAN交換機端口狀態正常 異常存儲交換機環境狀態正常 異常系統故障報告正常 異常1.5 數據庫系統運維服務XX提供的數據庫運行維護服務是包括主動數據庫性能管13、理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。XX提供的數據庫運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決數據庫性能問題,維護高效的應用系統。XX的數據庫運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提高用戶的工作效率。具體數據庫運行維護監控的基本服務內容包括:序號服務模塊內容描述提供方1Oracle數據庫7*24電話支持服務每周7天,每天24小時支持中心電話14、,電子郵件答詢,以滿足業務發展的需要。Oracle產品技術專家直接同客戶對話,幫助解決客戶提出的疑難問題。根據問題的嚴重程度,將優先解決客戶認為是關鍵而緊急的任務。對客戶提出的一般性問題進行技術咨詢、指導。定期的客戶管理報告, 避免問題再度發生。xxxxxxxx公司2Oracle數據庫產品現場服務響應數據庫宕機數據壞塊影響業務不能進行的產品問題軟件產品的更新及維護。xxxxxxxx公司3Oracle數據庫產品系統健康檢查對系統的配置及運作框架提出建議,以幫助您得到一個更堅強可靠的運作環境降低系統潛在的風險,包括數據丟失、安全漏洞、系統崩潰、性能降低及資源緊張檢查并分析系統日志及跟蹤文件,發現并15、排除數據庫系統錯誤隱患檢查數據庫系統是否需要應用最新的補丁集檢查數據庫空間的使用情況協助進行數據庫空間的規劃管理檢查數據庫備份的完整性監控數據庫性能確認系統的資源需求明確您系統的能力及不足優化Oracle Server的表現通過改善系統環境的穩定性來降低潛在的系統宕機時間xxxxxxxx公司4Oracle數據庫產品性能調優分析用戶的應用類型和用戶行為評價并修改ORACLE數據庫的參數設置評價并調整ORACLE數據庫的數據分布評價應用對硬件和系統的使用情況,并提出建議利用先進的性能調整工具實施數據庫的性能調整培訓用戶有關性能調整的概念提供用戶完整的性能調整報告和解決方法xxxxxxxx公司1.616、 中間件運維服務中間件管理是指對BEA Weblogic、MQ等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。n 執行線程:監控WebLogic配置執行線程的空閑數量。n JVM內存:JVM內存曲線正常,能夠及時的進行內存空間回收。n JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。n 檢查WEBLOG日志文件是否有異常報錯n 如果有WEBLOG集群配置,需要檢查集群的配置是否正常。2 運維服務流程XX建議17、用戶采用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。技術人員現場值守運行維護服務的基本操作流程如下圖所示:定期巡檢結合故障現場運行維護服務的基本操作流程如下圖所示:3 服務管理制度規范3.1 服務時間(1) 接收服務請求和咨詢:n 在5*8 小時工作時間內設置由專人職守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。(2) 在非工作時間設置有專人7*24 小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24 小時機房監控人員的機房突發情況匯報。(3) 服務響應時間:故障級別響應時間故障解決時間I級:屬于緊急問題;其具體現象為:系統崩潰導致業務18、停止、數據丟失。30分鐘,2小時內提交故障處理方案12小時以內II級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統性能下降但能正常運行,不影響正常業務運作。30分鐘,2小時內提交故障處理方案24小時以內III級:屬于較嚴重問題;其具體現象為:出現系統報錯或警告,但業務系統能繼續運行且性能不受影響。30分鐘,2小時內提交故障處理方案48小時以內IV級:屬于普通問題;其具體現象為:系統技術功能、安裝或配置咨詢,或其他顯然不影響業務的預約服務。30分鐘,2小時內提交故障處理方案5天內n 技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力爭恢復到故障點前的業務狀態。對于“系統19、癱瘓,業務系統不能運轉”的故障級別,如果不能于12小時內解決故障,XX將在16小時內提出應急方案,確保業務系統的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。3.2 行為規范(1) 遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。(2) 與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。(3) 出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。(4) 現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。(5) 遵守保密原則。對被支持單位的網絡、20、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。3.3 現場服務支持規范運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。(1) 現場支持工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規范;現場支持時必須遵守用戶單位的相關規章制度。(2) 現場支持工程師在進行現場支持工作時必須在保證數據和系統安全的前提下開展工作。 (3) 現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋找其他解決途徑。(4) 故障解決后,現場支持工程師21、要詳細記錄問題的發生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。3.4 問題記錄規范根據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可中止,對于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節的確認修改,需要經過逐級提交、診斷、確認、處理和回復等環節,處理解決需要XX項目組的分析確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程22、如下:(1) 問題提交。應用信息系統的用戶發現屬于系統缺陷類的問題時,填寫系統缺陷類問題提交單,提交服務支持中心。(2) 問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的類型(技術問題、業務問題或者操作問題)。屬于技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬于業務問題,提交服務中心業務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統缺陷類問題提交單轉為系統咨詢類問題提交單。(3) 問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類問題提交單后,對提交的問題進行歸類匯總和分析、確認。可以解23、決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。(4) 問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交單后,上報服務中心。(5) 問題回復。服務中心根據提交問題的進行分析,制定解決方案并進行實施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。4 應急服務響應措施XX已經針對本項目制定了詳盡的設計、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。下面,我24、們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。4.1 應急基本流程維護服務應急處理流程4.2 預防措施針對上門服務過程中可能遇到的各種各樣的風險,XX總結多年維護服務經驗,針對一些可能出現的情況,制定了一系列預防處理措施,舉例如下:類型事件預防措施處理應用軟件無法啟動軟件可執行文件上門人員提前準備好各類需維護軟件安裝程序將應用軟件數據文件備份后,重新安裝軟件打開過程中或運行中異常錯誤關閉上門人員準備好安裝程序,操作系統優化和修補軟件,查殺病毒軟件判斷出錯原因,備份數據,采取相關修復措施操作系統使用者本機操作系統異常或系統資25、源占用嚴重準備好系統檢查程序及修補程序,以及查殺病毒軟件告知使用者錯誤原因可能類型,提出解決方案,經使用者認可后采取相應措施B/S結構系統,IE瀏覽器異常或無法下載控件準備流氓軟件清理程序、修復瀏覽器軟件、查殺病毒軟件檢查IE瀏覽器選項設置,分析原因進行修復網絡或服務器B/S結構系統網絡流量異常或服務器登錄異常判斷服務器是否異常,否則準備殺毒軟件檢查網絡流量,流量異常小則報修網絡服務商,流量異常大則查殺病毒4.3 突發事件應急策略系統運維應急方案是對中斷或嚴重影響業務的故障,如宕機、數據丟失、業務中斷等,進行快速響應和處理,在最短時間內恢復業務系統,將損失降到最低。在系統維護過程中,突發事件的26、出現將是很難完全避免的,針對這種情況,XX設計了完善的突發事件應急策略。系統巡檢人員要定期規范檢查各硬件設備的運轉情況和應用軟件運行情況,同時做好日常的數據增量備份和定期全備份。對發現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。對發現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。XX不但擁有經驗豐富的技術支持工程師,而且根據長期以來的客27、戶服務工作經驗,建立了常用知識庫,其中包括多種常見技術故障和突發事件的應急策略。當獲悉出現突發事件時,技術支持人員可以立即從知識庫中獲取相應的應急策略,并綜合用戶方的具體情況,給出相關解決方案,然后在第一時間以電話、郵件支持或現場服務的方式幫助用戶解決問題,盡最大努力減小突發事件對用戶日常應用的影響。緊急情況預防措施應急策略硬件損壞項目單位操作用電腦硬件損壞在磁盤數據未丟失情況下,保證數據安全性,建議項目單位替換相關硬件。操作失誤加強培訓力度,掌握培訓效果,檢驗操作人員操作水準,提示注意事項。操作失誤未造成即成結果或數據未丟失情況下,保障數據安全,反之,協調相關部門,進行補救。對操作人員強調注意事項配置丟失培訓時強調使用前配置方法和步驟,并特別提示需在使用前按要求操作派出上門維護、培訓人員重新配置,并耐心講解。數據丟失培訓時強調使用過程中注意定期備份重要數據,日常維護過程中,上門服務人員實時備份數據并告知用戶協調有關部門,進行補救,無法補救,提交報告說明原因。突發事件應急策略服務流程圖如下: