【文章內(nèi)容簡介】
的以資源監(jiān)控為主的監(jiān)控產(chǎn)品,無法建立企業(yè)業(yè)務與 IT 資源之間的映射關系,實行的是一種單點監(jiān)控和分散監(jiān)控管理方式 (如網(wǎng)絡處只管網(wǎng)絡的監(jiān)控、系統(tǒng)管理處只管數(shù)據(jù)庫和應用的監(jiān)控 … ) ,不能直觀整體地反映企業(yè)業(yè)務的健康狀況,常導致“四處救火”被動應戰(zhàn)的工作局面。因此新的監(jiān)控平臺必須從業(yè)務需求出發(fā),使 IT 與業(yè)務關聯(lián)起來,實 現(xiàn)按業(yè)務進行整體監(jiān)控, 建立基于角色的各種業(yè)務視圖, 增強業(yè)務部門和 IT 部門溝通,以改變 IT 部門長期被動運維工作的局面。 ? 實現(xiàn)用戶體驗監(jiān)控和管理 IT 部門作為一個服務部門, IT 運維管理的目標之一就是要不斷提升用戶滿意度,這里的用戶既包括內(nèi)部用戶(如使用 IT 系統(tǒng)的業(yè)務人員)也包括外部用戶(如訪問 企業(yè) 網(wǎng)站人員)。用戶體驗管理從最終用戶的角度為運維人員提供業(yè)務服務的可用性和健康狀況,使 IT 人員也能從用戶角度感受系統(tǒng),從而確保了用戶滿意度。 ? 實現(xiàn)服務主動 模擬 偵測 有時候針對后臺 IT 資源的監(jiān)控并不能發(fā)現(xiàn)全部問題,例如用戶 報告某4 個頁面不可用,但后臺服務器和數(shù)據(jù)庫都正常,因此實現(xiàn)服務主動模擬偵測更能直接 發(fā)現(xiàn)業(yè)務系統(tǒng)存在的問題,確保監(jiān)控不留死角。 ? 支持故障提前預警 一個好的監(jiān)控產(chǎn)品,其價值不在于故障發(fā)生后如何告警,而是在故障發(fā)生前如何能及時預警,使 IT 運維工作真正做到“防患于未然”。新的監(jiān)控平臺應具備強大的故障隱患發(fā)現(xiàn)能力和預警能力,幫助運維人員在故障發(fā)生之前消除隱患,真正做到主動運維。 ? 避免告警風暴和誤報 由于 IT 資源之間是存在關聯(lián)的,如果不具備事件之間關聯(lián)分析和告警屏蔽功能,就很容易引起告警風暴。例如磁盤剩余空間不足時可能會 導致數(shù)據(jù)庫掛起;核心交換機宕機后會導致許多服務不可用等等。另外對哪些波動性監(jiān)控指標,如果只是短時間超過告警閾值并不代表有問題,只有在持續(xù)一段時間內(nèi)都超過告警閾值時才需要告警。 3 解決方案 總體架構 根據(jù) 企業(yè) 需求分析,可 選用 SAMP AM(應用管理)和 SAMP UXM(用戶體驗管理)產(chǎn)品搭建一個面向業(yè)務的 IT 綜合監(jiān)控管理系統(tǒng) ,實現(xiàn)從 IT資源到業(yè)務應用的全面監(jiān)控,使 IT 運維人員從單一集中的界面直觀了解 企業(yè) 業(yè)務應用與其所依賴業(yè)務的健康狀況 。 系統(tǒng)總體結構如下圖所示,分為集中監(jiān)控層、事件處理層、服務管理層和統(tǒng)一展現(xiàn)層。 各層 功能 和目標 描述如下: ? 集中監(jiān)控層 集中監(jiān)控層主要解決各種隱患和問題的自動發(fā)現(xiàn) ,包括資源監(jiān)控、服務監(jiān)控和用戶體驗監(jiān)控等功能。資源監(jiān)控范圍涵蓋了網(wǎng)絡、服務器、存儲、數(shù)據(jù)庫、中間件等各種 IT 資源,能及時發(fā)現(xiàn)和識別各種問題隱患;服務監(jiān)控通過主動模擬偵測來獲取服務可用性和性能狀況,能在用戶之前發(fā)現(xiàn)服務可5 用和性能故障; 用戶體驗監(jiān)控通過監(jiān)控真實用戶的業(yè)務操作,幫助運維人員從用戶角度了解業(yè)務系統(tǒng)可用性和性能,發(fā)現(xiàn)資源監(jiān)控無法發(fā)現(xiàn)的問題, 并且 借助 事件快照 可重現(xiàn)問題場景以幫助進行問題診斷 。 ? 事件處理層 事件處理層主要解決事件標準化、 關聯(lián) 分析和 自動 通知 等功能 。 事件標準化使不同來源不同格式事件進行集中統(tǒng)一的關聯(lián)分析成為可能, 通過對跨專業(yè)領域事件的關聯(lián)分析,可有效避免告警風暴和從事件海洋中識別出有意義事件。 ? 服務管理層 服務管理層主要解決了 IT 與業(yè)務關聯(lián)問題。 將 IT 與業(yè)務關聯(lián) 可幫助運維人員 正確 判斷 IT 事件對業(yè)務影響, 以便正確安排工作優(yōu)先級,同時 在 業(yè)務 出現(xiàn)問題時 可 快速定位問題組件,從而加快故障恢復速度。 ? 結果 展現(xiàn)層 結果展現(xiàn)層主要解決監(jiān)控結果展現(xiàn)和分析 ,包含 實時監(jiān)控結果展現(xiàn)和歷史數(shù)據(jù)分析。 服 務 器數(shù) 據(jù) 庫中 間 件網(wǎng) 絡 用 戶應 用資 源 監(jiān) 控( R e s o u r c e M o n i t o r )服 務 監(jiān) 控( 主 動 模 擬 )用 戶 體 驗 監(jiān) 控( 被 動 偵 測 )事 件 適 配 器( E v e n t A d a p t e r )事 件 處 理 引 擎( E v e n t P r o c e s s E n g i n e )信 息 通 知 引 擎( I n f o P u s h E n g i n e )服 務 模 型( S e r v i c e M o d e l)服 務 影 響 計 算( S e r v i c e I m p a c t C a l c u l a t i n g )服 務 可 用 性 計 算( A V a i l a b i l i t y C a l c u l a t i n g )監(jiān) 控 視 圖( M o n i t o r i n g V i e w )事 件 控 制 臺( E v e n t C o n s o l e )服 務 視 圖( S e r v i c e V i e w )統(tǒng) 計 分 析( R e p o r t)集 中 監(jiān) 控 層事 件 處 理 層服 務 管 理 層結 果 展 現(xiàn) 層 圖表 2 系統(tǒng)總體 結構 6 部署 架構 對具有分支機構企業(yè), 系統(tǒng)部署架構如下圖所示, 在總部數(shù)據(jù)中心部署一臺SAMP管理平臺服務器,在中心核心交換機上接入一臺用戶體驗引擎負責偵聽和解析網(wǎng)絡報文,并將用戶體驗數(shù)據(jù)上報到 SAMP 平臺管理服務器。各分支機構部署一臺用于服務模擬 訪問的現(xiàn)場 探針,定期模擬服務使用以探測服務可用性和性能,并將偵測結果數(shù)據(jù)通過 HTTP協(xié)議上報到 SAMP管理平臺服務器。 圖表 3 系統(tǒng)部署架構 7 系統(tǒng) 功能 資源監(jiān)控 監(jiān)控企業(yè)業(yè)務所依賴的 IT 資源如網(wǎng)絡、主機、存儲、數(shù)據(jù)庫、中間件 等,監(jiān)控內(nèi)容包括可用性、性能、安全和其他異常指標 ,及時發(fā)現(xiàn)和消除各種問題隱患,真正做到防患于未然。 服務監(jiān)控 主動模擬用戶使用服務功能,以探測服務可用性和性能, 這樣 可以先于用戶發(fā)現(xiàn)和解決問題,而不是被動等待用戶投訴 ,有