TECHNOLOGY
2015 2014 2013
什麼是集中監控
27/5/2015

集中監控概述


  隨著全球信息化步伐的不斷推進,IT服務業的分工越來越精細和明確。作為一切IT服務的基礎,數據中心及相關基礎設施直接關係到IT服務系統能否正常、持續、穩定運行。任何一部分的效率降低或者故障,都將導致IT服務的可用性降低,輕則造成信息訪問不暢,重則帶來各種不可預估的重大損失。

集中監控提升


  如何提升數據中心的可用性,已成為“高可用性IT服務”中的重要議題之一。作為保障數據中心可用性的第一道防線——“集中監控”可以快速幫助企業達成“高可用性”的目標。

集中監控的意義


  根據ITIL的定義,所謂的“可用性”指的是:“一個配置項或IT服務根據需要履行協定職能的能力。可用性取決於可靠性、可維護性、可服務用性、性能和安全。可用性通常以百分比計算。這種計算通常基於協定服務時間和宕機時間”。高可用性IT管理是指:是指通過對IT架構及運維管理、基礎設施及管理、災備建設及運維、安全及管理等高可用性關鍵要素的改進與優化,提升IT系統的可用性,從而更好地保障業務持續運營和創新的過程。

  在衡量可用性方面,具體又分為MTTR/MTBF/MTBSI等三個不同的指標。無論是MTBSI還是MTTR,均有一個重要的組成部分——“Detect time(偵測時間)”。可見“能否通過有效的監控管理,及時、有效地發現數據中心中各管理對象的故障”,已構成數據中心高可用性一個充分條件。

集中監控的作用


  數據中心的管理對象主要包括基礎設施與IT基礎架構兩大部分。其中基礎設施包括供配電、UPS、空調、消防、安保、環境監測等機房系統;基礎架構包括網絡設備、主機設備、存儲設備等IT設備。

  集中監控的目標就是要能夠通過管理與技術的應用,對基礎設施與IT基礎架構的運行情況進行監視,實現故障與異常的實時發現與通知;此外還可以通過對監控數據蒐集與整理,為容量管理、事件管理、問題管理、符合性管理提供分析的基礎,最終實現數據中心高可用性的目標。

集中監控的管理


  隨著技術的發展,有許多第三方監控工具開始出現,這些工具可以實現跨設備、跨平台、跨系統的集中數據採集,同時也能針對不同的監控對象設置相應的閥值,最終還可以實現統一的展現與告警。這些工具的出現,使得IT管理人員可以以一種更快速、更準確的方式發現被管理的組件所出現的故障。從而為故障的修復,以及服務的恢復爭取了寶貴的時間,提升了整個基礎架構的可用性。

容量管理


  監控管理還會利用監控工具的性能採集功能,對一些關鍵應用的關鍵性能點進行監控,取得這些關鍵點的性能數據,用來評估IT系統的容量。當發現IT組件的性能的容量計劃存在偏差後,可以及時對這些組織的性能進行擴容,減少因性能不足而導致業務中斷的可能性。

安全管理


  監控管理可以利用一些安全監控工具,去檢查組件的安全情況與運行中對合規要求的符合情況。如GDS的一些合作夥伴,其利用一些安全軟件,對防火牆、防病毒與入侵檢查設備進行實時日誌採集與安全分析,同時比對公司的安全策略或一些安全標準,幫助數據中心管理人員對數據中心運營中安全問題進行快速定位與問題分析。

監控工具


  監控管理的目的並不是監控工具本身,而是通過人工或技術的手段可以及時發現基礎設施與基礎架構上的問題,並按照既定的要求,將發現的問題按照既定管理流程與工具,調動相應的技術、管理人員介入,最終有效地解決數據中心中可能出現的事件、容量與可用性等問題。因此,如何讓數據中心工作人員清楚在監控工具中報出問題後,應如何執行後續管理流程,避免錯報、漏報,成為監控管理的一項重要挑戰。


 

業務監控


  數據中心提供的是信息服務,也可以說是業務服務,獨立的對一台設備進行監控已經不能滿足未來的需求。對於管理人員來說,更關心的是數據中心提供的一個業務、一個服務是否能夠正常的運行,因此,未來的監控解決方案,需要更多的從業務及服務的層面出發,將獨立的物理設備,與業務緊密關聯,形成業務設備視圖,每個設備的可用性,都能夠反映到業務的可用性上。

虛擬化雲監控


  虛擬化是未來數據中心的趨勢,但監控工具很難區分其監控的服務器是一台物理機,還是一台虛擬機,也不可能知道硬件系統會對服務器可用性存在潛在影響,而虛擬化平台的可用性直接影響到運行在其之上的虛擬服務器的可用性。監控軟件處理的應該是主服務器硬件出現的問題,但是如果主服務器處於危險之中,那麼任何在主機上運行的虛擬機也面臨同樣的問題,因此,虛擬化雲環境的高可用性方案也會是未來的趨勢之一。

影響分析模型


  業務監控及虛擬化環境的基礎在於不同的設備間能夠建立清晰的管理,形成設備與設備的關係網,這就需要建立CMDB(配置管理數據庫),它清晰的描述了每一台設備的信息屬性,以及設備之間的關係。通過建立CMDB信息庫,形成業務的影響模型,例如,以下是對一個在線交易系統進行影響建模:

  在這個交易系統的影響模型中,例如“存儲”發生故障,直接反應出的是服務不可用,同時“在線交易系統”、“數據庫服務器”、“在線交易系統”皆為不可用狀態,根據被依賴關係進行分析,可以很直接的定位到故障原因,從而避免了逐個系統的進行故障分析。



文中資料轉載自「CPS中安網
2015-1-6 08:17:16 
作者 :老鐘安防觀察
Comments
 
Be the 1st person to comment.

Leave your comment
 
Name: 
Message: 
Submit Reset
CONTACT US
(852) 2681 9888
© 2013 Armada International Limited
All rights reserved