為應對數字化轉型的挑戰,提升整體的IT運營和運維能力,金融行業數據中心管理體系也在一直發展、完善。我們認為大體分為兩大階段,即狹義數據中心監控管理,到廣義數據中心監控管理階段。其中廣義的數據中心監控管理,更多是含從業務價值視角的全領域的建設。通過建立完善的監控告警管理規范,結合監控告警工具,可以提高系統的穩定性和可靠性,減少故障的發生和影響,提升業務價值。
某大型保險公司基于嘉為藍鯨告警中心,構建了完善的告警管理規范,打造告警全生命周期管理體系,實現業務可用性提升。
01. 業務場景
該公司在多年的監控建設過程中,已陸續實現了網絡設備監控、系統基礎監控、中間件數據庫監控、云平臺監控、應用監控、動環監控,所有的監控告警管理規范和工具都由數據中心管理員進行管理,各領域管理崗和外包人員負責接收和處理監控過程中產生的告警。由于監控系統分散、涉及角色多,數據中心管理員較難進行規范管理。
缺乏專業工具支撐,告警的產生、流轉、處理過程中需要耗費時間較長,響應和處理效率低下,對業務連續性使用會產生一定影響。同時因為各領域管理崗較為分散,對于告警的處理效率、人力成本等很難進行評估和量化。
02. 分析痛點
該公司有規范的管理流程,但缺少工具支撐管理,導致在實際業務場景中存在以下痛點:
1)工具無法匹配管理規范
基于企業對告警的管理規范,5級及以上的告警都能自動生成事件工單且由對應的人員處理,且會根據告警治理過程對規范進行優化,需要通過配置才能靈活適配規范。
2)告警信息不規范
由于監控系統多樣性以及建設的時間較早,導致告警信息不規范,很多告警甚至缺少關鍵信息。
3)告警無法收斂導致工單過多
現有系統中,產生的告警60%以上都是重復告警。這些無效和重復的告警會導致創建的事件工單量大、告警通知量大,且需要在人工處理階段花大量時間對重復的工單進行判斷關聯。事件單數量過多也不符合管理規范。
4)無法適配交易時間
金融業的業務系統跟交易時間關聯較大,因變更和交易關閉時間,也會產生一些無效的告警,需要根據交易時間判斷告警有效性。
5)變更導致告警風暴
變更過程或者變更過后,會產生大量告警,需要自動對變更產生的告警進行屏蔽。
03. 解決方案
1)結合告警管理規范,落地最佳實踐
根據該公司的組織架構和管理規范,結合業務場景,通過配置和對接第三方系統,對整個告警生命周期管理實現了閉環。
2)結合CMDB實現告警豐富及告警動態分派
通過關聯CMDB數據,實現告警信息的豐富和完善,并根據CMDB實例中的負責人信息,實現了告警動態流轉,保證告警通知的及時性和準確性。
3)根據交易日歷和變更進行告警收斂
根據交易日歷和ITSM變更工單,修改告警收斂策略的時效性或者創建新的收斂策略,通過自動化手段盡可能地減少無效告警。
04. 成果展示
1)結合CMDB實現告警動態分派
2)根據ITSM變更工單創建告警屏蔽
3)交易日歷控制抑制策略是否生效
05. 建設成效
06. 場景適用性
嘉為藍鯨告警中心適用于告警生命周期管理的場景,結合企業告警管理規范,總結出企業最佳落地實踐。適用于金融行業及其他更廣泛行業進行告警高效處理、標準化實現業務系統持續可用的場景。適用有以下業務場景需求的企業:
申請演示
主站蜘蛛池模板: 蓝山县| 安新县| 巴彦淖尔市| 绥中县| 漳平市| 杭锦旗| 当雄县| 略阳县| 衡山县| 鹿泉市| 绵阳市| 永泰县| 金山区| 将乐县| 赤峰市| 通辽市| 灵宝市| 依兰县| 且末县| 邵阳市| 崇信县| 安宁市| 苗栗市| 安远县| 孟津县| 合川市| 英山县| 井陉县| 施秉县| 乳源| 宁强县| 德清县| 汝南县| 万宁市| 宣城市| 江永县| 西和县| 顺义区| 磴口县| 比如县| 民县|