01. 場景簡述
采用WeOps的監控能力,結合Exchange專家定制的專用化監控方案,實時監測服務器磁盤、郵件系統關鍵指標,異常告警,提醒管理員及時處理(支持自動化處理),配置后(近3個月),故障頻率從1~2月一次,降到“零”故障。
02. 故事背景
1)郵件系統運維要求
周大福Exchange郵件系統維系著全集團(包括順德、武漢、香港和深圳等四大區)的協同辦公,如分店與分店、分店與后勤的公告、文件、通知等,其重要性不言而喻,集團要求郵件系統可用性不低于99.99%,基本上不允許出現故障。
2)故障現象
今年上半年曾先后發生幾起郵件投遞失敗的重大事故,受影響的用戶多達上千人,IT運維團隊為此也受到嚴厲的責罰。
3)故障原因
最終定位到根因為部分Exchange郵件系統服務器由于郵件量的增加,導致磁盤空間不足,觸發了系統的反壓機制,導致部分郵件無法正常投遞,一直停留在隊列中。
4)故障困擾
周大福郵件系統服務器數量多達40+臺,且后端服務器的磁盤數較多(8-10個盤),盡管每天都在進行例行檢查,發現磁盤不足及時擴充,但是擴多了浪費,擴少了很快又滿,總是容易出現疏漏。令運維人員頭疼的是,公司門店常有促銷活動,需要大量帶附件的郵件群發,這容易導致服務器的磁盤空間在前后兩次巡檢之間劇增達上百GB,造成故障,因此,事故接二連三的發生……
03. WeOps應對及效果
1)實時監測Exchange郵件系統所有數據盤的磁盤空間,提前預警
① 對Exchange郵件系統40+臺服務器批量安裝代理,實時監測磁盤空間的變化情況;
② 新建Exchange郵件系統儀表盤,通過折線圖方式展示所有數據盤的磁盤空間使用情況;
③ 基于本次故障的經驗,對所有數據盤的“磁盤空間使用率” 設定嚴格的監控策略,并通過短信、郵件、微信等途徑通知到相關人員處理。
當磁盤空間超過80%時,觸發“預警”級別告警;
當磁盤空間超過85%時,觸發“致命”級別告警;
④ 除對郵件系統的磁盤使用率、CPU、內存等基礎指標監測外,還對郵件隊列、重試投遞隊列、客戶端連接數等關鍵應用指標進行檢測,及時感知異常,保障郵件系統穩健運行。
2)WeOps實現效果
① WeOps監控告警配置完成后,未再出現郵件投遞失敗的事故
04. 場景適用性
該郵件系統監控的場景,適用于絕大部分企業的運維場景。WeOps監控,幫助企業早于業務發現問題,提升核心系統的可用性。
申請演示
主站蜘蛛池模板: 观塘区| 铜梁县| 大港区| 清河县| 华容县| 瓦房店市| 东源县| 顺昌县| 南漳县| 塔城市| 嘉善县| 古浪县| 板桥市| 呼图壁县| 曲松县| 望江县| 郓城县| 巴林右旗| 西青区| 邹城市| 阳春市| 石嘴山市| 梁河县| 灌云县| 五寨县| 逊克县| 谷城县| 南乐县| 绥化市| 定兴县| 巴彦淖尔市| 扶风县| 阳泉市| 饶河县| 九台市| 邵阳市| 安顺市| 广河县| 延安市| 天峨县| 拉萨市|