發布日期:2023-09-12 16:41:44
01. 故事背景
IT運維部門平均每月都會接收1-2次內部辦公系統訪問緩慢的用戶反饋或投訴,月月被投訴,IT不勝其煩。經排查,絕大部分時候是由于與某個應用有關的Windows服務器的CPU資源占用奇高,導致系統無法響應用戶請求,從而產生“慢”的現象。
02. 問題排查
在羊城晚報,內部辦公(OA)系統需要遵循“報業網絡安全等保第二級”的要求,對服務器日志進行集中收集和留存。
羊城晚報使用的日志審計系統,采用的時C/S架構,需要在每臺服務器上安裝一個客戶端,該客戶端會收集那臺服務器產生的日志,并將日志轉發到集中日志接收和存儲系統。
可能是bug等原因,安裝在Windows服務器上的日志收集客戶端軟件,時不時“發瘋”一樣搶占CPU資源,導致資源耗盡,響應卡死。該客戶端安裝在linux服務器上卻一切正常。
03. 臨時方案
臨時的故障解決方法是在Windows服務器上,將該日志收集客戶端先停掉,再次啟動,故障即可解決。
羊城晚報數次找到日志審計系統的廠家,要求廠家解決此問題,但廠家反饋是自身日志審計系統是基于開源社區的工具進行二開,該問題屬于原始工具的問題,他們也無法徹底處理,并且只在Windows服務器上不定時出現,他們暫時不會花精力投入研究,建議客戶每次問題出現后,就手動處理,但每次問題出現時,都伴隨對IT部門的投訴。
*廠家推測:客戶端在向集中日志存儲系統傳送日志時,如果出現失敗(比如網絡中斷),會再次嘗試,這種再次傳送行為在Windows系統上,可能觸發了一些兼容性問題,導致嘗試次數越多,舊的資源不會被釋放,同時,不斷搶占新資源,最終導致服務器資源“耗盡”。
04. WeOps應對及效果
用WeOps監控告警,先于用戶發現該問題,并在用戶保障前處理,避免用戶投訴。
① 監控所有Windows服務器的資源情況,并設定告警規則,按照“提醒”“預警”“致命”三個層級,發送告警通知給IT管理員,管理員手工處理,與用戶投訴搶時間。
② 計劃進一步優化到自動化處置(技術上可行,但處置風險和管理要求在評估中),如告警后無人處理,則等待一段時間后,WeOps自動化處置并記錄,無需人為干預。
WeOps監控告警還幫助羊城晚報加快發現其它生產故障,例如采編系統抽圖異常、通訊社稿件無法入庫到編輯系統稿件庫等,提升核心系統的可用性。
「WeOps監控告警不僅幫助了羊城晚報的OA訪問慢問題,還加快發現其它生產故障,例如采編系統抽圖異常、通訊社稿件無法入庫到編輯系統稿件庫等,提升核心系統的可用性?!?/p> 羊城晚報
隨著業務的迅速發展,羊城晚報IT系統架構愈加復雜,IT設備的數量和種類也在與日俱增。如何及時發現故障,預防故障,從而縮短故障恢復時間,降低故障發生率,對保障IT系統的可靠性與高可用性至關重要,羊城晚報計劃建設一體化運維平臺,為社內構建IT資源的集中監控、統一告警和故障自動化處置等能力,支撐核心業務穩健運行。
中遠海運特種運輸股份有限公司(簡稱:中遠海運特運),隸屬于中國遠洋海運集團,主營特種船運輸及相關業務,致力于打造世界一流的特種船隊。目前擁有規模和綜合實力居世界前列的特種運輸船隊,經營管理各類型船舶100多艘300多萬載重噸。覆蓋近百個國家和地區、200多個港口的全球服務網絡......
港華集團為香港中華煤氣在內地投資及營運管理的業務組合,自1994年進入內地以來持續深耕燃氣市場,業務覆蓋天然氣上、中、下游,目前在24個省、自治區及直轄市經營逾300個燃氣項目,服務客戶逾4000萬戶......
申請演示
主站蜘蛛池模板: 锦屏县| 永顺县| 孟连| 扶风县| 惠水县| 营口市| 武城县| 铅山县| 保康县| 门源| 墨脱县| 天峨县| 蛟河市| 华蓥市| 云霄县| 湖南省| 思茅市| 金昌市| 柞水县| 寻乌县| 鄂托克旗| 南溪县| 屏南县| 静海县| 白河县| 孟津县| 宁武县| 桂林市| 高阳县| 正阳县| 芒康县| 体育| 乌兰浩特市| 滁州市| 中方县| 桐柏县| 通河县| 玉树县| 洛川县| 青岛市| 自贡市|