01. 前言
可觀測性是指對于一個軟件系統的運行狀態和行為是否可以被監測和分析。它涉及日志記錄、性能指標收集、錯誤追蹤等技術手段,用于幫助開發人員診斷和解決軟件系統中的問題。
隨著5G、云計算和微服務等技術的深入融合與廣泛應用,IT系統架構正經歷著從傳統的單體架構向分布式架構乃至云原生架構的轉型,這一過程使得企業所面臨的IT運維環境變得愈發復雜。在這樣的背景下,企業需要運維的系統不僅數量多,而且網絡架構復雜、基礎設施多樣。可觀測性建設是幫助工程師掌握復雜分布式系統運行狀態、感知系統異常、故障定位、根因分析持續改善系統設計的必要手段。
但是在可觀測性建設過程中也面臨不少挑戰:
1)全棧觀測對象的數據接入能力
隨著云原生、分布式技術的普及以及國產化的要求,越來越多的組件和對象開始涌現,對各種觀測對象數據接入能力提出了更高的要求,要求具備靈活的擴展能力,快速低門檻地接入不同對象的數據采集。
2)復雜應用架構下有效的故障感知
以微服務、云原生架構為代表的現代應用架構,其多服務、容器化及云原生技術的特性,極大地增加了觀測對象識別、觀測能力覆蓋及有效告警識別的挑戰。在這種背景下,故障感知的方式發生了顯著變化。傳統的基于資源、狀態、結果和趨勢的黑盒感知能力已不足以滿足現代應用架構的需求,需要擴展至應用層,實現面向單筆請求、單個用戶的精確業務流量白盒觀測能力。
3)多業務多技術領域高效的故障定位
在復雜業務領域及軟件架構下,故障往往涉及多個業務系統、多個技術領域,故障責任邊界不清、上下文傳遞低效、人員技能缺失是實現故障高效定位的難點。
4)打通觀測處置聯動加速故障處置
可觀測體系建設識別問題、定位問題僅是業務連續性保障的第一步,類似人的眼睛接受外界信號后,經過大腦分析感知,做出應答處置進行問題閉環。因此,基于觀測工具感知到的異常事件如何進行有效分析,如何打通后端運維處置工具觸發有效故障分派及運維操作行為,加速故障閉環,是運維體系生態建設的關鍵壁壘。
5)故障根因追蹤持續穩定改善
在故障突發時,工程師首要工作是定位故障邊界、識別故障影響范圍、快速故障恢復。因此,在進行重啟或回滾操作后,錯誤代碼邏輯或不合理配置等引發的故障根因仍然存在,如何回溯故障現場、分析故障、依賴關系確定問題根因并修復,從而持續改善穩定性是可觀測建設的核心價值和建設難點。
隨著大模型技術的出現,這一切挑戰似乎又有了新的解題方向。
02. 可觀測領域的大模型應用場景探索
大模型技術在數據處理方面擁有非常明顯的優勢:
在這些優勢的加持下,大模型技術在可觀測領域的應用也有著非常不錯的前景。而嘉為藍鯨在大模型的應用方面,利用內部觀測數據以及內部沉淀知識庫對大模型進行訓練,并結合在線大模型相結合的方式,在數據采集、數據清洗、數據統計、告警分析和處置等多個場景進行探索和落地。
場景一:數據采集
在可觀測場景中,經常會有新的數據需要采集,可以通過Exporter、腳本、SQL等方式進行采集,從零開始進行代碼編寫往往需要耗費不少的時間,而大模型的代碼編寫能力剛好可以輔助進行代碼編寫,極大降低代碼編寫的成本。
場景二:數據清洗
在可觀測場景中,日志作為非結構化內容,為了提取有效信息,經常需要進行結構化處理,清洗出結構化字段,便于進一步分析,而大模型則可以快速編寫正則進行日志清洗,而經過嘉為藍鯨訓練的大模型,可直接在日志產品的正則提取功能中使用。
諸如此類的場景還有告警豐富提取規則編寫,告警正則匹配規則編寫,都可以使用大模型的正則清洗能力進行輔助。
場景三:數據統計
在可觀測場景中,經常會有一些報表統計或者快速統計信息進行數據分析的場景,經過檢驗,可實現對指標、日志、告警等不同類型數據進行統計分析。
① 指標數據統計:各種指標數據排序統計分析,例如可快速獲取XX業務的負載最高的10臺主機。
② 日志數據統計:例如對日志數據快速提取關鍵信息,對日志進行分類統計等場景
③ 告警數據統計:對告警對象、告警數量等信息進行快速統計
場景四:告警分析和處置
在可觀測場景中,最常見最麻煩的便是各種告警的處理,對人的要求非常高,門檻相對較高,主要體現在:
缺乏分步驟指引:故障處理的過程對于步驟的依賴性比較高,需要根據實際情況和上一步處理結果進行下一步操作,目前缺少適用的分步驟引導工具
而在大模型的輔助下,這些問題都將迎刃而解:可自動獲取告警、資產、日志等相關信息,綜合分析,并結合知識庫的內容沉淀,自動進行引導進行故障分析和處理,甚至更進一步還能輔助編寫處置腳本,降低告警處置門檻和成本。
展示告警關聯數據詳情,獲取該告警對象的告警內容詳細、告警數據庫詳情、關聯服務器信息、關聯日志信息等。
展示告警對象關聯監控情況、查看告警的影響范圍。
處置方案引導和執行,結合預置的解決方案和執行腳本,自動進行操作處置。
在嘉為藍鯨內部結合內部知識庫,已經實現對于故障問題進行知識庫解決方案的自動推薦,并提供一鍵建群和提單功能,已真正帶來業務價值,極大提高問題響應和解決效率。
03. 未來展望
通過上述可觀測+大模型的聯合場景,已經充分體現了大模型魅力,可能在不久的將來,大模型不僅僅是一個觀測輔助工具,而是能夠自主分析定位問題,自主解決問題;甚至能夠通過觀測數據預測未來可能發生的問題,提前消除隱患預防問題的發生,真正實現觀測從全面發現問題到快速處理問題再到提前預防問題的蛻變。
申請演示
主站蜘蛛池模板: 三门县| 礼泉县| 陆良县| 永胜县| 高州市| 龙胜| 渭南市| 韶关市| 蒙自县| 上思县| 彝良县| 巴东县| 微山县| 汽车| 共和县| 山西省| 鹤庆县| 武宁县| 旺苍县| 双城市| 江山市| 清远市| 青川县| 柳江县| 绥中县| 剑河县| 林甸县| 康马县| 邛崃市| 泰顺县| 晋宁县| 社会| 泽普县| 苍山县| 韶关市| 东丰县| 饶平县| 军事| 汶上县| 平利县| 专栏|