01. 數(shù)字化轉(zhuǎn)型與可觀測的關(guān)系
在數(shù)字化轉(zhuǎn)型的浪潮中,我們面臨著將“線下業(yè)務(wù)線上化”及實現(xiàn)“業(yè)務(wù)快速創(chuàng)新迭代”的迫切需求,這也進(jìn)而要求支撐業(yè)務(wù)的應(yīng)用系統(tǒng)更加敏捷、可擴(kuò)展性更高。
因而,分布式、云原生是企業(yè)應(yīng)用架構(gòu)的發(fā)展方向。
分布式架構(gòu)下,各種IT對象如消息隊列、緩存、分布式數(shù)據(jù)庫等層出不窮,并且組件間的調(diào)用關(guān)系錯綜復(fù)雜。
此時,傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無法提供分布式應(yīng)用故障診斷所需的更多有效信息,因此,一個面向應(yīng)用面向故障的全棧可觀測方案越來越成為企業(yè)IT運(yùn)維的迫切需求。
02. 30年過去,終迎來第二代監(jiān)控——可觀測
IT監(jiān)控作為IT運(yùn)維之眼,是IT運(yùn)維第一個建設(shè)的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對象以及在監(jiān)控能力(如指標(biāo)、Log、Trace)的不斷擴(kuò)展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據(jù)Gartner市場調(diào)研數(shù)據(jù)顯示,超過70%的中大型企業(yè)擁有10個以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。
監(jiān)控工具越來越多,但每個監(jiān)控工具卻只能揭示業(yè)務(wù)和應(yīng)用的部分問題,且工具能力重合、工具數(shù)據(jù)互為煙囪,這導(dǎo)致用戶難以聯(lián)動整合所有監(jiān)控,面向整個業(yè)務(wù)和應(yīng)用進(jìn)行全面的故障診斷。
傳統(tǒng)工具發(fā)展的這些瓶頸和問題在可觀測體系中得到了完美解決。
傳統(tǒng)監(jiān)控與可觀測的主要區(qū)別如下:
簡單來講,監(jiān)控主要聚焦在感知,可觀測還聚焦于問題出現(xiàn)之后診斷分析和隱患發(fā)現(xiàn)。
03. 基于四大支柱數(shù)據(jù)設(shè)計可觀測體系
要做到面向應(yīng)用、面向故障的可觀測,我們需要為整個應(yīng)用系統(tǒng)的生產(chǎn)運(yùn)行拓?fù)溥M(jìn)行建模,并將應(yīng)用所有相關(guān)組件的各種觀測數(shù)據(jù)進(jìn)行有機(jī)聚合,因此,可觀測體系設(shè)計的核心理念在于對Metirc、Log、Trace、Topology這四大支柱數(shù)據(jù)進(jìn)行統(tǒng)一采集、統(tǒng)一治理和有機(jī)聚合。
這幾個數(shù)據(jù)之間的關(guān)系如下:
基于上述理念,可抽象可觀測的數(shù)據(jù)模型如下:
基于此設(shè)計,我們可以自動構(gòu)建應(yīng)用橫縱向全景拓?fù)洌兄獞?yīng)用故障點。
根據(jù)故障點實現(xiàn)上游故障影響分析和下游故障根因溯源。
04. 可觀測成熟度模型
可觀測既包含了傳統(tǒng)監(jiān)控的技術(shù),又包含了基于數(shù)據(jù)和AI的統(tǒng)一數(shù)據(jù)治理與智能根因分析以實現(xiàn)端到端的監(jiān)控與分析的能力。可觀測體系的建設(shè)不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來,而是一個基于科學(xué)建設(shè)路徑和方法逐步演進(jìn)的過程。
可觀測成熟度模型如下:
L1【基礎(chǔ)可觀測】
L2【應(yīng)用可觀測】
L3【因果可觀測】
L4【主動可觀測】
L5【業(yè)務(wù)可觀測】
05. 可觀測平臺功能設(shè)計
可參考下圖進(jìn)行可觀測平臺的功能設(shè)計:
06. 可觀測平臺建設(shè)過程
建設(shè)重點1——觀測元數(shù)據(jù)建模治理【Topology】
建設(shè)重點2——指標(biāo)體系建模治理【Metric】
建設(shè)重點3——統(tǒng)一日志管理【Log】
可觀測平臺需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類設(shè)備日志管理需求。
建設(shè)重點4——APM實現(xiàn)故障追蹤【Trace】
APM是分布式系統(tǒng)的關(guān)鍵監(jiān)控能力,通過APM可以對應(yīng)用的四個黃金指標(biāo)進(jìn)行監(jiān)控,可以對服務(wù)件、服務(wù)與組件間的調(diào)用狀態(tài)進(jìn)行監(jiān)控,還可以實現(xiàn)對服務(wù)接口級、方法級的故障發(fā)現(xiàn)與診斷分析。
建設(shè)重點5——實現(xiàn)告警的全生命周期治理【Alert】
基于統(tǒng)一告警中心的建設(shè),實現(xiàn)一條告警的全生命周期流轉(zhuǎn)閉環(huán)管控。
建設(shè)重點6——基于AI與LLM的智能可觀測【AI】
通過集成AI能力實現(xiàn)動態(tài)閾值、告警聚合收斂、時序預(yù)測、日志聚類分析、多維下鉆與根因定位等智能可觀測能力。
基于LLM可以構(gòu)建可觀測智能小助手,如展示告警詳情:
挖掘告警相關(guān)故障信息:
獲取故障推薦和交互式故障自動化處理:
建設(shè)重點7——基于應(yīng)用可觀測向上構(gòu)建業(yè)務(wù)可觀測【Business】
在數(shù)字化時代,業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行都會反饋到應(yīng)用系統(tǒng)的各項運(yùn)行指標(biāo)上,運(yùn)維的最核心目標(biāo)也是保障業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行。
當(dāng)我們實現(xiàn)了應(yīng)用可觀測后,基于應(yīng)用可觀測能力去構(gòu)建面向上層各類業(yè)務(wù)活動、業(yè)務(wù)場景的可觀測,就會水到渠成且事半功倍。
業(yè)務(wù)觀測領(lǐng)域中,最重要的是對各類業(yè)務(wù)交易場景以及各個應(yīng)用系統(tǒng)的業(yè)務(wù)黃金指標(biāo)進(jìn)行監(jiān)控,例如銀行,有各種支付、轉(zhuǎn)賬、查額、還款等場景,這些交易的交易鏈路如何自動構(gòu)建,如何監(jiān)測每一筆交易的效率和質(zhì)量,如何在交易異常的情況下迅速找到問題點并進(jìn)行解決,是業(yè)務(wù)可觀測的重點建設(shè)內(nèi)容。
業(yè)界基于業(yè)務(wù)監(jiān)控的有三大技術(shù):APM的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測、應(yīng)用標(biāo)準(zhǔn)化日志的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測、網(wǎng)絡(luò)流量鏡像分析的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測。
三者各有優(yōu)劣點,如基于APM的技術(shù)面臨著全量采集給應(yīng)用帶來的性能壓力、基于日志則需要應(yīng)用進(jìn)行標(biāo)準(zhǔn)化日志輸出的改造、基于網(wǎng)絡(luò)流量則面臨著網(wǎng)絡(luò)丟包、數(shù)據(jù)量巨大和云原生SDN架構(gòu)下的流量采集技術(shù)壁壘等問題。企業(yè)需要根據(jù)自己的實際情況選擇合適的技術(shù)。
最后,業(yè)務(wù)可觀測的技術(shù)還需要能夠聯(lián)動應(yīng)用可觀測,從而實現(xiàn)從業(yè)務(wù)指標(biāo)到具體問題資源對象聯(lián)動起來的根因定位。
07. 可觀測平臺三年建設(shè)計劃建議
前面提到,可觀測不是將現(xiàn)有監(jiān)控推倒重來,而是基于現(xiàn)狀進(jìn)行規(guī)劃建設(shè)。對于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設(shè)計劃:
第一年:感知&治理
第二年:定位&業(yè)務(wù)
第三年:智能&擴(kuò)展
LLMOps+DeepSeek:大模型升級一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時代再升級!
查看詳細(xì)
DeepSeek已接入!OpsPilot探索智能運(yùn)維無限可能!
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 進(jìn)階之路
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 轉(zhuǎn)型與 SLO 管理的深度融合
查看詳細(xì)
SRE轉(zhuǎn)型:不同團(tuán)隊規(guī)模下的銀行SRE團(tuán)隊組建策略
查看詳細(xì)
申請演示
主站蜘蛛池模板: 岫岩| 湖州市| 德惠市| 集安市| 曲周县| 涡阳县| 耒阳市| 关岭| 永平县| 沂水县| 龙门县| 柯坪县| 吐鲁番市| 泸水县| 建昌县| 通城县| 庆云县| 宜春市| 辽阳市| 高雄市| 萨嘎县| 泽普县| 姚安县| 桂平市| 平谷区| 上饶市| 蒙山县| 远安县| 额尔古纳市| 孟州市| 盘锦市| 大厂| 德惠市| 五指山市| 高邑县| 池州市| 英吉沙县| 定南县| 龙井市| 六枝特区| 金川县|