精品国产一区二区三区麻豆小说,亚洲国产精品一区二区三区,欧美大片一区二区,欧美日韩国产精品一区

首頁

/

一文詳解傳統(tǒng)企業(yè)可觀測建設(shè)之路

發(fā)布日期:2024-07-18 15:17:35

分享到

01. 數(shù)字化轉(zhuǎn)型與可觀測的關(guān)系

在數(shù)字化轉(zhuǎn)型的浪潮中,我們面臨著將“線下業(yè)務(wù)線上化”及實現(xiàn)“業(yè)務(wù)快速創(chuàng)新迭代”的迫切需求,這也進(jìn)而要求支撐業(yè)務(wù)的應(yīng)用系統(tǒng)更加敏捷、可擴(kuò)展性更高。

因而,分布式、云原生是企業(yè)應(yīng)用架構(gòu)的發(fā)展方向。

分布式架構(gòu)下,各種IT對象如消息隊列、緩存、分布式數(shù)據(jù)庫等層出不窮,并且組件間的調(diào)用關(guān)系錯綜復(fù)雜。

此時,傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無法提供分布式應(yīng)用故障診斷所需的更多有效信息,因此,一個面向應(yīng)用面向故障的全棧可觀測方案越來越成為企業(yè)IT運(yùn)維的迫切需求。


02. 30年過去,終迎來第二代監(jiān)控——可觀測

IT監(jiān)控作為IT運(yùn)維之眼,是IT運(yùn)維第一個建設(shè)的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對象以及在監(jiān)控能力(如指標(biāo)、Log、Trace)的不斷擴(kuò)展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據(jù)Gartner市場調(diào)研數(shù)據(jù)顯示,超過70%的中大型企業(yè)擁有10個以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。

監(jiān)控工具越來越多,但每個監(jiān)控工具卻只能揭示業(yè)務(wù)和應(yīng)用的部分問題,且工具能力重合、工具數(shù)據(jù)互為煙囪,這導(dǎo)致用戶難以聯(lián)動整合所有監(jiān)控,面向整個業(yè)務(wù)和應(yīng)用進(jìn)行全面的故障診斷。

傳統(tǒng)工具發(fā)展的這些瓶頸和問題在可觀測體系中得到了完美解決。

傳統(tǒng)監(jiān)控與可觀測的主要區(qū)別如下:

簡單來講,監(jiān)控主要聚焦在感知,可觀測還聚焦于問題出現(xiàn)之后診斷分析和隱患發(fā)現(xiàn)。


03. 基于四大支柱數(shù)據(jù)設(shè)計可觀測體系

要做到面向應(yīng)用、面向故障的可觀測,我們需要為整個應(yīng)用系統(tǒng)的生產(chǎn)運(yùn)行拓?fù)溥M(jìn)行建模,并將應(yīng)用所有相關(guān)組件的各種觀測數(shù)據(jù)進(jìn)行有機(jī)聚合,因此,可觀測體系設(shè)計的核心理念在于對Metirc、Log、Trace、Topology這四大支柱數(shù)據(jù)進(jìn)行統(tǒng)一采集、統(tǒng)一治理和有機(jī)聚合。

這幾個數(shù)據(jù)之間的關(guān)系如下:

  • Topology描述了一個應(yīng)用包含多少個微服務(wù)、一個微服務(wù)包含多少個實例,實例運(yùn)行在哪些Pod上,Pod又運(yùn)行在哪些虛擬機(jī)上, 虛擬機(jī)連接了哪些存儲,服務(wù)或?qū)嵗g存在什么樣的調(diào)用關(guān)系等資源配置和關(guān)聯(lián)關(guān)系數(shù)據(jù)。
  • Topology提供了觀測的元數(shù)據(jù)(資源及拓?fù)洌鳛镸etric、Log、Trace的資源主體。但在某些場景下,Trace中發(fā)現(xiàn)的應(yīng)用調(diào)用關(guān)系、Log中采集和發(fā)現(xiàn)的一些業(yè)務(wù)交易拓?fù)潢P(guān)系,也可以成為Topology中的數(shù)據(jù)來源。
  • 當(dāng)一個IT對象的指標(biāo)(Metric)存在告警時,我們需要基于Trace向上分析故障影響,向下追溯根因,也需要獲取該對象的Log信息進(jìn)行進(jìn)一步的故障診斷。
  • 當(dāng)一個微服務(wù)的調(diào)用(Trace)延遲或失敗時,我們可以基于Metric和Log進(jìn)一步分析相關(guān)對象的關(guān)鍵健康指標(biāo)和日志上下文信息。

基于上述理念,可抽象可觀測的數(shù)據(jù)模型如下:

  • 面向應(yīng)用系統(tǒng)部署情況構(gòu)建從上到下(應(yīng)用、微服務(wù)、實例、系統(tǒng)與虛擬化、硬件)的縱向分層對象模型關(guān)系;
  • 基于APM調(diào)用關(guān)系構(gòu)建橫向的服務(wù)間調(diào)用實例調(diào)用關(guān)系;
  • 每一個實例的狀態(tài)信息,可通過各種采集手段獲取相關(guān)的Metrix、Log、Trace監(jiān)測數(shù)據(jù)。
  • 當(dāng)系統(tǒng)出現(xiàn)故障時,通過橫縱向的關(guān)系和Metric/Log/Trace的告警聚合信息,實現(xiàn)自動化告警收斂和故障診斷,從而給出相關(guān)的根因推薦。

基于此設(shè)計,我們可以自動構(gòu)建應(yīng)用橫縱向全景拓?fù)洌兄獞?yīng)用故障點。

根據(jù)故障點實現(xiàn)上游故障影響分析和下游故障根因溯源。


04. 可觀測成熟度模型

可觀測既包含了傳統(tǒng)監(jiān)控的技術(shù),又包含了基于數(shù)據(jù)和AI的統(tǒng)一數(shù)據(jù)治理與智能根因分析以實現(xiàn)端到端的監(jiān)控與分析的能力。可觀測體系的建設(shè)不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來,而是一個基于科學(xué)建設(shè)路徑和方法逐步演進(jìn)的過程。

可觀測成熟度模型如下:

L1【基礎(chǔ)可觀測】

  • 補(bǔ)全基礎(chǔ)監(jiān)控,以滿足分布式時代各類云、容器、分布式組件等的監(jiān)控要求;
  • 對各個監(jiān)控工具中的告警事件進(jìn)行統(tǒng)一告警匯聚、告警豐富、告警收斂、告警分派、告警分析、告警處置、告警復(fù)盤的全生命周期管理。

L2【應(yīng)用可觀測】

  • 基于數(shù)據(jù)平臺思路建設(shè)集中監(jiān)控,接入企業(yè)當(dāng)前已有各類監(jiān)控工具,實現(xiàn)統(tǒng)一對象管理、指標(biāo)管理、策略及視圖管理等;
  • 補(bǔ)全APM能力實現(xiàn)應(yīng)用性能監(jiān)控。

L3【因果可觀測】

  • 將四大支柱數(shù)據(jù)融合打通,通過各種自動構(gòu)建的排障拓?fù)涮峁┕收陷o助定位能力。

L4【主動可觀測】

  • 在L3之上,基于上下文分析能力和AI能力,實現(xiàn)故障的主動式定位和根因推薦;
  • 基于知識庫和大模型能力,實現(xiàn)故障處置預(yù)案推薦,并提供監(jiān)控、告警、日志小助手與運(yùn)維人員進(jìn)行實現(xiàn)緊密協(xié)同。

L5【業(yè)務(wù)可觀測】

  • 基于行業(yè)特征,實現(xiàn)對關(guān)鍵業(yè)務(wù)交易活動和交易鏈路的監(jiān)控,將業(yè)務(wù)監(jiān)控與應(yīng)用可觀測無縫集成以進(jìn)一步保障業(yè)務(wù)穩(wěn)定運(yùn)行;
  • 聯(lián)動ITSM、自動化等實現(xiàn)端到端的故障預(yù)防、發(fā)現(xiàn)、定位、處置與復(fù)盤改進(jìn)的“1-5-10”業(yè)務(wù)連續(xù)性管理能力;
  • 基于算力調(diào)度能力實現(xiàn)業(yè)務(wù)智能擴(kuò)縮容和成本優(yōu)化。


05. 可觀測平臺功能設(shè)計

可參考下圖進(jìn)行可觀測平臺的功能設(shè)計:

  • 以數(shù)據(jù)中臺思路建設(shè)底座,以滿足各類數(shù)據(jù)的采集清洗和各類外部監(jiān)控工具數(shù)據(jù)的接入;
  • 建設(shè)統(tǒng)一觀測能力中心,包含面向Metric、Log、Trace的各項觀測基本能力;
  • 構(gòu)建統(tǒng)一觀測場景,包含基礎(chǔ)集中監(jiān)控、日志和APM、統(tǒng)一告警場景,也包含觀測融合相關(guān)全鏈路監(jiān)控、故障輔助定位等場景。


06. 可觀測平臺建設(shè)過程

建設(shè)重點1——觀測元數(shù)據(jù)建模治理【Topology】

  • 面向應(yīng)用建立觀測元數(shù)據(jù)模型,包括描述應(yīng)用的生產(chǎn)和災(zāi)備環(huán)境,描述應(yīng)用的可用區(qū)或分布式地域集群,描述組成應(yīng)用的子系統(tǒng)或模塊(微服務(wù))。
  • 模塊(微服務(wù))包含一組實例,實例則是運(yùn)行于虛擬機(jī)或容器上。微服務(wù)之間存在調(diào)用關(guān)系,微服務(wù)也與消息隊列、數(shù)據(jù)庫等基礎(chǔ)組件存在訪問關(guān)聯(lián)關(guān)系。
  • 觀測元數(shù)據(jù)建議使用企業(yè)統(tǒng)一的CMDB進(jìn)行存儲。一方面可以充分利用CMDB中自動采集&手動維護(hù)的各類IT資源對象數(shù)據(jù),另一方面基于統(tǒng)一對象配置數(shù)據(jù)與ITSM、自動化等運(yùn)維工具聯(lián)動實現(xiàn)故障定位(如從ITSM獲取該對象近期的變更審批信息,從自動化平臺獲取該對象近期的操作記錄以作為輔助故障定位)和處置自動化。


設(shè)重點2——指標(biāo)體系建模治理【Metric】

  • IT資源對象種類多,IT存量監(jiān)控工具數(shù)量大,因此面向硬件、系統(tǒng)、云、OS、虛擬化、中間件、數(shù)據(jù)庫等基礎(chǔ)資源的集中監(jiān)控能力是可觀測體系建設(shè)的基礎(chǔ)。
  • 集中監(jiān)控的關(guān)鍵前提是統(tǒng)一指標(biāo)治理,包括對每種資源對象的指標(biāo)定義、指標(biāo)梳理和指標(biāo)消費等。
  • 集中監(jiān)控的建設(shè)過程是擴(kuò)展種類采集插件覆蓋各種IT對象,或提供便利的數(shù)據(jù)接入能力接入其他監(jiān)控工具的數(shù)據(jù)。


設(shè)重點3——統(tǒng)一日志管理【Log】

可觀測平臺需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類設(shè)備日志管理需求。


建設(shè)重點4——APM實現(xiàn)故障追蹤【Trace】

APM是分布式系統(tǒng)的關(guān)鍵監(jiān)控能力,通過APM可以對應(yīng)用的四個黃金指標(biāo)進(jìn)行監(jiān)控,可以對服務(wù)件、服務(wù)與組件間的調(diào)用狀態(tài)進(jìn)行監(jiān)控,還可以實現(xiàn)對服務(wù)接口級、方法級的故障發(fā)現(xiàn)與診斷分析。


建設(shè)重點5——實現(xiàn)告警的全生命周期治理【Alert】

  • 告警接入:通過可擴(kuò)展的告警源插件完成各類告警事件的接入;
  • 告警豐富:聯(lián)動CMDB完成告警豐富,包括運(yùn)維人員、告警對象配置信息等;
  • 告警抑制:基于多種靈活的告警收斂方法實現(xiàn)告警收斂,避免告警風(fēng)暴;
  • 告警分派:將告警事件自動分派或手動分派給相應(yīng)的運(yùn)維人員進(jìn)行處置;
  • 告警分析:基于告警對象的Log、Trace、Metric,基于告警對象的上下游關(guān)聯(lián)對象的狀態(tài)信息,基于告警對象的近期變更或運(yùn)維信息進(jìn)行展示分析;
  • 告警處置:聯(lián)動自動化平臺進(jìn)行告警的處置。

基于統(tǒng)一告警中心的建設(shè),實現(xiàn)一條告警的全生命周期流轉(zhuǎn)閉環(huán)管控。


建設(shè)重點6——基于AI與LLM的智能可觀測【AI】

通過集成AI能力實現(xiàn)動態(tài)閾值、告警聚合收斂、時序預(yù)測、日志聚類分析、多維下鉆與根因定位等智能可觀測能力。

基于LLM可以構(gòu)建可觀測智能小助手,如展示告警詳情:

挖掘告警相關(guān)故障信息:

獲取故障推薦和交互式故障自動化處理:


建設(shè)重點7——基于應(yīng)用可觀測向上構(gòu)建業(yè)務(wù)可觀測【Business】

在數(shù)字化時代,業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行都會反饋到應(yīng)用系統(tǒng)的各項運(yùn)行指標(biāo)上,運(yùn)維的最核心目標(biāo)也是保障業(yè)務(wù)的穩(wěn)定生產(chǎn)運(yùn)行。

當(dāng)我們實現(xiàn)了應(yīng)用可觀測后,基于應(yīng)用可觀測能力去構(gòu)建面向上層各類業(yè)務(wù)活動、業(yè)務(wù)場景的可觀測,就會水到渠成且事半功倍。

業(yè)務(wù)觀測領(lǐng)域中,最重要的是對各類業(yè)務(wù)交易場景以及各個應(yīng)用系統(tǒng)的業(yè)務(wù)黃金指標(biāo)進(jìn)行監(jiān)控,例如銀行,有各種支付、轉(zhuǎn)賬、查額、還款等場景,這些交易的交易鏈路如何自動構(gòu)建,如何監(jiān)測每一筆交易的效率和質(zhì)量,如何在交易異常的情況下迅速找到問題點并進(jìn)行解決,是業(yè)務(wù)可觀測的重點建設(shè)內(nèi)容。

業(yè)界基于業(yè)務(wù)監(jiān)控的有三大技術(shù):APM的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測、應(yīng)用標(biāo)準(zhǔn)化日志的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測、網(wǎng)絡(luò)流量鏡像分析的交易鏈路自動構(gòu)建與黃金指標(biāo)監(jiān)測。

三者各有優(yōu)劣點,如基于APM的技術(shù)面臨著全量采集給應(yīng)用帶來的性能壓力、基于日志則需要應(yīng)用進(jìn)行標(biāo)準(zhǔn)化日志輸出的改造、基于網(wǎng)絡(luò)流量則面臨著網(wǎng)絡(luò)丟包、數(shù)據(jù)量巨大和云原生SDN架構(gòu)下的流量采集技術(shù)壁壘等問題。企業(yè)需要根據(jù)自己的實際情況選擇合適的技術(shù)。

最后,業(yè)務(wù)可觀測的技術(shù)還需要能夠聯(lián)動應(yīng)用可觀測,從而實現(xiàn)從業(yè)務(wù)指標(biāo)到具體問題資源對象聯(lián)動起來的根因定位。


07. 可觀測平臺三年建設(shè)計劃建議

前面提到,可觀測不是將現(xiàn)有監(jiān)控推倒重來,而是基于現(xiàn)狀進(jìn)行規(guī)劃建設(shè)。對于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設(shè)計劃:

第一年:感知&治理

  • 構(gòu)建硬件、云、容器、系統(tǒng)、組件監(jiān)控等統(tǒng)一基礎(chǔ)監(jiān)控感知能力;
  • 構(gòu)建統(tǒng)一日志監(jiān)控感知能力;
  • 構(gòu)建統(tǒng)一應(yīng)用調(diào)用鏈監(jiān)控感知能力;
  • 構(gòu)建告警的統(tǒng)一閉環(huán)治理能力。

第二年:定位&業(yè)務(wù)

  • 面向應(yīng)用構(gòu)建故障的快速定位能力
    融合APM(Trace)、基礎(chǔ)監(jiān)控(Metric)、日志(Log)、CMDB拓?fù)洌═opology)進(jìn)行輔助故障定位;
    構(gòu)建各類可視化應(yīng)用拓?fù)涮峁┕收仙嫌斡绊懛治瞿芰Γ峁┕收舷掠嗡菰捶治瞿芰Α?/span>
  • 面向業(yè)務(wù)提供監(jiān)控與故障定位能力
    實現(xiàn)業(yè)務(wù)指標(biāo)監(jiān)控與業(yè)務(wù)交易鏈路觀測;
    結(jié)合應(yīng)用可觀測能力實現(xiàn)業(yè)務(wù)問題的故障定位。

第三年:智能&擴(kuò)展

  • 結(jié)合AI和大模型進(jìn)一步升華可觀測能力
    基于AI實現(xiàn)根因定位、動態(tài)閾值、告警聚類、離群檢測、容量預(yù)測、智能擴(kuò)縮容、算力調(diào)度能力;
    基于大模型與知識庫的處置預(yù)案推薦,基于自動化的故障自愈。
  • 融合網(wǎng)絡(luò)監(jiān)控工具和用戶監(jiān)控工具實現(xiàn)全棧監(jiān)控
    融合NPM、eBPF技術(shù)將網(wǎng)絡(luò)流量級診斷能力豐富到故障定位能力中;
    融合RUM(真實用戶監(jiān)控)實現(xiàn)端到端的全棧可觀測能力。

免費申請演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!

主站蜘蛛池模板: 岫岩| 湖州市| 德惠市| 集安市| 曲周县| 涡阳县| 耒阳市| 关岭| 永平县| 沂水县| 龙门县| 柯坪县| 吐鲁番市| 泸水县| 建昌县| 通城县| 庆云县| 宜春市| 辽阳市| 高雄市| 萨嘎县| 泽普县| 姚安县| 桂平市| 平谷区| 上饶市| 蒙山县| 远安县| 额尔古纳市| 孟州市| 盘锦市| 大厂| 德惠市| 五指山市| 高邑县| 池州市| 英吉沙县| 定南县| 龙井市| 六枝特区| 金川县|