01. 觀測場景
分布式、微服務、云原生等先進應用架構在落地敏捷開發、快速迭代、彈性伸縮的同時將原有的單體應用拆分成多個獨立部署相互通信的組合應用。應用數量指數級增長,業務模塊間依賴關系錯綜復雜,不同業務層級不同維度難以建立實時有效的映射關系。同時,隨著容器頻繁啟停,監控對象及其指標變化成為常態,故障現場難以留存、故障問題難以有效定位。
02. 場景痛點
以上云原生架構的觀測難點給應用運維的故障分析、根因定位、業務連續穩定帶來嚴峻挑戰。應用觀測難點概述為以下兩點:
1)信息維度復雜,難以建立多維數據關聯映射關系
云原生應用的監控度量涉及應用進程、中間件、容器編排平臺、容器進程、資源基礎設施等相關層級資源屬性和性能指標;其次,應用排障及性能剖析涉及多個服務、多個組件復雜交互關系,需根據請求鏈路依賴關系分析故障根因。
2)架構動態變化,故障現場難以留存,問題難以定位
容器部署架構基于聲明式面向終態的設計思想,部署資源實例對象變更頻繁,服務節點漂移成為常態。基于多維明細數據和指標數據關聯映射構建的運行時觀測分析矩陣能有效回溯歷史故障現場。
03. 解決方案
1)合縱連橫故障尋址
縱向:建立運行時軟件架構級聯對象下鉆分析邏輯。基于實際業務流量構建不同服務的全局依賴拓撲,實現可選時間范圍的單業務領域全景分析,通過拓撲節點大小、顏色差異有效分析服務流量負載及服務健康狀態,支持對服務節點的下鉆分析、指定時間范圍內服務請求、負載、錯誤、耗時黃金指標,在服務內可下鉆分析服務的單一接口/單一服務實例進一步故障尋址分析。將服務實例與CMDB管理資源(主機、容器)關聯,可下鉆至IaaS層資源,分析IT基礎資源指標異常對服務流量的影響。
橫向:基于Trace串聯構建單筆請求鏈路追蹤。每筆業務請求調用在入口服務生成請求唯一標識,當流量在下游多個服務傳遞時將請求唯一標識、當前節點請求標識、上游服務信息作為上下文傳遞,從而構建完成業務調用鏈路。此外,用戶可結合實際業務場景從HTTP請求頭、請求參數、cookie等獲取業務特征數據完成數據埋點,在鏈路分析時根據指定業務特征的請求依賴關系輔助業務異常分析。
2)調用鏈與日志明細關聯根因定位
在KAPM和KLC共同交付場景下,可將調用鏈和日志明細進行關聯,實現高效根因定位。通過KAPM調用鏈分析能力用戶可以確定請求依賴關系、縮小排障范圍、準確故障尋址,但無法獲取故障根因明細,在此場景下將調用鏈和日志明細關聯無縫鏈接排障最后“一公里”。
04. 產品功能
功能點1:應用分析
鏈路拓撲:通過探針埋點服務進程,自動探測繪制應用運行拓撲;通過節點面積大小區分服務流量情況,并根據相應耗時/請求錯誤等數據對服務節點進行Apdex評分染色。
資源關系:根據探針采集數據,自動關聯主機、數據庫及消息隊列的基礎監控實例,實現APM與ITIM的聯動觀測能力。
指標分析:通過頁面集中展示應用運行黃金指標(健康狀態、請求負載和請求錯誤數),展示服務及接口的請求TOP列表。
功能點2:服務分析
服務列表:展示應用所屬全部服務列表,匯總概要指標數據。
指標分析:展示服務視角運行指標,包括Apdex評分、請求負載、請求錯誤數和請求耗時等。
鏈路拓撲:展示從指定服務出發的局部拓撲上下游關系,精準定位服務運行影響范圍。
接口列表:集中展示服務所屬接口,匯總概要信息。
請求列表:羅列詳細請求數據,精準記錄每一次業務運行,支持一鍵跳轉接口分析、服務分析、調用鏈檢索等場景頁面。
錯誤列表:集中展示錯誤調用,支持一鍵跳轉調用鏈檢索頁面,可在頁面一鍵查看錯誤堆棧信息。
實例分析-請求概覽:針對服務實例(Java進程)級別的分析概覽頁面,支持用戶查看健康狀態、請求負載、請求錯誤數和請求耗時等數據
實例分析-JVM分析:針對實例級別的進程進行JVM分析,包括GC分析、堆內存分析、線程分析等指標視圖。
SQL/NOSQL分析:針對服務調用的周邊數據庫進行應用層面的數據分析視圖,包括針對SQL命令/慢命令/錯誤的匯總分析視圖。
功能點3:接口分析
下鉆至具體服務接口,查看應用運行情況,包括應用運行數據概覽、請求列表和錯誤列表匯總分析;支持一鍵跳轉服務分析,支持下鉆至調用鏈檢索進行詳情查看。
功能點4:調用鏈檢
Trace/Span檢索:針對調用鏈Trace和Span環節的詳情檢索頁面,支持通過Trace/SpanID精準定位請求詳情,支持通過請求耗時范圍檢索請求列表;
請求詳情:通過查看詳情數據分析系統運行情況,包括探針原始數據,與日志聯動的分析能力。
功能點5:應用配置
健康度評分:支持用戶手動配置健康度閾值,針對不同應用情況進行不同條件下的應用運行評估。
SQL/NOSQL慢命令配置:支持用戶自定義“慢命令/慢SQL”的閾值配置。
05. 落地愿景
在科技飛速發展的今天,各行各業都在不斷迎來新的變革。在IT運維領域,云原生概念隨著微服務、云以及容器化等技術的大規模應用愈發深入人心;云原生帶來的新的運維困境和技術難題也愈發尖銳。在此背景下應時而生的調用鏈追蹤技術,將會幫助運維乃至開發人員更加方便快捷的完成系統維穩、代碼優化、故障排查等動作。同時,詳盡的寬事件數據也在推動著監控領域從被動告警響應向主動可觀測的模式轉變,從而加速各行各業的產品迭代,最終實現IT領域的加速發展。
申請演示
主站蜘蛛池模板: 玛纳斯县| 湘阴县| 成安县| 鄯善县| 西丰县| 宁城县| 桦南县| 定襄县| 绵竹市| 辉县市| 安国市| 漳平市| 台南县| 邵阳市| 福泉市| 绥棱县| 定安县| 邹平县| 吉木萨尔县| 类乌齐县| 仁寿县| 霍城县| 吴桥县| 磴口县| 石泉县| 桓台县| 辽中县| 昭觉县| 启东市| 得荣县| 利津县| 沁阳市| 洛扎县| 广饶县| 云安县| 卢氏县| 高阳县| 旌德县| 石家庄市| 林芝县| 东乌|