近年來,隨著企業業務規模日益龐大,IT架構日益復雜,云計算、微服務等一系列技術在各企業內部開始逐步探索落地。技術的發展不僅對企業內部運維管理產生了極大的挑戰,對于監控體系也提出了更高的要求。
某運營商公司在IT架構搭建、組織部門規劃時,大膽采用先進理念,進行了全部業務系統的分布式設計、SRE運維部門的分工創建。嘉為藍鯨全棧智能觀測中心在其中為業務系統的研發測試、快速迭代提供了重要的工具能力支撐;為SRE運維組觀測業務系統運行情況、及時定位分析處置告警提供了統一能力平臺。
01. 業務場景
分布式、微服務、云原生等先進應用架構在落地敏捷開發、快速迭代、彈性伸縮的同時將原有的單體應用拆分成多個獨立部署相互通信的組合應用。應用數量指數級增長,業務模塊間依賴關系錯綜復雜,不同業務層級不同維度難以建立實時有效的映射關系。同時,隨著容器頻繁啟停,監控對象及其指標變化成為常態,故障現場難以留存、故障問題難以有效定位。
02. 分析痛點
以上云原生架構的觀測難點給應用運維的故障分析、根因定位、業務連續穩定帶來嚴峻挑戰。應用觀測難點概述為以下兩點:
1)信息維度復雜,難以建立多維數據關聯映射關系
云原生應用的監控度量涉及應用進程、中間件、容器編排平臺、容器進程、資源基礎設施等相關層級資源屬性和性能指標;其次,應用排障及性能剖析涉及多個服務、多個組件復雜交互關系,需根據請求鏈路依賴關系分析故障根因。
2)架構動態變化,故障現場難以留存,問題難以定位
容器部署架構基于聲明式面向終態的設計思想,部署資源實例對象變更頻繁,服務節點漂移成為常態。基于多維明細數據和指標數據關聯映射構建的運行時觀測分析矩陣能有效回溯歷史故障現場。
03. 解決方案
1)合縱連橫故障尋址
縱向:建立運行時軟件架構級聯對象下鉆分析邏輯。基于實際業務流量構建不同服務的全局依賴拓撲,實現可選時間范圍的單業務領域全景分析,通過拓撲節點大小、顏色差異有效分析服務流量負載及服務健康狀態,支持對服務節點的下鉆分析、指定時間范圍內服務請求、負載、錯誤、耗時黃金指標,在服務內可下鉆分析服務的單一接口/單一服務實例進一步故障尋址分析。將服務實例與CMDB管理資源(主機、容器)關聯,可下鉆至IaaS層資源,分析IT基礎資源指標異常對服務流量的影響。
橫向:基于Trace串聯構建單筆請求鏈路追蹤。每筆業務請求調用在入口服務生成請求唯一標識,當流量在下游多個服務傳遞時將請求唯一標識、當前節點請求標識、上游服務信息作為上下文傳遞,從而構建完成業務調用鏈路。此外,用戶可結合實際業務場景從HTTP請求頭、請求參數、cookie等獲取業務特征數據完成數據埋點,在鏈路分析時根據指定業務特征的請求依賴關系輔助業務異常分析。
2)調用鏈與日志明細關聯根因定位
在KAPM和KLC共同交付場景下,可將調用鏈和日志明細進行關聯,實現高效根因定位。通過KAPM調用鏈分析能力用戶可以確定請求依賴關系、縮小排障范圍、準確故障尋址,但無法獲取故障根因明細,在此場景下將調用鏈和日志明細關聯無縫鏈接排障最后“一公里”。
04. 成果展示
1)核心應用系統全覆蓋
2)根據應用運行情況,展示應用概覽看板
3)應用關聯資源自動發現
4)接口級運行狀況監控
5)系統請求Trace實時檢索
05. 建設成效
06. 場景適用性
嘉為藍鯨可觀測中心適用于企業內部系統分布式架構設計,微服務化系統單元的場景。適用于以下類型的企業:
申請演示
主站蜘蛛池模板: 旌德县| 横山县| 土默特左旗| 榆林市| 葫芦岛市| 威远县| 兴安盟| 阳信县| 林甸县| 青海省| 黄浦区| 泸定县| 北票市| 锡林郭勒盟| 增城市| 宁安市| 阿克苏市| 东乌珠穆沁旗| 元谋县| 泰州市| 和政县| 涟水县| 伊金霍洛旗| 惠州市| 清镇市| 宝坻区| 龙岩市| 大埔县| 泸西县| 龙井市| 莒南县| 临湘市| 乐平市| 枣阳市| 肥城市| 四子王旗| 朝阳市| 藁城市| 乐亭县| 澎湖县| 宁强县|