01. 數(shù)據(jù)與智能技術(shù)在運(yùn)維業(yè)務(wù)中的定位
數(shù)據(jù)與智能技術(shù)在運(yùn)維業(yè)務(wù)中的應(yīng)用近幾年進(jìn)入“實(shí)用化提升階段”,無論從供給方,還是需求方,都逐步認(rèn)識到,“數(shù)據(jù)與智能”運(yùn)維有其邊界和條件,“AI加持運(yùn)維”比“AI顛覆運(yùn)維”有了更廣泛的聲音;我們樂于看到甲乙方更為聚焦在實(shí)用化業(yè)務(wù)場景上:基于數(shù)據(jù)與智能的技術(shù)手段,補(bǔ)足和提升一體化運(yùn)維。
回歸業(yè)務(wù)本質(zhì),運(yùn)維復(fù)雜度是由管理場景和技術(shù)對象共同來影響的,所以回到一體化運(yùn)維的定義中:基于運(yùn)維業(yè)務(wù)視角的角色、流程、活動(對象)、工具系統(tǒng)的整合,業(yè)務(wù)運(yùn)轉(zhuǎn)順暢、流程運(yùn)行高速、工具支撐高效是對運(yùn)維一體化的核心驗(yàn)證,運(yùn)維一體化不僅僅是工具全面和單一工具技術(shù)功能完備,而是要融入業(yè)務(wù)設(shè)計和整個體系中。因而數(shù)據(jù)和智能是一種生產(chǎn)力,尤其是在數(shù)據(jù)整合、高階分析場景上,帶來整體的提升。
運(yùn)維大數(shù)據(jù)在運(yùn)維的定位:跨多數(shù)據(jù)源系統(tǒng),實(shí)現(xiàn)配置、運(yùn)行、操作、流程等維度數(shù)據(jù)源分析,提升性能容量、觀測整合、運(yùn)營分析等的運(yùn)維能力。例如:在一站式數(shù)據(jù)和功能閉環(huán)的可觀測架構(gòu)設(shè)計下,數(shù)據(jù)采集、清洗、存儲、檢測、消費(fèi)均自行閉環(huán),產(chǎn)品內(nèi)置大數(shù)據(jù)能力。然而,由于數(shù)據(jù)源來自不同的專業(yè)監(jiān)控工具,對數(shù)據(jù)接入、統(tǒng)一元數(shù)據(jù)和數(shù)據(jù)標(biāo)簽的要求變得更高。因此,需要運(yùn)維大數(shù)據(jù)進(jìn)行管理和處理。
AI技術(shù)在運(yùn)維中的定位:通過機(jī)器學(xué)習(xí)、自然語言處理、大語言模型和其他AI技術(shù),AI in All來對原有運(yùn)維系統(tǒng)的能力加持,提升故障管理、服務(wù)優(yōu)化、成本節(jié)省、安全提升等運(yùn)維能力。例如:在一體化運(yùn)維的告警事件中心里,核心是告警接入、標(biāo)準(zhǔn)化與豐富、告警收斂、屏蔽、委派、生成事件、自動化處置,而在規(guī)模到達(dá)一定量級的告警數(shù),則需要文本相似度等算法來做告警的智能聚合,或基于圖譜的智能聚合,這樣能在原有基礎(chǔ)上進(jìn)一步升級。
概要設(shè)計:運(yùn)維大數(shù)據(jù)及AI是技術(shù)能力,核心是應(yīng)用到運(yùn)維業(yè)務(wù)場景中;有三個核心基礎(chǔ):基礎(chǔ)運(yùn)維系統(tǒng)提供數(shù)據(jù)和能力、數(shù)據(jù)及AI平臺提供數(shù)據(jù)處理和模型訓(xùn)練能力、運(yùn)維數(shù)據(jù)分析及算法工程師和團(tuán)隊提供組織支撐。
02. 大數(shù)據(jù)分析運(yùn)維場景實(shí)踐
首先初步定義運(yùn)維數(shù)據(jù)域,可以大致劃分成5個域:
① 配置域:IT資產(chǎn)管理系統(tǒng)、配置管理中各類電子信息設(shè)備的基本信息、技術(shù)參數(shù)及關(guān)聯(lián)關(guān)系等信息,包括PC機(jī)、服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、輔助設(shè)備、機(jī)房環(huán)境設(shè)備、套裝軟件及應(yīng)用系統(tǒng)軟件等。
② 狀態(tài)域:IT監(jiān)控、自動化運(yùn)維、安全監(jiān)測等采集的設(shè)備軟硬件性能、狀態(tài)、事件、日志、告警及實(shí)用化數(shù)據(jù)等。
③ 流程域:運(yùn)維流程管理中執(zhí)行一個業(yè)務(wù)流程所產(chǎn)生的相關(guān)記錄數(shù)據(jù)。
④ 作業(yè)域:自動化作業(yè)、故障自愈、編排處置步驟等作業(yè)執(zhí)行流程數(shù)據(jù)和操作審計數(shù)據(jù)。
⑤ 知識域:故障事件處理經(jīng)驗(yàn),其他相關(guān)知識庫,以知識主題、關(guān)鍵字索引、內(nèi)容等形式存在。
數(shù)據(jù)治理框架核心要定義幾個問題:
這里有幾個實(shí)踐建議:
① 消費(fèi)場景聚焦在提升性能容量、觀測整合、運(yùn)營分析的高階運(yùn)維能力;尤其是在觀測整合上,當(dāng)前可觀測主要圍繞故障分析和定位展開,基于數(shù)據(jù)管理框架,則可以完成數(shù)據(jù)標(biāo)簽統(tǒng)一、數(shù)據(jù)聚合計算、數(shù)據(jù)關(guān)聯(lián)信息平面、AI模型應(yīng)用等,例如其中一個觀測場景可以基于告警視角,展開Trace、Log、Metric、場景視圖、知識庫關(guān)聯(lián)、變更事件關(guān)聯(lián)分析等,來形成初步的觀測整合分析場景:
② 技術(shù)價值主要體現(xiàn)在復(fù)雜和大規(guī)模的數(shù)據(jù)清洗、開發(fā)和存儲需求;跨數(shù)據(jù)源的數(shù)據(jù)關(guān)聯(lián)計算;聯(lián)動MLOps實(shí)現(xiàn)數(shù)據(jù)樣本和數(shù)據(jù)源的關(guān)聯(lián),實(shí)現(xiàn)AIOps模型開發(fā)和應(yīng)用。
③ 數(shù)據(jù)管理采用專業(yè)分散,消費(fèi)驅(qū)動的模式管理,專業(yè)分散是指如CMDB、Metric、Trace、Log等都在專業(yè)管理工具里,消費(fèi)驅(qū)動則是基于場景調(diào)用時,再去做數(shù)據(jù)接入、標(biāo)簽、關(guān)聯(lián)計算等,支撐數(shù)據(jù)之上的場景應(yīng)用。
而到運(yùn)維數(shù)據(jù)平臺自身的應(yīng)用架構(gòu),運(yùn)維數(shù)據(jù)平臺應(yīng)該具備的核心功能包括數(shù)據(jù)采集接入、數(shù)據(jù)清洗加工、數(shù)據(jù)入庫存儲、數(shù)據(jù)開發(fā)、數(shù)據(jù)探索、數(shù)據(jù)集市等,并且要具備元數(shù)據(jù)、數(shù)據(jù)質(zhì)量和安全等管理能力和自運(yùn)維能力。在運(yùn)維數(shù)據(jù)管理過程中不僅要關(guān)注“穩(wěn)定”“安全”“可靠”,更要關(guān)注“體驗(yàn)”“效率”“效益”。
03. AI運(yùn)維場景實(shí)踐
數(shù)據(jù)+算法驅(qū)動的分析決策能力是AIOps場景落地的核心能力。基于運(yùn)維數(shù)據(jù)平臺提供的高質(zhì)量、低延遲的統(tǒng)一運(yùn)維數(shù)據(jù),智能分析決策平臺可以根據(jù)不同場景需求采用適合的AI算法和模型做出合理判斷或結(jié)論,并驅(qū)動自動管控平臺執(zhí)行運(yùn)維操作。
因此,智能分析決策平臺最核心的模塊是人工智能/機(jī)器學(xué)習(xí)平臺。類似于行業(yè)通用的機(jī)器學(xué)習(xí)平臺,它需要具備數(shù)據(jù)集成和計算、模型開發(fā)和訓(xùn)練、模型部署和推理等基礎(chǔ)功能。然而,為了支撐AIOps場景,該平臺需要在運(yùn)維領(lǐng)域中加入一些特性,高效地孵化出適配各種智能運(yùn)維場景的算法和模型。
首先,智能分析決策平臺需要建立運(yùn)維數(shù)據(jù)模型、指標(biāo)體系和知識圖譜。該功能面向可擴(kuò)展的AI場景,依托于運(yùn)維數(shù)據(jù)平臺,采用“采集、治理、應(yīng)用、采集”的循環(huán)迭代方法。通過不斷嘗試落地AIOps場景,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,并進(jìn)行補(bǔ)充完善。
其次,智能分析決策平臺最終的用戶是運(yùn)維人員。因此,它需要具備流程化的低門檻場景建模能力,采用向?qū)降膱D形化建模。這樣可以將運(yùn)維人員難以理解的算法變成“組件”,將模型訓(xùn)練過程中的復(fù)雜調(diào)參過程變成“靈敏度調(diào)整”,從而更快地將成熟的AI場景普及到更多的業(yè)務(wù)中。
最后,可以將運(yùn)維領(lǐng)域的DevOps理念引入到算法和模型開發(fā)過程中,以加速AI場景的開發(fā)。
1)指標(biāo)異常檢測
指標(biāo)異常檢測是其他智能運(yùn)維場景建設(shè)的基礎(chǔ),屬于單場景,異常檢測的結(jié)果將為后續(xù)的告警收斂、故障定位、故障自愈等場景提供重要輸入。指標(biāo)一般分為業(yè)務(wù)指標(biāo)(如訪問量、響應(yīng)率、響應(yīng)時間等)、性能指標(biāo)(CPU、內(nèi)存、IO、網(wǎng)絡(luò)流量等),并且匯總多個獨(dú)立的或關(guān)系型的指標(biāo)可以組成不同的多指標(biāo)異常檢測。這里詳細(xì)介紹一下性能單指標(biāo)異常檢測。
性能指標(biāo)異常檢測可以采用了時間序列特征提取和深度貝葉斯學(xué)習(xí)的通用異常檢測方案,它考慮了不同類型曲線(周期型、穩(wěn)定型、稀疏型)的特征,可以滿足機(jī)器指標(biāo)、業(yè)務(wù)指標(biāo)等時序數(shù)據(jù)的異常檢測需求。
通用單指標(biāo)異常檢測的檢測流程分為異常模式提取和有監(jiān)督異常檢測兩部分:
①在異常模式提取階段,基于概率論、極值理論、殘差理論等,從時序數(shù)據(jù)中提取能多方面表征數(shù)據(jù)異常模式的特征。
②在有監(jiān)督異常檢測階段,采用基于主動學(xué)習(xí)的深度貝葉斯模型,能夠在異常檢測的同時,根據(jù)用戶反饋學(xué)習(xí)未知的異常模式和部分用戶偏好。
單指標(biāo)異常檢測可以集成應(yīng)用到監(jiān)控產(chǎn)品中,當(dāng)CPU使用率突降和磁盤使用率突降時,通用單指標(biāo)異常檢測算法可檢測出異常點(diǎn),并在告警中心可以展示告警詳情。包括告警內(nèi)容,以及關(guān)聯(lián)的維度。如下圖所示,其中檢測出異常時刻,會進(jìn)行標(biāo)注(紅色框)。
2)時序數(shù)據(jù)預(yù)測
在IT運(yùn)維領(lǐng)域,對信息系統(tǒng)進(jìn)行檢測,會產(chǎn)生大量多類型的時間序列數(shù)據(jù),如用戶在線數(shù)、主機(jī)CPU使用率等。時序數(shù)據(jù)預(yù)測利用歷史時間,序列數(shù)據(jù)預(yù)測未來一段時間數(shù)據(jù)的變化趨勢,可以滿足如CPU、磁盤使用率、在線人數(shù)等各類大型在線業(yè)務(wù)的時序預(yù)測需求,為用戶做出重要決策(如資源管理、異常告警等)提供準(zhǔn)確有力的數(shù)據(jù)支撐。
時序數(shù)據(jù)預(yù)測是一種基于Transformer的時間序列預(yù)測方法,Transformer是最成功的序列模型架構(gòu),在自然語言處理(NLP)、語音識別和計算機(jī)視覺等各方面有著非常顯著的優(yōu)勢。基于Transformer的時間序列預(yù)測模型,廣泛運(yùn)用的相關(guān)場景包括交通流量估計、能源管理、金融等領(lǐng)域。在運(yùn)維領(lǐng)域主要對長時時序數(shù)據(jù)進(jìn)行預(yù)測,例如資源的容量預(yù)測(如服務(wù)器的CPU、Mem)、成本預(yù)測等。
時序數(shù)據(jù)預(yù)測方案設(shè)計了一套基于Transformer模型的融合遷移學(xué)習(xí)和增量學(xué)習(xí)的時間序列預(yù)測服務(wù),它通過對不同頻率下的時間序列指標(biāo)進(jìn)行歸一化,以確保模型能在多源系統(tǒng)之間實(shí)現(xiàn)共享,采用基于貝葉斯估計的Transformer模型來生成預(yù)測邊緣分布,同時將遷移學(xué)習(xí)和增量學(xué)習(xí)引入到模型訓(xùn)練過程中以避免概念漂移風(fēng)險,確保模型的長期預(yù)測性能。
時序數(shù)據(jù)預(yù)測算法可以集成應(yīng)用在配置管理平臺的資產(chǎn)盤點(diǎn)分析和容量管理平臺的容量分析預(yù)測等場景,分析和預(yù)測IT系統(tǒng)的關(guān)鍵應(yīng)用未來的容量情況,支撐報表展示和輔助客戶進(jìn)行資源規(guī)劃。下圖是在容量管理平臺里的一個業(yè)務(wù)彈性擴(kuò)縮容場景,應(yīng)用時序數(shù)據(jù)預(yù)測AI模型對某業(yè)務(wù)服務(wù)器集群CPU使用量進(jìn)行預(yù)測分析,并結(jié)合自動化系統(tǒng)執(zhí)行擴(kuò)縮容任務(wù),在保障業(yè)務(wù)穩(wěn)定的情況下,降低了30%的成本。
3)多維下鉆
業(yè)務(wù)系統(tǒng)的管理人員需要監(jiān)控大量的指標(biāo)來了解和維護(hù)系統(tǒng)的可用性,通常這些指標(biāo)會包含一些維度,例如,一個微服務(wù)調(diào)用數(shù)相關(guān)的指標(biāo)可能會包含服務(wù)供應(yīng)方(Internet Service Provider,ISP)、服務(wù)所屬業(yè)務(wù)信息等維度。通過組合不同維度來匯總指標(biāo),可以從不同粒度,不同角度來充分展示系統(tǒng)的實(shí)時狀態(tài)。然而,由于維度的組合爆炸問題,系統(tǒng)管理人員通常需要篩選并重點(diǎn)關(guān)注某些維度組合下的指標(biāo)匯總值;這些指標(biāo)的匯總方式可以是求和,求均值等。經(jīng)過篩選出來的指標(biāo)匯總值又稱為SLI (Service Level Indicator)。當(dāng)從SLI中檢測出異常時,為了診斷異常,就需要找出實(shí)際上導(dǎo)致SLI出現(xiàn)異常的維度與這一維度下的元素組合,這一過程又稱為多維下鉆。
基于多維下鉆和貝葉斯網(wǎng)絡(luò)的多維指標(biāo)異常根因維度定位方法流程如下圖所示,由檢測出的SLI異常觸發(fā)。多維下鉆算法包含維度映射構(gòu)造和維度下鉆兩個核心步驟。維度映射構(gòu)建旨在指定各個最細(xì)粒度指標(biāo)與聚合形成的SLI之間的計算公式。這一計算公式可由用戶配置的,用戶可基于業(yè)務(wù)自身需要定制任意SLI指標(biāo)計算方式。用戶對SLI指標(biāo)計算方法的需求包含但不限于計數(shù)型,求和型,求均值型,求最值型,求分位數(shù)型和求比例型。異常維度下鉆,就是要利用各個最細(xì)粒度指標(biāo)的值作為輸入,最終找出真正導(dǎo)致匯總形成的SLI指標(biāo)出現(xiàn)異常的維度和對應(yīng)的元素組合。由于組合爆炸問題,需要充分挖掘異常維度的特征,以設(shè)計啟發(fā)式搜索的方法來實(shí)現(xiàn)這一目的。
在某些情形中,在下鉆出具體的異常維度后,需要更進(jìn)一步地明確這些異常維度之間的因果關(guān)系。最終識別的異常維度及其因果關(guān)系會提供給用戶,輔助其對系統(tǒng)中出現(xiàn)的故障進(jìn)行根因分析,做出快速響應(yīng)與恢復(fù)。
在監(jiān)控場景的單指標(biāo)告警策略,如果沒有配置完整的維度信息,可能在告警時無法準(zhǔn)確判斷當(dāng)前異常是由哪個維度導(dǎo)致的。維度下鉆功能可以自動分析異常的維度信息,輔助定位問題。如某業(yè)務(wù)的在線人數(shù)檢測到異常,通過下鉆該時間點(diǎn)的異常,給出具體異常的維度(比如用戶所屬省份、客戶端版本等),以及最有可能異常的具體維度值 (含排序)。
4)指標(biāo)關(guān)聯(lián)推薦
在生產(chǎn)環(huán)境下,在線系統(tǒng)的系統(tǒng)管理人員需要管理大量的運(yùn)維對象(例如,關(guān)鍵績效指標(biāo)等描述應(yīng)用服務(wù)能力的指標(biāo),服務(wù)器、公共和自定義組件等基礎(chǔ)物理設(shè)施)來維護(hù)系統(tǒng)的可用性。其中,每個運(yùn)維對象會暴露大量的監(jiān)控指標(biāo),供系統(tǒng)管理人員從各個方面來監(jiān)視系統(tǒng)的實(shí)時狀態(tài)。通常,這些監(jiān)控指標(biāo)的數(shù)量可達(dá)成百上千個,并且,隨著系統(tǒng)可觀測性的發(fā)展,這一數(shù)量只會越來越大。大量的監(jiān)控指標(biāo)使得系統(tǒng)管理人員疲于觀察和分析,極大地影響了故障發(fā)現(xiàn)和診斷的效率。
指標(biāo)關(guān)聯(lián)推薦算法設(shè)計了一種基于異常共現(xiàn)頻率和隨機(jī)游走的監(jiān)控指標(biāo)推薦方法。它由兩個主要部分組成:指標(biāo)關(guān)系構(gòu)建和關(guān)鍵指標(biāo)推薦。指標(biāo)關(guān)系構(gòu)建首先計算監(jiān)控指標(biāo)兩兩之間的異常共現(xiàn)頻率和曲線相似度,然后基于異常共現(xiàn)頻率確立指標(biāo)間的關(guān)系,并使用曲線相似度剪枝,避免冗余推薦,最終確立指標(biāo)間關(guān)系圖。關(guān)鍵指標(biāo)推薦則利用隨機(jī)游走算法分析上一步驟得出的指標(biāo)關(guān)系圖,確定監(jiān)控指標(biāo)的推薦排名。
監(jiān)控配置的單指標(biāo)告警策略,只能對單個指標(biāo)的異常進(jìn)行告警,在排查問題時可能需要結(jié)合關(guān)聯(lián)指標(biāo)進(jìn)行人工的根因定位。關(guān)聯(lián)指標(biāo)推薦功能會根據(jù)是否同時異常、告警發(fā)生時的曲線形態(tài)來推薦關(guān)聯(lián)指標(biāo)。如下圖所示,某服務(wù)器的磁盤空間使用率檢測到異常,通過關(guān)聯(lián)指標(biāo)推薦,發(fā)現(xiàn)了【操作系統(tǒng)】層級的其他7個關(guān)聯(lián)指標(biāo)(僅展示3個示例),存在形狀相似或同時異常。
5)日志聚類
日志聚類的主要流程是日志經(jīng)過預(yù)處理后,通過計算日志間的相似度,將相似度高的日志聚在一起,通過模式識別生成日志模式,從而得到日志聚類模型,供日志檢索和實(shí)時預(yù)測使用,降低運(yùn)維人員查看海量異構(gòu)日志的工作負(fù)擔(dān)。
聚類是找出日志分詞和已有聚類簇的最大相似度,進(jìn)行閾值判別,放入對應(yīng)類/創(chuàng)建新類。
模式識別是從聚好的類簇中提取日志模式。模式識別包括日志對齊和模式生成兩部分。
日志對齊:日志對齊的最佳方式是在合并后生成最小數(shù)量的通配符和變量。在對齊的過程中,分詞之間可能會插入一些GAP。對齊算法確保插入GAP后同一類的日志長度相等。
模式生成:得到相同長度的日志后,遍歷分詞,將不一致的替換為通配符,并輸出日志模式。
在藍(lán)鯨日志平臺,開啟日志聚類后,可以高效查看日志聚類結(jié)果,了解新出現(xiàn)的日志模式。同時可以根據(jù)Pattern從少到多的不同檔位,來靈活地選擇不同粒度的聚類結(jié)果。
6)日志異常檢測
日志異常檢測屬于相對復(fù)雜的場景,本方案采用了離線冷啟動訓(xùn)練和在線訓(xùn)練相結(jié)合的方式,依賴日志聚類單場景能力。離線冷啟動訓(xùn)練,是將離線冷啟動日志樣本經(jīng)過預(yù)處理后,計算日志間的相似度,將相似度高的日志聚在一起,通過模式識別生成日志模式,得到日志聚類模型,供在線訓(xùn)練作為冷啟動模型使用;在線訓(xùn)練以流式方式實(shí)時解析日志,快速匹配到已有的日志模式,對未匹配到的日志即為新的日志模式,即為新類日志。
當(dāng)使用日志模板模型檢測出新的模板后,將會發(fā)出異常告警,可以在日志出現(xiàn)新的異常/錯誤模式時,第一時間收到告警,并查看對應(yīng)的模式及日志內(nèi)容。
7)告警收斂
在運(yùn)維監(jiān)控系統(tǒng)中,告警收斂是指對告警信息進(jìn)行分析、合并和丟棄,以此來降低告警信息的規(guī)模,其對降低網(wǎng)絡(luò)運(yùn)維的壓力意義重大。
在運(yùn)維監(jiān)控系統(tǒng)中,可以把告警分為噪聲告警、事件告警、故障告警。根據(jù)告警出現(xiàn)的頻繁程度和基于統(tǒng)計的方式,區(qū)分出噪聲告警和非噪聲告警,其中噪聲告警指的是在歷史上頻繁出現(xiàn)的告警。再根據(jù)非噪聲告警的數(shù)量和涉及的指標(biāo)范圍,區(qū)分為事件告警和故障告警,一個故障的重要告警更多,涉及的指標(biāo)也更廣。
聚集維度的告警收斂主要是基于頻繁項集進(jìn)行挖掘,找到告警聚集的維度,比如告警都聚集在某個服務(wù)上、某個主機(jī)上、某個Pod上,幫助用戶快速定位告警的影響范圍或者根因。層級分析的告警收斂使用有監(jiān)督的方式,對告警進(jìn)行分類,假設(shè)常見的告警類型有應(yīng)用層、服務(wù)層、主機(jī)層、數(shù)據(jù)中心層等,由于一般來說,越偏低層告警數(shù)量越多,用戶關(guān)心程度越低,因此采用高層級的告警收斂低層級的告警,將影響的最高層級通知用戶。
告警收斂后的降噪比如下圖所示,整體降噪比達(dá)到98.4%,某個業(yè)務(wù)的降噪比84.6%。
8)大語言模型應(yīng)用
大語言模型在運(yùn)維領(lǐng)域?qū)τ谖覀儊砜矗淖兞巳伺c運(yùn)維系統(tǒng)的交互模式,其中場景就包括智能問答、故障解決建議、數(shù)據(jù)統(tǒng)計分析等。
提供了集中核心能力:
嘉為藍(lán)鯨作為業(yè)內(nèi)領(lǐng)先的平臺化、一體化、數(shù)智化運(yùn)維解決方案提供商,我們堅定地致力于把成熟的業(yè)務(wù)實(shí)踐、領(lǐng)先的技術(shù)架構(gòu),賦能給我們的客戶。
本期我們共同探討了“數(shù)智化”相關(guān)內(nèi)容,“一體化”、“平臺化”相關(guān)內(nèi)容請點(diǎn)擊下方“系列推薦”。
最后,歡迎隨時與嘉為藍(lán)鯨共同探討!
總結(jié):以上為筆者對數(shù)據(jù)與智能運(yùn)維的剖析,歡迎探討交流,謝謝!
LLMOps+DeepSeek:大模型升級一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時代再升級!
查看詳細(xì)
DeepSeek已接入!OpsPilot探索智能運(yùn)維無限可能!
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 進(jìn)階之路
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 轉(zhuǎn)型與 SLO 管理的深度融合
查看詳細(xì)
SRE轉(zhuǎn)型:不同團(tuán)隊規(guī)模下的銀行SRE團(tuán)隊組建策略
查看詳細(xì)
申請演示
主站蜘蛛池模板: 盘山县| 万荣县| 涞水县| 双鸭山市| 锡林郭勒盟| 中西区| 英吉沙县| 余江县| 黑龙江省| 亳州市| 鹤壁市| 望江县| 化德县| 乌鲁木齐市| 汉源县| 吕梁市| 靖州| 昭通市| 阿拉善盟| 福海县| 灵山县| 赣州市| 泰州市| 武宁县| 昂仁县| 元朗区| 浑源县| 杭锦旗| 香港 | 莱西市| 慈利县| 乐昌市| 孟州市| 大丰市| 麟游县| 大悟县| 南丰县| 长垣县| 无锡市| 尚志市| 新平|