01. 運(yùn)維平臺(tái)的概念被泛化
近幾年行業(yè)發(fā)展和客戶實(shí)踐,運(yùn)維體系和運(yùn)維架構(gòu)得到蓬勃的發(fā)展,各種概念和實(shí)踐層出不窮,而關(guān)于運(yùn)維平臺(tái),主流聲音和理解有幾種:
1)平臺(tái)工程
平臺(tái)工程是Gartner發(fā)布2023年十大戰(zhàn)略技術(shù)趨勢(shì),Gartner預(yù)測(cè),到2026年,80%的軟件工程組織將建立平臺(tái)團(tuán)隊(duì),其中75%將包含開發(fā)者自助服務(wù)門戶,其核心強(qiáng)調(diào)的是基于云平臺(tái)的技術(shù)和產(chǎn)品力,按照基礎(chǔ)設(shè)施消費(fèi)者的角度,把基礎(chǔ)設(shè)施封裝成平臺(tái)服務(wù),云工具鏈和服務(wù)打通、組成小規(guī)模平臺(tái)化團(tuán)隊(duì)。國(guó)內(nèi)的實(shí)踐更多是在研發(fā)側(cè),業(yè)內(nèi)也有各種聲音,包括平臺(tái)工程取代DevOps等,而較少考慮運(yùn)維在平臺(tái)工程的應(yīng)用和服務(wù)化,架構(gòu)理念較為一致,但是沒有設(shè)計(jì)和定義運(yùn)維組織如何實(shí)踐平臺(tái)工程。當(dāng)然,這也是運(yùn)維作為業(yè)務(wù)最后一環(huán)通常都會(huì)面臨的情況。
2)運(yùn)維架構(gòu)治理
運(yùn)維架構(gòu)治理國(guó)內(nèi)也有一些標(biāo)準(zhǔn)和組織做一些定義,因?yàn)榈拇_是國(guó)內(nèi)中大企業(yè)普遍都面臨的情況,因而有拆到iPaaS、aPaaS等概念。但是怎么治理,往往是摸著石頭過(guò)河,從流程、數(shù)據(jù)、場(chǎng)景等各個(gè)維度的都有,往往走的模式姑且定義為網(wǎng)狀煙囪API打通,如:進(jìn)行可觀測(cè)性整合,需要打通CMDB完成對(duì)象定義,同時(shí)打通Trace、Log、Metric實(shí)現(xiàn)數(shù)據(jù)融合等操作。然而,這一過(guò)程中仍會(huì)面臨諸多困境,一是缺乏從運(yùn)維全局角度出發(fā)的視角,二是缺乏有效的治理方法和成功實(shí)踐可供借鑒。最終可能陷入“工具豐富、建設(shè)迷茫”的狀態(tài)。
3)SRE體系
SRE是一套旨在通過(guò)軟件工程的方式提高應(yīng)用可靠性的體系,用軟件工程的管理和技術(shù)方法來(lái)解決運(yùn)維問(wèn)題的體系,其中特別強(qiáng)調(diào)主動(dòng)管理和規(guī)避風(fēng)險(xiǎn),包括如運(yùn)維工作限制在50%以內(nèi)、面向不確定性來(lái)設(shè)計(jì)、盡可能的自動(dòng)化和簡(jiǎn)單化。為了更好地實(shí)踐,國(guó)內(nèi)通常會(huì)選擇基于可支持運(yùn)維開發(fā)的運(yùn)維平臺(tái),以此來(lái)迅速構(gòu)建運(yùn)維系統(tǒng)的軟件工程能力。雖然這與運(yùn)維的平臺(tái)化有所重合,但并未深入探討SRE體系與平臺(tái)之間的關(guān)聯(lián)。
從個(gè)人視角來(lái)看,運(yùn)維的平臺(tái)化概念定義,要聚焦到事實(shí)的起點(diǎn),就是到底解決什么問(wèn)題:
接下來(lái)詳細(xì)分享個(gè)人的看法與實(shí)踐。
02. 運(yùn)維平臺(tái)是整體架構(gòu)抽象的實(shí)踐
在拆解運(yùn)維平臺(tái)的架構(gòu)抽象實(shí)踐前,我們先定義運(yùn)維管理與運(yùn)維系統(tǒng)之間的關(guān)系:運(yùn)維管理是基于管理需求來(lái)描述一個(gè)主題領(lǐng)域的運(yùn)維業(yè)務(wù),而業(yè)務(wù)的定義則是由角色、活動(dòng)流程、工具系統(tǒng)、活動(dòng)對(duì)象,以及和業(yè)務(wù)域關(guān)聯(lián)集成設(shè)計(jì)組成,因而運(yùn)維管理抽象成運(yùn)維業(yè)務(wù),是工具體系建設(shè)的起點(diǎn),而工具體系是承接運(yùn)維業(yè)務(wù)和運(yùn)維管理落地的一種能力。
如下圖運(yùn)維業(yè)務(wù)與工具能力關(guān)系圖所示。
我們可以把任何一個(gè)運(yùn)維系統(tǒng)的功能設(shè)計(jì),都可以劃分如下四層:
這四層的理解為:
① 從對(duì)象層、接入層、邏輯層和界面層進(jìn)行完整閉環(huán);例如我們構(gòu)建一個(gè)監(jiān)控系統(tǒng),無(wú)論自研、用開源軟件還是商業(yè)軟件,對(duì)象層通過(guò)Agent、探針、協(xié)議或Kafka等做指標(biāo)接入;邏輯上最核心的過(guò)程就是數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、告警、分析處置、視圖。
② 接入層設(shè)計(jì):是基于對(duì)象和邏輯上的綜合考慮,例如要做主機(jī)監(jiān)控,那接入層第一個(gè)考慮是能適配各類主機(jī)對(duì)象,以及最為關(guān)鍵的是獲取指標(biāo)數(shù)據(jù);第二是基于邏輯層在數(shù)據(jù)檢測(cè)上的考慮,來(lái)設(shè)計(jì)采集數(shù)據(jù)對(duì)象、采集頻率、采集傳輸?shù)取?/span>
③ 邏輯層設(shè)計(jì):是基于功能領(lǐng)域的模塊閉環(huán),如基于業(yè)務(wù)架構(gòu)和分層模型設(shè)計(jì)監(jiān)控和告警的對(duì)象模型,意味著需要在監(jiān)控工具內(nèi)有一個(gè)小型的CMDB,來(lái)維護(hù)監(jiān)控對(duì)象以及指標(biāo)類的數(shù)據(jù)掛載。
④ 界面層設(shè)計(jì):是工具使用角色,然后再匹配到企業(yè)的組織崗位角色。這也是單個(gè)工具的好與壞的地方,好的地方是自我閉環(huán),壞的地方是難以滿足運(yùn)維管理組織崗位職責(zé)的角色視角。
如果只是單個(gè)工具,架構(gòu)考慮的只是這個(gè)工具本身邏輯合理、邊界清晰,但是放在整個(gè)運(yùn)維架構(gòu)的角度,就會(huì)有兩個(gè)問(wèn)題:
一是工具支持運(yùn)維管理落地的運(yùn)維活動(dòng)是場(chǎng)景化的,往往需要多個(gè)工具聯(lián)動(dòng)才能閉環(huán)一個(gè)運(yùn)維價(jià)值。例如,發(fā)布投產(chǎn)管理需要發(fā)布投產(chǎn)的邏輯設(shè)計(jì),同時(shí)還需要CMDB、自動(dòng)化作業(yè)、流程、監(jiān)控告警的集成設(shè)計(jì),難以單個(gè)工具實(shí)現(xiàn)一個(gè)相對(duì)大的場(chǎng)景閉環(huán)。
二是煙囪架構(gòu)會(huì)帶來(lái)重復(fù)建設(shè)和技術(shù)債務(wù)的問(wèn)題。重復(fù)建設(shè)很好理解,例如每個(gè)工具都有跟目標(biāo)設(shè)備交互的接入層設(shè)計(jì),如果每個(gè)工具都做一套,那就意味著Agent或管道在IT對(duì)象上會(huì)越來(lái)越多。而技術(shù)債務(wù)則是發(fā)展性必然出現(xiàn)的問(wèn)題。當(dāng)做到第N+1個(gè)場(chǎng)景時(shí),會(huì)發(fā)現(xiàn)原有的技術(shù)架構(gòu)、功能和數(shù)據(jù)提供無(wú)法滿足新的建設(shè)要求。這也是很多企業(yè)發(fā)現(xiàn)構(gòu)建了監(jiān)管控的基本運(yùn)維系統(tǒng)體系,但實(shí)質(zhì)的運(yùn)維活動(dòng)沒有很好的改進(jìn)和變化的原因。
那這里就有幾個(gè)很核心的幾個(gè)思考:
從單場(chǎng)景層面來(lái)看這個(gè)運(yùn)維系統(tǒng)如何設(shè)計(jì),會(huì)發(fā)現(xiàn)極其復(fù)雜:
如下是一個(gè)概要的運(yùn)維場(chǎng)景和工具設(shè)計(jì)藍(lán)圖示例:
這里有幾個(gè)核心架構(gòu)抽象和設(shè)計(jì)的思考:
1)梳理場(chǎng)景
可大致劃分為日常維護(hù)、監(jiān)控保障、變更發(fā)布、資源管理、運(yùn)維流程、服務(wù)支持、應(yīng)急保障、運(yùn)營(yíng)分析等運(yùn)維場(chǎng)景,場(chǎng)景還不完全等于業(yè)務(wù)域,場(chǎng)景是運(yùn)維組織視角的,例如我要做監(jiān)控保障,其實(shí)要跨多個(gè)業(yè)務(wù)域的,包括監(jiān)控管理、事件管理,可能還要關(guān)聯(lián)到應(yīng)急保障。
2)場(chǎng)景到業(yè)務(wù)域的拆解
這就需要引用包括ITIL、TOGAF等達(dá)成業(yè)界共識(shí)的概念了。例如容量管理,從容量管理業(yè)務(wù)角度,則有如下核心價(jià)值節(jié)點(diǎn):規(guī)劃性能容量、監(jiān)控性能容量、分析評(píng)估性能容量、優(yōu)化性能容量。
從功能層面則至少有:對(duì)象管理(資源和業(yè)務(wù)兩個(gè)容量維度)、數(shù)據(jù)采集、數(shù)據(jù)聚合與計(jì)算、指標(biāo)閾值設(shè)置及告警、性能容量報(bào)表視圖、分析報(bào)告、優(yōu)化建議、容量調(diào)度(需要關(guān)聯(lián)自動(dòng)化能力),然后需要集成CMDB、監(jiān)控指標(biāo)數(shù)據(jù)、自動(dòng)化執(zhí)行、運(yùn)維數(shù)據(jù)處理等獨(dú)立系統(tǒng)。
3)業(yè)務(wù)域需要共性能力
這個(gè)能力拆解成5個(gè)大的維度,這個(gè)點(diǎn)上業(yè)內(nèi)有一定的共識(shí):配置、觀測(cè)、執(zhí)行、流程、智能分析;這5個(gè)能力的組合,再加上一部分業(yè)務(wù)域自身邏輯,就可以快速構(gòu)建業(yè)務(wù)場(chǎng)景的運(yùn)維系統(tǒng)。例如做應(yīng)急管理業(yè)務(wù)域,則需要CMDB(定義對(duì)象)、監(jiān)控告警(應(yīng)急觸發(fā))、流程(審批與協(xié)同)、自動(dòng)化(預(yù)案執(zhí)行)。所以這一層定義為核心業(yè)務(wù)能力,且這5個(gè)能力是橫向需要打通的,如做事件管理,告警就是核心事件來(lái)源,流程則執(zhí)行整個(gè)事件管理業(yè)務(wù),而執(zhí)行則自動(dòng)化解決一些事件。
4)最后抽象技術(shù)能力
5個(gè)能力都需要一些公共的對(duì)象定義、數(shù)據(jù)與執(zhí)行管道、底層引擎等,因而就有了統(tǒng)一Agent設(shè)計(jì)、統(tǒng)一對(duì)象模型設(shè)計(jì)、統(tǒng)一作業(yè)與數(shù)據(jù)管道設(shè)計(jì)等;這樣就有了技術(shù)底座的設(shè)計(jì)。
所以這個(gè)時(shí)候我們?cè)賮?lái)看運(yùn)維平臺(tái)的定義:運(yùn)維平臺(tái)是對(duì)運(yùn)維業(yè)務(wù)在軟件架構(gòu)層面的定義,可擴(kuò)展、高內(nèi)聚、低耦合是對(duì)運(yùn)維平臺(tái)的核心考驗(yàn)與驗(yàn)證。
① 可擴(kuò)展
例如我們構(gòu)建一個(gè)資源管理系統(tǒng)、應(yīng)急災(zāi)備系統(tǒng),是可以充分利用技術(shù)原子和業(yè)務(wù)原子的,而不是從零寫起,如果還能支持運(yùn)維開發(fā),則平臺(tái)的可擴(kuò)展性就能在一個(gè)更高的維度上升。
② 高內(nèi)聚
運(yùn)維業(yè)務(wù)的核心邏輯從業(yè)務(wù)原子開始就是充分遵循領(lǐng)域邊界的,例如配置中心,核心就是做好模型管理、實(shí)例管理、自動(dòng)采集、報(bào)表、拓?fù)浜蛯?duì)外消費(fèi),不在這個(gè)域里面去關(guān)聯(lián)監(jiān)控指標(biāo)和告警。
③ 低耦合
技術(shù)原子和業(yè)務(wù)原子均是低耦合可插拔的,可基于API Gateway、數(shù)據(jù)管道等方式與外部交互,且不限對(duì)方的技術(shù)架構(gòu),如要構(gòu)建一個(gè)業(yè)務(wù)全景管理的應(yīng)用,則模塊化的去調(diào)用CMDB、關(guān)聯(lián)指標(biāo)和告警等即可,沒有控制耦合和內(nèi)容耦合。
03. 如何設(shè)計(jì)可擴(kuò)展的運(yùn)維平臺(tái)架構(gòu)
按上述技術(shù)原子+5個(gè)核心業(yè)務(wù)能力+n個(gè)業(yè)務(wù)域場(chǎng)景+m個(gè)客戶化界面場(chǎng)景的模式,就形成了真正的運(yùn)維平臺(tái),但是這的確是一個(gè)復(fù)雜工程,需要持續(xù)往這個(gè)方向分階段來(lái)建設(shè)。具體如何做呢,核心要做好這樣幾點(diǎn):
1)第一步,共性模塊能力化
共性模塊抽象本質(zhì)是一個(gè)積累的過(guò)程,遇到工具需求,拆解出接入層和邏輯層的共性能力,然后單獨(dú)來(lái)設(shè)計(jì),這樣逐步積累、裁剪,就能設(shè)計(jì)出合理邊界的能力項(xiàng),然后注冊(cè)到iPaaS(integration platform as a service)中,以組件的方式對(duì)工具提供模塊和數(shù)據(jù)消費(fèi);以CMDB為例,CMDB有兩個(gè)定義,一個(gè)是技術(shù)原子,作為所有運(yùn)維系統(tǒng)的對(duì)象模型,一個(gè)是業(yè)務(wù)原子,滿足企業(yè)的具體配置管理和消費(fèi)場(chǎng)景。
2)第二步,能力消費(fèi)自主化
根據(jù)不同規(guī)模的企業(yè),要建設(shè)的運(yùn)維系統(tǒng)從最小化“1個(gè)監(jiān)控軟件”,到最大化面向不同角色、場(chǎng)景提供不同的工具,工具領(lǐng)域建設(shè)非常重要的架構(gòu)要求就是可自主和擴(kuò)展,這也是平臺(tái)架構(gòu)抽象的第二個(gè)關(guān)鍵點(diǎn)。如果沒有這一層的支撐,會(huì)使得平臺(tái)化建設(shè)做的都是后臺(tái),而沒有場(chǎng)景活動(dòng)的功能支撐;這時(shí)候aPaaS(application platform as a service)就會(huì)顯得非常關(guān)鍵,并且可以借助這個(gè)架構(gòu)實(shí)現(xiàn)企業(yè)運(yùn)維開發(fā)或自主可控轉(zhuǎn)型。
3)第三步,活動(dòng)場(chǎng)景方案構(gòu)建
PaaS是以能力化的軟件集成架構(gòu),來(lái)解決變化的需求的能力,因而我們?nèi)绻麖南峦峡矗琲PaaS做了技術(shù)能力抽象,基于aPaaS做了單個(gè)工具領(lǐng)域集成和一體化,則再往上就是組合工具,而這里的整個(gè)能力、數(shù)據(jù)和服務(wù)集合,就支撐了運(yùn)維活動(dòng)的展開。
舉個(gè)例子:為了有效地實(shí)現(xiàn)應(yīng)急保障活動(dòng)場(chǎng)景,我們需要有應(yīng)急協(xié)同、預(yù)案管理、應(yīng)急處置等組合工具,而這些工具的構(gòu)建,都需要基于CMDB獲取對(duì)象、基于可觀測(cè)獲取指標(biāo)和運(yùn)行狀態(tài)、基于流程來(lái)做協(xié)同和工作推進(jìn)等,所以這時(shí)候越面向一線用戶的運(yùn)維軟件需求,越是可組裝和輕邏輯的。
按這種架構(gòu)設(shè)計(jì)模式,規(guī)劃一體化、平臺(tái)化的建設(shè)藍(lán)圖和階段如下示例,包含了能力與場(chǎng)景層的解耦,工具之間有效聯(lián)動(dòng),數(shù)據(jù)與智能的持續(xù)發(fā)展:
因而平臺(tái)架構(gòu)抽象要做好,要有一定的“克制”與“堅(jiān)定”,克制在要充分尊重打基礎(chǔ)的重要性,不能堆砌式陷入工具的浪潮;堅(jiān)定是持續(xù)做架構(gòu)治理,尤其是保障對(duì)象模型、流程貫穿和數(shù)據(jù)運(yùn)營(yíng)的統(tǒng)一。
這個(gè)時(shí)候我們?cè)賮?lái)看沒有平臺(tái)化之前的問(wèn)題如何破局:
1、企業(yè)建設(shè)了很多工具,但是包袱卻越來(lái)越重,工具之間橫向打通困難,縱向架構(gòu)治理困難,如何破局?
答:能力與場(chǎng)景解耦,能力分層,核心5個(gè)能力:配置、觀測(cè)、執(zhí)行、流程、智能分析打通,打通的邏輯來(lái)源于場(chǎng)景和業(yè)務(wù)設(shè)計(jì),可以參考三條線來(lái)做打通:CMDB作為所有系統(tǒng)建設(shè)的對(duì)象模型,ITSM作為各個(gè)業(yè)務(wù)域落地的流程過(guò)程,以數(shù)據(jù)模型為中心構(gòu)建運(yùn)營(yíng)體系。
例如:有一個(gè)較為高階的場(chǎng)景,故障分析,要實(shí)現(xiàn)故障分析,需要前后連接觀測(cè)、告警、事件、處置,那故障分析就需要以CMDB作為業(yè)務(wù)和資源的對(duì)象元數(shù)據(jù),告警、處置以ITSM的核心事件流程打通,最后利用數(shù)據(jù)和AI融合Trace、Log、Metric、Alter、工單等,來(lái)做如故障影響面、告警快照、故障決策樹、故障組件定位等場(chǎng)景,這是單用工具的API集成很難完成的。
2、業(yè)務(wù)和需求是變化的,如應(yīng)用架構(gòu)逐步從傳統(tǒng)走向云原生,已有的運(yùn)維系統(tǒng)架構(gòu)能否支撐業(yè)務(wù)需求?原有的能力能否引用,需要怎樣的新的能力和如何建設(shè)?
答:以云原生運(yùn)維場(chǎng)景為例,已有的運(yùn)維平臺(tái)可以充分利用,然后做如下變化:接入層能適配容器、云原生組件、微服務(wù)對(duì)象;邏輯層做好云原生運(yùn)維更為關(guān)鍵的可觀測(cè)、應(yīng)急管理、混沌工程、容量管理和智能化應(yīng)用;渠道層則在原有的能力上追加多維度視圖或強(qiáng)化移動(dòng)端等即可。
3、數(shù)據(jù)與AI、大語(yǔ)言模型、可觀測(cè)等領(lǐng)域技術(shù)發(fā)展,運(yùn)維平臺(tái)的定義是否還存在?架構(gòu)上如何支撐新的擴(kuò)展場(chǎng)景?
答:架構(gòu)層面仍然是平臺(tái)化架構(gòu),我們來(lái)看每個(gè)技術(shù)變化在架構(gòu)層面的定位,數(shù)據(jù)與AI是一種能力,用來(lái)支撐場(chǎng)景,如做故障分析與定位,則調(diào)用數(shù)據(jù)分析和模型的能力;
大語(yǔ)言模型服務(wù)于界面層,解決人與系統(tǒng)之間更優(yōu)的交互體驗(yàn),如智能問(wèn)答、交互式反饋運(yùn)維數(shù)據(jù)和信息等;
可觀測(cè)則是基于CMDB的對(duì)象統(tǒng)一、多維數(shù)據(jù)融合,來(lái)擴(kuò)展更多的場(chǎng)景,如Trace與Log的關(guān)聯(lián)、告警的多維信息平面、拓?fù)浠臓顟B(tài)下鉆等。
04. 運(yùn)維平臺(tái)的變與不變
運(yùn)維平臺(tái)在架構(gòu)層面的定義,短期并不會(huì)有太大的變化,包括技術(shù)、業(yè)務(wù)、場(chǎng)景各層的定義,仍然是一體化運(yùn)維最好的承載和落地架構(gòu);但是從內(nèi)容上,則會(huì)如下變化與發(fā)展:
本文談了“平臺(tái)化”方向,“一體化”相關(guān)內(nèi)容請(qǐng)點(diǎn)擊下方“系列推薦”,下期我們一起來(lái)聊聊“數(shù)智化”相關(guān)內(nèi)容,敬請(qǐng)期待~
最后,歡迎隨時(shí)與嘉為藍(lán)鯨共同探討!
總結(jié):以上為筆者對(duì)運(yùn)維平臺(tái)的剖析,歡迎探討交流,謝謝!
LLMOps+DeepSeek:大模型升級(jí)一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時(shí)代再升級(jí)!
查看詳細(xì)
DeepSeek已接入!OpsPilot探索智能運(yùn)維無(wú)限可能!
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 進(jìn)階之路
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 轉(zhuǎn)型與 SLO 管理的深度融合
查看詳細(xì)
SRE轉(zhuǎn)型:不同團(tuán)隊(duì)規(guī)模下的銀行SRE團(tuán)隊(duì)組建策略
查看詳細(xì)
申請(qǐng)演示
主站蜘蛛池模板: 肥乡县| 团风县| 高要市| 酉阳| 西昌市| 若尔盖县| 营山县| 平安县| 汽车| 北辰区| 土默特右旗| 彩票| 漳州市| 岢岚县| 南投县| 呼伦贝尔市| 榆中县| 民乐县| 灵台县| 庐江县| 大渡口区| 周口市| 托里县| 安庆市| 舞钢市| 栾城县| 温泉县| 彩票| 宜阳县| 根河市| 大邑县| 泰安市| 建平县| 得荣县| 安多县| 启东市| 忻城县| 石棉县| 五家渠市| 安康市| 太仓市|