在剛過(guò)去的2023年,運(yùn)維圈發(fā)生了不少令人矚目的事件,尤其在年末各互聯(lián)網(wǎng)大廠猶如在玩一個(gè)“蘿卜蹲”的游戲,一個(gè)接一個(gè)地爆發(fā)了各種黑天鵝事件,造成了極大的影響。因此應(yīng)急災(zāi)備管理的建設(shè)與重要價(jià)值再一次在運(yùn)維圈熱烈討論了起來(lái),本篇我們將著重針對(duì)企業(yè)的信息系統(tǒng)應(yīng)急關(guān)鍵業(yè)務(wù)流程和活動(dòng)進(jìn)行詳細(xì)說(shuō)明。
01. 信息系統(tǒng)應(yīng)急災(zāi)備管理的關(guān)鍵業(yè)務(wù)價(jià)值流
說(shuō)到信息系統(tǒng)應(yīng)急的業(yè)務(wù)價(jià)值流,其實(shí)非常簡(jiǎn)單,就是“事前——事中——事后”,即“故障事前預(yù)防——故障事中調(diào)度——故障事后改進(jìn)”三個(gè)環(huán)節(jié),讓人很容易聯(lián)想到消防演練和消防救援的關(guān)系,沒(méi)錯(cuò),就是這么簡(jiǎn)單的邏輯,如下圖所示:
通過(guò)上圖可以總結(jié)出 ,如果事前我們沒(méi)有做好充足的準(zhǔn)備工作,不進(jìn)行常態(tài)化的演練;如果對(duì)事故采取一種得過(guò)且過(guò)的態(tài)度,缺乏深入分析和必要的應(yīng)急能力,事故發(fā)生時(shí),就會(huì)手足無(wú)措,當(dāng)火勢(shì)進(jìn)一步蔓延,導(dǎo)致財(cái)產(chǎn)更大的損失。相反,如果我們做好充足的預(yù)防,針對(duì)每一次演練及故障詳細(xì)分析、反思與總結(jié),才能讓組織具備完善的應(yīng)急能力,在故障發(fā)生時(shí)就會(huì)做到快速控制火勢(shì)蔓延,舉重若輕,了然于胸。
02. 信息系統(tǒng)應(yīng)急災(zāi)備管理的活動(dòng)
站在應(yīng)急管理的視角來(lái)看:
通過(guò)以上兩層架構(gòu)我們可以看到,應(yīng)急的建設(shè)底座需要建設(shè)相應(yīng)的管理規(guī)范和組織能力,同時(shí)確保信息系統(tǒng)的底層IaaS支持相關(guān)的應(yīng)急或?yàn)?zāi)備活動(dòng),本次我們暫且不談;詳細(xì)聊一聊上層的各種對(duì)象,并沿著用戶旅程觀察所開展的具體活動(dòng)。
1)故障事前預(yù)防
① 預(yù)案及場(chǎng)景的梳理及建設(shè)
實(shí)現(xiàn)應(yīng)急預(yù)案及場(chǎng)景的線上建設(shè),審批發(fā)布、跟蹤、留痕等管理,解決應(yīng)急預(yù)案及場(chǎng)景分散在各運(yùn)維人員手中無(wú)統(tǒng)一歸檔、版本不一致等問(wèn)題。
針對(duì)不同企業(yè)內(nèi)部的應(yīng)急組織,預(yù)案及場(chǎng)景大多情況下分為“業(yè)務(wù)線”“和“專業(yè)線”進(jìn)行管理,對(duì)應(yīng)企業(yè)內(nèi)部的應(yīng)用運(yùn)維組和基礎(chǔ)架構(gòu)組等情況,因此在建設(shè)預(yù)案及場(chǎng)景的活動(dòng)時(shí),不僅需要考慮不同類型記錄的相關(guān)要素,也需要進(jìn)行權(quán)限控制。
② 自動(dòng)化流程的編排
針對(duì)不同的場(chǎng)景,除了制定相應(yīng)的處置流程,還可以制定業(yè)務(wù)驗(yàn)證流程,在應(yīng)急演練和任務(wù)執(zhí)行時(shí),驗(yàn)證自動(dòng)化的可用性。
③ 應(yīng)急演練
為了讓所有的應(yīng)急成員能夠更好地掌握應(yīng)急知識(shí),讓預(yù)案及場(chǎng)景長(zhǎng)效保鮮,需要通過(guò)不同的形式進(jìn)行常態(tài)化演練。應(yīng)急用戶在平臺(tái)上上報(bào)演練計(jì)劃,并經(jīng)過(guò)審批,在相應(yīng)演練窗口進(jìn)行實(shí)戰(zhàn)演練/模擬演練/桌面演練,隨著演練場(chǎng)景的成熟,用戶可通過(guò)混沌工程、無(wú)損演練的方式,挖掘信息系統(tǒng)可能存在的風(fēng)險(xiǎn),提高系統(tǒng)的健壯性與穩(wěn)定性。
2)故障事中調(diào)度
① 故障發(fā)現(xiàn)
通過(guò)可觀測(cè)體系及時(shí)地發(fā)現(xiàn)系統(tǒng)故障,同時(shí)也為業(yè)務(wù)提供反饋渠道。
② 應(yīng)急響應(yīng)
通過(guò)應(yīng)急管理平臺(tái)頁(yè)面發(fā)現(xiàn)有異常事件,確認(rèn)業(yè)務(wù)影響范圍,并通過(guò)多維數(shù)據(jù)的匯聚和統(tǒng)計(jì)進(jìn)行分析,多維數(shù)據(jù)涵蓋近期是否有相關(guān)業(yè)務(wù)的變更,是否有高危操作,是否有歷史相同類似應(yīng)急場(chǎng)景,并立即進(jìn)行一次業(yè)務(wù)的健康性檢查,最終確定是否為應(yīng)急事件并啟動(dòng)應(yīng)急流程。
③ 應(yīng)急會(huì)商
根據(jù)影響的業(yè)務(wù)及范圍,通過(guò)應(yīng)急組織或其他不同職責(zé)劃分,選取應(yīng)急處置人員,多渠道在線即時(shí)IM溝通,反饋問(wèn)題及處置意見(jiàn),解決在應(yīng)急組織過(guò)程中信息通知、共享方式分散的問(wèn)題。
④ 應(yīng)急決策
根據(jù)啟動(dòng)的應(yīng)急事件所展示的故障特征,啟動(dòng)依據(jù)等要素,快速判斷是否有應(yīng)急場(chǎng)景及自動(dòng)化處置流程與之匹配,如有,則快速執(zhí)行,驗(yàn)證業(yè)務(wù)可用性;若沒(méi)有,則需快速討論出手動(dòng)恢復(fù)方案,并確定處置風(fēng)險(xiǎn)進(jìn)行故障上報(bào)。
⑤ 應(yīng)急通告
在故障處置環(huán)節(jié),需要定期以故障簡(jiǎn)報(bào)機(jī)制定時(shí)反饋故障應(yīng)急進(jìn)展,直到故障完全恢復(fù),同步確定是否需要進(jìn)行輿情聯(lián)動(dòng),并進(jìn)行故障復(fù)盤準(zhǔn)備。
3)故障事后改進(jìn)
① 故障復(fù)盤
故障應(yīng)急結(jié)束后,應(yīng)當(dāng)在最短時(shí)間內(nèi)對(duì)故障根因、測(cè)試過(guò)程、變更過(guò)程和應(yīng)急過(guò)程進(jìn)行復(fù)盤,并列出改進(jìn)建議,持續(xù)跟蹤。例如故障定級(jí),處置時(shí)間的長(zhǎng)短等因素可能決定了故障的影響面和影響范圍,如果處置足夠快,可以允許故障等級(jí)降低級(jí)別,即故障等級(jí)低于事件等級(jí),反之也可以提高故障等級(jí)。
故障復(fù)盤應(yīng)盡量實(shí)現(xiàn)不再發(fā)生此故障,如因架構(gòu)問(wèn)題無(wú)法短時(shí)間內(nèi)解決時(shí),應(yīng)保證遇到問(wèn)題能夠快速恢復(fù)。在復(fù)盤及整改過(guò)程中,通過(guò)應(yīng)急過(guò)程的快照,詳細(xì)回溯處理過(guò)程,多層次分析原因,統(tǒng)計(jì)可以量化的業(yè)務(wù)影響,最終制定優(yōu)化措施并再次交由專家評(píng)審。
② 培訓(xùn)管理
建立完善的線上培訓(xùn)通知、執(zhí)行、考核機(jī)制,實(shí)現(xiàn)應(yīng)急組織全員的技能持續(xù)提升。
③ 持續(xù)運(yùn)營(yíng)
結(jié)合信息系統(tǒng)平臺(tái)的演練、應(yīng)急處置等多方面情況,進(jìn)行能力評(píng)估。企業(yè)應(yīng)當(dāng)設(shè)置不同維度的應(yīng)急運(yùn)營(yíng)指標(biāo),定期組織開展應(yīng)急能力評(píng)估,發(fā)掘故障應(yīng)急的薄弱環(huán)節(jié),集中力量,針對(duì)性地改善、提高應(yīng)急能力。
應(yīng)急管理是一個(gè)融合了配置、觀測(cè)、執(zhí)行、流程、智能分析技術(shù)能力、管理規(guī)范、組織能力的綜合體系。
以上,就是針對(duì)整個(gè)應(yīng)急體系全生命周期總結(jié)的價(jià)值流及價(jià)值流中的核心活動(dòng),希望每個(gè)企業(yè)都能夠?qū)⒆约旱膽?yīng)急能力提升得更加完善,不再發(fā)生業(yè)務(wù)中斷,更好地提供服務(wù)。
LLMOps+DeepSeek:大模型升級(jí)一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時(shí)代再升級(jí)!
查看詳細(xì)
DeepSeek已接入!OpsPilot探索智能運(yùn)維無(wú)限可能!
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 進(jìn)階之路
查看詳細(xì)
SRE轉(zhuǎn)型:銀行 SRE 轉(zhuǎn)型與 SLO 管理的深度融合
查看詳細(xì)
SRE轉(zhuǎn)型:不同團(tuán)隊(duì)規(guī)模下的銀行SRE團(tuán)隊(duì)組建策略
查看詳細(xì)
申請(qǐng)演示
主站蜘蛛池模板: 丹棱县| 仁布县| 沙湾县| 曲靖市| 黔西县| 本溪| 博乐市| 平舆县| 永清县| 惠安县| 报价| 龙川县| 焦作市| 锡林郭勒盟| 辽宁省| 甘德县| 杂多县| 容城县| 湛江市| 河西区| 蚌埠市| 巴中市| 卓资县| 分宜县| 寿阳县| 华池县| 佛山市| 五峰| 洪泽县| 米林县| 桂东县| 牙克石市| 蓬溪县| 西乌珠穆沁旗| 永登县| 盖州市| 白玉县| 耿马| 称多县| 同江市| 旬阳县|