精品国产一区二区三区麻豆小说,亚洲国产精品一区二区三区,欧美大片一区二区,欧美日韩国产精品一区

首頁

/

一文講清場景工程方法論及運維組織能力內化

發布日期:2022-11-25 14:27:57

分享到

隨著業務支撐要求的變化,和技術架構的升級,運維管理建設模式跟之前也有了很大區別,場景上更注重主動工作、防范風險,而體系上更注重賦能組織、平臺化、一體化。

因而,我們基于過去幾年的大量客戶實踐,分享一些場景的工程落地,包括可觀測、大規模發布、災備應急、服務敏捷化等,并進一步分享如何把這些能力賦能給客戶,把運維能力的產品化和組織賦能關聯起來。


* 注:以下內容整理自:嘉為科技運維產品及解決方案負責人 張敏 于嘉為藍鯨2022研運一體創新峰會的精彩分享——《從場景工程,到運維賦能》。


01. 運維的熵減:場景工程

1)熵減,降低運維體系的復雜性

熵是一個熱力學概念,表示體系的混亂程度。熵增表示系統越來越混亂,熵減則表示系統歸于有序。在沒有外力作用的情況下,一切事物都是從有序向無序發展,最終形成熵死。而要使混亂往有序發展,就需要做熵減,通過不斷做功,增加有效能量。


運維是一個復雜的體系,主要體現在兩個方面。

一方面是管理體系帶來的復雜性。不同的組織架構、工作流程、工具平臺和技術路線、文化氛圍等,都可能導致運維的低效和不完善,例如人員能力高低、流程復雜度不一、工具建設的煙囪化豎井化等。

另一方面則是技術對象變化帶來的復雜性。例如云原生、微服務、國產化信創適配等,技術對象的更新迭代、規模發展及橫縱的復雜性,都讓運維這一保障性工作變得復雜。

如果沒有有效的管理規劃和技術規劃,運維體系必然會走向混亂。我們需要不斷有效做功,進行熵減,讓運維體系歸于有序。


2)有效做功:分級分域場景模型

怎么做熵減呢?

我們可以從經典運維原理(PPTR)出發,制定符合企業個性的管理體系,統一組織保障、流程管控、標準規范,然后選擇匹配的工具平臺和技術架構,設計滿足企業需求的運維場景,最后逐步進行PDCA循環演進。

聽起來很簡單,但是在這個演進的過程中會遇到一個很大的問題,就是我們知道了如何做運維管理,也建設了很多工具系統,但是仍舊不知道現在運維的薄弱點。

問題出在從管理體系落地到工具系統的過程中間,我們要找準連接點。這個連接點即場景。

企業運維的場景非常多,可以大到做業務連續保障管理,也可以小到一個告警的豐富。如果沒有對場景進行有效梳理,將會導致后續系統建設越發混亂。

基于過去幾年的實踐,我們總結出了一套分級分域的場景模型,能很好的解決這個問題。

L1:運維價值

最頂層,找到想要實現的運維價值,也即管理目標,例如業務連續性保障、IT服務滿意度、IT運營等等;

L2:運維領域

找到價值目標以后,需要梳理運維領域,思考通過哪些運維領域的組合,能夠實現此運維價值。例如要實現業務連續性保障這一價值,不能單單只做監控,而是需要有應急管理、災備管理、故障管理,還有風險變更管控等等,通過多領域的組合配套,才能實現業務連續性保障的運維價值。

L3:運維活動

運維領域確定以后,就到運維活動。例如故障管理領域,對應需要做故障發現、故障定位、故障恢復、故障預防與改進等活動。

L4:運維操作

運維活動再往下是更細節的運維操作,例如告警源接入、多告警的標準化、如何進行告警收斂、告警分級、事件分派及對應處置,如何聯動自動化做故障自愈、如何聯動ITSM做事件委派,告警自動關閉等。

我們將管理目標拆解,逐層拆分后再進行工具落地。曾經在項目中遇到過有客戶希望將監控指標放到CMDB里面去建設,這種情況就是沒有梳理清楚場景。CMDB就應該聚焦在對象和配置,而IT對象的各種指標和狀態應該放到監控里,最后將監控與CMDB做關聯,這才是有效的做功。


3)一體化、平臺化建設的必要性

從2004年起,嘉為就開始面向企業提供IT運維服務,并于2016年正式發布嘉為藍鯨自動化運維解決方案。經過多年的實踐,我們落地了很多運維場景,也愈發認識到一體化和平臺化建設的重要性。

一體化,指的是管理一體、流程一體、工具一體,最后形態是以一體化運維工具系統支撐企業的運維場景。以自動化發布為例,運維團隊通過開源的或者自研的工具就可以完成編排發布。但是當遇到發布規模變大,或者即有傳統發布又有容器發布的復雜情況,或是需要編排多種發布策略的時候,就會發現搞不定了,因為這涉及到多種工具體系的聯動。底層需要依賴CMDB、需要作業Agent管控、需要可以聯動容器調動K8S,上層需要封裝多種發布策略的邏輯,最終才能形成適應各種情況的自動化發布。這就是落地的一體化形態,如果我們建設單個領域能力的時候沒有考慮到聯動,就會形成煙囪。

平臺化,指的是可持續發展。運維場景會隨著技術對象和管理要求的變化而不斷發展,怎么保證現有建設的能力體系和工具平臺能夠滿足這種發展呢?我們通過PaaS模式做平臺化建設,來滿足可持續發展的需要。


4)場景到工程的設計方法:MSCP

有了管理目標、梳理好了場景以后,我們是否就可以進行工程落地了呢?并不是。

經過我們多年的實踐,我們總結出了一套從場景到工程的設計方法:管理(M)、場景(S)、能力(C)、產品(P)。

起點,是管理(M)

我們希望達到的管理目標、配套的制度規范、對應的組織崗位能力體系、工作流程、工程落地、度量改進,這是一個不斷做功的過程。

其次,是場景(S)

如ITOM、ITSM等經典的運維場景。

再次,是能力(C)

場景到產品中間很重要的一步,是要將能力進行抽象和解耦。我們推薦的最好的解耦方式,就是PaaS。將可復用的能力沉淀為原子,通過API方式調用原子能力和聯動第三方能力;同時提供開發框架等,便于進行自定義擴展。

最后,形成產品(P)

基于PaaS自定義開發形成產品,實現可持續的延展。

如下是我們做的兩個客戶案例,通過MSCP方法指導,最終實現從管理到產品的軟件落地:

第一個案例,是大規模發布的場景,應該算是國內除了BAT這幾家互聯網公司以外,企業級發布規模最大的一個場景了。

客戶有業務系統100+、主機節點5萬+、K8S集群的主機節點5千+,需要實現高質量、高安全、高效率的統一發布。

最后產品落地,納管主機實例5W+,容器實例11W+,制定應用發布管理規范,實現對軟件交付全流程統一管控;實現CI CD CO全流程貫通、提升發布質量和效率。

第二個案例,是一家大型銀行,ITSM替換的場景。

客戶的業務系統有200+、主機節點3千+,用戶數特別多,需要替換掉之前4大的傳統巨石型ITSM管理系統,并且滿足ISO標準。

最后產品落地,服務內部運維用戶1000+,業務用戶10000+,制定關鍵運維管理活動流程規范,滿足ISO20000合規,實現事件管理閉環,提升問題處置效率80%,有效的變更管控,減少變更事故風險。

場景到工程的設計方法MSCP,是我們實踐的總結,希望能夠給企業的運維建設帶來一些思考。


5)數字化運維場景活動藍圖

談了方法,我們來看下嘉為對數字化運維場景活動的定義。

最上層,是我們運維的本質和價值:用戶和業務支撐。下方,是ITSM、ITOM和ITOA活動。其中最重要的是1+4個域:觀測域、配置域、作業域、服務域,以及生態域。而對當前AIOps的能力和實踐,我們的看法是,這是一個技術補充,仍然回歸到運維管理層面,也就是我們定義的AIOps in Ops。

采用PaaS平臺技術架構打造生態,實現觀測、配置、作業、服務整體協同的一體化。通過ITOA不斷持續運營改進,從而把我們的管理體系、對應場景、對應能力、對應工程產品完整落地到IT運維系統,提升組織能力。


02. 運維組織能力內化的三個步驟

組織能力提升對于運維來說特別重要。運維組織的能力不能僅僅依托于內部幾個老專家,技術對象的復雜、管理要求的復雜、外部數字化轉型加內部技術架構變化等因素,都需要我們將運維作為一個體系去思考。

如何系統性建設我們的運維能力呢?我們跟隨一個大的股份制銀行客戶經過近五年的組織打造,抽象了三個步驟

1)第一步:激活組織

運維組織激活其實是一件很困難的事情,運維本身干的活特別苦逼,某種程度上講往往也是比較被動的。

激活組織的起點,從讓運維人員有成就感開始,而成就感則來源于持續的自我提升。建設側重點要從如何快速處理故障轉向如何減少故障,圍繞服務連續性和主動管理,持續建設運維能力。

讓組織的成員看到有奔頭,看到有改變,這樣才能激活人更大的創造力和求變的能力。


2)第二步:可持續建設+可擴展建設

企業IT運維建設最大的浪費,是歷史投資無法被保護的浪費。所以,我們需要采取可持續+可擴展的建設模式。

  • 可持續是指,建設的系統有延續性;
  • 可擴展是指,沉淀能力應對未來變化。

我們可以采用能力+場景的抽象架構,也就是PaaS化的架構,抽象和解耦能力沉淀于底層,在上層去構建場景和工具,適配多環境多對象。同時不同的場景工具之間聯動作業,形成真正的管理閉環,滿足現在和未來的需要。


3)第三步:提升生產力,改變生產關系

  • 生產力,指的是運維團隊的人員能夠快速去滿足運維和業務支撐所需要的能力;
  • 生產關系,是指運維和業務的關系,不再偏于被動,而是更加主動去提供甚至運營輔助等服務。

具體怎么落地?關鍵點在于給不同類型的運維人員,找到發揮價值的位置。

團隊中工作多年的運維專家,對運維的管理、聯動和執行理解非常深刻,適合轉型做運維規劃;團隊中有編碼基礎、腳本基礎的運維工程師,可以轉型運維開發,基于平臺提供的開發框架、低代碼、原子能力等,快速組裝工具系統,由此實現運維體系的自生長。

通過這三個步驟,就能夠讓整個運維團隊,實現從活力到能力,最后提升生產力的轉變。


03. 與客戶共贏

長期深耕行業,以客戶為中心,加上我們對管理經驗和工程產品的抽象,形成了目前嘉為1+7的運維產品體系。

基于騰訊藍鯨PaaS平臺沉淀共性能力,可持續可擴展地進行運維體系建設;嘉為自研的配置管理、可觀測產品、IT服務管理、自動化運維、多云管理、數據與智能中心、數據運營中心等,一體化聯動。

同時,我們也會秉持MSCP方法論,從管理實踐、行業場景、架構設計到工具工程去進行長期的產品戰略規劃,持續輸出價值,與客戶共贏。

最后,我們希望與客戶一起共贏,客戶可以用新的運維模式更好支撐業務,嘉為則用新的方法以及對應的工具體系,幫助客戶進一步提升運維價值,與客戶一起改變運維行業,一起走得更遠。

免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!

主站蜘蛛池模板: 和林格尔县| 威信县| 神木县| 南开区| 霞浦县| 老河口市| 赤城县| 天门市| 会宁县| 资源县| 凤翔县| 沙湾县| 绩溪县| 缙云县| 施秉县| 哈尔滨市| 庐江县| 定兴县| 华坪县| 长子县| 临西县| 古蔺县| 辽阳市| 阿坝县| 吉隆县| 富宁县| 潞西市| 尉犁县| 徐水县| 沙坪坝区| 大同市| 嘉峪关市| 高雄县| 龙口市| 乌拉特前旗| 邯郸县| 运城市| 工布江达县| 沁水县| 错那县| 龙岩市|