發布日期:2022-11-24 17:40:18
嘉為長期深耕于AD領域,對AD的規劃、建設、升級、運維管理、災難恢復、故障處理等均有實踐經驗,建立起了理念、技術、方案和人才的豐富儲備,能夠實現AD在企業內部的從無到有,從有到優。
然而并非所有企業都能成功建立起了合適的AD運維模式,其運維人員也不得不面對一個個“傷筋動骨”的AD故障。
下面將通過講述某科技公司,以非良性AD運維模式為誘因,AD域內所有域控均發生故障,必須進行林恢復的真實案例,與大家共同分享嘉為在AD領域的實踐經驗。
01. 案例背景
1)故事的起點——常規恢復手段失效
2022年6月13日,該企業IT管理員突然發現,在企業內部的無線網絡無法正常認證連接,部分服務器的DNS無法解析域名。
在經過簡單排查后發現,出現異常的客戶端,其DNS服務器均指向主域控(指PDC角色所有者,這臺主域控同時也是提供內部證書服務的CA服務器),隨后IT管理員臨時將DNS服務、應用LDAP連接從主域控遷移到同站點同機房的另一臺域控制器上,同時臨時取消了無線網絡的認證規則。
暫時恢復業務后,IT管理員按照日常方式,重新搭建了域控制器,以此來替代舊服務器,但將新服務器升級為域控時卻出現了新的報錯,報錯中提到新服務器無法加入域,同時DNS注冊異常。
在將常規手段全部嘗試了一遍無果后,管理員開始尋求外部協助。
02. 雷厲風行,嘉為迅速介入
1)故障初步排查——提供常見恢復方案
2022年6月15日晚,該企業管理員通過集團總部聯系到嘉為服務團隊,嘉為立即提供了遠程支持,通過遠程連接到AD域環境后,發現以下問題:
經過上述檢查后,嘉為技術人員以業務恢復為第一原則,做出以下判斷:
2)尷尬而危險的平衡——更高的恢復要求
2022年6月16日凌晨,在提交初步解決方案后,嘉為技術團隊與開始域IT管理員溝通實施細節,卻發現遠程實施該方案存在著以下不可預估的風險:
由于當前主要業務功能未受到很大影響,于是約定當日下午到企業現場進行故障處理。經過現場溝通,我們對其AD域故障事件的復雜性有了全面的認知:
① 恢復方案不能中斷業務:主域控無法停機,任何涉及重啟的修復操作不在考慮范圍之內。
② 恢復方案受復雜環境影響大:AD域環境混亂,恢復方案需要排除的影響點過多,其中包括:
③ 恢復方案的時間壓力大:618期間,業務流量大,連續性要求高,當前僅一臺域控制器提供認證,隨時可能發生業務中斷,必須盡快恢復。
既不能停機,又沒有AD健康備份的保障,再加上參差不齊的服務器配置、復雜難捋的網絡環境以及業務高峰的現實壓力,此時這套AD系統,正處在一個尷尬而危險的平衡點,隨時有可能繃斷。
在對故障信息有了以上清晰的認知后,嘉為團隊提出了一個新的解決方案,用過隔離輔助域控,進行林恢復。
3)新方案的制定——保障業務連續穩健恢復
2022年6月17日上午,嘉為團隊再一次對企業AD域環境進行了深度調研,獲取各個域控的基本信息、應用角色以及受損情況。
針對域控上的服務角色,如DHCP、DPS、CA等,分別制定了遷移方案,以此形成了服務器信息調研表、拓撲圖,故障恢復流程、checklist、恢復備案等合一的AD環境故障恢復方案。
同時與企業AD管理員、網絡管理員、應用管理員等幾乎所有相關的IT管理員溝通,并組織了多次的方案討論,最終確定了恢復方案。
在最終確定的恢復方案中,高版本的輔助域控將作為恢復基點,在隔離環境中執行以下操作:
確保林恢復完成后,再進行一系列的域控搭建、服務角色遷移、脫域計算機處理等操作:
4)新方案的執行——些許波折,成功執行
2022年6月18日晚。所有人到崗待命,開始執行恢復方案。
然而在準備隔離環境域控制器第一步時,就發生了令氣壓驟增的情況,原定計劃需要使用生產環境的輔助域控進行裸機備份,再將裸機備份還原到隔離環境中,進行修復。
然而,企業整體環境中的虛擬化平臺資源極少,大部分服務器均為物理機,在進行裸機備份還原的過程中,客戶提供的虛擬機始終無法成功還原備份。
在經過2小時的嘗試后,嘉為團隊決定采用備份還原驗證域生產服務器恢復并行的策略,即將備份提供給嘉為,讓其使用其他可用環境還原驗證,同時將一臺生產環境的輔助域控制器進行隔離,進行恢復操作。
這樣的決定,雖然稍微提高了對生產環境服務器的風險,但范圍可以接受(限定在1臺輔助域控制器)。終于在次日凌晨3點,成功在隔離環境中執行了林恢復,應用接入認證正常,常規域服務功能驗證正常。
凌晨6點時,其他站點的輔助域控制器進行了替換,服務角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業AD域的基本業務均已恢復,AD域的可用性得到保障,所有人都松了一口氣。
03. 案例示警
針對上述AD域故障恢復案例,我們可以提供一些具體的建議或建設范疇:
正如開頭所說,AD是一套在許多企業內部落地的的基礎架構系統,許多事件的參考信息可以很便捷地在網絡上查閱,有關特定事件的處理、特定的功能實現也有齊備的文檔參考,但這僅僅只能提高運維人員處理特定問題的能力,卻無法在AD運維的整體邏輯上提供保障。
實際上,我們仍然會一遍又一遍的建議和幫助客戶建立起適用于企業的AD運維管理規范,它們是圍繞AD的操作文檔、規章制度、流程管理、運維工具和一系列運維實踐,是這些要素共同服務于企業IT管理理念的產物。對于AD而言,健壯的“體魄”,而非“藥石”,能更好地避免“傷筋動骨”。
04. 嘉為AD運維服務
針對企業AD運維,嘉為團隊提供全面一站式的技術服務,包括:AD及基礎架構實施、AD域升級與架構優化、AD安全加固、AD HW服務等,助企業打造堅如磐石的IT系統,為企業信息系統保駕護航。
除此之外,嘉為還提供規劃咨詢服務、系統建設服務、二線專家服務、系統優化服務、IT運維整體外包服務、人員派駐等服務,企業可以根據需求自由組合選擇使用的服務內容和范圍。
05. 智能轉型——WeOps一體化運維平臺
針對該科技公司AD域故障事件,嘉為團隊后續推薦了WeOps一體化運維平臺,持續賦能,幫助企業運維逐步邁向智能化。
嘉為藍鯨WeOps,是一款專注于保障企業業務連續性、支持國產化的一站式運維平臺,以故障定位和全生命周期管理為核心,融合聯動資源中心、健康掃描、監控告警、知識庫、數字大屏及自動化運維工具等多項功能。
有關企業AD運維,WeOps平臺可從預防和監控故障處理兩方面保駕護航:
1)預防
WeOps平臺可針對日常排查時發現的一系列隱患做到及時預防。案例中由于企業AD不規范導致系統存在沒有備份、沒有補丁安裝、網絡環境負載等隱患,而WeOPs平臺可通過作業平臺定時自動備份、通過補丁安裝進行定期安裝、通過平臺進行網絡設備的自動發現,生成拓撲完美解決上述問題。
2)監控故障處理
WeOps平臺中的監控告警系統,可做到持續監控,智能告警,提前發現問題,降低業務影響,一旦發生故障,可通過拓撲圖分析關聯影響,同時結合資產管理分析資產影響情況,最后采用自動化工具快速解決故障,持續保障企業業務連續性。
嘉為藍鯨WeOps平臺滿足國產化兼容,支持在國產環境下的一站式運維,自主可控,幫助用戶解決工具功能單一、眾多IT運維對象管理難、自動化程度低、信創生態產品兼容等問題,助力客戶安全落地一站式運維場景。
「經過與嘉為團隊的協作,對其他站點的輔助域控制器進行了替換,服務角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業AD域的基本業務均已恢復,AD域的可用性得到保障,所有人都松了一口氣。」
某科技公司近年來,面對全球新冠疫情危機以及嚴峻復雜的國內外環境,傳統鋁型材制造業遭遇到了嚴峻挑戰,但是作為南海區制造業頭部企業,堅美鋁業積極響應《廣東省佛山市落實推動制造業數字化智能化轉型發展》的政策號召,攻堅克難,加大對升級建設自動化生產基地的投入,擴大產能,保持企業良好的增長勢頭。
創立于1929年的周大福,是全球著名的珠寶集團,零售網絡遍及中國、日本、韓國、東南亞與美國。嘉為藍鯨WeOps平臺上線后,除了主機監控,監控范圍增加了操作系統、數據庫、中間件、虛擬化、云平臺、基礎應用等維度,運維人員可以主動針對影響業務的關鍵指標設置發現和解決問題的流程。
自新型冠狀病毒爆發以來,地產行業面臨前所未有的挑戰,業務線上化已成為全面需求,某大型地產集團積極做出業務調整,全面實施線上賣房。通過線上應用服務,客戶可以選擇在線上享受看房、推薦及認購等一站式服務,該大型集團打破時間與空間的限制,為客戶提供安全且便捷的服務。
申請演示
主站蜘蛛池模板: 庆阳市| 珲春市| 扎兰屯市| 星子县| 云南省| 伊川县| 榆林市| 嘉鱼县| 深州市| 呼图壁县| 邵阳市| 准格尔旗| 镇雄县| 木里| 静乐县| 深圳市| 儋州市| 铅山县| 永寿县| 安化县| 邵东县| 太原市| 武功县| 宁城县| 兴和县| 鹤庆县| 岱山县| 乌恰县| 吴桥县| 临高县| 梁河县| 青铜峡市| 黎川县| 涟源市| 宜宾县| 贵阳市| 辉县市| 屏边| 双峰县| 长海县| 兰溪市|