精品国产一区二区三区麻豆小说,亚洲国产精品一区二区三区,欧美大片一区二区,欧美日韩国产精品一区

首頁

/

保駕護航,嘉為藍鯨助力某科技公司AD域故障恢復實記

發布日期:2022-11-24 17:40:18

全部案例

AD是指微軟Active Directory活動目錄系統,作為目前市面上主流的活動目錄產品,AD在許多企業內部承擔著基礎架構核心系統的角色,維護這套系統的正常運行是企業內部基礎運維的重要課題,需要IT人員擁有齊備的技術文檔、豐富的社區案例知識以及企業長年的運維服務實踐經驗。

嘉為長期深耕于AD領域,對AD的規劃、建設、升級、運維管理、災難恢復、故障處理等均有實踐經驗,建立起了理念、技術、方案和人才的豐富儲備,能夠實現AD在企業內部的從無到有,從有到優。

然而并非所有企業都能成功建立起了合適的AD運維模式,其運維人員也不得不面對一個個“傷筋動骨”的AD故障。

下面將通過講述某科技公司,以非良性AD運維模式為誘因,AD域內所有域控均發生故障,必須進行林恢復的真實案例,與大家共同分享嘉為在AD領域的實踐經驗。


01. 案例背景

1)故事的起點——常規恢復手段失效

2022年6月13日,該企業IT管理員突然發現,在企業內部的無線網絡無法正常認證連接,部分服務器的DNS無法解析域名。

在經過簡單排查后發現,出現異常的客戶端,其DNS服務器均指向主域控(指PDC角色所有者,這臺主域控同時也是提供內部證書服務的CA服務器),隨后IT管理員臨時將DNS服務、應用LDAP連接從主域控遷移到同站點同機房的另一臺域控制器上,同時臨時取消了無線網絡的認證規則。

暫時恢復業務后,IT管理員按照日常方式,重新搭建了域控制器,以此來替代舊服務器,但將新服務器升級為域控時卻出現了新的報錯,報錯中提到新服務器無法加入域,同時DNS注冊異常。

在將常規手段全部嘗試了一遍無果后,管理員開始尋求外部協助。


02. 雷厲風行,嘉為迅速介入

1)故障初步排查——提供常見恢復方案

2022年6月15日晚,該企業管理員通過集團總部聯系到嘉為服務團隊,嘉為立即提供了遠程支持,通過遠程連接到AD域環境后,發現以下問題:

  • 主域控認證功能正常,但DNS服務異常,LDAP無法連接,可以通過AD遠程管理工具訪問目錄數據。其他域控DNS服務正常,認證功能異常,LDAP可以連接,但無法通過AD遠程管理工具訪問目錄數據,同時域控間已無法正常復制。
  • 主域控的DNS日志有4000、4007事件,此時DNS管理器無法加載DNS區域,提示“拒絕訪問”

    • 登錄其他域控制器,發現SVSVOL共享丟失,使用以下命令確認DFS復制狀態,提示出錯(代號5):

    經過上述檢查后,嘉為技術人員以業務恢復為第一原則,做出以下判斷:

    • 主域控DNS異常的原因是PDC丟失安全通道,需要重置主域控的計算機密碼,在重置完成后DNS區域應能正常加載。
    • 在擁有良好的AD運維管理環境以及將可用AD備份的情況下,以上方案有利于故障的快速恢復,但隨著嘉為團隊對企業實際環境深入了解后,發現問題遠比想象中的復雜。


  • 2)尷尬而危險的平衡——更高的恢復要求

    2022年6月16日凌晨,在提交初步解決方案后,嘉為技術團隊與開始域IT管理員溝通實施細節,卻發現遠程實施該方案存在著以下不可預估的風險:

    • 沒有健康AD的可用備份。
    • 無法對主域控制器執行重啟操作,僅有主域控制器能提供認證服務,停機影響過大。

    由于當前主要業務功能未受到很大影響,于是約定當日下午到企業現場進行故障處理。經過現場溝通,我們對其AD域故障事件的復雜性有了全面的認知:

    ① 恢復方案不能中斷業務:主域控無法停機,任何涉及重啟的修復操作不在考慮范圍之內。

    ② 恢復方案受復雜環境影響大:AD域環境混亂,恢復方案需要排除的影響點過多,其中包括:

    • 境中域控制器版本橫跨Windows Server 2008 R2到Windows Server 2019,且服務器沒有定期進行補丁更新,DFS組件可能存在漏洞;
    • 網絡環境復雜,橫跨多個機房,域控間應開啟的網絡策略并未全部放通,且域控制器皆為物理服務器,人員響應有時空上的困難;
    • 各地域控制器由不同管理員管理,其上安裝了各類服務,存在個別自行下線,元數據殘留的域控制器。

    ③ 恢復方案的時間壓力大:618期間,業務流量大,連續性要求高,當前僅一臺域控制器提供認證,隨時可能發生業務中斷,必須盡快恢復。

    既不能停機,又沒有AD健康備份的保障,再加上參差不齊的服務器配置、復雜難捋的網絡環境以及業務高峰的現實壓力,此時這套AD系統,正處在一個尷尬而危險的平衡點,隨時有可能繃斷。

    在對故障信息有了以上清晰的認知后,嘉為團隊提出了一個新的解決方案,用過隔離輔助域控,進行林恢復。


    3)新方案的制定——保障業務連續穩健恢復

    2022年6月17日上午,嘉為團隊再一次對企業AD域環境進行了深度調研,獲取各個域控的基本信息、應用角色以及受損情況。

    針對域控上的服務角色,如DHCP、DPS、CA等,分別制定了遷移方案,以此形成了服務器信息調研表、拓撲圖,故障恢復流程、checklist、恢復備案等合一的AD環境故障恢復方案。

    同時與企業AD管理員、網絡管理員、應用管理員等幾乎所有相關的IT管理員溝通,并組織了多次的方案討論,最終確定了恢復方案。

    服務器信息調研表
    拓撲圖

    在最終確定的恢復方案中,高版本的輔助域控將作為恢復基點,在隔離環境中執行以下操作:

    • 奪取操作主機角色
    • 清理其他域控的元數據
    • 執行SVSVOL權威還原

    確保林恢復完成后,再進行一系列的域控搭建、服務角色遷移、脫域計算機處理等操作:


    4)新方案的執行——些許波折,成功執行

    2022年6月18日晚。所有人到崗待命,開始執行恢復方案。

    然而在準備隔離環境域控制器第一步時,就發生了令氣壓驟增的情況,原定計劃需要使用生產環境的輔助域控進行裸機備份,再將裸機備份還原到隔離環境中,進行修復。

    然而,企業整體環境中的虛擬化平臺資源極少,大部分服務器均為物理機,在進行裸機備份還原的過程中,客戶提供的虛擬機始終無法成功還原備份。

    在經過2小時的嘗試后,嘉為團隊決定采用備份還原驗證域生產服務器恢復并行的策略,即將備份提供給嘉為,讓其使用其他可用環境還原驗證,同時將一臺生產環境的輔助域控制器進行隔離,進行恢復操作。

    這樣的決定,雖然稍微提高了對生產環境服務器的風險,但范圍可以接受(限定在1臺輔助域控制器)。終于在次日凌晨3點,成功在隔離環境中執行了林恢復,應用接入認證正常,常規域服務功能驗證正常。

    凌晨6點時,其他站點的輔助域控制器進行了替換,服務角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業AD域的基本業務均已恢復,AD域的可用性得到保障,所有人都松了一口氣。


    03. 案例示警

    針對上述AD域故障恢復案例,我們可以提供一些具體的建議或建設范疇:

    • 提高認知:AD是基礎架構核心系統,明晰AD運維在企業內部的定位。
    • AD設計規范:使用什么版本的系統、開通哪些網絡端口、何時增加域控、何時增加站點、對接入應用有什么要求等范疇,建議制定相關的規范,以確保AD域環境的規范。
    • 災難恢復演練:做好AD備份,定期進行災難恢復演練,更新災難恢復文檔,制定災難恢復響應流程。
    • 建設AD域服務監控。

    正如開頭所說,AD是一套在許多企業內部落地的的基礎架構系統,許多事件的參考信息可以很便捷地在網絡上查閱,有關特定事件的處理、特定的功能實現也有齊備的文檔參考,但這僅僅只能提高運維人員處理特定問題的能力,卻無法在AD運維的整體邏輯上提供保障。

    實際上,我們仍然會一遍又一遍的建議和幫助客戶建立起適用于企業的AD運維管理規范,它們是圍繞AD的操作文檔、規章制度、流程管理、運維工具和一系列運維實踐,是這些要素共同服務于企業IT管理理念的產物。對于AD而言,健壯的“體魄”,而非“藥石”,能更好地避免“傷筋動骨”。


    04. 嘉為AD運維服務

    針對企業AD運維,嘉為團隊提供全面一站式的技術服務,包括:AD及基礎架構實施、AD域升級與架構優化、AD安全加固、AD HW服務等,助企業打造堅如磐石的IT系統,為企業信息系統保駕護航。

    除此之外,嘉為還提供規劃咨詢服務、系統建設服務、二線專家服務、系統優化服務、IT運維整體外包服務、人員派駐等服務,企業可以根據需求自由組合選擇使用的服務內容和范圍。


    05. 智能轉型——WeOps一體化運維平臺

    針對該科技公司AD域故障事件,嘉為團隊后續推薦了WeOps一體化運維平臺,持續賦能,幫助企業運維逐步邁向智能化。

    嘉為藍鯨WeOps,是一款專注于保障企業業務連續性、支持國產化的一站式運維平臺,以故障定位和全生命周期管理為核心,融合聯動資源中心、健康掃描、監控告警、知識庫、數字大屏及自動化運維工具等多項功能。

    有關企業AD運維,WeOps平臺可從預防和監控故障處理兩方面保駕護航:

    1)預防

    WeOps平臺可針對日常排查時發現的一系列隱患做到及時預防。案例中由于企業AD不規范導致系統存在沒有備份、沒有補丁安裝、網絡環境負載等隱患,而WeOPs平臺可通過作業平臺定時自動備份、通過補丁安裝進行定期安裝、通過平臺進行網絡設備的自動發現,生成拓撲完美解決上述問題。


    2)監控故障處理

    WeOps平臺中的監控告警系統,可做到持續監控,智能告警,提前發現問題,降低業務影響,一旦發生故障,可通過拓撲圖分析關聯影響,同時結合資產管理分析資產影響情況,最后采用自動化工具快速解決故障,持續保障企業業務連續性。

    嘉為藍鯨WeOps平臺滿足國產化兼容,支持在國產環境下的一站式運維,自主可控,幫助用戶解決工具功能單一、眾多IT運維對象管理難、自動化程度低、信創生態產品兼容等問題,助力客戶安全落地一站式運維場景。

    客戶感言

    「經過與嘉為團隊的協作,對其他站點的輔助域控制器進行了替換,服務角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業AD域的基本業務均已恢復,AD域的可用性得到保障,所有人都松了一口氣。」

    某科技公司

    免費申請演示

    聯系我們

    服務熱線:

    020-38847288

    QQ咨詢:

    3593213400

    在線溝通:

    立即咨詢
    查看更多聯系方式

    申請演示

    請登錄后在查看!

    主站蜘蛛池模板: 庆阳市| 珲春市| 扎兰屯市| 星子县| 云南省| 伊川县| 榆林市| 嘉鱼县| 深州市| 呼图壁县| 邵阳市| 准格尔旗| 镇雄县| 木里| 静乐县| 深圳市| 儋州市| 铅山县| 永寿县| 安化县| 邵东县| 太原市| 武功县| 宁城县| 兴和县| 鹤庆县| 岱山县| 乌恰县| 吴桥县| 临高县| 梁河县| 青铜峡市| 黎川县| 涟源市| 宜宾县| 贵阳市| 辉县市| 屏边| 双峰县| 长海县| 兰溪市|