幫助中心
技術(shù)運維百科
get起來:現(xiàn)代數(shù)據(jù)中心服務(wù)器維護檢查列表
2017-06-26 15:58:41
ModelId=2&Id=781">
服務(wù)器維護可以預(yù)防嚴重問題,并保持一切正常運行。為服務(wù)器上的硬件和軟件的這些簡單篩查預(yù)留時間。 數(shù)據(jù)中心服務(wù)器只是復(fù)雜的機器。像任何機器一樣,它們需要定期維護,以達到最佳性能。簡單的維護程序可減少嚴重的服務(wù)電話,延長服務(wù)器的使用壽命。 即使現(xiàn)代服務(wù)器擁有強大性能與豐富功能,增加的工作量整合和可靠性預(yù)期可能會對您的業(yè)務(wù)造成損失。您的服務(wù)器維護核對清單應(yīng)包括物理元素以及系統(tǒng)的關(guān)鍵配置。 堅持常規(guī)檢查 服務(wù)器管理員也經(jīng)常忽略規(guī)劃維護窗口。不要等到發(fā)生實際的問題,再預(yù)留時間進行例行的服務(wù)器預(yù)防性維護。 維護頻率取決于設(shè)備的年齡、數(shù)據(jù)中心環(huán)境、需要維護的服務(wù)器的數(shù)量等因素。例如,位于設(shè)備倉庫中的較舊設(shè)備需要比采用HEPA過濾方式部署的、冷卻良好的數(shù)據(jù)中心中的新服務(wù)器更頻繁的檢查。組織可以根據(jù)供應(yīng)商或第三方提供商例程的日常維護計劃,如果供應(yīng)商的服務(wù)合同每四到六個月要求進行系統(tǒng)檢查,遵循該日程安排。 準備工作決定一切 在處理服務(wù)器維護清單上的項目之前,請先制定計劃。這包括檢查系統(tǒng)日志中是否包含需要更多直接關(guān)注的任何錯誤或事件。例如,如果系統(tǒng)日志表示特定內(nèi)存模塊的錯誤,您應(yīng)該訂購一個替換的DIMM并將其安裝。同樣,如果有固件,操作系統(tǒng)或代理補丁或更新可用,請在維護窗口之前先測試并檢查這些補丁。 還需一份明確的將系統(tǒng)脫機并將其返回服務(wù)狀態(tài)的明確計劃。在虛擬化技術(shù)出現(xiàn)之前,服務(wù)器及其駐留應(yīng)用程序?qū)⑿枰C以適應(yīng)維護窗口——通常迫使IT人員在夜間或周末執(zhí)行維護。虛擬化的服務(wù)器支持工作負載遷移,以取代停機時間,因此您可以將應(yīng)用程序遷移到其他服務(wù)器,并且在底層主機系統(tǒng)上發(fā)生服務(wù)器維護時,將它們保持為可用狀態(tài)。在服務(wù)之前,了解虛擬機應(yīng)該出現(xiàn)的位置,將虛擬機遷移到所選系統(tǒng),并確保每個工作負載正在運行,然后再將服務(wù)器關(guān)閉進行維護。 此時,通??梢躁P(guān)閉服務(wù)器并將其從機架或其他機箱中取出。 確保服務(wù)器正常運行 一旦服務(wù)器脫機時,目視檢查其外部和內(nèi)部氣流路徑。除去灰塵和其它碎屑能夠妨礙冷卻空氣的任何累積。 從外部空氣入口和出口開始檢查,隨后進入系統(tǒng)機箱,查看CPU散熱器和風扇組件,內(nèi)存模塊和所有冷卻風扇葉片和風道通道。用清潔、干燥的壓縮空氣清除適當、靜電安全的工作區(qū)上的灰塵或碎屑。不要在機架上打掃服務(wù)器。 打掃灰塵是一個古老的流程,但這并不意味著它已經(jīng)過時了?;覊m是一種絕熱材料,如何去掉它們的方法非常重要,現(xiàn)在替代的冷卻方案和ASHRAE建議已經(jīng)提高了數(shù)據(jù)中心的運行溫度?;覊m和其他氣流障礙物將導(dǎo)致服務(wù)器使用更多的能量,甚至會引起本可避免的早期組件故障。 檢查本地磁盤 許多服務(wù)器依靠內(nèi)部硬盤進行引導(dǎo)、工作負載啟動和存儲,用戶數(shù)據(jù)和其他功能。磁盤介質(zhì)問題嚴重損害了工作負載的性能和穩(wěn)定性,往往導(dǎo)致磁盤過早故障。 磁介質(zhì)不完美。普遍的問題包括扇區(qū)損壞和碎片。RAID在存儲錯誤后保持數(shù)據(jù)完整性有很大的進步,但較小的1U機架式服務(wù)器不能提供足夠的物理空間來部署磁盤陣列。使用CHKDSK(檢查磁盤)實用程序等工具來驗證磁盤的完整性,并嘗試恢復(fù)任何損壞的扇區(qū)。Windows Server 2012的更新版本的CHKDSK可以快速分析和修復(fù)文件系統(tǒng)結(jié)構(gòu)中的磁盤問題。 只要NTFS和文件分配表或FAT文件系統(tǒng)首先使用磁盤空間可用的集群,磁盤碎片根本不會消失。碎片可能會拖慢服務(wù)器的磁盤并導(dǎo)致故障。Windows Server 2012下的Optimize-Volume等實用程序會將每個文件的集群連續(xù)排列在磁盤上。 閱讀事件日志的詳細報告 服務(wù)器在事件日志中記錄大量信息,特別是有關(guān)問題的詳細信息。沒有仔細檢查系統(tǒng),惡意軟件和其他事件日志,沒有服務(wù)器維護清單完成。當然,關(guān)鍵的系統(tǒng)問題應(yīng)該立即引發(fā)IT管理員和技術(shù)人員的關(guān)注,但是, 無數(shù)的小問題可能預(yù)示著長期和嚴重的問題。 當您查閱日志時,請檢查報告設(shè)置并驗證警報和警報收件人是否正常。例如,如果服務(wù)器組有技術(shù)人員離職,則需要更新服務(wù)器的報告系統(tǒng)。仔細檢查聯(lián)系方式;如果錯誤發(fā)生在工作時間之外,則報告發(fā)給技術(shù)人員公司電子郵件地址的嚴重錯誤可能完全不夠用(譯者注:非工作時間,技術(shù)人員可能無法登陸公司郵箱獲取重要的問題報告)。 主動跟日志數(shù)據(jù)。當日志檢查發(fā)現(xiàn)長期或重復(fù)的問題時,積極的調(diào)查可以在問題升級之前進行問題解決。例如,如果服務(wù)器的日志報告內(nèi)存模塊中的可恢復(fù)性錯誤,它將不會觸發(fā)關(guān)鍵警報。但是重復(fù)的實例會導(dǎo)致模塊出現(xiàn)問題,IT人員可以執(zhí)行更詳細的診斷來識別即將發(fā)生的故障。 如果問題不是那么嚴重,無需關(guān)閉服務(wù)器,則可以在更換硬件進入之前重新恢復(fù)生產(chǎn)狀態(tài)。 為補丁和更新騰出時間 服務(wù)器的軟件?!狟IOS、操作系統(tǒng)、虛擬機管理程序、驅(qū)動程序、應(yīng)用程序、支持工具——都必須進行交互和協(xié)同工作。不幸的是,軟件代碼少有精致或無問題的時候,所以這些軟件拼圖經(jīng)常被修補或更新,以修復(fù)錯誤、提高安全性、簡化互操作性和提高性能。 生產(chǎn)軟件不具備自動更新的能力。管理員應(yīng)確定是否需要修補程序或升級,然后徹底評估和測試更改。如果更新解決的是您服務(wù)器沒遇到的問題,為何要冒發(fā)生其他問題的風險(去修復(fù)補?。?? 軟件開發(fā)人員無法測試硬件和軟件的每個潛在組合,因此修補程序和更新可能會導(dǎo)致比修復(fù)特定服務(wù)器或軟件堆棧以外的問題。例如,監(jiān)控代理補丁可能導(dǎo)致重要工作負載的性能問題,因為新代理所占用的帶寬比預(yù)期的要多。 向DevOps的轉(zhuǎn)變,更微小和更頻繁的更新加劇了潛在的問題。在部署之前,您仍然需要在實驗室中測試任何修補程序或更新。并且始終確保您可以撤銷更改,并在必要時恢復(fù)原始的軟件配置。 驗證和記錄任何的變更 在諸如硬件、軟件、系統(tǒng)配置更改的維護窗口中,服務(wù)器可能會發(fā)生很多事情。完成服務(wù)器維護清單后,IT員工必須驗證并記錄任何新的系統(tǒng)狀態(tài)。例如,更改網(wǎng)絡(luò)適配器,添加或更換DIMM,更新操作系統(tǒng)和許多其他操作可能會改變系統(tǒng)的配置。依賴于系統(tǒng)配置管理工具的組織,可能需要更新或“發(fā)現(xiàn)”變更—在系統(tǒng)允許恢復(fù)使用之前將這些變更記錄到配置管理數(shù)據(jù)庫。IT人員可能需要更新任何強制或期望的狀態(tài)配置狀態(tài)以允許變更。 還可以驗證防火墻設(shè)置、防惡意軟件版本或掃描頻率和入侵檢測/防御(IDS/IPS)設(shè)置等系統(tǒng)安全性。安全檢查可以幫助確保,對系統(tǒng)軟件的變更不會無意中暴露在先前配置中可能已關(guān)閉的任何攻擊路徑。 還有,最后,當服務(wù)器重新上線運行,不要忘記更新任何系統(tǒng)備份或災(zāi)難恢復(fù)(DR)內(nèi)容。除非特別需要調(diào)整相關(guān)設(shè)置以反映服務(wù)器的角色變化,驗證服務(wù)器的備份/DR情況或頻率是否保持不變。
新客優(yōu)惠
特價 酷睿i3系列
性價比熱銷推薦,年銷量第一
1180/月起
USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請免費產(chǎn)品試用服務(wù)
立即申請