幫助中心
技術(shù)運(yùn)維百科
get起來:現(xiàn)代數(shù)據(jù)中心服務(wù)器維護(hù)檢查列表
2017-06-26 15:58:41
服務(wù)器維護(hù)可以預(yù)防嚴(yán)重問題,并保持一切正常運(yùn)行。為服務(wù)器上的硬件和軟件的這些簡(jiǎn)單篩查預(yù)留時(shí)間。 數(shù)據(jù)中心服務(wù)器只是復(fù)雜的機(jī)器。像任何機(jī)器一樣,它們需要定期維護(hù),以達(dá)到最佳性能。簡(jiǎn)單的維護(hù)程序可減少嚴(yán)重的服務(wù)電話,延長服務(wù)器的使用壽命。 即使現(xiàn)代服務(wù)器擁有強(qiáng)大性能與豐富功能,增加的工作量整合和可靠性預(yù)期可能會(huì)對(duì)您的業(yè)務(wù)造成損失。您的服務(wù)器維護(hù)核對(duì)清單應(yīng)包括物理元素以及系統(tǒng)的關(guān)鍵配置。 堅(jiān)持常規(guī)檢查 服務(wù)器管理員也經(jīng)常忽略規(guī)劃維護(hù)窗口。不要等到發(fā)生實(shí)際的問題,再預(yù)留時(shí)間進(jìn)行例行的服務(wù)器預(yù)防性維護(hù)。 維護(hù)頻率取決于設(shè)備的年齡、數(shù)據(jù)中心環(huán)境、需要維護(hù)的服務(wù)器的數(shù)量等因素。例如,位于設(shè)備倉庫中的較舊設(shè)備需要比采用HEPA過濾方式部署的、冷卻良好的數(shù)據(jù)中心中的新服務(wù)器更頻繁的檢查。組織可以根據(jù)供應(yīng)商或第三方提供商例程的日常維護(hù)計(jì)劃,如果供應(yīng)商的服務(wù)合同每四到六個(gè)月要求進(jìn)行系統(tǒng)檢查,遵循該日程安排。 準(zhǔn)備工作決定一切 在處理服務(wù)器維護(hù)清單上的項(xiàng)目之前,請(qǐng)先制定計(jì)劃。這包括檢查系統(tǒng)日志中是否包含需要更多直接關(guān)注的任何錯(cuò)誤或事件。例如,如果系統(tǒng)日志表示特定內(nèi)存模塊的錯(cuò)誤,您應(yīng)該訂購一個(gè)替換的DIMM并將其安裝。同樣,如果有固件,操作系統(tǒng)或代理補(bǔ)丁或更新可用,請(qǐng)?jiān)诰S護(hù)窗口之前先測(cè)試并檢查這些補(bǔ)丁。 還需一份明確的將系統(tǒng)脫機(jī)并將其返回服務(wù)狀態(tài)的明確計(jì)劃。在虛擬化技術(shù)出現(xiàn)之前,服務(wù)器及其駐留應(yīng)用程序?qū)⑿枰C(jī)以適應(yīng)維護(hù)窗口——通常迫使IT人員在夜間或周末執(zhí)行維護(hù)。虛擬化的服務(wù)器支持工作負(fù)載遷移,以取代停機(jī)時(shí)間,因此您可以將應(yīng)用程序遷移到其他服務(wù)器,并且在底層主機(jī)系統(tǒng)上發(fā)生服務(wù)器維護(hù)時(shí),將它們保持為可用狀態(tài)。在服務(wù)之前,了解虛擬機(jī)應(yīng)該出現(xiàn)的位置,將虛擬機(jī)遷移到所選系統(tǒng),并確保每個(gè)工作負(fù)載正在運(yùn)行,然后再將服務(wù)器關(guān)閉進(jìn)行維護(hù)。 此時(shí),通??梢躁P(guān)閉服務(wù)器并將其從機(jī)架或其他機(jī)箱中取出。 確保服務(wù)器正常運(yùn)行 一旦服務(wù)器脫機(jī)時(shí),目視檢查其外部和內(nèi)部氣流路徑。除去灰塵和其它碎屑能夠妨礙冷卻空氣的任何累積。 從外部空氣入口和出口開始檢查,隨后進(jìn)入系統(tǒng)機(jī)箱,查看CPU散熱器和風(fēng)扇組件,內(nèi)存模塊和所有冷卻風(fēng)扇葉片和風(fēng)道通道。用清潔、干燥的壓縮空氣清除適當(dāng)、靜電安全的工作區(qū)上的灰塵或碎屑。不要在機(jī)架上打掃服務(wù)器。 打掃灰塵是一個(gè)古老的流程,但這并不意味著它已經(jīng)過時(shí)了。灰塵是一種絕熱材料,如何去掉它們的方法非常重要,現(xiàn)在替代的冷卻方案和ASHRAE建議已經(jīng)提高了數(shù)據(jù)中心的運(yùn)行溫度?;覊m和其他氣流障礙物將導(dǎo)致服務(wù)器使用更多的能量,甚至?xí)鸨究杀苊獾脑缙诮M件故障。 檢查本地磁盤 許多服務(wù)器依靠內(nèi)部硬盤進(jìn)行引導(dǎo)、工作負(fù)載啟動(dòng)和存儲(chǔ),用戶數(shù)據(jù)和其他功能。磁盤介質(zhì)問題嚴(yán)重?fù)p害了工作負(fù)載的性能和穩(wěn)定性,往往導(dǎo)致磁盤過早故障。 磁介質(zhì)不完美。普遍的問題包括扇區(qū)損壞和碎片。RAID在存儲(chǔ)錯(cuò)誤后保持?jǐn)?shù)據(jù)完整性有很大的進(jìn)步,但較小的1U機(jī)架式服務(wù)器不能提供足夠的物理空間來部署磁盤陣列。使用CHKDSK(檢查磁盤)實(shí)用程序等工具來驗(yàn)證磁盤的完整性,并嘗試恢復(fù)任何損壞的扇區(qū)。Windows Server 2012的更新版本的CHKDSK可以快速分析和修復(fù)文件系統(tǒng)結(jié)構(gòu)中的磁盤問題。 只要NTFS和文件分配表或FAT文件系統(tǒng)首先使用磁盤空間可用的集群,磁盤碎片根本不會(huì)消失。碎片可能會(huì)拖慢服務(wù)器的磁盤并導(dǎo)致故障。Windows Server 2012下的Optimize-Volume等實(shí)用程序會(huì)將每個(gè)文件的集群連續(xù)排列在磁盤上。 閱讀事件日志的詳細(xì)報(bào)告 服務(wù)器在事件日志中記錄大量信息,特別是有關(guān)問題的詳細(xì)信息。沒有仔細(xì)檢查系統(tǒng),惡意軟件和其他事件日志,沒有服務(wù)器維護(hù)清單完成。當(dāng)然,關(guān)鍵的系統(tǒng)問題應(yīng)該立即引發(fā)IT管理員和技術(shù)人員的關(guān)注,但是, 無數(shù)的小問題可能預(yù)示著長期和嚴(yán)重的問題。 當(dāng)您查閱日志時(shí),請(qǐng)檢查報(bào)告設(shè)置并驗(yàn)證警報(bào)和警報(bào)收件人是否正常。例如,如果服務(wù)器組有技術(shù)人員離職,則需要更新服務(wù)器的報(bào)告系統(tǒng)。仔細(xì)檢查聯(lián)系方式;如果錯(cuò)誤發(fā)生在工作時(shí)間之外,則報(bào)告發(fā)給技術(shù)人員公司電子郵件地址的嚴(yán)重錯(cuò)誤可能完全不夠用(譯者注:非工作時(shí)間,技術(shù)人員可能無法登陸公司郵箱獲取重要的問題報(bào)告)。 主動(dòng)跟日志數(shù)據(jù)。當(dāng)日志檢查發(fā)現(xiàn)長期或重復(fù)的問題時(shí),積極的調(diào)查可以在問題升級(jí)之前進(jìn)行問題解決。例如,如果服務(wù)器的日志報(bào)告內(nèi)存模塊中的可恢復(fù)性錯(cuò)誤,它將不會(huì)觸發(fā)關(guān)鍵警報(bào)。但是重復(fù)的實(shí)例會(huì)導(dǎo)致模塊出現(xiàn)問題,IT人員可以執(zhí)行更詳細(xì)的診斷來識(shí)別即將發(fā)生的故障。 如果問題不是那么嚴(yán)重,無需關(guān)閉服務(wù)器,則可以在更換硬件進(jìn)入之前重新恢復(fù)生產(chǎn)狀態(tài)。 為補(bǔ)丁和更新騰出時(shí)間 服務(wù)器的軟件?!狟IOS、操作系統(tǒng)、虛擬機(jī)管理程序、驅(qū)動(dòng)程序、應(yīng)用程序、支持工具——都必須進(jìn)行交互和協(xié)同工作。不幸的是,軟件代碼少有精致或無問題的時(shí)候,所以這些軟件拼圖經(jīng)常被修補(bǔ)或更新,以修復(fù)錯(cuò)誤、提高安全性、簡(jiǎn)化互操作性和提高性能。 生產(chǎn)軟件不具備自動(dòng)更新的能力。管理員應(yīng)確定是否需要修補(bǔ)程序或升級(jí),然后徹底評(píng)估和測(cè)試更改。如果更新解決的是您服務(wù)器沒遇到的問題,為何要冒發(fā)生其他問題的風(fēng)險(xiǎn)(去修復(fù)補(bǔ)?。?/span> 軟件開發(fā)人員無法測(cè)試硬件和軟件的每個(gè)潛在組合,因此修補(bǔ)程序和更新可能會(huì)導(dǎo)致比修復(fù)特定服務(wù)器或軟件堆棧以外的問題。例如,監(jiān)控代理補(bǔ)丁可能導(dǎo)致重要工作負(fù)載的性能問題,因?yàn)樾麓硭加玫膸挶阮A(yù)期的要多。 向DevOps的轉(zhuǎn)變,更微小和更頻繁的更新加劇了潛在的問題。在部署之前,您仍然需要在實(shí)驗(yàn)室中測(cè)試任何修補(bǔ)程序或更新。并且始終確保您可以撤銷更改,并在必要時(shí)恢復(fù)原始的軟件配置。 驗(yàn)證和記錄任何的變更 在諸如硬件、軟件、系統(tǒng)配置更改的維護(hù)窗口中,服務(wù)器可能會(huì)發(fā)生很多事情。完成服務(wù)器維護(hù)清單后,IT員工必須驗(yàn)證并記錄任何新的系統(tǒng)狀態(tài)。例如,更改網(wǎng)絡(luò)適配器,添加或更換DIMM,更新操作系統(tǒng)和許多其他操作可能會(huì)改變系統(tǒng)的配置。依賴于系統(tǒng)配置管理工具的組織,可能需要更新或“發(fā)現(xiàn)”變更—在系統(tǒng)允許恢復(fù)使用之前將這些變更記錄到配置管理數(shù)據(jù)庫。IT人員可能需要更新任何強(qiáng)制或期望的狀態(tài)配置狀態(tài)以允許變更。 還可以驗(yàn)證防火墻設(shè)置、防惡意軟件版本或掃描頻率和入侵檢測(cè)/防御(IDS/IPS)設(shè)置等系統(tǒng)安全性。安全檢查可以幫助確保,對(duì)系統(tǒng)軟件的變更不會(huì)無意中暴露在先前配置中可能已關(guān)閉的任何攻擊路徑。 還有,最后,當(dāng)服務(wù)器重新上線運(yùn)行,不要忘記更新任何系統(tǒng)備份或?yàn)?zāi)難恢復(fù)(DR)內(nèi)容。除非特別需要調(diào)整相關(guān)設(shè)置以反映服務(wù)器的角色變化,驗(yàn)證服務(wù)器的備份/DR情況或頻率是否保持不變。
新客優(yōu)惠
特價(jià) 酷睿i3系列
性價(jià)比熱銷推薦,年銷量第一
1180/月起
USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請(qǐng)免費(fèi)產(chǎn)品試用服務(wù)
立即申請(qǐng)