從數(shù)據(jù)中心的日常業(yè)務(wù)運維方面考慮,則主要有日常檢查、應(yīng)用變更、軟硬件升級、突發(fā)故障等
1、日常檢查:
任何的故障在出現(xiàn)之前都可能會有所表現(xiàn),小的隱患不消除,可能導(dǎo)致重大的故障出現(xiàn),所以數(shù)據(jù)中心日常的例行檢查可以及時發(fā)現(xiàn)一些運行中的隱患。根據(jù)數(shù)據(jù)中心承載業(yè)務(wù)重要性的不同,要對數(shù)據(jù)中心里的所有運行的設(shè)備進行例行檢查。檢查服務(wù)器應(yīng)用服務(wù)是否正常,CPU內(nèi)存等利用率是否正常。對應(yīng)用業(yè)務(wù)進行檢查,看業(yè)務(wù)運行是否正常。還有對數(shù)據(jù)中心的機房環(huán)境也要進行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求。空調(diào)、供電系統(tǒng)進行運行良好,設(shè)備運行是否過熱,地板、天窗、消防、監(jiān)控都是檢查的部分??照{(diào)漏水、設(shè)備漏電都會對數(shù)據(jù)中心正常穩(wěn)定運行產(chǎn)生危害,既要人為定期檢查也需結(jié)合自動化運維工作進行提前事前預(yù)警。
2、應(yīng)用變更:
數(shù)據(jù)中心承載的業(yè)務(wù)不會是一成不變的,隨著業(yè)務(wù)的多樣化和不斷發(fā)展,經(jīng)常要對業(yè)務(wù)進行調(diào)整,包括服務(wù)器和網(wǎng)絡(luò)的設(shè)置。對服務(wù)器和網(wǎng)絡(luò)設(shè)備操作進行相應(yīng)的調(diào)整。根據(jù)應(yīng)用的需要,及時準確做出變更。
3、軟硬件升級:
數(shù)據(jù)中心的設(shè)備一般運行周期為3-5年,不斷地有設(shè)備需要逐漸淘汰進行更換,也有一些設(shè)備因為存在軟件缺陷需要升級,因此軟硬件升級也是維護工作的一部分。軟硬件升級時需要做好回退機制,以防升級出現(xiàn)問題時無法回退,業(yè)務(wù)長時間無法恢復(fù)。
4、突發(fā)故障:
沒有任何一個數(shù)據(jù)中心是不出故障的,對于突發(fā)故障,我們將結(jié)合整體架構(gòu)分析故障的觸發(fā)原因,迅速找到解決的方法,如果在短時間內(nèi)找不到解決方法,也可以通過切換到備用設(shè)備上先恢復(fù)業(yè)務(wù),再進行分析。數(shù)據(jù)中心日常維護工作實際上非常重要,關(guān)乎著整個數(shù)據(jù)中心業(yè)務(wù)的正常運行。通過多種組合方式保障數(shù)據(jù)中心根據(jù)運行情況,在事后及時調(diào)整架構(gòu)也方便進行下一個階段的規(guī)劃。