【中國傳動網(wǎng) 企業(yè)動態(tài)】 無人期盼災(zāi)難的來臨,但是災(zāi)難如守信的信使一般總是遵守墨菲定律,他偏愛在你最不愿意他光臨的雨夜敲門。
因此我們有必要為時間還來得及的時候,安排好一切。災(zāi)難恢復(fù)計劃Disasterrecoveryplan以簡單描述成DRP就是幫助一個數(shù)據(jù)中心領(lǐng)導(dǎo)人或組織,在運營之初就為災(zāi)難做好準(zhǔn)備計劃,這種計劃不能避免災(zāi)難的發(fā)生,但是極為有助于大幅減少災(zāi)難發(fā)生后的產(chǎn)生的影響和提高在災(zāi)難發(fā)生過程中,數(shù)據(jù)中心業(yè)務(wù)持續(xù)運行不受影響。
DRP之緣起
自2017年以來,我國陸續(xù)建成了一批超大型數(shù)據(jù)中心,面積在一萬平米以上或者機柜數(shù)量在2000機柜以上。這些數(shù)據(jù)中心陸續(xù)投入運行以后,可以說是新聞迭出,被光纜施工、水患災(zāi)難甚至是市政電力系統(tǒng)的升級所影響甚至停業(yè)的數(shù)據(jù)中心案例層出不窮,我們數(shù)據(jù)中心運營的從業(yè)者需要對災(zāi)難加以評估、準(zhǔn)備和計劃,一切尚不晚,而縱觀我們多數(shù)的數(shù)據(jù)中心運營者甚至連DRP的概念都還沒有形成,因此本文力圖在這方面給出一定的提醒和參考。
可能會有人對DRP與EOP兩個計劃的概念混淆不清EOP(EmergencyOperatingProcedure)應(yīng)急運行計劃,是對已知的、已經(jīng)驗證的災(zāi)難加以演練并制定已經(jīng)計劃,而DRP則更多關(guān)注災(zāi)難已經(jīng)發(fā)生,我們應(yīng)該如何組織自救、恢復(fù)生產(chǎn),確保在在災(zāi)難發(fā)生過程中生產(chǎn)如何安全、持續(xù)的運行。
那么我們將在多大的范圍或多高的位置討論這個計劃呢?一個具體的數(shù)據(jù)中心場地,而不是多個,因為每一個數(shù)據(jù)中心場地都是不一樣的,恢復(fù)計劃不能簡單套用。災(zāi)難恢復(fù)計劃的最高負責(zé)人又是誰呢?災(zāi)難恢復(fù)小組組長,請不要誤會這個組長是一個常設(shè)的小職務(wù),他通常應(yīng)該是這個場站的運維經(jīng)理,在國內(nèi)可能是一個企業(yè)的運維總監(jiān)或者基礎(chǔ)設(shè)施總監(jiān),他日常的職務(wù)可能主管多個支持部門,包括物理設(shè)施運維部、IT設(shè)施運營部、工程建設(shè)部等。
災(zāi)難恢復(fù)小組組長責(zé)任重大(出于某種考慮,可以再設(shè)置副組長一名),他決定是否啟動或結(jié)束災(zāi)難恢復(fù)計劃。
一個災(zāi)難恢復(fù)計劃的模板應(yīng)該包括如下信息:
災(zāi)難恢復(fù)計劃本身的信息必須由DRP恢復(fù)小組組長任命的現(xiàn)場經(jīng)理及時更新,當(dāng)現(xiàn)場經(jīng)理發(fā)現(xiàn)任何不正確、丟失應(yīng)立即通知現(xiàn)場相關(guān)的管理人員加以糾正直至信息完全準(zhǔn)備并記錄在案。
我們還需要對災(zāi)難這個詞本身進行一個定義,這里的災(zāi)難指的是導(dǎo)致數(shù)據(jù)中心的服務(wù)遭受損失,災(zāi)難的程度可以分級,是數(shù)據(jù)中心服務(wù)減少了?還是根本停止了?以及這個災(zāi)難可能導(dǎo)致的后果是什么?比如火災(zāi)、水患、恐怖襲擊、人為錯誤還是軟硬件故障等等。
一個災(zāi)難恢復(fù)計劃的成功實施,是需要一個數(shù)據(jù)中心站場內(nèi)的各個部門相互協(xié)同的,一個災(zāi)難恢復(fù)小組都有哪些人員或組織組成呢?小組成員通常包含以下幾個部門:首先是災(zāi)難恢復(fù)小組組長,通常由場地的運維經(jīng)理(總監(jiān)級)擔(dān)任,在國內(nèi)也許是這個數(shù)據(jù)中心的總經(jīng)理;其次是現(xiàn)場運維組長,國內(nèi)應(yīng)該是運維經(jīng)理,網(wǎng)絡(luò)小組組長(國內(nèi)為IT運維經(jīng)理);物理設(shè)施運維組長(國內(nèi)是主管機電系統(tǒng)的運維經(jīng)理);總監(jiān)(國內(nèi)則應(yīng)該是集團公司的COO或者IDC公司的COO);異地備份人員(同樣包括基礎(chǔ)設(shè)施和IT)。
從上面的組織配置我們應(yīng)該看出,DRP計劃從組織結(jié)構(gòu)的建立上就是一個不依賴任何單人或單體組織的計劃,那從組織結(jié)構(gòu)上強調(diào)雙冗余或雙活的機制,強調(diào)異地備份和組織鏡像。
DRP大軍的組建
現(xiàn)在我們有了一個災(zāi)難管理團隊的成員,下面一步則是根據(jù)不同的工作任務(wù),分成若干的團隊并定義每個小組成員的工作職責(zé)。
01
災(zāi)難管理團隊
DisasterManagementTeam
(工作地點應(yīng)設(shè)置在數(shù)據(jù)中心的指揮中心或ECC)
災(zāi)難管理團隊的主要職責(zé):
1)災(zāi)難管理團隊負責(zé)提供數(shù)據(jù)中心恢復(fù)操作的總體方向;
2)負責(zé)確立損壞程度和激活恢復(fù)組織,負責(zé)通知各團隊領(lǐng)導(dǎo)人;
3)監(jiān)測和指導(dǎo)恢復(fù)工作;
4)負責(zé)決定是否需要引入災(zāi)難恢復(fù)程序。如果決定這么做,那么在程序所定義的實施過程中,災(zāi)難管理小組所作出的決定將取代任何現(xiàn)有的行政管理機構(gòu)。
這里面引用一個香港著名電影《寒戰(zhàn)》里面的案例,在電影中香港可能受到了恐怖襲擊的潛在威脅,災(zāi)難恢復(fù)計劃由管理小組的幾位成員投票決定啟動,災(zāi)難管理小組有權(quán)在程序運行期間,任免警員、調(diào)用特警、動用后備資源、管理公共信息發(fā)布等等。
災(zāi)難管理團隊的職責(zé)分解如下:
1)為最終用戶提供可以量化、可以識別的業(yè)務(wù)服務(wù)水平說明文件,并在文件中說明災(zāi)難管理計劃中管理團隊所肩負的啟動災(zāi)難恢復(fù)計劃的職責(zé)和可能的處理;
2)管理所有救援團隊、聯(lián)系公司總部、聯(lián)系用戶;
3)在災(zāi)難恢復(fù)計劃執(zhí)行過程中保持隨時審計、安全控制;
4)控制和記錄緊急費用和開支。
災(zāi)難管理團隊的具體責(zé)任如下:
1)評估問題的程度和潛在的后果;
2)通知高級管理人員的災(zāi)難、恢復(fù)進展和問題;
3)啟動災(zāi)難恢復(fù)程序;
4)協(xié)調(diào)恢復(fù)操作;
5)監(jiān)控恢復(fù)操作,并確保計劃的進度;
6)記錄恢復(fù)操作;
7)用戶管理;
8)監(jiān)督授權(quán)支出的其它團隊;
9)記錄緊急非凡的成本和支出;
10)對保險索賠的損害進行了詳細會計處理:
①確保在數(shù)據(jù)中心恢復(fù)運營是根據(jù)充分的審計控制,記錄提供可靠性和一致性;
②監(jiān)控數(shù)據(jù)中心的安全標(biāo)準(zhǔn);
③確保適當(dāng)?shù)陌才?,以恢?fù)網(wǎng)站,并恢復(fù)在緊急模式處理允許的時間范圍內(nèi)的現(xiàn)狀;
④宣布數(shù)據(jù)中心恢復(fù)時,災(zāi)難恢復(fù)計劃不再生效。
02
運營團隊
OperationsTeam
運營團隊的主要職責(zé):
1)負責(zé)數(shù)據(jù)中心環(huán)境和IT設(shè)施日常運營工作;
2)在災(zāi)難恢復(fù)計劃中承擔(dān)具體操作任務(wù)。
運營團隊的職責(zé)分解如下:
1)負責(zé)所有歷史的和當(dāng)前的數(shù)據(jù)中心環(huán)境所產(chǎn)生的數(shù)據(jù)和系統(tǒng),并對系統(tǒng)進行更新,以保持其是最新的版本;
2)按照滿足最終客戶定義要求,為數(shù)據(jù)中心的恢復(fù)、數(shù)據(jù)控制、安全防范、磁帶或介質(zhì)存放提供管理和配置人員;
3)支持所有環(huán)境關(guān)鍵應(yīng)用所需的可操作版本,以滿足最低運行要求。
運營團隊的具體職責(zé)如下:
1)為數(shù)據(jù)中心關(guān)鍵機電系統(tǒng)提供持續(xù)技術(shù)支持;
2)與IT網(wǎng)絡(luò)團隊合作,恢復(fù)本地和廣域數(shù)據(jù)通信服務(wù),以滿足最低的處理要求;
3)為異地存儲獲得所有必要的備份;
4)機電系統(tǒng)重啟動服務(wù);
5)重新建立軟件庫和數(shù)據(jù)庫,及時備份最后版本;
6)為機電系統(tǒng)提供足夠的日常操作人員;
7)建立安全防范平臺和數(shù)據(jù)中心控制設(shè)施;
8)對設(shè)施進行日常管理,以達到客戶的要求;
9)安排采購和提供IT設(shè)備必要的日常耗材;
10)確保所有文件的標(biāo)準(zhǔn)化、操作記錄、維護記錄、應(yīng)用程序都存放在一個安全的環(huán)境區(qū)域,并配備必要的重建設(shè)施。
03
網(wǎng)絡(luò)團隊
NetworksTeam
網(wǎng)絡(luò)團隊的主要任務(wù):
負責(zé)所有數(shù)據(jù)中心的網(wǎng)絡(luò)系統(tǒng)和通訊。
網(wǎng)絡(luò)團隊的職責(zé)分解:
1)為關(guān)鍵客戶安排所有新的本地或廣域網(wǎng)的通信設(shè)施和網(wǎng)絡(luò)搭建;
2)如果需要的話,為客戶提供基于網(wǎng)絡(luò)的語音通訊服務(wù)或其他語音通信服務(wù)。
網(wǎng)絡(luò)團隊的具體職責(zé):
1)評估語音和網(wǎng)絡(luò)通訊服務(wù),并負責(zé)與電信運營商協(xié)調(diào)備用通信措施;
2)負責(zé)重建網(wǎng)絡(luò)設(shè)施所需的一切操作;
3)與用戶定義在網(wǎng)絡(luò)恢復(fù)中的優(yōu)先事項;
4)與要求訂購語音和網(wǎng)絡(luò)通信設(shè)備;
5)提供必要的網(wǎng)絡(luò)文檔;
6)提供持續(xù)支持業(yè)務(wù)的網(wǎng)絡(luò)設(shè)備;
7)災(zāi)難恢復(fù)后,重新建立網(wǎng)站的網(wǎng)絡(luò)。
04
設(shè)施團隊
FacilitiesTeam
設(shè)施團隊的主要職責(zé):
負責(zé)所有IT房外環(huán)境區(qū)域,包括建筑本身環(huán)境服務(wù),該團隊負責(zé)安全、健康和建筑設(shè)施的更換。
設(shè)施團隊的職責(zé)分解:
1)管理重建現(xiàn)場的環(huán)境和運營;
2)管理現(xiàn)場的物流和運輸;
3)負責(zé)設(shè)施所在場地的安全(根據(jù)需要,增加物理安全措施)。
設(shè)施團隊的具體職責(zé):
1)與災(zāi)害管理團隊一起,進行損害的評估和確定可回收設(shè)備;
2)與網(wǎng)絡(luò)團隊合作,準(zhǔn)備好快速激活的線路;
3)清理災(zāi)難現(xiàn)場,確保該網(wǎng)站,以防止進一步的損害;
4)提供發(fā)起保險索賠的信息;
5)確保保險賠償安排及時滿足災(zāi)難發(fā)生時的情況(即任何可更換設(shè)備立即得到更新等);
6)準(zhǔn)備重新使用數(shù)據(jù)中心的網(wǎng)絡(luò);
7)保證配置的數(shù)據(jù)中心符合使用的需要,包括但不限于下面的設(shè)施:
空調(diào)系統(tǒng),配電系統(tǒng),市電供應(yīng)及連接的有效,隔斷和地板,災(zāi)難區(qū)域的安全控制,各支持辦公環(huán)境,工作員工的安全和福利、勞保。
05
通信團隊
CommunicationsTeam
通信團隊的主要職責(zé):
負責(zé)對內(nèi)外的通訊。
通信團隊的職責(zé)分解:
通信團隊負責(zé)從災(zāi)難管理團隊獲取通信指令,并在災(zāi)難和恢復(fù)階段向員工、供應(yīng)商、客戶和媒體(包括:新聞、電視、廣播)傳遞信息。
通信團隊的具體職責(zé)如下:
1)從災(zāi)難管理團隊獲得指令,并保持通訊的持續(xù)和對外溝通的暢通;
2)適當(dāng)?shù)南虍?dāng)?shù)?、國?nèi)、國際披露信息;
3)通知供應(yīng)商和客戶潛在的延誤;
4)通知員工恢復(fù)進度的時間表;
5)確保沒有誤解,可能傷害公司形象;
6)其他的公共關(guān)系。
06
其他恢復(fù)團隊
OtherRecoveryTeam
其他恢復(fù)團隊的職責(zé):
包括在災(zāi)難恢復(fù)計劃中被認為是必要的其他團隊的一部分。確保你描述每個團隊的職責(zé)和活動。
具體團隊描述:
1)人力和采購團隊;
2)業(yè)務(wù)團隊;
3)損傷評估小組。