保險為我們可能遇到的各種災(zāi)難提供保障,但是,保險數(shù)據(jù)遇到了災(zāi)難該怎么辦?特別是實施了數(shù)據(jù)大集中之后,潛在的風(fēng)險對數(shù)據(jù)的威脅更大。如何給保險數(shù)據(jù)上一個保險是迫切需要的。
從數(shù)據(jù)到應(yīng)用
平安保險在2003年基本完成了容災(zāi)系統(tǒng)的IT基礎(chǔ)架構(gòu)建設(shè),包括建立了數(shù)據(jù)級容災(zāi)系統(tǒng)的基礎(chǔ)架構(gòu),在上海備份中心建立了重要生產(chǎn)系統(tǒng)的數(shù)據(jù)復(fù)制環(huán)境,采用Oracle的DataGuard技術(shù),實現(xiàn)了生產(chǎn)系統(tǒng)數(shù)據(jù)的實時復(fù)制,全國130余個生產(chǎn)數(shù)據(jù)庫實施了數(shù)據(jù)級容災(zāi)。平安保險的數(shù)據(jù)級的容災(zāi)環(huán)境,已經(jīng)實現(xiàn)如下目標(biāo):各系統(tǒng)平均數(shù)據(jù)丟失時間小于8小時,最大數(shù)據(jù)丟失時間小于24小時;支持本地生產(chǎn)系統(tǒng)的集群切換,數(shù)據(jù)復(fù)制的啟動、停止、異常中斷等不影響生產(chǎn)系統(tǒng)的正常運行,數(shù)據(jù)復(fù)制異常時能夠通過Openview報警。
平安保險領(lǐng)導(dǎo)層認識到,雖然已經(jīng)建立了基本的容災(zāi)系統(tǒng),具備了基本的容災(zāi)能力,但缺乏相應(yīng)的綜合災(zāi)難恢復(fù)計劃,也沒有針對災(zāi)難發(fā)生后的應(yīng)對、決策、詳細的災(zāi)難恢復(fù)步驟。一旦災(zāi)難發(fā)生,如何能夠最大程度地減少損失,以最快的速度恢復(fù)系統(tǒng)運行,保護公司利益?2004年,平安保險啟動業(yè)務(wù)系統(tǒng)容災(zāi)項目。該項目完成后,保證在災(zāi)難發(fā)生后規(guī)定時間范圍內(nèi),上海災(zāi)備中心恢復(fù)關(guān)鍵業(yè)務(wù)系統(tǒng)的應(yīng)用,使業(yè)務(wù)正常運作。
畢業(yè)論文網(wǎng) http://www.78375555.com
在實踐中選擇廠商
容災(zāi)系統(tǒng)和一般的業(yè)務(wù)系統(tǒng)有一個巨大差別:業(yè)務(wù)系統(tǒng)是每天工作必不可少的一部分,而容災(zāi)系統(tǒng)是為災(zāi)難準備的。災(zāi)難當(dāng)然不是經(jīng)常有,容災(zāi)系統(tǒng)建設(shè)的問題也就不容易發(fā)現(xiàn)。選擇一個好的廠商,就放心了一半。
惠普憑借成熟的BCP/DRP方法論,對平安保險IT架構(gòu)和災(zāi)難恢復(fù)需求的了解,以及經(jīng)驗豐富的實施顧問,被平安保險選為平安災(zāi)難恢復(fù)計劃(DRP)咨詢項目合作伙伴。
在為平安保險設(shè)計的方案中,涵蓋高可用容災(zāi)系統(tǒng)平臺的軟硬件技術(shù)介紹、日常運作流程設(shè)計、突發(fā)事件管理、大型災(zāi)難的應(yīng)對計劃與策略、業(yè)務(wù)持續(xù)性管理團隊建設(shè)和咨詢等諸多方面的服務(wù),可以幫助客戶從技術(shù)、流程、人員三方面提高業(yè)務(wù)持續(xù)能力,保證企業(yè)IT 系統(tǒng)的正常運作和發(fā)展。
平安保險從三個方面進行業(yè)務(wù)連續(xù)系統(tǒng)的建設(shè):
1. 通過多種技術(shù)手段實現(xiàn)關(guān)鍵業(yè)務(wù)遠程災(zāi)難恢復(fù),包括數(shù)據(jù)的遠程復(fù)制、關(guān)鍵業(yè)務(wù)應(yīng)用程序的緊急切換、關(guān)鍵業(yè)務(wù)的連續(xù)運行;
2. 建立一個業(yè)務(wù)連續(xù)團隊,進行人員選擇,制定相關(guān)的角色和職能,做相關(guān)技術(shù)和流程培訓(xùn)等,使得有合格的人員和嚴格的制度,保證業(yè)務(wù)連續(xù)系統(tǒng)作用的有效發(fā)揮;
3. 建立一套行之有效的業(yè)務(wù)連續(xù)計劃,包括多個關(guān)鍵流程,如:災(zāi)難信息通知流程、災(zāi)難界定與決策流程、緊急應(yīng)對和業(yè)務(wù)切換流程、緊急運行管理流程、系統(tǒng)恢復(fù)和業(yè)務(wù)回切流程等,這些將使得業(yè)務(wù)連續(xù)成為有章可循、易于操作的系統(tǒng)。 畢業(yè)論文網(wǎng) http://www.78375555.com
平安保險采用的業(yè)務(wù)連續(xù)/ 容災(zāi)解決方案是端到端的整體解決方案,不但涵蓋從服務(wù)器、存儲系統(tǒng)、光纖網(wǎng)絡(luò)互連設(shè)備到軟件、數(shù)據(jù)庫等全部IT相關(guān)范圍,還包含了人員組織建設(shè)、人員培訓(xùn)與容災(zāi)知識普及、災(zāi)難恢復(fù)流程設(shè)計和演練等內(nèi)容,同時平安保險還重視實施完成之后的持續(xù)關(guān)注,并可根據(jù)業(yè)務(wù)的實際需要,定期對容災(zāi)系統(tǒng)進行災(zāi)難演習(xí),防患于未然。
只建項目是不夠的
DPR項目在2004年6月啟動,2005年1月21日驗收。項目內(nèi)容包括災(zāi)難風(fēng)險評估、業(yè)務(wù)影響分析、災(zāi)難恢復(fù)策略設(shè)計、詳細方案設(shè)計、容災(zāi)方案實施、災(zāi)難恢復(fù)計劃開發(fā)以及最后的災(zāi)難恢復(fù)測試和演習(xí)等。
平安保險擁有眾多應(yīng)用系統(tǒng),總數(shù)超過100個,其中關(guān)鍵業(yè)務(wù)系統(tǒng)超過50個。這導(dǎo)致業(yè)務(wù)影響分析和災(zāi)難恢復(fù)計劃設(shè)計復(fù)雜。業(yè)務(wù)影響分析階段,通過對30個業(yè)務(wù)部門的68位員工的訪談和協(xié)商,與業(yè)務(wù)部門一起制定了各個業(yè)務(wù)系統(tǒng)的災(zāi)難恢復(fù)時間指標(biāo)(RTO)和災(zāi)難恢復(fù)數(shù)據(jù)指標(biāo)(RPO),最終RTO和RPO得到業(yè)務(wù)和IT部門雙方的認可。在災(zāi)難恢復(fù)計劃開發(fā)階段,克服了系統(tǒng)多、時間緊、人手緊缺的困難,惠普技術(shù)人員和平安項目組一起按時完成了DRP的開發(fā)。
容災(zāi)系統(tǒng)是建設(shè)好了,該怎樣檢驗容災(zāi)系統(tǒng)是否達到預(yù)定的目標(biāo)呢?容災(zāi)演習(xí)是對容災(zāi)項目建設(shè)是否成功的檢驗標(biāo)準,也是對容災(zāi)維護管理流程和文檔檢測的重要手段。通過演習(xí)及時發(fā)現(xiàn)問題,并確保各相關(guān)部門的配合和人員的操作準確無誤。2004年11月13和11月27日,平安保險舉行了兩次整合測試,在2004年12月11日~12月12日舉行了第一次災(zāi)難恢復(fù)演習(xí)。災(zāi)難恢復(fù)演習(xí)中,平安參加人員超過100個,其中IT人員超過70個,用戶測試人員超過30個,整個演習(xí)超過28個小時,順利實現(xiàn)了業(yè)務(wù)系統(tǒng)從華南(深圳)數(shù)據(jù)中心切換到華東(上海)數(shù)據(jù)中心。演習(xí)的成功舉行,標(biāo)志著平安在全國各大保險公司中率先完成IT災(zāi)難恢復(fù)計劃。
值得一提的是,在惠普咨詢專家的幫助下,平安保險還建立起一整套完整的容災(zāi)系統(tǒng)的管理機制,建立了相應(yīng)的組織機構(gòu)、管理制度和操作規(guī)程、災(zāi)難的預(yù)防措施,以及災(zāi)難恢復(fù)計劃的測試、試運行和維護等。為了保障容災(zāi)系統(tǒng)長期、穩(wěn)定、有效地運行,惠普還為平安保險提供了后期的培訓(xùn)、測試和支持服務(wù)。
平安保險實現(xiàn)了該項目的總體目標(biāo):災(zāi)難恢復(fù)時間指標(biāo)(RTO):現(xiàn)災(zāi)難后3~5天內(nèi)恢復(fù)關(guān)鍵業(yè)務(wù)系統(tǒng)80%的處理能力;災(zāi)難恢復(fù)數(shù)據(jù)指標(biāo)(RPO):各系統(tǒng)平均數(shù)據(jù)丟失時間小于8小時,最大數(shù)據(jù)丟失時間小于24小時。
記者手記
為提高IT系統(tǒng)的可靠性,IT系統(tǒng)的容災(zāi)建設(shè)已相當(dāng)普遍。隨著許多企業(yè)實施業(yè)務(wù)系統(tǒng)大集中,針對IT系統(tǒng)的高可靠性和容災(zāi)能力的需求日漸突出。然而,目前大多數(shù)容災(zāi)系統(tǒng)建設(shè)還存在諸多問題,不僅有技術(shù)層面的缺陷,也有流程和人員方面的不足。這些問題可能導(dǎo)致的直接后果就是當(dāng)災(zāi)難發(fā)生時,根本無法實現(xiàn)應(yīng)用系統(tǒng)的快速恢復(fù),甚至可能導(dǎo)致業(yè)務(wù)運轉(zhuǎn)的長時間災(zāi)難性中斷。
特別對于保險公司來說,數(shù)據(jù)的安全性以及業(yè)務(wù)的連續(xù)運營的要求更高。雖然各保險公司十分重視災(zāi)備系統(tǒng)的建設(shè),陸續(xù)完成了基本容災(zāi)系統(tǒng)的IT基礎(chǔ)架構(gòu)建設(shè),但如果沒有相應(yīng)的災(zāi)難恢復(fù)計劃,也沒有針對災(zāi)難發(fā)生后的應(yīng)對、決策、詳細的災(zāi)難恢復(fù)步驟,容災(zāi)系統(tǒng)將難以發(fā)揮真正功效。 畢業(yè)論文網(wǎng) http://www.78375555.com