核心提示: 數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過(guò)分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計(jì)的數(shù)據(jù)中心所能帶來(lái)的工作和生活上的便利,另一方面也在承受著成長(zhǎng)的煩惱,不斷為自己的過(guò)失買單。其實(shí)不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來(lái)自于人禍。
數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過(guò)分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計(jì)的數(shù)據(jù)中心所能帶來(lái)的工作和生活上的便利,另一方面也在承受著成長(zhǎng)的煩惱,不斷為自己的過(guò)失買單。其實(shí)不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來(lái)自于人禍。劉少奇在回顧解放初三年困難時(shí)期歷史時(shí),造成社會(huì)上到處鬧浮腫,餓死人,非正常死亡人口達(dá)數(shù)千萬(wàn)的原因時(shí),說(shuō)“三分天災(zāi),七分人禍”,最終原因基本都是人禍。任何活動(dòng)只要有人的參與,就不可避免地存在出現(xiàn)人為差錯(cuò)的可能性,而機(jī)器出錯(cuò)的概率要比人低得多。遠(yuǎn)的不說(shuō),就在近期幾起重要的斷網(wǎng)事件都和人有關(guān)。2017年2月28日晚8點(diǎn)39分,百度移動(dòng)端搜索發(fā)生故障,搜索請(qǐng)求無(wú)法顯示結(jié)果,至晚9點(diǎn)21分恢復(fù),歷時(shí)42分鐘。故障期間導(dǎo)致手機(jī)用戶上億次的搜索受到影響。事后,工信部立即緊急約談百度公司,了解相關(guān)情況,要求互聯(lián)網(wǎng)公司日后盡量防止類似問(wèn)題再次發(fā)生。故障源自于軟件更新中存在BUG(漏洞),導(dǎo)致服務(wù)器停止服務(wù)。在數(shù)據(jù)中心里運(yùn)行著大量的軟件系統(tǒng),不可避免存在軟件BUG,即使能夠達(dá)到CMM5級(jí)別的單位,其代碼缺陷率也不會(huì)低于千分之一,也就是一千行代碼里至少有一個(gè)BUG,那些擁有上千萬(wàn)行代碼的軟件系統(tǒng),BUG量可想而知。當(dāng)然,一般人不會(huì)惡意在這些軟件系統(tǒng)中增加BUG,大多是在無(wú)意識(shí)、經(jīng)驗(yàn)不足、精力不集中等情況下造成的,但這就是人的因素導(dǎo)致的,說(shuō)白了是人禍。這幾天,全球最大的公有云服務(wù)商亞馬遜的應(yīng)用服務(wù)出現(xiàn)持續(xù)數(shù)小時(shí)故障。故障起因是AWS S3(云存儲(chǔ))團(tuán)隊(duì)在進(jìn)行調(diào)試時(shí)輸入了一條錯(cuò)誤指令,本應(yīng)該將少部分的S3計(jì)費(fèi)流程服務(wù)器移除,可是最終意外地移去了大量的服務(wù)器,這一服務(wù)水平協(xié)議違約可能造成數(shù)百萬(wàn)乃至數(shù)千萬(wàn)美元的損失,這又是一例嚴(yán)重的人為故障。回想了從2011年到現(xiàn)在亞馬遜出現(xiàn)了7次大規(guī)模的故障,大部分原因也都是來(lái)自人為。就在剛剛,微軟大量的Xbox、Skype和Outlook用戶抱怨他們的賬戶無(wú)法登錄,提示賬戶不存在,這又是一次影響全球的大規(guī)模登錄問(wèn)題,雖然微軟還未公布原因,但已經(jīng)承認(rèn)存在問(wèn)題,說(shuō)不定又是人為因素導(dǎo)致的。所以,一旦有人為參與較多的數(shù)據(jù)中心時(shí),大多都不靠譜。
我們對(duì)比無(wú)人值守的數(shù)據(jù)中心和有人數(shù)據(jù)中心,不難發(fā)現(xiàn),雖無(wú)人值守?cái)?shù)據(jù)中心擴(kuò)容業(yè)務(wù),安裝設(shè)備時(shí)經(jīng)常人手不夠,但整體運(yùn)行穩(wěn)定度要比有人的數(shù)據(jù)中心高得多,這些無(wú)人數(shù)據(jù)中心在首次業(yè)務(wù)上線之后,很少有人去修改或調(diào)整系統(tǒng)運(yùn)行的各種參數(shù),讓數(shù)據(jù)中心自己運(yùn)行,設(shè)備按照預(yù)定的程序指令運(yùn)行,很少出錯(cuò)。相反,在那些運(yùn)維人力強(qiáng)大的數(shù)據(jù)中心,經(jīng)常遇到這樣那樣的故障,多和人為因素有關(guān)。不少數(shù)據(jù)中心已經(jīng)意識(shí)到了這一點(diǎn),所以將數(shù)據(jù)中心的控制權(quán)放在技術(shù)實(shí)力最強(qiáng)的總部,輕易不做變更,如因業(yè)務(wù)部署需要做變更,變更手續(xù)和申請(qǐng)過(guò)程非常嚴(yán)格,經(jīng)常要經(jīng)過(guò)設(shè)備廠家的確認(rèn)、實(shí)驗(yàn)網(wǎng)模擬以及高層領(lǐng)導(dǎo)批準(zhǔn),再進(jìn)行充分的方案討論,最終才能去實(shí)施,這樣數(shù)據(jù)中心的業(yè)務(wù)運(yùn)行非常穩(wěn)定,少有出錯(cuò)。很多數(shù)據(jù)中心很喜歡軟件定義數(shù)據(jù)中心,就是希望可以通過(guò)軟件來(lái)統(tǒng)一控制和管理整個(gè)數(shù)據(jù)中心,將所有的控制權(quán)集中,由少數(shù)幾個(gè)技術(shù)實(shí)力雄厚的老專家控制,避免其它人胡亂改一通,引發(fā)一些未知故障。再或者直接將控制權(quán)交由軟件,將人的操作和方案交給軟件設(shè)備來(lái)執(zhí)行,設(shè)備出錯(cuò)的概率要比人小得多,由軟件自行管理整個(gè)數(shù)據(jù)中心,這樣不僅可以降低人力成本,還可以減少人為出錯(cuò)的概率。
正所謂“成也蕭何,敗也蕭何”,人是數(shù)據(jù)中心活動(dòng)中的最重要因素,沒(méi)有人的參與哪里來(lái)的數(shù)據(jù)中心,而偏偏人也同時(shí)給數(shù)據(jù)中心帶來(lái)成長(zhǎng)的煩惱。要想擁有一個(gè)運(yùn)營(yíng)良好的數(shù)據(jù)中心,必須重視運(yùn)行系統(tǒng)或與系統(tǒng)交互的人。如果數(shù)據(jù)中心能投入時(shí)間在員工技術(shù)水平、培訓(xùn)、維護(hù)和運(yùn)營(yíng)等方面做出謹(jǐn)慎決策,往往能夠避免多數(shù)災(zāi)難,讓數(shù)據(jù)中心長(zhǎng)期穩(wěn)定運(yùn)行。很多針對(duì)數(shù)據(jù)中心發(fā)起的攻擊,都利用了人為的安全意識(shí)缺失而系統(tǒng)被攻破的。比如:2011年3月索尼公司遭黑,引發(fā)史上最嚴(yán)重的消費(fèi)者資料“泄露”事故,超過(guò)7000萬(wàn)玩家的郵箱、密碼、信用卡號(hào)等資料遭竊取。泄露的原因是索尼負(fù)責(zé)信息安全的員工,他沒(méi)及時(shí)給跑著過(guò)期Apache Web server軟件的服務(wù)器打補(bǔ)丁,也沒(méi)有安裝防火墻,結(jié)果門戶大開(kāi),引狼入室,黑客輕而易舉地盜取了內(nèi)部數(shù)據(jù)。所以數(shù)據(jù)中心要通過(guò)有效的管理,規(guī)范的ITIL和IT服務(wù)實(shí)施,才能有效降低運(yùn)維中的人為隱患。數(shù)據(jù)中心管理針對(duì)的重點(diǎn)應(yīng)是人,而不是設(shè)備。
不難看出,數(shù)據(jù)中心的故障大多源自于人禍。運(yùn)行中的數(shù)據(jù)中心,應(yīng)減少人為參與的機(jī)會(huì),要對(duì)人為行為進(jìn)行充分的管理和評(píng)估。“三分技術(shù),七分管理”,大量的事實(shí)表明,數(shù)據(jù)中心的好與差評(píng)判標(biāo)準(zhǔn)都是由管理水平的高低所決定的,而管理主要就是針對(duì)運(yùn)維人的。加強(qiáng)運(yùn)維人員的管理,提升運(yùn)維人員的技能水平,才能減少人為犯錯(cuò)的機(jī)會(huì),避免產(chǎn)生人禍。數(shù)據(jù)中心是一個(gè)非常復(fù)雜的IT系統(tǒng),難免會(huì)出現(xiàn)這樣那樣的問(wèn)題,從而引發(fā)故障,若能夠通過(guò)有效管理減少其中人禍部分的因素,將能有效提升數(shù)據(jù)中心的運(yùn)行穩(wěn)定性。
來(lái)源:中國(guó)IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房 |