史永良
證券行業(yè)有休市假期,與銀行不同。但是證券業(yè)對開市期間的數(shù)據(jù)中心可靠性要求極高,因為股票行情的實時波動很大。我們在2006年底建成了行業(yè)最大的數(shù)據(jù)中心、容災中心,建設標準類比等同于北美TIA942的T3標準,入駐證券公司32家,覆蓋營業(yè)部占全國營業(yè)部總數(shù)的42.34%。
建設證券行業(yè)數(shù)據(jù)中心要考慮三方面因素,第一是可用性,購買的設備必須是高可靠設備。設備不可能不壞,關(guān)鍵是設備發(fā)生故障后,恢復時間要盡量縮短,同時嚴格規(guī)避人為錯誤,這樣就提高了可用性。第二是靈活性,即系統(tǒng)適應變化的能力。系統(tǒng)建好才是開始,系統(tǒng)建好后需要運行10~20年。數(shù)據(jù)中心要保證業(yè)務發(fā)展,就必須要有靈活性,我們要考慮的是過程,而不是開始。第三是成本,成本也是過程的成本,而不是建設成本。在考慮建設成本的時候,也要考慮后續(xù)服務和運營成本。
我們建立數(shù)據(jù)中心參考了理論標準——NCPI理論,不是面向數(shù)據(jù)中心機房,而是直接以機柜或機架作為基本單位。我們總結(jié)了建立數(shù)據(jù)中心要考慮的基礎環(huán)境七要素:強電、弱電、溫度、濕度、空氣潔凈度、磁場、輻射。諧波對人是有危害的,綠色除了指節(jié)能,還包括環(huán)保,所以磁場和輻射也是我們應該考慮的。國標是我們建設數(shù)據(jù)中心的最低物理標準,其次是按照TIA942,我們參考PDCA理論和ISO27001運維標準來管理數(shù)據(jù)中心。
安全最終要落實到可用度方面。提高可用性的目的是消除單點故障、提高容錯能力和可維護能力。提高可用性很重要的手段是增加冗余。冗余有兩種,一種是單總線,一種是雙總線。那么,怎么認定可用度是高的?我們運用的手段就是分析可用度指標MTBF(平均無故障時間)和MTTR(設備平均故障修復時間)。設備可靠性高,MTBF相對就高一些。要縮短MTTR,就需要服務來支持。我們提高可用性、可靠性所做的工作是把MTBF盡量提高,把MTTR盡量縮短。
能耗也有幾個指標可以參考,最常見的是PUE(電力使用效率)和DCiE(數(shù)據(jù)中心基礎設施功率)。我們考慮還要增加數(shù)據(jù)中心的電力使用性能指標PE。業(yè)務處理能力與IT設備功率要有指標來關(guān)聯(lián),這是我們在規(guī)劃系統(tǒng)時要考慮的問題,也給設備廠商提出了要求。設備廠商提供的硬件能耗要合理,不能因為過分追求性能加大能耗。要求用戶提高空調(diào)效率,PE就要求設備廠商尤其是前端設備廠商要提高效益。