張倩
【摘要】本文結(jié)合高校檔案信息化建設(shè)的發(fā)展需要和現(xiàn)實條件,通過選擇平臺的開發(fā)目標(biāo),構(gòu)建“云風(fēng)格”的開發(fā)與應(yīng)用環(huán)境,并組合應(yīng)用大數(shù)據(jù)“掘金”工具來構(gòu)建平臺的應(yīng)用系統(tǒng)與功能模塊,提出初步研究的設(shè)計重點與部署建議。
【關(guān)鍵詞】高校檔案;大數(shù)據(jù);云平臺
數(shù)據(jù)專家認(rèn)為,在大數(shù)據(jù)戰(zhàn)略從頂層設(shè)計到底層實現(xiàn)的“落地”過程中,治理是基礎(chǔ),技術(shù)是承載,分析是手段,應(yīng)用是目的。這一見解給我們的啟示是:創(chuàng)建高校檔案大數(shù)據(jù)云平臺,是現(xiàn)代高校建設(shè)所需的重大信息化工程,具有非常重要的戰(zhàn)略意義,必須厘清發(fā)展思路、明確發(fā)展目標(biāo)、找準(zhǔn)發(fā)展定位,不僅要高度注重做好檔案大數(shù)據(jù)在線上與線下無縫對接應(yīng)用策略的統(tǒng)籌規(guī)劃與科學(xué)部署,而且要慎重選擇平臺承載檔案信息數(shù)據(jù)管理、控制與服務(wù)等不同功能模塊的技術(shù)設(shè)計方案。本文結(jié)合高校檔案信息化建設(shè)的發(fā)展需要和現(xiàn)實條件,對構(gòu)建高校檔案大數(shù)據(jù)云平臺,提出初步研究的設(shè)計重點與部署建議。
一、選擇平臺開發(fā)目標(biāo)
鑒于現(xiàn)階段各高校檔案管理機構(gòu)的基礎(chǔ)條件存在著較大的差異,因此我們認(rèn)為,借鑒管理學(xué)大師Peter Drucker提出的“SMART”(目標(biāo)管理)原則,對選擇高校檔案大數(shù)據(jù)云平臺的開發(fā)目標(biāo),具有非常重要的參考價值。
所謂“SMART”原則的涵義是指:S=Specific(明確性),即:應(yīng)當(dāng)制定明確的建設(shè)目標(biāo)與行為標(biāo)準(zhǔn);M=Measurable(衡量性),即:對項目建設(shè)的目標(biāo)任務(wù)應(yīng)當(dāng)制定綜合評價指標(biāo)體系及其評價方法,做到目標(biāo)任務(wù)指標(biāo)化、指標(biāo)內(nèi)容量值化、量值性態(tài)權(quán)重化、權(quán)重構(gòu)成層級化;A=Attainable(可實現(xiàn)性),即:建設(shè)目標(biāo)的規(guī)劃部署與實施措施,應(yīng)當(dāng)充分論證其必要性、可行性與靈活性,既要注重長遠目標(biāo)與階段性目標(biāo)的有機銜接,又要確保具體措施的可操作性;Relevant(相關(guān)性),即:注重分析評估建設(shè)目標(biāo)與其他關(guān)聯(lián)事項的支持度、可信度與提升度。支持度是指:可分析關(guān)聯(lián)檔案借閱人數(shù)占總?cè)藬?shù)的比例及其用戶同時借閱A和B檔案的百分比;可信度是指:可分析出用戶在借閱了一份檔案之后,是否借閱另外一份檔案的可能性;提升度是指:可分析用戶在已借閱A檔案這個條件下借閱 B檔案的可能性與沒有這個條件下借閱 B檔案的可能性之比。T=Time-bound
(時限性),即:應(yīng)當(dāng)對項目建設(shè)任務(wù)制定明確的時間考核目標(biāo),既要將財力、物力、人力的投入成本與項目質(zhì)量作為績效評價內(nèi)容,也要把建設(shè)任務(wù)的時間期限作為績效評價內(nèi)容。
通過深入研究可以發(fā)現(xiàn),“SMART”原則不僅有助于科學(xué)確立高校檔案大數(shù)據(jù)云平臺的開發(fā)目標(biāo),而且可作為制定績效考核指標(biāo)內(nèi)容與標(biāo)準(zhǔn)值的科學(xué)評估方法,確保做到項目建設(shè)的成本投入有據(jù)可依,技術(shù)措施的遴選評估有章可循,績效優(yōu)劣的風(fēng)險應(yīng)對有招可控。
二、構(gòu)建“云風(fēng)格”開發(fā)與應(yīng)用環(huán)境
應(yīng)當(dāng)看到,高校檔案大數(shù)據(jù)本身就是一個“問題集”,對開發(fā)環(huán)境和應(yīng)用環(huán)境均具有較高的技術(shù)要求。徐繼華等學(xué)者指出,構(gòu)建一套大數(shù)據(jù)系統(tǒng)需滿足三個必備條件:天上有云
(云平臺),地上有網(wǎng)(物聯(lián)網(wǎng)、泛在網(wǎng)),中間有數(shù)(數(shù)據(jù))。
經(jīng)考察評估,我們認(rèn)為,具有“云風(fēng)格”的大數(shù)據(jù)處理平臺,是解決目前檔案大數(shù)據(jù)諸多問題和矛盾的有效手段。涵蓋IaaS、PaaS和SaaS的三種云計算模式,是當(dāng)前具有完整生命周期閉環(huán)的“云服務(wù)”,這對既需盤活大數(shù)據(jù)又想節(jié)約成本的高校檔案管理機構(gòu)而言,無疑是非常理想的選擇。
(一)選用符合自身需求的云服務(wù)產(chǎn)品。借助云技術(shù)高校檔案管理機構(gòu)可以忽略預(yù)測分析手段的所有技術(shù)方面的困惑,聚焦于如何更好地領(lǐng)會定量分析,使用戶能夠成為更富有經(jīng)驗的數(shù)據(jù)消費者。借用哈佛大學(xué)孟曉力教授的話來說就是:你不需要先成為一名釀酒師才能欣賞酒。因此,高校檔案管理機構(gòu)可通過第三方“數(shù)據(jù)中間人”的技術(shù)支持,來構(gòu)建“高校檔案大數(shù)據(jù)云”。據(jù)市場調(diào)研發(fā)現(xiàn),中國版的云服務(wù)“QS認(rèn)證”已在國內(nèi)市場面世,就是“可信云服務(wù)認(rèn)證”(TRUCS),它是基于國外先進經(jīng)驗和本土市場特殊性專門針對云服務(wù)可信性的權(quán)威認(rèn)證體系(目前是我國唯一針對云服務(wù)的權(quán)威認(rèn)證體系),可提供云主機服務(wù)、云對象存儲服務(wù)、云數(shù)據(jù)庫服務(wù)、云引擎服務(wù)和云塊存儲服務(wù)5類基于云計算技術(shù)的35項云服務(wù)。2014年已有19家云服務(wù)商成為首批通過國家云服務(wù)權(quán)威認(rèn)證體系認(rèn)證的成員,這意味著中國云服務(wù)正式邁向“領(lǐng)證”時代,從而打破了“云服務(wù)商無上崗證”的局面。可信云服務(wù)認(rèn)證工作,以專業(yè)和信譽為云服務(wù)安全“背書”,化解了推廣高校檔案云服務(wù)的最大障礙。目前,鑒于所有的云服務(wù)均為開源提供,高校檔案管理機構(gòu)可在購買之前進行試用,以利找到符合自己校情發(fā)展所需的大數(shù)據(jù)服務(wù)產(chǎn)品與應(yīng)用方案。若需了解云服務(wù)的相關(guān)參考標(biāo)準(zhǔn),只要登陸可信云官網(wǎng)(www.dca.org.cn),就能便捷地查看通過認(rèn)證廠商的各項技術(shù)指標(biāo),并根據(jù)這些評估認(rèn)證結(jié)果來選擇優(yōu)質(zhì)的云服務(wù)提供商,進而推動“高校檔案大數(shù)據(jù)云”的順利建設(shè)。需要指出的是:“可信云服務(wù)認(rèn)證”目前尚存在一定的局限性。例如,認(rèn)證實現(xiàn)的只是云主機和PaaS的服務(wù)監(jiān)測,更多類型的服務(wù)還有待于擴展。但我們相信,隨著可信云服務(wù)等云計算認(rèn)證市場機制的完善和云服務(wù)商能力的提升,云服務(wù)產(chǎn)品的安全性和穩(wěn)定性將越來越高。
(二)評估云項目的投資回報率。云項目投入能給高校信息化建設(shè)帶來什么回報,這是決策者在作投入決策時應(yīng)當(dāng)關(guān)心的事情。但遺憾的是,不少高校檔案管理者在被校領(lǐng)導(dǎo)追問IT投資的效益時,一般只能籠統(tǒng)地以提高檔案管理效率、提高用戶滿意度等模糊的回答來搪塞,且只能以檔案管理方面的投資回報是難量化的、長期的等理由作為托詞。對此,我們認(rèn)為,評價云項目投資回報率既是項目立項的科學(xué)依據(jù),也是檢驗項目運作績效的重要手段。所謂“云項目投資回報率”(ROI,Return on Investment),是指通過投資而應(yīng)返回的價值。即:把資金、時間或精力等資源投入到云項目建設(shè)中后,期望其對構(gòu)建高校檔案大數(shù)據(jù)云平臺能夠獲得令人滿意的績效。所謂“ROI定量效益”,是指可以數(shù)量化的效益,如庫存占用比、盤點誤差率、采購成本比等。所謂“ROI定性效益”,是指非數(shù)量化的定性指標(biāo),如用戶忠誠度或高校檔案館(室)形象的提升、管理流程的規(guī)范化等。由此可見,高校檔案管理機構(gòu)通過開展ROI的績效評估,不僅可為優(yōu)化資源配置、提高資產(chǎn)利用效率等降本增效措施提供精準(zhǔn)依據(jù),而且對改善和提升自身形象具有積極的推動作用。
三、組合應(yīng)用大數(shù)據(jù)“掘金”工具
當(dāng)前,大數(shù)據(jù)處理技術(shù)層出不窮,如IBM的IBMPower大數(shù)據(jù)和分析應(yīng)用系統(tǒng)、Intel的Spark開源集群計算環(huán)境、華為的OceanStor 9000大數(shù)據(jù)存儲系統(tǒng),等等。一些學(xué)者預(yù)言:大數(shù)據(jù)時代將沒有通用的底層平臺產(chǎn)品,而只有符合創(chuàng)新應(yīng)用需求和全數(shù)據(jù)處理的大數(shù)據(jù)基礎(chǔ)架構(gòu)。面對大數(shù)據(jù)技術(shù)應(yīng)用這種遍地開花之勢,高校檔案管理機構(gòu)應(yīng)當(dāng)根據(jù)自身的應(yīng)用需求,慎重選擇成熟廠商的大數(shù)據(jù)技術(shù)產(chǎn)品及應(yīng)用方案完善非結(jié)構(gòu)化檔案信息數(shù)據(jù)“存儲、分析、開發(fā)、利用”的一體化集成運作機制。
(一)ODPS的應(yīng)用功能(阿里云開放數(shù)據(jù)處理服務(wù))。鑒于傳統(tǒng)的IT構(gòu)建方案起步門檻太高,中小型高校檔案管理機構(gòu)多數(shù)因難以承受其巨額投資而受阻,但阿里云ODPS服務(wù)面世后,現(xiàn)只需花幾百元就可獲得從海量數(shù)據(jù)中“掘金”的功能。
“阿里云開放數(shù)據(jù)處理服務(wù)”(ODPS),是構(gòu)建在大規(guī)模分布式計算系統(tǒng)上的一種海量數(shù)據(jù)處理技術(shù),其以REST API的形式支持描述性查詢語言SQL的數(shù)據(jù)處理,適用于海量數(shù)據(jù)統(tǒng)計、數(shù)據(jù)模型、數(shù)據(jù)挖掘等諸多互聯(lián)網(wǎng)應(yīng)用。目前,高校檔案管理機構(gòu)若需應(yīng)用這項服務(wù)技術(shù),只要登錄阿里云官網(wǎng)就可直接申請開通ODPS。ODPS應(yīng)用現(xiàn)采取按流量收費的商業(yè)模式,其現(xiàn)行定價為0.3元/GB,即開即用,一個月內(nèi)免費。經(jīng)考察和測算,我們認(rèn)為,ODPS應(yīng)用所需的這一成本,對中小型高校檔案管理機構(gòu)而言,不僅是絕對用得起的,而且一下子就可讓“高大上”的大數(shù)據(jù)分析應(yīng)用技術(shù)接上地氣。
(二)Amazon EMR的應(yīng)用功能(亞馬遜大數(shù)據(jù)分析云服務(wù))。
Amazon EMR(Amazon Elastic MapReduce)是亞馬遜提供的大數(shù)據(jù)分析云服務(wù)。這種商業(yè)化的Hadoop基礎(chǔ)設(shè)施服務(wù),它所提供的分布式計算能力,能夠讓高校檔案管理者方便地根據(jù)自身需求來處理和分析海量數(shù)據(jù),完成Web索引、數(shù)據(jù)挖掘、日志文件分析、機器學(xué)習(xí)、信息研究等智能處理任務(wù)。需要指出的是,這些Web服務(wù)的集成,目前大多需要支付單獨的使用費用。從EMR目前的市場定價來看,基本上是按照計算時間來付費的,應(yīng)用項目的具體價格可在官網(wǎng)查詢,檔案部門可按需定購。
(三)BigQuery的應(yīng)用功能(谷歌大數(shù)據(jù)分析云服務(wù))。
BigQuery是谷歌基于Dremel和Hadoop集群所提供的大數(shù)據(jù)分析云服務(wù)。用戶可將自己的大數(shù)據(jù)集上傳給谷歌的存儲器,開發(fā)者可使用BigQuery來運行SQL語句,對大數(shù)據(jù)集進行查詢和交互式分析。此外,用戶不但能將BigQuery用于自身的業(yè)務(wù)分析,還能在其基礎(chǔ)上開發(fā)對外的商業(yè)大數(shù)據(jù)分析服務(wù)。例如,大型高校檔案管理機構(gòu)可采用BigQuery,向中小型檔案館
(室)提供大數(shù)據(jù)分析服務(wù)。
四、構(gòu)建平臺的應(yīng)用系統(tǒng)與功能模塊
高校檔案大數(shù)據(jù)云平臺設(shè)計的終極目標(biāo)是“應(yīng)用”,無論是平臺建設(shè)規(guī)劃與實施策略的制訂,還是IT技術(shù)產(chǎn)品與服務(wù)的選擇,都必須緊扣“應(yīng)用”之需進行統(tǒng)籌謀劃與部署。通過調(diào)研考察發(fā)現(xiàn),采用垂直整合、提供“平臺+應(yīng)用”的一體化設(shè)計方案,不僅是開發(fā)建設(shè)高校檔案大數(shù)據(jù)云平臺的明智選擇,而且將成為創(chuàng)建高校智慧檔案館(室)的必由之路。
垂直整合、提供“平臺+應(yīng)用”的一體化設(shè)計方案,能夠?qū)⑷舾蓸O具可行的切入點作為平臺構(gòu)建的組成部分,并讓這些子系統(tǒng)集成在一起形成一個高校檔案大數(shù)據(jù)云平臺,為高校檔案大數(shù)據(jù)開發(fā)和應(yīng)用提供強有力的技術(shù)支撐。該平臺主要包含三層結(jié)構(gòu),不僅每個系統(tǒng)可下設(shè)不同的功能模塊,而且功能模塊可設(shè)計成“輕應(yīng)用”(LAPP,Light App)的形式。即:所有應(yīng)用都鑲嵌在網(wǎng)頁中,用戶無需下載安裝任何程序。采用這種“即搜即用”的全功能APP,用戶通過網(wǎng)頁可直接完成各項交互性的工作。 高校檔案大數(shù)據(jù)云平臺構(gòu)架圖如下:
在該平臺構(gòu)建過程中,有以下幾個關(guān)鍵點需要特別注意:一是要高度重視高校檔案大數(shù)據(jù)資源的優(yōu)化集成。對館藏現(xiàn)有的“小數(shù)據(jù)”進行轉(zhuǎn)型升級,不僅要為其搭建整理、挖掘、分析等各方面應(yīng)用的融合協(xié)作平臺,而且要采取“滾雪球”方式不斷健全和優(yōu)化檔案信息的大數(shù)據(jù)資源集成庫。二是要著力打造高校檔案大數(shù)據(jù)資源的精加工車間。通過不斷整合優(yōu)化內(nèi)外部檔案信息資源的數(shù)據(jù)構(gòu)架,努力將“核心資源數(shù)據(jù)庫”打造成“精加工車間”,使之能夠盡快投入到高校檔案大數(shù)據(jù)云平臺的實際運營之中去。三是要注重收集社會化、非結(jié)構(gòu)化的檔案大數(shù)據(jù)資源。大數(shù)據(jù)具有明顯的社會化(Socialization of data)特征。因此,建立匯聚社會化、非結(jié)構(gòu)化的高校檔案信息大數(shù)據(jù)資源知識庫已是當(dāng)務(wù)之急。平臺構(gòu)建時需建立社會化媒體信息大數(shù)據(jù)擴展數(shù)據(jù)庫,并將它作為高校檔案館藏大數(shù)據(jù)資源的有益補充。
【參考文獻】
[1][美]朱迪絲·S.赫爾維茨.寫給大家看的大數(shù)據(jù)[M].北京:人民郵電出版社,2014:206.
[2]徐繼華等.智慧政府大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014:182.
[3][美]Lawrence S.Maisel等.大數(shù)據(jù)預(yù)測分析:決策優(yōu)化與績效提升[M].北京:人民郵電出版社,2014.
[4]孫藝娟,大數(shù)據(jù)推動IT基礎(chǔ)架構(gòu)的創(chuàng)新[N].計算機世界, 2014-1-20.