林燕芬
[摘 要]隨著各高校信息化建設(shè)的重心從系統(tǒng)和平臺建設(shè)逐漸向內(nèi)涵和應(yīng)用建設(shè)轉(zhuǎn)移,數(shù)據(jù)質(zhì)量和使用效益越發(fā)受到重視,因為其直接影響了高校信息化建設(shè)的深度與廣度。本文首先分析了高校在數(shù)據(jù)建設(shè)方面存在的普遍問題,并結(jié)合工作實踐,針對這些問題對師生數(shù)據(jù)的建設(shè)與治理進行了探討。
[關(guān)鍵詞]數(shù)據(jù)治理;大數(shù)據(jù);高校師生
doi:10.3969/j.issn.1673 - 0194.2020.12.086
[中圖分類號]G647;TP311.13[文獻標識碼]A[文章編號]1673-0194(2020)12-0-02
0 ? ? 引 言
“十二五”期間,各高校按照“統(tǒng)一規(guī)劃、分步實施”等建設(shè)原則,全面開展了數(shù)字化校園建設(shè),目前基本上形成了以高校信息標準為基礎(chǔ),三大平臺(統(tǒng)一門戶、統(tǒng)一數(shù)據(jù)中心、統(tǒng)一身份認證)為支撐,各業(yè)務(wù)應(yīng)用系統(tǒng)基本完備的數(shù)字校園應(yīng)用體系。隨著高校信息化建設(shè)的大力推進和逐步深入,師生對信息化建設(shè)的要求不斷提高,系統(tǒng)的實用性成為大家關(guān)注的主要方面。如何充分挖掘和使用數(shù)據(jù)價值,回應(yīng)師生關(guān)切問題、滿足師生所需數(shù)據(jù),是各高校開始思考的問題。因此,各高校的信息化建設(shè)重心逐漸從系統(tǒng)和平臺建設(shè)向內(nèi)涵和應(yīng)用建設(shè)轉(zhuǎn)移,強調(diào)用戶體驗和實際效果,對數(shù)據(jù)的質(zhì)量和使用效益越發(fā)重視。而事實上,由于校園信息系統(tǒng)的數(shù)據(jù)質(zhì)量不佳,對數(shù)據(jù)的挖掘和分析不足,導致數(shù)據(jù)的利用率低下。
1 ? ? 高校師生服務(wù)數(shù)據(jù)存在的普遍問題
1.1 ? 缺乏完善的數(shù)據(jù)治理體系,學校數(shù)據(jù)的整體性不佳
高校在進行信息化建設(shè)的過程中,始終重視數(shù)據(jù)建設(shè)和維護。但是在數(shù)據(jù)治理方面,從數(shù)據(jù)采集與控制到數(shù)據(jù)管理與使用,目前都缺乏對數(shù)據(jù)質(zhì)量、安全和生命周期的管理,包括控制數(shù)據(jù)從輸入、加工、傳輸、輸出等各個處理環(huán)節(jié),還沒能形成一個完善和統(tǒng)一的數(shù)據(jù)管理與治理的規(guī)范和流程。另外,各業(yè)務(wù)系統(tǒng)是由各職能和業(yè)務(wù)部門滿足自己的實際工作所需建設(shè)的,因此在數(shù)據(jù)管理方面,僅側(cè)重對與本部門業(yè)務(wù)相關(guān)的信息進行管理,再加上在基礎(chǔ)數(shù)據(jù)采集與管理環(huán)節(jié),缺乏行之有效的核對與矯正手段,因此,就學校整體而言,各相對獨立的業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)很難形成完整的信息鏈條,無法為學校整體提供正確、完整的信息,導致數(shù)據(jù)的價值得不到充分有效利用,一定程度上降低了行政事務(wù)、服務(wù)師生尤其跨部門業(yè)務(wù)的工作效率。
1.2 ? 日志類數(shù)據(jù)利用難度大,價值無法充分體現(xiàn)
各類應(yīng)用系統(tǒng)的日志數(shù)據(jù)作為原始的系統(tǒng)操作事件的全量記錄集合,蘊含著大量的過程數(shù)據(jù)與信息,是系統(tǒng)的結(jié)果數(shù)據(jù)無法覆蓋的,這些日志信息為將來數(shù)據(jù)挖掘與決策分析工作奠定了重要的數(shù)據(jù)基礎(chǔ),具有分析、利用和參考價值。而大多數(shù)的應(yīng)用系統(tǒng)在使用過程中,由于缺少對日志數(shù)據(jù)的技術(shù)支持和有效計算工具,日志類數(shù)據(jù)中蘊含的大量寶貴信息沒有被及時存儲和積累,逐漸流失。日志類數(shù)據(jù)得不到有效利用,主要原因有兩個。
1.2.1 ? 日志類數(shù)據(jù)體量巨大
日志數(shù)據(jù)之所以體量龐大,不僅在于業(yè)務(wù)系統(tǒng)的日積月累,更重要的是,動態(tài)增加的日志類數(shù)據(jù)使傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)無法對其進行有效存儲與管理,與此同時,對動態(tài)數(shù)據(jù)的可擴展性也有更高的要求,這對傳統(tǒng)的關(guān)系型數(shù)據(jù)庫技術(shù)來說是一種挑戰(zhàn)。
1.2.2 ? 日志類數(shù)據(jù)解析復雜
由于各職能部門建設(shè)的業(yè)務(wù)系統(tǒng)功能相對單一,由不同廠商開發(fā),使用的設(shè)備、系統(tǒng)架構(gòu)不同,所以各系統(tǒng)生成的日志沒有統(tǒng)一的可通用的定義和固定的格式,在對其進行解析的過程中,系統(tǒng)非結(jié)構(gòu)化的特征導致管理人員無法從中清晰地獲取信息,使解析變得異常復雜。在利用這些日志類數(shù)據(jù)時,要對這些多源、異構(gòu)的數(shù)據(jù)建立統(tǒng)一的解析方案,而這并非易事。
1.3 ? 基礎(chǔ)數(shù)據(jù)不全面,可利用價值不高
一般來說,職能部門在建設(shè)自身業(yè)務(wù)管理信息系統(tǒng)的過程中主要以本部門內(nèi)部的管理與服務(wù)流程為重心,對師生視角的場景化服務(wù)沒有給予足夠重視,因此,業(yè)務(wù)系統(tǒng)積累了大量的行政類與管理類數(shù)據(jù)。實際上,對于學校整體而言,真正有價值的數(shù)據(jù)往往集中在服務(wù)師生這一端,通過采集與分析師生的個體數(shù)據(jù)以及他們在日常教學、工作、生活過程中產(chǎn)生的數(shù)據(jù),發(fā)揮數(shù)據(jù)價值,獲得更多有價值的數(shù)據(jù)分析結(jié)論,將這些結(jié)論進一步指導和應(yīng)用于管理與服務(wù)中,更好地推進學校的管理與服務(wù)工作,真正滿足師生內(nèi)在的深層次所需,提高服務(wù)與管理質(zhì)量,提高師生滿意度。
2 ? ? 高校師生服務(wù)數(shù)據(jù)建設(shè)與治理的內(nèi)容
在進行數(shù)據(jù)建設(shè)與治理之前,首先要建立學校統(tǒng)一的數(shù)據(jù)標準,然后根據(jù)數(shù)據(jù)來源要求,采集相關(guān)數(shù)據(jù),并進行必要的標準化、清洗、轉(zhuǎn)換等操作,使數(shù)據(jù)符合預定的質(zhì)量要求和標準要求。
2.1 ? 建設(shè)統(tǒng)一數(shù)據(jù)標準和預處理規(guī)范
根據(jù)國家標準、教育部標準、行業(yè)標準,兼顧各個標準之間的兼容性、一致性以及標準的可擴展性,并結(jié)合高校自身特點進行歸納整理,建立和完善學校的各項標準,并給出數(shù)據(jù)分類編碼規(guī)格說明書,建設(shè)一套符合學校實際的《數(shù)據(jù)標準》。在此基礎(chǔ)上,還應(yīng)根據(jù)數(shù)據(jù)標準,編制形成《數(shù)據(jù)預處理規(guī)范》,對原始數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)集成融合、數(shù)據(jù)規(guī)約與數(shù)據(jù)轉(zhuǎn)換等預處理工作。具體的數(shù)據(jù)標準和規(guī)范應(yīng)涵蓋的內(nèi)容包括:數(shù)據(jù)標準權(quán)威參考源、數(shù)據(jù)標準查看、引入、分類定義、導出、標準代碼集權(quán)威參考源、代碼集引入、代碼集分類定義、代碼集綁定等。
2.2 ? 數(shù)據(jù)清洗
在數(shù)據(jù)清洗的過程中,需要進行大量的調(diào)研、采集、核對、匹配、轉(zhuǎn)換等數(shù)據(jù)治理相關(guān)技術(shù)工作。涉及的數(shù)據(jù)對象可能包括以下幾方面:①學?;厩闆r數(shù)據(jù),包括學?;拘畔?、單位部門信息、班級信息、學科點信息等;②學生數(shù)據(jù),包括基本信息、獎懲信息、選課信息、成績信息、學籍信息、社會活動信息、學位學歷信息、畢業(yè)生就業(yè)信息、家庭信息、住宿信息、戶籍信息和困難生信息等;③教職工數(shù)據(jù),包括基本信息、職務(wù)職稱信息、考核信息、專家信息、兼職人員信息、獎懲信息、個人經(jīng)歷信息和家庭信息等;④教學管理數(shù)據(jù),包括課程信息、專業(yè)信息、培養(yǎng)方案信息、教師任課信息、課表信息、考試信息、教學評價信息、實踐信息和論文信息等;⑤科研數(shù)據(jù),包括項目信息、科研機構(gòu)信息、科研合同信息、論文著作信息、學術(shù)會議信息、科研成果信息和學術(shù)交流人員信息等;⑥一卡通相關(guān)數(shù)據(jù),包括商戶數(shù)據(jù)、用戶數(shù)據(jù)、消費明細、充值明細、補助明細等。對上述數(shù)據(jù)的清洗一般要按照如下原則:①單一字段中不存在多種信息;②相同對象的名稱表達一致;③縮寫詞、慣用語的表達一致;④值與字段名含義匹配;⑤同類數(shù)據(jù)的計量單位統(tǒng)一;⑥同一字段內(nèi)的數(shù)據(jù)格式統(tǒng)一。
2.3 ? 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量控制
在數(shù)據(jù)治理方面,一般要求按規(guī)則自動進行數(shù)據(jù)治理、人工手動數(shù)據(jù)治理和根據(jù)數(shù)據(jù)的實際使用結(jié)果對數(shù)據(jù)進行反饋治理,要求經(jīng)過數(shù)據(jù)治理過的數(shù)據(jù)必須可追溯治理過程,并支持數(shù)據(jù)退回到任何以前治理步驟之前的狀態(tài)。通過構(gòu)建科學合理的數(shù)據(jù)治理模型,確保隨著數(shù)據(jù)的使用自動提升數(shù)據(jù)質(zhì)量,主要包括以下幾個方面。①元數(shù)據(jù)管理:在對元數(shù)據(jù)進行采集、查看、分類、編輯、綁定等操作后,還要對其進行血緣分析,即要對元數(shù)據(jù)做全鏈分析,以某個元數(shù)據(jù)為目標節(jié)點,盡量采用圖形方式展示前后與其有關(guān)系的所有元數(shù)據(jù),反映數(shù)據(jù)來源與加工過程,分析數(shù)據(jù)來源和數(shù)據(jù)質(zhì)量問題定位等。除此之外,還要對元數(shù)據(jù)的版本和接口進行管理并做變更分析。②主數(shù)據(jù)管理:包括對主數(shù)據(jù)的分類、引入、發(fā)布以及版本管理和備份等。③數(shù)據(jù)質(zhì)量控制:內(nèi)容包括數(shù)據(jù)結(jié)構(gòu)一致性校驗,數(shù)據(jù)內(nèi)容有效性校驗,數(shù)據(jù)質(zhì)量檢測方式選擇,數(shù)據(jù)質(zhì)量報告輸出、推送、評分機制,數(shù)據(jù)質(zhì)量檢測規(guī)則庫,規(guī)則定義,綁定設(shè)置,數(shù)據(jù)質(zhì)量問題分析統(tǒng)計等。④數(shù)據(jù)共享交換:內(nèi)容包括數(shù)據(jù)接口發(fā)布、預覽、管理、用戶賬號設(shè)置、數(shù)據(jù)授權(quán)訪問、用戶密鑰管理、數(shù)據(jù)訪問統(tǒng)計和ETL任務(wù)信息集成等。⑤數(shù)據(jù)采集存儲計算功能:內(nèi)容包括數(shù)據(jù)采集能力、數(shù)據(jù)采集協(xié)議、數(shù)據(jù)存儲能力、數(shù)據(jù)服務(wù)功能等。
3 ? ? 搭建數(shù)據(jù)建設(shè)與治理平臺
一般來說,高校都通過搭建系統(tǒng)和平臺對學校數(shù)據(jù)進行建設(shè)與治理,即結(jié)合學校的師生綜合數(shù)據(jù),通過日志采集工具、數(shù)據(jù)治理工具,對高校全量結(jié)構(gòu)化數(shù)據(jù)(含過程數(shù)據(jù))、半結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)進行標準化治理,并統(tǒng)一存儲到大數(shù)據(jù)管理平臺,通過API接口支撐學生管理及服務(wù)類、教師服務(wù)類、校情分析類、日志分析類應(yīng)用模型,總體框架一般包括4個模塊.
3.1 ? 全量數(shù)據(jù)平臺及學生管理決策系統(tǒng)
全量數(shù)據(jù)平臺及學生管理決策系統(tǒng)主要用于校園大數(shù)據(jù)分析系統(tǒng)的底層數(shù)據(jù)采集、存儲管理及相關(guān)數(shù)據(jù)挖掘工作、應(yīng)用展示等。一般采用分布技術(shù)架構(gòu)和模式,引入全量數(shù)據(jù),對結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)、半結(jié)構(gòu)化的日志數(shù)據(jù)和非結(jié)構(gòu)化的互聯(lián)網(wǎng)數(shù)據(jù)分別制定標準和規(guī)范,面向大數(shù)據(jù)應(yīng)用制定和管理數(shù)據(jù)標準,并對外提供統(tǒng)一的數(shù)據(jù)讀取與訪問接口。
3.2 ? 預警中心和個人消費報告
通過對關(guān)注群體的上網(wǎng)日志數(shù)據(jù),發(fā)現(xiàn)校園中可能存在的非法聚集、訪問敏感網(wǎng)站等安全行為,幫助相關(guān)部門對校園公共安全進行管理。通過分析上網(wǎng)URL日志,捕獲學生通過校園網(wǎng)訪問網(wǎng)貸平臺的行為,并及時預警頻繁訪問網(wǎng)貸平臺、疑似有網(wǎng)貸行為風險的學生。
3.3 ? 日志分析模塊和日志處理工具
利用大數(shù)據(jù)技術(shù)手段,整合無線日志數(shù)據(jù),結(jié)合教務(wù)處課表數(shù)據(jù)、一卡通消費數(shù)據(jù)等,建立無線考勤分析的數(shù)據(jù)模型,實現(xiàn)實時、無感上課考勤分析,并深度挖掘出勤率較低的潛在原因,生成預警信息并推送給相關(guān)管理人員。
3.4 ? 綜合校情分析決策系統(tǒng)
建立例如教師個人數(shù)據(jù)服務(wù)名片等綜合校情分析模塊,通過對全校教師相關(guān)數(shù)據(jù)的整合匯總,綜合展示和發(fā)布教師信息,分角色、權(quán)限展現(xiàn)不同部門、院系、專業(yè)等不同需求的關(guān)注點。除此之外,還可以建立消費分析、招生分析、就業(yè)分析和科研分析模塊。
4 ? ? 結(jié) 語
數(shù)據(jù)只有在經(jīng)過收集、整理與統(tǒng)計分析后,才能真正實現(xiàn)價值轉(zhuǎn)換。學校在教學、管理與服務(wù)的過程中積累了大量的基礎(chǔ)數(shù)據(jù),在全面收集與匯總基礎(chǔ)數(shù)據(jù)后,要經(jīng)過邏輯性整理與梳理,按主題構(gòu)建數(shù)據(jù)倉庫系統(tǒng),例如,學生在校消費情況及變化趨勢、歷年招生變化情況、學生就業(yè)情況、同類院??蒲星闆r對照分析等,只有建立主題并加以分析數(shù)據(jù)后,這些數(shù)據(jù)分析結(jié)果才能對學校的建設(shè)決策具有指導作用。