高亮++胡慶亮
摘要:大數(shù)據(jù)技術(shù)有效解決了學(xué)科評估中采集數(shù)據(jù)的困難,通過建立業(yè)務(wù)指標(biāo)和評估指標(biāo)的對應(yīng)關(guān)系保證了評估指標(biāo)的兼容性和擴(kuò)展性,使評估指標(biāo)體系更容易落地,OLAP技術(shù)的應(yīng)用提高了學(xué)科評估工作效率。大數(shù)據(jù)相關(guān)技術(shù)在學(xué)科評估中的運用改變了以往的工作模式,具有創(chuàng)新意義,實踐證明該技術(shù)方案使學(xué)科評估實施更加快速、有效。
關(guān)鍵詞:大數(shù)據(jù);學(xué)科評估;多維分析
中圖分類號:G40-058.1
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-8454(2015)07-0013-04
一、現(xiàn)狀及問題
學(xué)科建設(shè)是高等學(xué)校發(fā)展的核心工作,是衡量一所高校辦學(xué)水平的重要評價標(biāo)準(zhǔn)。如何科學(xué)、客觀、準(zhǔn)確地評價學(xué)科狀態(tài),從而更好地規(guī)劃資源配置促進(jìn)各學(xué)科均衡發(fā)展是多年來各高校及研究機構(gòu)的重點研究課題。學(xué)科評估的兩個關(guān)鍵因素是評估指標(biāo)體系和基礎(chǔ)數(shù)據(jù),到目前為止,學(xué)科評估重點研究了評估指標(biāo)體系及評估方法,并已取得了顯著成果,研究人員提出了多種比較成熟、完善的評估指標(biāo)體系。但是,目前不論使用哪一套評估指標(biāo)體系開展學(xué)科評估工作時都會遇到許多問題,使看起來完美的評估指標(biāo)體系并不能順利實施。以下是三個典型的問題:
(1)無法準(zhǔn)確、全面、及時地獲取各類業(yè)務(wù)數(shù)據(jù),導(dǎo)致評估結(jié)果不夠全面、不夠客觀、不夠準(zhǔn)確。
(2)評估指標(biāo)是對高校業(yè)務(wù)的抽象描述,無法與具體業(yè)務(wù)數(shù)據(jù)直接對應(yīng),導(dǎo)致無法直接得到與評估指標(biāo)對應(yīng)的評估結(jié)果,需要將評估指標(biāo)轉(zhuǎn)換為業(yè)務(wù)標(biāo)準(zhǔn)才能與業(yè)務(wù)數(shù)據(jù)準(zhǔn)確對應(yīng)。
(3)目前學(xué)科評估主要靠人工收集數(shù)據(jù)、計算評估結(jié)果,基于一套比較復(fù)雜的評估指標(biāo)體系采用人工方法去生成評估結(jié)果是一件非常困難的事情,如果要同時生成多套不同評估指標(biāo)體系的評估報告更是一件不太現(xiàn)實的事情。
本文介紹使用大數(shù)據(jù)技術(shù)充分收集高校業(yè)務(wù)中與學(xué)科相關(guān)的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并將半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù),同時確定數(shù)據(jù)實體及其間的關(guān)系,最終將經(jīng)過清洗的數(shù)據(jù)按照統(tǒng)一標(biāo)準(zhǔn)進(jìn)行存儲?;跇?biāo)準(zhǔn)化的業(yè)務(wù)數(shù)據(jù),充分發(fā)揮OLAP技術(shù)優(yōu)勢對學(xué)科進(jìn)行多維分析并生成學(xué)科評估報表。
二、大數(shù)據(jù)解決方案
1.系統(tǒng)架構(gòu)
基于大數(shù)據(jù)的學(xué)科評估系統(tǒng)框架(見圖1)主要包括:數(shù)據(jù)源層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層和數(shù)據(jù)分析層。
(1)數(shù)據(jù)源層
數(shù)據(jù)源層是學(xué)科評估基礎(chǔ)數(shù)據(jù)的來源,主要包括分布于各業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)外的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如TXT、XML等格式的文本文件。
(2)數(shù)據(jù)處理層
學(xué)科評估基礎(chǔ)數(shù)據(jù)分布于不同的業(yè)務(wù)系統(tǒng),而且數(shù)據(jù)量大,同時還有系統(tǒng)外的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的ETL技術(shù)已經(jīng)無法完成處理任務(wù)。Hadoop技術(shù)能夠?qū)A繑?shù)據(jù)進(jìn)行分布式處理,尤其是處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)具有先天優(yōu)勢。數(shù)據(jù)處理層借助大數(shù)據(jù)技術(shù)對原始數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換,完成數(shù)據(jù)集成,按照存儲層數(shù)據(jù)模型重新組織數(shù)據(jù),形成能夠支持學(xué)科評估的標(biāo)準(zhǔn)化數(shù)據(jù)。
(3)數(shù)據(jù)存儲層
數(shù)據(jù)存儲層是學(xué)科評估數(shù)據(jù)的核心,主要包括業(yè)務(wù)數(shù)據(jù)庫、業(yè)務(wù)指標(biāo)庫和評估指標(biāo)庫。業(yè)務(wù)數(shù)據(jù)是與學(xué)科相關(guān)的基礎(chǔ)業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)指標(biāo)是指描述基礎(chǔ)數(shù)據(jù)的維度,評估指標(biāo)是指不同評估體系中的各類指標(biāo)。數(shù)據(jù)存儲層采用數(shù)據(jù)倉庫維度模型存儲業(yè)務(wù)數(shù)據(jù),這樣更有利于應(yīng)用層的統(tǒng)計分析。數(shù)據(jù)存儲層會進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,建立統(tǒng)一的編碼規(guī)則,去除冗余和不一致。
(4)數(shù)據(jù)分析層
數(shù)據(jù)分析層是學(xué)科評估應(yīng)用的核心。通過聯(lián)機分析平臺(OLAP)可以快速生成評估報表并進(jìn)行多維分析,節(jié)省人工計算工作量,并以打印輸出、文件輸出、Email輸出、Web發(fā)布等多種方式展現(xiàn)。
2.業(yè)務(wù)數(shù)據(jù)模型
業(yè)務(wù)數(shù)據(jù)采用星型模型進(jìn)行數(shù)據(jù)建模,建模的重點是識別業(yè)務(wù)實體與學(xué)科評估相關(guān)的最細(xì)粒度屬性,作為業(yè)務(wù)指標(biāo)維度,它們將構(gòu)成業(yè)務(wù)指標(biāo)庫,這些指標(biāo)可以綜合反映業(yè)務(wù)實體屬于哪一個學(xué)科評估指標(biāo),其他對學(xué)科評估不產(chǎn)生影響的實體屬性可選擇性地保留在模型中,方便進(jìn)行多維分析。
圖2是以科研論文和科研項目為示例的科研業(yè)務(wù)數(shù)據(jù)模型。學(xué)科維度來標(biāo)識論文和項目屬于哪一個學(xué)科,論文類型、刊物類型、刊物分區(qū)、第一作者類型維度是評估科研論文的業(yè)務(wù)指標(biāo),項目經(jīng)費、負(fù)責(zé)人類型、項目類別、項目級別、項目子級別是評估科研項目的業(yè)務(wù)指標(biāo)。
3.評估指標(biāo)模型
由于目前還沒有統(tǒng)一的、標(biāo)準(zhǔn)化的學(xué)科評估指標(biāo)體系,各高校內(nèi)部以及各權(quán)威機構(gòu)的評估指標(biāo)體系都不完全相同,而且經(jīng)常會有變動,如果每次開展學(xué)科評估都將基礎(chǔ)數(shù)據(jù)與評估指標(biāo)重新對應(yīng),然后計算評估結(jié)果是一件非常困難的事情。
鑒于高校內(nèi)部描述業(yè)務(wù)實體的屬性相對固定,提取這些屬性作為基礎(chǔ)業(yè)務(wù)指標(biāo),將業(yè)務(wù)指標(biāo)與學(xué)科評估指標(biāo)作匹配,這樣業(yè)務(wù)實體就能對應(yīng)到具體的評估指標(biāo)。圖3是以科研論文和科研項目為例設(shè)計的評估指標(biāo)模型,設(shè)計說明如下:
(1)同一類業(yè)務(wù)數(shù)據(jù)用于學(xué)科評估的屬性可能不完全相同,如縱向項目用項目級別和項目子級別屬性來表示評估得分,橫向項目是用項目經(jīng)費來表示評估得分,所以業(yè)務(wù)指標(biāo)庫要最細(xì)粒度,保證能唯一標(biāo)識所有類別的業(yè)務(wù)數(shù)據(jù)。
(2)最細(xì)粒度的業(yè)務(wù)指標(biāo)可以使評估指標(biāo)粒度更小、更加科學(xué),從而提高評估結(jié)果的科學(xué)性和準(zhǔn)確性,同時可以滿足不同評估指標(biāo)與業(yè)務(wù)數(shù)據(jù)的對應(yīng)關(guān)系,保證了評估指標(biāo)體系的兼容性和擴(kuò)展性。如科研論文評估指標(biāo)和科研項目評估指標(biāo)都是基于科研論文和科研項目最細(xì)粒度業(yè)務(wù)指標(biāo)生成。
(3)評估指標(biāo)類型標(biāo)識該評估指標(biāo)是評估哪一業(yè)務(wù),如科研論文、師資隊伍、人才培養(yǎng)等。評估指標(biāo)體系標(biāo)識該評估指標(biāo)對應(yīng)的是哪一種評估標(biāo)準(zhǔn),如校內(nèi)評估指標(biāo)體系、國內(nèi)某權(quán)威機構(gòu)評估指標(biāo)體系、國外某權(quán)威機構(gòu)評估指標(biāo)體系等。
(4)評估指標(biāo)中的開始年份和結(jié)束年份用來標(biāo)識該指標(biāo)的適用范圍,支持生成歷史年份的評估報表,可以比較不同年份的評估結(jié)果。
(5)評估得分是對評估指標(biāo)的量化表示,并不是每一個評估指標(biāo)都有評估得分,有些統(tǒng)計實體數(shù)量的就沒有評估得分,如統(tǒng)計教師數(shù)量、學(xué)生數(shù)量等。
4.學(xué)科評估
學(xué)科評估的核心工作是按評估指標(biāo)去匯總各類業(yè)務(wù)數(shù)據(jù)、計算評估得分,然后通過不同的維度去分析評估結(jié)果。業(yè)務(wù)系統(tǒng)通過數(shù)據(jù)共享方式將各類業(yè)務(wù)指標(biāo)提供給學(xué)科評估系統(tǒng),學(xué)科評估系統(tǒng)管理員根據(jù)業(yè)務(wù)指標(biāo)靈活設(shè)置評估指標(biāo)、得分、指標(biāo)對應(yīng)時間段,業(yè)務(wù)數(shù)據(jù)根據(jù)業(yè)務(wù)指標(biāo)就可以關(guān)聯(lián)查詢到對應(yīng)的評估指標(biāo),進(jìn)而可以得到評估得分,最終可以自動匯總數(shù)據(jù)得到評估報表。以科研項目學(xué)科評估為例,計算過程偽代碼如下:
SELECT EXTRACT (YEAR FROM Tl.立項日期)AS評估年份
,T4.評估指標(biāo)體系名稱AS評估指標(biāo)體系名稱
,T5.評估指標(biāo)類型名稱AS評估指標(biāo)類型名稱
,T3.評估指標(biāo)名稱
AS評估指標(biāo)名稱
.T2.二級學(xué)科名稱
AS二級學(xué)科名稱
,T2.一級學(xué)科名稱
AS一級學(xué)科名稱
,T2.學(xué)科門類名稱
AS學(xué)科門類名稱
,COUNT(T1.項目編號)AS項目數(shù)量
,SUM (T3.評估指標(biāo)得分)AS評估得分
FROM 科研項目Tl
LEFT JOIN學(xué)科T2
ON
Tl.學(xué)科=T2.學(xué)科編號
LEFT JOIN科研項目評估指標(biāo)T3
ON
Tl.負(fù)責(zé)人類型=T3.作者類型編號
AND Tl.項目類別=T3.項目類別編號
AND Tl.項目級別=T3.項目級別編號
AND Tl.項目子級別=T3.項目子級別編號
AND EXTRACT(YEAR FROM Tl.立項日期)BE-TWEEN T3.開始年份AND T3.結(jié)束年份
LEFT JOIN評估指標(biāo)體系T4
ON T3.評估指標(biāo)體系=T4.評估指標(biāo)體系編號
LEFT JOIN評估指標(biāo)類型T5
ON T3.評估指標(biāo)類型=T5.評估指標(biāo)類型編號
GROUP BY EXTRACT(YEAR FROM Tl.立項日期)
T4.評估指標(biāo)體系名稱
T5.評估指標(biāo)類型名稱
T3.評估指標(biāo)名稱
T2.二級學(xué)科名稱
T2.一級學(xué)科名稱
T2.學(xué)科門類名稱
該學(xué)科評估系統(tǒng)具有如下特點:
(1)快速部署、靈活維護(hù)評估指標(biāo)。只要建立評估指標(biāo)與業(yè)務(wù)指標(biāo)的對應(yīng)關(guān)系,就可以完成業(yè)務(wù)數(shù)據(jù)與和評估指標(biāo)的關(guān)聯(lián),從而可以快速生成學(xué)科評估報表。
(2)支持多評估指標(biāo)體系,可以同時生成基于不同評估指標(biāo)體系的評估報表,比較不同評估指標(biāo)體系下的評估結(jié)果。
(3)評估指標(biāo)中的時間屬性滿足在不同時間段使用不同的評估指標(biāo),達(dá)到保留歷史評估結(jié)果的目的。
(4)通過聯(lián)機分析(OLAP)功能可以快速計算評估得分并進(jìn)行多維分析。如可以快速生成基于二級學(xué)科、一級學(xué)科和學(xué)科門類的評估報表。
三、應(yīng)用實例和應(yīng)用效果
1.應(yīng)用實例
本文選取上海財經(jīng)大學(xué)校內(nèi)評估指標(biāo)體系中縱向科研項目評估為例,介紹具體應(yīng)用情況。表1是根據(jù)縱向項目業(yè)務(wù)指標(biāo)設(shè)置的評估指標(biāo),每一個縱向項目能找到對應(yīng)的評估指標(biāo)。
圖4是使用數(shù)據(jù)可視化工具Tableau開發(fā)的縱向項目學(xué)科評估報表,通過篩選器可以查看不同年份、不同評估指標(biāo)對應(yīng)的評估結(jié)果,通過鉆取功能可以得到學(xué)科門類、一級學(xué)科、二級學(xué)科的評估結(jié)果,達(dá)到多維分析的目的。如果有多種評估指標(biāo)體系,可以同時展現(xiàn)在評估報表內(nèi),方便橫向比較評估結(jié)果。
2.應(yīng)用效果
傳統(tǒng)方法做學(xué)科評估需要從各個業(yè)務(wù)部門采集數(shù)據(jù),然后分類、設(shè)置評估指標(biāo)、賦值、計算,需要花費大量時間,生成的評估報表會有數(shù)據(jù)不準(zhǔn)確、滯后性、一次性使用等問題。借助大數(shù)據(jù)技術(shù)保證了采集數(shù)據(jù)的全面性、準(zhǔn)確性和及時性,充分發(fā)揮大數(shù)據(jù)技術(shù)分布式處理數(shù)據(jù)的優(yōu)勢,減少人工采集、整理數(shù)據(jù)需要的巨大工作量。O—LAP技術(shù)可以快速生成學(xué)科評估報表,完成多維分析,大大提高了學(xué)科評估的工作效率和評估結(jié)果的準(zhǔn)確性。通過該系統(tǒng)校領(lǐng)導(dǎo)、院系領(lǐng)導(dǎo)、業(yè)務(wù)部門管理人員可以了解每一學(xué)科的評估結(jié)果,比較不同學(xué)科間的評估差異,觀察同一學(xué)科評估結(jié)果隨時間的變化趨勢,從而為管理決策提供科學(xué)依據(jù)。使用該系統(tǒng)我校已經(jīng)完成了校內(nèi)2013年學(xué)科評估報表,同時支持教育部學(xué)科評估上報材料。
四、結(jié)束語
借助大數(shù)據(jù)技術(shù)可以很好地解決目前學(xué)科評估中采集基礎(chǔ)數(shù)據(jù)存在的困難;通過提取最細(xì)粒度業(yè)務(wù)指標(biāo),并將業(yè)務(wù)指標(biāo)作為建立評估指標(biāo)與基礎(chǔ)數(shù)據(jù)之間關(guān)系的橋梁,可以快速部署不同的評估指標(biāo),同時滿足評估指標(biāo)的擴(kuò)展性。借助OLAP技術(shù)可以快速、靈活生成學(xué)科評估報表,并實現(xiàn)多維分析??傊?,將大數(shù)據(jù)、數(shù)據(jù)倉庫和OLAP技術(shù)相結(jié)合在學(xué)科評估中使用具有創(chuàng)新意義,不僅解決了目前學(xué)科評估實施中存在的困難,而且可以使學(xué)科評估工作快速、有效實施,對高校開展學(xué)科評估具有積極推動作用。