周寧寧,李?lèi)?ài)群,鐘蘇陽(yáng)
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023)
評(píng)價(jià)是科學(xué)研究和社會(huì)現(xiàn)實(shí)中經(jīng)常出現(xiàn)的課題。評(píng)價(jià)系統(tǒng)的設(shè)計(jì)是評(píng)價(jià)領(lǐng)域里重要的研究?jī)?nèi)容。一個(gè)合理的評(píng)價(jià)系統(tǒng)不僅要求評(píng)價(jià)結(jié)果客觀和科學(xué),而且要易于擴(kuò)展和維護(hù),具有較強(qiáng)的實(shí)用性。
長(zhǎng)期以來(lái),人們?cè)谠u(píng)價(jià)系統(tǒng)方面進(jìn)行了大量的研究,并提出了適應(yīng)于各種應(yīng)用領(lǐng)域的評(píng)價(jià)系統(tǒng)。部分研究側(cè)重于討論相關(guān)領(lǐng)域的評(píng)價(jià)影響因素等。例如,徐妍[1]研究了財(cái)務(wù)系統(tǒng)中的評(píng)價(jià)指標(biāo),主要通過(guò)對(duì)項(xiàng)目資本金比例、建設(shè)期、資金使用計(jì)劃等基礎(chǔ)數(shù)據(jù)的選取,對(duì)提高財(cái)務(wù)評(píng)價(jià)指標(biāo)融資前后計(jì)算準(zhǔn)確性的影響及靜態(tài)評(píng)價(jià)指標(biāo)、動(dòng)態(tài)評(píng)價(jià)指標(biāo)等財(cái)務(wù)指標(biāo)差異進(jìn)行對(duì)比分析。張璐等[2]研究了國(guó)內(nèi)企業(yè)管理創(chuàng)新方法智能評(píng)價(jià)系統(tǒng)。文中使用多案例研究方法,案例間對(duì)比分析,得出了漸進(jìn)式管理創(chuàng)新方法選擇的機(jī)理和概念模型。蒙文英[3]研究了網(wǎng)絡(luò)課程資源平臺(tái)學(xué)習(xí)評(píng)價(jià)系統(tǒng),主要探索如何使線上學(xué)習(xí)與面對(duì)面教學(xué)深度融合以及在信息化教學(xué)背景下,混合學(xué)習(xí)模式對(duì)學(xué)生學(xué)習(xí)評(píng)價(jià)的策略。也有學(xué)者從評(píng)價(jià)系統(tǒng)的技術(shù)設(shè)計(jì)角度對(duì)評(píng)價(jià)系統(tǒng)進(jìn)行了研究。例如,鄧政策等[4]研究了基于移動(dòng)終端的高校教學(xué)督導(dǎo)評(píng)價(jià)系統(tǒng),該系統(tǒng)采用基于B/S-C/S相結(jié)合的體系結(jié)構(gòu),利用移動(dòng)終端實(shí)現(xiàn)了教學(xué)評(píng)價(jià)。吳陳等[5]采用MVC設(shè)計(jì)模式,結(jié)合Java Web等技術(shù)設(shè)計(jì)實(shí)現(xiàn)了在線教學(xué)評(píng)價(jià)系統(tǒng)。但隨著大數(shù)據(jù)時(shí)代的到來(lái),大量出現(xiàn)的非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)給傳統(tǒng)評(píng)價(jià)系統(tǒng)帶來(lái)了新的挑戰(zhàn)。此外,評(píng)價(jià)系統(tǒng)的核心是評(píng)價(jià)規(guī)則的選擇,很多學(xué)者也對(duì)此進(jìn)行了深入研究。例如,采用模糊理論[6-9]、灰度理論[10-11]等評(píng)價(jià)規(guī)則。這些評(píng)價(jià)規(guī)則在眾多評(píng)價(jià)領(lǐng)域都得到了廣泛的應(yīng)用,但評(píng)價(jià)結(jié)果往往存在一定的主觀性。因此,探索新的更為客觀和合理的評(píng)價(jià)規(guī)則仍然十分重要。
文中在Hadoop分布式系統(tǒng)上,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于SSM框架的評(píng)價(jià)系統(tǒng)。同時(shí),將處理模糊信息的中介數(shù)學(xué)系統(tǒng)引入到評(píng)價(jià)規(guī)則中,提出了基于中介真值程度的單維度和多維度綜合測(cè)度模型。系統(tǒng)采用接口編程技術(shù),可以接入并修改功能模塊,增強(qiáng)了系統(tǒng)的可擴(kuò)展性和維護(hù)性,同時(shí),基于中介真值程度的評(píng)價(jià)規(guī)則的運(yùn)用,使評(píng)價(jià)結(jié)果更為科學(xué)和客觀。
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)產(chǎn)生快速、數(shù)據(jù)量巨大,數(shù)據(jù)種類(lèi)繁多,為了滿(mǎn)足不同應(yīng)用的需求,同時(shí)考慮系統(tǒng)的可擴(kuò)展性,該系統(tǒng)的設(shè)計(jì)綜合考慮了以下因素:
(1)適用性:系統(tǒng)在開(kāi)發(fā)前,為了滿(mǎn)足不同的需求,應(yīng)增強(qiáng)系統(tǒng)的擴(kuò)展性,從而使系統(tǒng)具有良好的適用性。
(2)先進(jìn)性:為了保證系統(tǒng)在未來(lái)也可以使用,系統(tǒng)的開(kāi)發(fā)技術(shù)和設(shè)計(jì)需要足夠先進(jìn)。
(3)易用性:一個(gè)系統(tǒng)的好壞與系統(tǒng)的易用性有直接的關(guān)系。為了確保不同用戶(hù)能夠快速掌握并方便使用,要求系統(tǒng)更加容易上手,操作簡(jiǎn)單。
(4)可靠性:系統(tǒng)應(yīng)該能夠保證長(zhǎng)時(shí)間的正常運(yùn)行。
(5)安全性:系統(tǒng)能夠抵御外界的惡意侵害,為整個(gè)系統(tǒng)提供保護(hù),保證系統(tǒng)的正常運(yùn)作。
評(píng)價(jià)系統(tǒng)的技術(shù)體系結(jié)構(gòu)如圖1所示。
圖1 評(píng)價(jià)系統(tǒng)的技術(shù)體系結(jié)構(gòu)
整個(gè)系統(tǒng)基于SSM(SpringMVC+Spring+Mybaties)技術(shù),不但可以有效地提高系統(tǒng)的開(kāi)發(fā)效率,而且具有很好的安全性、穩(wěn)定性和健壯性,并且層次分明,便于維護(hù)和功能擴(kuò)展。
表現(xiàn)層使用了SpringMVC框架,實(shí)現(xiàn)了視圖控制分離。首先,用戶(hù)向?yàn)g覽器發(fā)送一條命令,這條命令會(huì)被SpringMVC的DispatcherServlet前端控制器攔截,并進(jìn)行處理,返回view給客戶(hù)端。業(yè)務(wù)層采用Spring框架,該層提供如事務(wù)處理等擴(kuò)展功能,并提供控制反轉(zhuǎn)和依賴(lài)注入,實(shí)現(xiàn)對(duì)Bean的管理,能夠很好地粘合表示層和持久層,完美地實(shí)現(xiàn)了業(yè)務(wù)代碼的高效分離。持久層采用Mybaties框架,可以實(shí)現(xiàn)數(shù)據(jù)表與類(lèi)之間的映射關(guān)系,可以像操作對(duì)象一樣使用表,而Mybaties提供的緩存機(jī)制在一定程度上緩解了服務(wù)器頻繁讀取數(shù)據(jù)庫(kù)的壓力。最底層是Hadoop大數(shù)據(jù)系統(tǒng),原始數(shù)據(jù)會(huì)存放在HDFS中,并使用MapReduce對(duì)該數(shù)據(jù)進(jìn)行分析,結(jié)果可以保存在HDFS中,需要的話(huà),也可以通過(guò)Sqoop軟件等方式傳到Mysql數(shù)據(jù)庫(kù)中,持久層也需要從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)。
系統(tǒng)采用JSP進(jìn)行開(kāi)發(fā)設(shè)計(jì),配合Hadoop+MapReduce數(shù)據(jù)存儲(chǔ)和分析,采用Apache Tomcat作為服務(wù)器的支持,使整個(gè)系統(tǒng)的界面更加美觀,應(yīng)用更加靈活。系統(tǒng)各模塊的體系結(jié)構(gòu)如圖2所示。
圖2 系統(tǒng)各模塊的體系結(jié)構(gòu)
該系統(tǒng)主要由接口模塊、上傳文件模塊、數(shù)據(jù)評(píng)價(jià)模塊、分布式存儲(chǔ)和處理模塊、規(guī)則模塊、結(jié)果分析模塊組成。為了符合Spring的編程規(guī)范,系統(tǒng)的擴(kuò)展性,系統(tǒng)的所有功能都采用接口的方式進(jìn)行實(shí)現(xiàn)。
接口模塊:為了提高系統(tǒng)的拓展性和靈活性,該系統(tǒng)提供兩種接口方式。第一種是系統(tǒng)的功能接口,把功能業(yè)務(wù)提取出來(lái),業(yè)務(wù)的具體實(shí)現(xiàn)通過(guò)該接口的實(shí)現(xiàn)類(lèi)完成需求,這樣,當(dāng)業(yè)務(wù)本身需求變更時(shí),不需要修改現(xiàn)有的代碼,減少了對(duì)系統(tǒng)的影響。第二種是給其他功能模塊的拓展接口,通過(guò)該接口可以接入其他功能模塊,從而在不修改當(dāng)前代碼的情況下,拓展系統(tǒng)的功能。
上傳文件模塊:該模塊也被設(shè)計(jì)成接口形式,是為了針對(duì)不同的數(shù)據(jù)類(lèi)型,文件上傳后將對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),方便以后的使用和管理。針對(duì)部分半結(jié)構(gòu)化數(shù)據(jù),該模塊將提供輸入數(shù)據(jù)中屬性的功能。
規(guī)則模塊:該模塊對(duì)數(shù)據(jù)評(píng)價(jià)中的所有規(guī)則進(jìn)行處理,可以針對(duì)目前的評(píng)價(jià)維度,制定相應(yīng)的規(guī)則,并組成規(guī)則集,供用戶(hù)選擇,也可以自己制定規(guī)則。該模塊也被設(shè)計(jì)成接口形式,可以接入外界的規(guī)則模塊。
數(shù)據(jù)質(zhì)量評(píng)價(jià)模塊:該模塊是系統(tǒng)的核心模塊,該模塊包括所有的數(shù)據(jù)質(zhì)量的評(píng)價(jià)維度規(guī)則和程序運(yùn)行的參數(shù)。
分布式存儲(chǔ)和處理模塊:該模塊主要采用Hadoop中的分布式文件系統(tǒng)(HDFS)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),HDFS有高容錯(cuò)性,可部署在廉價(jià)的硬件上,具有很高的吞吐量,并提供MapReduce對(duì)大數(shù)據(jù)進(jìn)行處理和分析。MapReduce是一種編程模型,能夠提高整體的處理能力。
結(jié)果分析模塊:該模塊的主要功能是展示結(jié)果。通過(guò)Hadoop中的MapReduce對(duì)數(shù)據(jù)進(jìn)行處理,需要將處理后的數(shù)據(jù)進(jìn)行分析,生成分析報(bào)告,將結(jié)果反饋給用戶(hù)。
中介原則[12]是由朱梧槚、肖奚安于20世紀(jì)80年代提出,并以自創(chuàng)的中介邏輯演算系統(tǒng)(medium logic)作為推理工具,建立了以中介公理集合論(medium axiomatic set)[13]為主要內(nèi)容的中介數(shù)學(xué)系統(tǒng)。
中介數(shù)學(xué)系統(tǒng)中記P為一謂詞(概念或性質(zhì)),x為任一變?cè)琍(x)表示變?cè)獂完全具有性質(zhì)P。符號(hào)“╕”稱(chēng)反對(duì)對(duì)立否定詞,讀為“對(duì)立于”,把謂詞P的反對(duì)對(duì)立面記為╕P,則P與╕P就抽象地表示了一對(duì)反對(duì)對(duì)立概念;符號(hào)“~”稱(chēng)模糊否定詞,反映了對(duì)立物在轉(zhuǎn)化過(guò)程中“非此非彼”或“亦此亦彼”的中介狀態(tài),模糊否定詞“~”的語(yǔ)義深刻地反映了模糊性;“P”是真值程度詞,刻畫(huà)了兩個(gè)命題之間的差異。
史蒂文斯[14]在1951年曾給評(píng)價(jià)下了這樣的定義:“從廣義而言,評(píng)價(jià)是根據(jù)法則給事物分派數(shù)字?!边@一定義概括了物理評(píng)價(jià)、社會(huì)評(píng)價(jià)和心理評(píng)價(jià)的共性。從該定義可以看出,評(píng)價(jià)包括三個(gè)要素:事物的屬性、數(shù)字和規(guī)則。
因此,首先根據(jù)具體應(yīng)用確定數(shù)據(jù)的評(píng)價(jià)維度,建立利用距離比率函數(shù)[15]基于中介真值程度的單維度測(cè)度模型;在此基礎(chǔ)上,根據(jù)具體的應(yīng)用,確定各維度的權(quán)重,利用距離比率和函數(shù)[16]建立基于中介真值程度度量的多維度綜合測(cè)度模型。
2.2.1 單維度測(cè)度模型
定義謂詞P(x(i,j))表示第i個(gè)數(shù)據(jù)j維指標(biāo)優(yōu)秀,則相應(yīng)的╕P(x(i,j))表示該數(shù)據(jù)該維度指標(biāo)差,~P(x(i,j))表示該數(shù)據(jù)該維度指標(biāo)中等,+P(x(i,j))表示該數(shù)據(jù)該維度指標(biāo)特別優(yōu)秀,╕+P(x(i,j))表示該數(shù)據(jù)該維度指標(biāo)特別差。某維度指標(biāo)數(shù)值區(qū)域與其對(duì)應(yīng)謂詞的真值之間的對(duì)應(yīng)關(guān)系如圖3所示。
圖3 單維度指標(biāo)數(shù)值區(qū)域與評(píng)價(jià)等級(jí)的對(duì)應(yīng)關(guān)系
其中各個(gè)邏輯區(qū)間的確定,可以根據(jù)具體應(yīng)用設(shè)定。一種方法是根據(jù)行政定義確定,其主要思想是:通常在一次評(píng)價(jià)中,大概期望有固定比例的通過(guò),在通過(guò)的這部中,又期望有一部分比例的優(yōu)秀,一部分比例的中等。因此,首先根據(jù)行政性指定的比例來(lái)確定各分界分?jǐn)?shù),即確定所給的數(shù)值區(qū)域與其對(duì)應(yīng)謂詞的真值之間的關(guān)系。例如,對(duì)某個(gè)維度,假設(shè)參加評(píng)價(jià)的數(shù)為n,有比例B的數(shù)據(jù)合格,則定義:n*B個(gè)數(shù)據(jù)為~P(x(i,j))、P(x(i,j))、+P(x(i,j)),n*B*(1-B)個(gè)為P(x(i,j))、+P(x(i,j)),n*B*(1-B)2為+P(x(i,j)),n*(1-B)*B為╕P(x(i,j)),n*(1-B)*(1-B)為╕+P(x(i,j))。以此來(lái)確定特別優(yōu)秀、優(yōu)秀、中等、差和特別差各等級(jí)對(duì)應(yīng)關(guān)系,以及相應(yīng)的αF-εF、αF、αF+εF、αT-εT、αT、αT+εT。
選取距離比率函數(shù)h(x(i,j))作為單維度指標(biāo)的測(cè)度函數(shù),根據(jù)圖3,可以得到相應(yīng)的距離比率函數(shù)h(x(i,j)),如下式:
h(x(i,j))=
(1)
h(x(i,j))大于1,說(shuō)明該數(shù)據(jù)第j個(gè)指標(biāo)超優(yōu)秀;h(x(i,j))等于1,說(shuō)明該數(shù)據(jù)第j個(gè)指標(biāo)優(yōu)秀;h(x(i,j))介于0到1之間,說(shuō)明該數(shù)據(jù)第j個(gè)指標(biāo)中等,越接近于1,表明該數(shù)據(jù)第j個(gè)指標(biāo)越接近優(yōu)秀,越接近于0,表明該數(shù)據(jù)第j個(gè)指標(biāo)越接近差;h(x(i,j))等于0,說(shuō)明該數(shù)據(jù)第j個(gè)指標(biāo)差;h(x(i,j))小于0,說(shuō)明該數(shù)據(jù)第j個(gè)指標(biāo)超差。
2.2.2 多維度綜合測(cè)度模型
設(shè)數(shù)據(jù)i,其n個(gè)指標(biāo)集合為X(i)=[x(i,j)]1×n,其中0≤j≤n,對(duì)應(yīng)的n個(gè)指標(biāo)的權(quán)值為d(j)。對(duì)于n個(gè)指標(biāo)的綜合評(píng)價(jià),首先根據(jù)具體應(yīng)用,確定各個(gè)指標(biāo)的權(quán)值為d(j)(0≤j≤n),然后選取加權(quán)距離比率和函數(shù)hn-T(x(i))作為數(shù)據(jù)i的n個(gè)指標(biāo)的綜合評(píng)價(jià)測(cè)度函數(shù),如式(2):
(2)
hn-T(x(i))的數(shù)值越大,表明該數(shù)據(jù)n個(gè)指標(biāo)的綜合評(píng)價(jià)越優(yōu)秀。
Hadoop是一個(gè)開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),是Apache的一個(gè)用Java語(yǔ)言實(shí)現(xiàn)的開(kāi)源軟件框架,在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。Hadoop框架中最核心的設(shè)計(jì)就是HDFS和MapReduce。HDFS提供了海量數(shù)據(jù)的存儲(chǔ),MapReduce提供了對(duì)數(shù)據(jù)的計(jì)算。
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢(xún)功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
實(shí)驗(yàn)中,首先根據(jù)某校教務(wù)系統(tǒng)自動(dòng)化生成學(xué)生表數(shù)據(jù)1 105 082條,以文件格式存儲(chǔ)在Hadoop的HDFS文件系統(tǒng)中。使用數(shù)據(jù)倉(cāng)庫(kù)工具h(yuǎn)ive自動(dòng)生成MapReduce任務(wù),數(shù)據(jù)如表1所示。
根據(jù)實(shí)際情況,給出一般的行政定義:取參考人數(shù)的60%及格,即B=60。同時(shí)根據(jù)每門(mén)課程的參考人數(shù)以及相應(yīng)的考試成績(jī),確定所給成績(jī)的數(shù)據(jù)區(qū)域與特優(yōu)、優(yōu)秀、中等、差和特差各等級(jí)的對(duì)應(yīng)關(guān)系。
一般方法中,成績(jī)的綜合評(píng)價(jià)是通過(guò)單項(xiàng)成績(jī)的簡(jiǎn)單相加來(lái)產(chǎn)生總分排名衡量的。一般方法的綜合評(píng)價(jià)結(jié)果見(jiàn)表2。
表1 某高校計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)學(xué)生5門(mén)課程的期末考試成績(jī)
表2 根據(jù)n門(mén)課程總分的排名
續(xù)表2 根據(jù)n門(mén)課程總分的排名
設(shè)定每門(mén)課程的權(quán)值。為了與一般方法進(jìn)行比較,設(shè)定所有課程(高等數(shù)學(xué)、大學(xué)英語(yǔ),數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)和高級(jí)程序設(shè)計(jì)語(yǔ)言)的權(quán)值均為1,所得的每位同學(xué)各門(mén)課程的總真值程度和平均真值程度如表3所示。
表3 按總真值程度排名
從表3中可以看出,學(xué)號(hào)為“xxxxxx68”和學(xué)號(hào)為“xxxxx121”的總分是相同的,都為421分。根據(jù)一般的評(píng)價(jià)方法,這兩位學(xué)生的成績(jī)優(yōu)秀程度相同,即為相同的排名(第5名)。然而從每門(mén)課程的分?jǐn)?shù)排名來(lái)比較這兩名學(xué)生,學(xué)號(hào)為“xxxxxx68”的學(xué)生偏科嚴(yán)重,而學(xué)號(hào)為“xxxxx121”的學(xué)生各門(mén)課程都比較優(yōu)秀,因此,以簡(jiǎn)單的單項(xiàng)分?jǐn)?shù)相加排名來(lái)評(píng)定學(xué)生的成績(jī)無(wú)法體現(xiàn)出這點(diǎn),是不全面的。學(xué)號(hào)為“xxxxx121”的學(xué)生排名(排名為第4)高于學(xué)號(hào)為“xxxxxx68”的學(xué)生(排名低于12)。原因是學(xué)號(hào)為“xxxxxx68”的學(xué)生的課程非常優(yōu)秀,即該課程成績(jī)真值程度均大于1(例如高等數(shù)學(xué)和操作系統(tǒng)),而有的課程成績(jī)卻比較差,該課程成績(jī)真值程度均幾近于0(例如大學(xué)英語(yǔ)和數(shù)據(jù)結(jié)構(gòu))。從上面的分析可知,基于中介真值程度的評(píng)價(jià)規(guī)則更為合理和科學(xué)。
在Hadoop分布式系統(tǒng)上,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于SSM框架的數(shù)據(jù)評(píng)價(jià)系統(tǒng)。該系統(tǒng)采用接口編程,可以接入擴(kuò)展的功能模塊,增強(qiáng)了系統(tǒng)的可擴(kuò)展性,而且將整個(gè)系統(tǒng)的所有功能都分成單獨(dú)的模塊,修改時(shí)只需要修改相應(yīng)的模塊,增強(qiáng)了系統(tǒng)的維護(hù)性。系統(tǒng)提供了基于中介真值程度的評(píng)價(jià)規(guī)則,提出采用距離比率函數(shù)對(duì)單維度進(jìn)行評(píng)價(jià)、采用加權(quán)距離比率和函數(shù)實(shí)現(xiàn)n維綜合評(píng)價(jià)的測(cè)度模型,在學(xué)生成績(jī)?cè)u(píng)價(jià)中的應(yīng)用結(jié)果表明該規(guī)則更為合理和科學(xué)。