張瀟月,李波
(中國傳媒大學(xué) 理學(xué)院,北京100024)
“啤酒與尿布”的故事可以說是營銷界的經(jīng)典段子。沃爾瑪發(fā)現(xiàn),在超市購物中這種某些特定物品往往存在平時(shí)不易察覺的聯(lián)系,嘗試順應(yīng)這種聯(lián)系調(diào)整超市格局,從而獲得了很好的商品銷售收入。如今,“啤酒與尿布”的故事在更多的領(lǐng)域得到了應(yīng)用。
在目前中國大學(xué)里,選修課制度普遍存在。但據(jù)實(shí)情而言,中國大學(xué)的公共選修課開展情況與發(fā)達(dá)國家大學(xué)相比遠(yuǎn)有不足之處。究其原因除了中國大學(xué)生人數(shù)比國外多之外,更大的原因是國內(nèi)很多大學(xué)選課制度不夠合理,選課系統(tǒng)不夠完善。每年選課期間往往會(huì)出現(xiàn)選課系統(tǒng)崩潰、網(wǎng)絡(luò)服務(wù)器超負(fù)荷運(yùn)作等現(xiàn)象,使學(xué)生選不到自己想上的課,課程不能分配給需求最為迫切的學(xué)生,造成了大量教學(xué)資源的浪費(fèi)。
從某種角度說,大學(xué)生選課和顧客挑選商品有異曲同工之妙。顧客需要在最短時(shí)間內(nèi)買到自己需要的商品,大學(xué)生也需要在最短時(shí)間內(nèi)選到最適合自己的選修課。如果能為這種需求從數(shù)據(jù)上提供科學(xué)的解決方案,學(xué)校就能完善選修課系統(tǒng),使學(xué)生選課過程更加科學(xué)快捷,從根本上解決了大學(xué)生選課難的問題。本文利用關(guān)聯(lián)規(guī)則算法,對(duì)大學(xué)生選課的數(shù)據(jù)進(jìn)行處理和深度挖掘,并從中分析出課程之間存在的聯(lián)系,從而給出對(duì)大學(xué)生選課系統(tǒng)改進(jìn)的合理化建議。
本文采用的數(shù)據(jù)來源于數(shù)據(jù)堂網(wǎng)站《中國科技大學(xué)學(xué)生選課數(shù)據(jù)2013.10.03》(http://www.datatang.com/data/45084)。將數(shù)據(jù)導(dǎo)入clementine軟件中,得到中國科技大學(xué)學(xué)生選課數(shù)據(jù)。該數(shù)據(jù)庫一共使用了2678個(gè)有效樣本,并對(duì)該學(xué)期開設(shè)的44門公選課選修情況進(jìn)行了羅列。C1、C2、C3…C44分別代表該學(xué)校開設(shè)的44門公選課。將數(shù)據(jù)進(jìn)行清洗和處理,處理過程此處省略,處理所得數(shù)據(jù)見表1。
表1 學(xué)生選課對(duì)照表(部分)
為了發(fā)現(xiàn)課程之間的內(nèi)在聯(lián)系,本文主要使用的方法是關(guān)聯(lián)分析。關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。或者說,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系。數(shù)據(jù)挖掘的目的是為了發(fā)現(xiàn)各門課程之間的關(guān)聯(lián),因此一些無關(guān)緊要的信息就是沒有用的,所以把姓名、課程號(hào)、上課時(shí)間、上課教室、教師姓名、學(xué)分、周學(xué)時(shí)這幾個(gè)字段剔除。
關(guān)聯(lián)分析的目的是看出課程之間存在的聯(lián)系。由于直接從表格中很難看出各門課程之間的聯(lián)系,我們首先使用“網(wǎng)絡(luò)”圖形分析模型對(duì)數(shù)據(jù)進(jìn)行初步直觀的觀察。“網(wǎng)絡(luò)”圖形來分析結(jié)果如圖1所示,該圖表示的是所有課程之間的聯(lián)系,每一個(gè)節(jié)點(diǎn)表示一門課程,課程之間的連線表示存在的聯(lián)系。線條越粗表示課程之間的關(guān)聯(lián)程度越強(qiáng)。
圖1 各課程間聯(lián)系的“網(wǎng)絡(luò)”圖
首先,可以調(diào)節(jié)顯示比例,把弱的關(guān)聯(lián)規(guī)則從圖中去掉,最終保留相關(guān)性最強(qiáng)的幾門課程,重點(diǎn)分析其內(nèi)在聯(lián)系。圖1中顯示C29(黑客反向工程技術(shù))和C35(社交舞蹈(女步))之間的關(guān)系是最強(qiáng)的。這一結(jié)果出乎很多人的意料,這兩門看似毫不相關(guān)的課程卻有著最強(qiáng)的聯(lián)系。這說明,很多學(xué)生會(huì)同時(shí)選擇這兩門課程,因此當(dāng)選課系統(tǒng)檢測到學(xué)生選取了其中一門課程的時(shí)候,就可以在頁面上出現(xiàn)另一門課程的快捷選課鏈接,對(duì)學(xué)生進(jìn)行推薦,這樣就大大節(jié)約了選課的時(shí)間。
進(jìn)一步的觀察還可以從圖中明顯地看出,C41(中國古史大觀)和C44(綜合技能培訓(xùn))這兩門課程與其他課程之間的聯(lián)系較少,尤其是C41只與一門課程之間存在較強(qiáng)的關(guān)聯(lián)規(guī)則,這可能與課程本身在學(xué)生中的受歡迎程度有關(guān)。因此這門課程在新的選課系統(tǒng)中不容易被推薦到,需要被放在比較明顯的頁面上,以保證其課程容量。而連線越多越粗的課程,則說明與很多課程之間都存在較強(qiáng)聯(lián)系,容易在各個(gè)組合中都被推薦選課,因此不必放在首頁上,節(jié)省出學(xué)生選課時(shí)重復(fù)瀏覽相同信息所浪費(fèi)的時(shí)間。
為了用量化的方法更科學(xué)地分析這種關(guān)系,下面我們用關(guān)聯(lián)規(guī)則來分析。
GRI是關(guān)聯(lián)規(guī)則的一種算法,其表示的規(guī)則形式是:If Y=y then X=x with probability p,其中X和Y是兩個(gè)指標(biāo),x和y是兩個(gè)指標(biāo)的值,then前面的是條件,后面的是結(jié)果。符合條件的規(guī)則將按一定順序選入規(guī)則集表中。下面簡單介紹此項(xiàng)研究中GRI算法的思路。
GRI算法的基本思路是依照深度優(yōu)先搜索策略進(jìn)行分析的。從后項(xiàng)入手,逐個(gè)分析后項(xiàng),分析完一個(gè)后項(xiàng)再分析下一個(gè)后項(xiàng);在分析每個(gè)后項(xiàng)的過程中,逐個(gè)分析前項(xiàng)所包含的具體類別(項(xiàng)目),分析完一個(gè)類別后再分析下一個(gè)類別;在分析每個(gè)類別的過程中,逐個(gè)分析前項(xiàng),分析完一個(gè)前項(xiàng)再分析下一個(gè)前項(xiàng);在分析每個(gè)前項(xiàng)的過程中,逐個(gè)分析前項(xiàng)所包含的具體類別(項(xiàng)目),分析完一個(gè)類別后再分析下一個(gè)類別,所以是一個(gè)深度優(yōu)先策略。
設(shè):有m個(gè)后項(xiàng),記為Y;第i個(gè)后項(xiàng)Yi有C(Yi)個(gè)類別。由于Clementine中的GRI算法只能處理事實(shí)表數(shù)據(jù),后項(xiàng)只有1和0兩個(gè)取值,因此C(Yi)都為2。
有n個(gè)前項(xiàng),記為X,第k個(gè)前項(xiàng)記為Xk,第k個(gè)前項(xiàng)Xk有C(Xk)個(gè)類別,同理,Clementine中C(Xk)都為2。
該過程用程序表示如圖2所示。
下面介紹一下計(jì)算值的方法,這也是整個(gè)算法的關(guān)鍵。
在本文中,前項(xiàng)為待選的44門課程,后項(xiàng)為是否選擇該課程,依據(jù)樣本統(tǒng)計(jì)結(jié)果可得2表所示。
其中p(x)為選了課程C1的概率;p(y)為選了課程Y的概率,為先驗(yàn)概率;p(y|x)為選了C1課程的同學(xué)選擇Y課程的概率,為條件概率。于是J-值定義為:
J(y|x)=p(x)[p(y|x)+(1-p(y|x)) ]
可見,J-值反映的是選擇了C1這門課程的同學(xué)同時(shí)選擇Y課程和不考慮有沒有選C1課程的同學(xué)選擇Y課程的先驗(yàn)概率分布的差異,并經(jīng)p(x)調(diào)整后的結(jié)果。這個(gè)差異越大,就說明兩門課程之間的聯(lián)系越緊密,選擇J-值最大時(shí)的課程組合,這些組合的課程之間的影響作用是最明顯的,由此生成的關(guān)聯(lián)規(guī)則才是有效的。
For i=1to m //循環(huán)m個(gè)后項(xiàng)For j=1 to C(Yi) //循環(huán)第i個(gè)后項(xiàng)的C(Yi)個(gè)類別For k=1 to n //循環(huán)第i個(gè)后項(xiàng)Yi的的第j個(gè)類別的n個(gè)前項(xiàng)//對(duì)第i個(gè)后項(xiàng)Yi的第j個(gè)類別的第k個(gè)前項(xiàng)Xk進(jìn)行處理,確定類別數(shù)SIf Xk 類型=分類型 Then S=C(Xk) End If //Xk為分類型則分為C(Xk)組If Xk 類型=數(shù)值型 Then S=2 End If //Xk為數(shù)值類型則分為兩組For l =1 to S //循環(huán)第i個(gè)后項(xiàng)Yi的第j個(gè)類別的第k個(gè)前項(xiàng)Xk的S個(gè)類別計(jì)算Xk為第L個(gè)類別時(shí)的J-值If J-值大于相同輸出下的J-值的最大值,或規(guī)則數(shù)目小于指定生成的規(guī)則數(shù)且支持度和置信度均大于閾值Then生成一條推理規(guī)則End IfEnd ForEnd ForEnd ForEnd For
圖2 GRI算法的程序表示
同理,計(jì)算其它43門課程的J-值,就可以找出存在內(nèi)在聯(lián)系的課程,得出相應(yīng)的關(guān)聯(lián)規(guī)則。
在Clementine 軟件中GRI模型的流程圖如圖3所示。
在clementine中添加GRI模型節(jié)點(diǎn)。執(zhí)行后得到結(jié)果如表3所示。
從計(jì)算結(jié)果可以清楚的看出來,C10(橋牌基礎(chǔ)講座與技巧)、C39(現(xiàn)代日本語言與文化(初級(jí)))以及C29(黑客反向工程技術(shù))之間存在較強(qiáng)的相關(guān)聯(lián)系。同樣的,如果系統(tǒng)檢測到有同學(xué)如果選修了前兩門課程時(shí),系統(tǒng)就可以自動(dòng)在頁面上為其推薦選修第三門課的快捷鏈接,大大加快了選課的效率,減輕了系統(tǒng)的負(fù)擔(dān)。諸如此類的課程組合還有很多,比如C38(西方油畫藝術(shù)賞析)、C39(現(xiàn)代日本語言與文化(初級(jí)))、C11(色彩); C26(電子信息檢索)、C42(中國文化史)、C11(色彩)等。
圖3 GRI模型算法流程圖
后 項(xiàng)前 項(xiàng)支持度%置信度%C29C10 C390.04100.0C11C38 C390.04100.0C11C26 C420.04100.0C25C22 C430.04100.0C26C11 C420.04100.0
從表面上看,這些選修課之間并無太大聯(lián)系,這與選修課本身的特性有關(guān)。大學(xué)生選修課大多是為了在學(xué)習(xí)本專業(yè)課程之余,為學(xué)生提供其他領(lǐng)域的學(xué)習(xí)機(jī)會(huì),因此涉及的范圍非常廣泛。同時(shí)學(xué)生也會(huì)根據(jù)自己的興趣愛好,選擇不同類型的課程,很少有學(xué)生同時(shí)選擇兩門十分相似的選修課,比如C41(中國古史大觀)和C42(中國文化史),在此次研究的樣本中,這種組合幾乎是不存在的。這也就是傳統(tǒng)的選課系統(tǒng)往往把同種類型的課程放在一起,導(dǎo)致選課效率大大降低的原因。GRI模型的意義就在于找出所有課程中,學(xué)生最喜歡的課程組合,當(dāng)同種情況出現(xiàn)時(shí),將學(xué)生最有可能感興趣的課程推薦給他,從而達(dá)到快速選課的目的。
在關(guān)聯(lián)分析中,決策樹(Decision Tree)是一個(gè)預(yù)測模型,是數(shù)據(jù)挖掘分類算法的一個(gè)重要方法。在各種分類算法中,決策樹是最直觀的一種。他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。可以將分析對(duì)象的各種情況分類、組合,并且形象直觀的表示出其關(guān)系及組合發(fā)生的概率,從而進(jìn)行預(yù)測。
之前的研究中只考慮了各門課程之間的關(guān)聯(lián)規(guī)則,沒有考慮到學(xué)生的個(gè)人信息。其實(shí)學(xué)校的教務(wù)在線系統(tǒng)往往能掌握以往學(xué)生全面的資料。根據(jù)這些資料,可以挖掘出很多有用的信息,并對(duì)后來的學(xué)生進(jìn)行選課的指導(dǎo)和幫助。接下來,將以挖掘?qū)W生心理問題為例,探討決策樹模型在學(xué)生選課系統(tǒng)中的應(yīng)用。
由于是否存在心理問題屬于學(xué)生個(gè)人隱私,網(wǎng)上無法查找到相關(guān)的數(shù)據(jù)。在這里我根據(jù)存在心理問題的學(xué)生在全部大學(xué)生中所占的比例(約為20%),進(jìn)行系統(tǒng)抽樣,將抽出的學(xué)生標(biāo)記為存在心理問題的學(xué)生,以此模擬出模型所需要的數(shù)據(jù)庫。學(xué)校在實(shí)際的操作中,可以通過問卷調(diào)查、心理咨詢、一對(duì)一談話等方式了解學(xué)生的心理狀況,得到科學(xué)合理的數(shù)據(jù),從而計(jì)算出更加準(zhǔn)確有效的模型。
假設(shè)我們把選擇了藝術(shù)性較強(qiáng)的課程的學(xué)生稱為“偏好藝術(shù)型學(xué)生”,那么在偏好藝術(shù)型學(xué)生中,滿足哪些條件的學(xué)生很可能具有心理問題,需要對(duì)其進(jìn)行特殊的選課照顧和指導(dǎo)呢?
決策樹模型的輸出結(jié)果包括樹形圖和規(guī)則集,模型正確率都達(dá)到80%以上,說明該模型在這項(xiàng)研究中是科學(xué)合理的,之后將對(duì)各個(gè)步驟進(jìn)行詳細(xì)說明。
得到了新的數(shù)據(jù)后,再次插入類型節(jié)點(diǎn),選擇需要進(jìn)行數(shù)據(jù)挖掘的字段,這里主要包括:該學(xué)生是否存在心理問題、上課時(shí)間、學(xué)分這三個(gè)字段。之后,添加決策樹模型節(jié)點(diǎn),設(shè)置剪枝程度為85%,導(dǎo)出樹形圖,部分樹形圖如圖4所示。
圖4 決策樹模型結(jié)果圖
以截取的這部分樹形圖為例進(jìn)行觀察分析,可以得出結(jié)論:以往的學(xué)生數(shù)據(jù)顯示,在“偏好藝術(shù)型學(xué)生”中,大約有百分之三十的學(xué)生有心理問題,根據(jù)其上課時(shí)間進(jìn)一步細(xì)分,在周二晚上和周四晚上選了藝術(shù)類課程的學(xué)生,有心理問題的人達(dá)到了一半。而其中,選擇學(xué)分較低的(1,2)、(2,2)這種組合課程的學(xué)生,有心理問題的概率幾乎達(dá)到了百分八十左右。
這一信息在選課系統(tǒng)的設(shè)計(jì)中是很有用的。當(dāng)系統(tǒng)檢測到某些學(xué)生的選課跡象滿足這些條件,表明這一學(xué)生很有可能是潛在的心理問題學(xué)生,因此系統(tǒng)可以適當(dāng)?shù)臑槠渫扑]一些能夠鍛煉身體、調(diào)節(jié)心情并能夠促進(jìn)該學(xué)生和老師及其它同學(xué)溝通交流的課程。比如瑜伽、健身、定向越野、音樂賞析等課程。這里由于使用了模擬的數(shù)據(jù)庫,得到的結(jié)論不一定準(zhǔn)確。但在實(shí)際的數(shù)據(jù)庫中,這種特征可能會(huì)更加明顯,并且隨著樣本量的增大,模型的擬合度也會(huì)更高。
分析該模型準(zhǔn)確度,得到結(jié)果如表4所示。模型的準(zhǔn)確度達(dá)到了82.29%,說明即使修剪程度達(dá)到85%,該決策樹還是包括了大部分?jǐn)?shù)據(jù)庫中的信息,并且使數(shù)據(jù)得到了大大的簡化,其優(yōu)越性是顯而易見的。
表4 決策樹模型準(zhǔn)確度分析
本文主要研究clementine購物籃數(shù)據(jù)挖掘技術(shù)在大學(xué)生選課系統(tǒng)中的應(yīng)用,使用的的幾種方法都是有效且具有實(shí)際應(yīng)用價(jià)值的。GRI模型和“網(wǎng)絡(luò)”圖形模型具有廣泛的應(yīng)用前景,決策樹模型是數(shù)據(jù)挖掘中一種最常用的技術(shù),它可以用于分析數(shù)據(jù),也可以用來作預(yù)測。
本文主要利用Apriori模型、GRI模型和“網(wǎng)絡(luò)”圖形模型分析出各門選修課程之間的關(guān)聯(lián)規(guī)則,并給出了改進(jìn)選課系統(tǒng)的方案,為提高選課效率給出了科學(xué)的指導(dǎo)建議。另外,利用決策樹和規(guī)則集模型,通過選修的課程對(duì)學(xué)生的個(gè)人信息進(jìn)行挖掘,從而幫助學(xué)校更加準(zhǔn)確地掌握學(xué)生信息,對(duì)其進(jìn)行選課的指導(dǎo)和幫助。
實(shí)際生活中大學(xué)生選課所面臨的問題要復(fù)雜很多,學(xué)校在管理制度和設(shè)計(jì)選課系統(tǒng)的時(shí)候,如果能得到大量數(shù)據(jù)的支持,用此類科學(xué)的方法解決選課難的核心問題,想必對(duì)整個(gè)學(xué)校乃至國家的教育資源合理化分配都是很有用的。
[1]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國防工業(yè)出版社,2001.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]SPSSFORWINDOWS簡明教程目錄[J/OL].httP:www.fjmu.edu.cn/news/sPss/doe3/index.
[4]劉勤,金王煥.分類數(shù)據(jù)的統(tǒng)計(jì)分析及SAS編程[M].北京:復(fù)旦大學(xué)出版社,2002.
[5]Feng Tao,F(xiàn)ionn Murtagh,Mohsen Farid.Weighted Assoeiation Rule Mining Using Weighted Support and Significance Framework[J].Inproe 2003ACM SIGKDD Int Conf on knowledge discovery and data mining,2003.
[6]元昌安.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典[M].北京:電子工業(yè)出版社.
[7]張文獻(xiàn),陸建江.加權(quán)布爾型關(guān)聯(lián)規(guī)則的研究[J].計(jì)算機(jī)工程,2003,29(9):55-57.
[8]周洪旭,譚秀梅,王峰.關(guān)于對(duì)大學(xué)生選修課問題的調(diào)查研究[J].萊陽農(nóng)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2004,16(4).