宋明惠 陳俊華 朱晨笛 仝鎧溦
摘? 要:大類分流時(shí)專業(yè)的選擇決定了學(xué)生的就業(yè)方向,然而大多數(shù)學(xué)生并不能獨(dú)立地選擇合適的專業(yè),所以“智能專業(yè)推薦”是十分必要的。該文通過(guò)闡述和分析協(xié)同過(guò)濾算法的特點(diǎn)和不足,提出了一種改進(jìn)的協(xié)同過(guò)濾算法用于專業(yè)推薦中,解決了冷啟動(dòng)的問(wèn)題,,提高了系統(tǒng)的可靠性。
關(guān)鍵詞:專業(yè)推薦? 大類分流? 協(xié)同過(guò)濾算法
中圖分類號(hào):TP301.6? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1672-3791(2019)03(b)-0216-02
近年來(lái),“大類招生、分流培養(yǎng)”模式被越來(lái)越多的高校所采用,在這種新的培養(yǎng)模式下,專業(yè)分流是其中一個(gè)重要的環(huán)節(jié),選擇一個(gè)適合自己的專業(yè)對(duì)高校學(xué)生來(lái)說(shuō)是一件十分重要的事情,用戶在進(jìn)行專業(yè)選擇前會(huì)收集各方面資料,其中已經(jīng)經(jīng)歷過(guò)分流的用戶的建議和體會(huì)是未分流的用戶最想了解的,并且會(huì)將與自己的成績(jī)興趣等相近的用戶的專業(yè)作為重要的參考。該文使用協(xié)同過(guò)濾算法將與當(dāng)前用戶相似度最高的用戶選擇的專業(yè)作為推薦專業(yè)。
1? 推薦算法
目前推薦算法廣泛應(yīng)用于電子商務(wù)、社會(huì)網(wǎng)絡(luò)、數(shù)字化圖書(shū)館、視頻/音樂(lè)點(diǎn)播等領(lǐng)域,比較成熟的推薦算法主要有關(guān)聯(lián)規(guī)則、基于內(nèi)容的推薦、協(xié)同過(guò)濾和混合推薦[1]。這4種算法各有優(yōu)缺點(diǎn),其主要優(yōu)缺點(diǎn)如表1所示。
根據(jù)表1所示的各類推薦算法的優(yōu)缺點(diǎn),該文選擇協(xié)同過(guò)濾算法作為專業(yè)推薦的推薦算法。
2? 用戶相似度
用戶相似度即描述用戶之間是相似程度的度量,傳統(tǒng)的相似度有皮爾遜相關(guān)系數(shù)法、向量余弦法、調(diào)整的向量余弦法、約束的皮爾遜相關(guān)系數(shù)法、斯皮爾曼相關(guān)系數(shù)法等,在不同的應(yīng)用領(lǐng)域中,選取不同的相似度計(jì)算方法。在電子商務(wù)中,用戶的相似度可以通過(guò)幾個(gè)用戶對(duì)同一件商品的打分情況(這里的分值可能表示真實(shí)的購(gòu)買,也可以是用戶對(duì)商品不同行為的量化指標(biāo)。例如,瀏覽商品的次數(shù),向朋友推薦商品、收藏、分享、或評(píng)論等。這些行為都可以表示用戶對(duì)商品的態(tài)度和偏好程度)來(lái)計(jì)算用戶之間的相似度。
3? 協(xié)同過(guò)濾算法
協(xié)同過(guò)濾的基本思想是:找到與當(dāng)前用戶Ccur相似(比如興趣相似)的其他用戶Cjs,計(jì)算對(duì)象s對(duì)于用戶的效益值u(Cjs,s),利用效益值對(duì)所有s進(jìn)行排序或者加權(quán)等操作,找到最適合Ccur的對(duì)象s*[2]。其基本思想非常易于理解,在日常生活中,我們往往會(huì)利用好朋友的推薦來(lái)進(jìn)行一些選擇,在普遍的推薦系統(tǒng)中是基于其相似用戶對(duì)某一內(nèi)容的評(píng)價(jià)向目標(biāo)用戶進(jìn)行推薦,而在該系統(tǒng)中,只需找到最相似的用戶即可(見(jiàn)表2)。
根據(jù)上述內(nèi)容可知,協(xié)同過(guò)濾算法需要基礎(chǔ)用戶作為參考才能進(jìn)行協(xié)同推薦,基礎(chǔ)用戶對(duì)該算法而言不可或缺。獲得基礎(chǔ)數(shù)據(jù),解決冷啟動(dòng)問(wèn)題是進(jìn)行推薦的基礎(chǔ)。
4? 智能專業(yè)推薦的實(shí)現(xiàn)
根據(jù)霍蘭德人職匹配理論,人格一共被分為6種不同的類型,每一種類型的人格都有著不一樣的特點(diǎn)[3]?;诼殬I(yè)興趣測(cè)試的理論,查閱相關(guān)資料提取出15個(gè)區(qū)分度明顯的關(guān)鍵詞,依據(jù)15個(gè)關(guān)鍵詞設(shè)計(jì)了40道具有專業(yè)區(qū)分度的題目,形成調(diào)查問(wèn)卷。向大類分流后的學(xué)生進(jìn)行問(wèn)卷調(diào)查,收集得到203份問(wèn)卷結(jié)果。
將問(wèn)卷結(jié)果的關(guān)鍵詞進(jìn)行分值的統(tǒng)計(jì),把計(jì)算機(jī)創(chuàng)新實(shí)驗(yàn)班、計(jì)算機(jī)科學(xué)與技術(shù)、物聯(lián)網(wǎng)、網(wǎng)絡(luò)工程、數(shù)字媒體技術(shù)5個(gè)專業(yè)作為5個(gè)基礎(chǔ)用戶C,計(jì)算每個(gè)關(guān)鍵詞分值所占百分比,做為用戶C的屬性對(duì)象Si,形成向量集合S。當(dāng)前用戶Ccur答題結(jié)束后,系統(tǒng)統(tǒng)計(jì)每個(gè)關(guān)鍵詞分值所占百分比,作為當(dāng)前用戶Ccur的屬性對(duì)象S`i,形成向量集合S`。
通過(guò)公式(1)計(jì)算當(dāng)前用戶Ccur和5個(gè)基礎(chǔ)用戶C的余弦相似度similarity,將similarity最小的用戶C作為推薦專業(yè),經(jīng)過(guò)測(cè)試得推薦結(jié)果精確度為67.3%。
通過(guò)公式(2)計(jì)算當(dāng)前用戶Ccur和5個(gè)基礎(chǔ)用戶C的皮爾森相關(guān)系數(shù)r,將r最小的用戶C作為推薦專業(yè),經(jīng)過(guò)測(cè)試得推薦結(jié)果精確度為70.2%。
因此將公式(2)作為該系統(tǒng)的推薦計(jì)算方法。
5? 結(jié)語(yǔ)
該文通過(guò)對(duì)協(xié)同過(guò)濾算法的研究,將協(xié)同過(guò)濾算法應(yīng)用到筆者學(xué)校的大類分流系統(tǒng)的智能專業(yè)推薦功能中,在大類分流階段為用戶提供了專業(yè)借鑒,得到了用戶的一致好評(píng)。并且隨著基礎(chǔ)用戶數(shù)據(jù)的增加,推薦的精確度不斷提高。
參考文獻(xiàn)
[1] 冷亞軍,陸青,梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014,27(8):720-734.
[2] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[3] 雷長(zhǎng)青.淺談大學(xué)生職業(yè)規(guī)劃設(shè)計(jì)中霍蘭德人職匹配測(cè)試法的運(yùn)用[J].現(xiàn)代經(jīng)濟(jì)信息,2018(14):445.
①基金項(xiàng)目:北京林業(yè)大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目—— 基于協(xié)同過(guò)濾的大類專業(yè)分流實(shí)時(shí)動(dòng)態(tài)系統(tǒng)研建(項(xiàng)目編號(hào):S201810022089)。