呂繼續(xù) 叢靜
摘 要:隨著人民生活水平的不斷提高,閱讀越來(lái)越受到人們的關(guān)注,但如何選擇適合的書籍閱讀是困擾我們的一大難題。針對(duì)這一難題,文章采用關(guān)聯(lián)性規(guī)則算法對(duì)大學(xué)生文學(xué)類小說閱讀行為數(shù)據(jù)進(jìn)行挖掘,尋找不同書籍與不同人群之間的潛在規(guī)則。為大學(xué)生閱讀提供較為科學(xué)的書籍推薦目錄。
關(guān)鍵詞:關(guān)聯(lián)性規(guī)則 文學(xué)類型小說 吸引力 推薦
中圖分類號(hào):G43 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)06(b)-0212-02
世界文明傳承至今,可以說好書很多,浩如煙海。但不同的人,對(duì)于不同的書產(chǎn)生的興趣也是不同的。所以說人們很難找到能讓他們很感興趣的書籍[1]。文章以文學(xué)性小說為研究對(duì)象,以大學(xué)生這一個(gè)群體作為統(tǒng)計(jì)樣本,研究不同書籍對(duì)不同人群在吸引力這一屬性上的關(guān)聯(lián)。通過數(shù)據(jù)挖掘技術(shù),根據(jù)不同學(xué)生的閱讀偏好,給出適合他們的個(gè)性化推薦列表。文章采用問卷調(diào)查的方式收集數(shù)據(jù),然后通過關(guān)聯(lián)性規(guī)則算法對(duì)大學(xué)生文學(xué)性小說的閱讀行為數(shù)據(jù)進(jìn)行分析,挖掘其中潛在的價(jià)值。
1 數(shù)據(jù)來(lái)源與樣本特征
問卷內(nèi)所選的64本書籍是參考豆瓣評(píng)分8分以上的小說推薦名單選取的,調(diào)查結(jié)果顯示未對(duì)調(diào)查對(duì)象產(chǎn)生影響的書僅有3本。充分表明所選書籍具有一定的客觀性和代表性。問卷調(diào)查時(shí)間是2018年5月5日,問卷通過社交軟件以及網(wǎng)絡(luò)發(fā)放回收,共收回問卷209份,有效問卷209份,回收率100%。如表2所示,調(diào)查對(duì)象男女比例均衡,表明數(shù)據(jù)分析結(jié)果的價(jià)值不會(huì)受到性別的干擾。如圖1所示,可以看出調(diào)查對(duì)象覆蓋11個(gè)省,其中主要集中在江蘇省、遼寧省、湖北省三個(gè)省份,地域上南北分布大體均衡[2]。
2 算法闡述
采用一種發(fā)現(xiàn)頻繁項(xiàng)集的基本算法,APRIOR算法尋找潛在的關(guān)聯(lián)規(guī)則。結(jié)合問卷數(shù)據(jù)具體闡述該算法的實(shí)現(xiàn)。
2.1 數(shù)據(jù)預(yù)處理
使用Pandas庫(kù)的read_csv函數(shù)導(dǎo)入數(shù)據(jù)集book.csv。首先對(duì)數(shù)據(jù)進(jìn)行清理,篩選出個(gè)人選擇大于1本書籍的數(shù)據(jù)。一定程度上排除調(diào)查者應(yīng)付答卷的行為,提高數(shù)據(jù)的價(jià)值密度。最后從書籍的本身角度出發(fā),基于推薦的最終目的,我們只關(guān)注對(duì)讀者產(chǎn)生影響的人數(shù)大于5的書籍。由于數(shù)據(jù)量較大,只展示部分?jǐn)?shù)據(jù),見表3。
2.2 生成頻繁1項(xiàng)、k項(xiàng)集
由于頻繁項(xiàng)的長(zhǎng)度為1,我們可以通過統(tǒng)計(jì)data中各個(gè)元素出現(xiàn)的頻次,直接生成頻繁1項(xiàng)集。
k>1時(shí),根據(jù)得到的頻繁(k-1)項(xiàng)集,生成頻繁k項(xiàng)集。當(dāng)數(shù)據(jù)記錄的長(zhǎng)度很長(zhǎng)時(shí),算法需要逐個(gè)檢查頻繁k項(xiàng)集是否為空。另外,我們?cè)诰唧w任務(wù)中尋找的頻繁項(xiàng)長(zhǎng)度也不會(huì)過長(zhǎng),因此我們選擇通過控制k的取值來(lái)獲取指定的頻繁k項(xiàng)集集合。文章在此取k<=3。具體來(lái)說,整個(gè)過程分為三步:首先是連接步,我們將頻繁(k-1)項(xiàng)集與自身連結(jié),生成k項(xiàng)候選集 。接著是剪枝步,剔除含有非頻繁項(xiàng)子集的項(xiàng)集。我們使用先驗(yàn)性質(zhì)對(duì)候選項(xiàng)集進(jìn)行過濾,減少運(yùn)算量。這個(gè)性質(zhì)就是:頻繁項(xiàng)集的所有非空子集必然是頻繁項(xiàng)集,生成最終結(jié)果的中遍歷數(shù)據(jù)集data,最后對(duì)最終的元素進(jìn)行統(tǒng)計(jì),保留支持度大于最小閾值(min_support=2)的頻繁項(xiàng)。
項(xiàng)集的子集可以通過排列組合來(lái)得到,反復(fù)上述過程 得到完整的頻繁k項(xiàng)集集合,直到達(dá)到停止條件,集頻繁k項(xiàng)集為空。
2.3 關(guān)聯(lián)規(guī)則
生成頻繁項(xiàng)集之后,我們可以直接得到同時(shí)滿足最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則[3]。也就形如“書籍A對(duì)讀者產(chǎn)生影響,那么書籍B也會(huì)對(duì)該讀者產(chǎn)生影響”的結(jié)論。例如,對(duì)于頻繁項(xiàng)集{'A','B'}來(lái)說,關(guān)聯(lián)規(guī)則A→B 的置信度如下所示
接下來(lái),針對(duì)每個(gè)頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則(包括條件和結(jié)論),并計(jì)算相應(yīng)的置信度[4]。
2.4 分析結(jié)果展示
根據(jù)上述思路操作最后我們得出滿足設(shè)想的結(jié)果,根據(jù)置信度我們就能在大學(xué)生選擇書時(shí)進(jìn)行科學(xué)有效的推薦。因?yàn)閿?shù)據(jù)過大,只展示前四組的運(yùn)行結(jié)果,如表3所示。
3 結(jié)語(yǔ)
文章主要通過問卷調(diào)查的數(shù)據(jù)獲取方式,以及關(guān)聯(lián)性規(guī)則算法的數(shù)據(jù)挖掘方式,對(duì)大學(xué)生閱讀文學(xué)性的小說行為進(jìn)行分析。從結(jié)果中發(fā)現(xiàn)喜歡看《三體》的人一般都喜歡看《盜墓筆記》,喜歡看《偷影子的人》和《傲慢與偏見》的人一般會(huì)喜歡看《百年孤獨(dú)》那么我們就可以給看過《三體》的人推薦《盜墓筆記》。同樣如果讀者看過《傲慢與偏見》、《偷影子的人》卻沒有看過《百年孤獨(dú)》我們就可以給他推薦《百年孤獨(dú)》,還有很多類似的數(shù)據(jù)結(jié)果。
根據(jù)這些所得的結(jié)果也就能夠達(dá)到我們的智能推薦的目的,為大學(xué)生在選擇該方面書籍時(shí)提供較為科學(xué)的參考。
參考文獻(xiàn)
[1] 王連喜.一種面向高校圖書館的個(gè)性化圖書推薦系統(tǒng)[J].現(xiàn)代情報(bào),2015,35(12):41-46.
[2] 張爾升,侯惠丹,孫廬山.知識(shí)獲取、學(xué)習(xí)行為和管理者能力提升——來(lái)自MBA學(xué)員的數(shù)據(jù)分析[J].河北經(jīng)貿(mào)大學(xué)學(xué)報(bào)(綜合版),2016,16(3):56-61.
[3] 孫云帆,齊美玲.數(shù)據(jù)挖掘在教育應(yīng)用中的淺析[J].商場(chǎng)現(xiàn)代化,2012(24):161-162.
[4] 姜永超.基于數(shù)據(jù)挖掘的學(xué)生選課及學(xué)習(xí)行為分析算法研究[J].現(xiàn)代電子技術(shù),2016,39(13):145-148.