• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞頻-逆文本頻率和社區(qū)劃分的圖書推薦算法

    2017-04-25 11:45:57曾斯炎周錦黃國華
    邵陽學院學報(自然科學版) 2017年2期
    關鍵詞:聚類頻率

    曾斯炎,周錦,黃國華

    (邵陽學院 理學與信息科學系,湖南 邵陽,422000)

    基于詞頻-逆文本頻率和社區(qū)劃分的圖書推薦算法

    曾斯炎,周錦,黃國華

    (邵陽學院 理學與信息科學系,湖南 邵陽,422000)

    本文提出一種基于圖書內容的圖書推薦算法。該算法利用詞頻-逆文本頻率抽象圖書特征向量,采用歐式距離度量圖書相似性,使用CNM算法對圖書相似性網絡進行聚類,得到已知類別。當讀者用戶閱讀、購買某本圖書時,能夠將該類別里的其他圖書推薦給讀者用戶,方便其閱讀或購買。

    圖書推薦; 復雜網絡;社區(qū)發(fā)現(xiàn);關鍵詞頻率;逆文本頻率指數;聚類

    網上書店給人們購書帶來了極大的便利。例如用戶只要輸入書名或作者等相關信息,就能立刻查到所要購買的書籍。作為用戶來說,當選擇一本書后,希望再購買一些類似的書籍或從眾多書籍中選擇一本最適合的購買,但又限于不了解待購書籍的詳細信息。在這種情況下,類似于導購員的圖書推薦系統(tǒng),無疑給用戶尋找書籍節(jié)省了大量時間。對于書店來說,圖書推薦系統(tǒng)也能起到促進圖書銷量的作用。同樣,圖書自動推薦也能較好的應用在大學圖書館的管理上。

    為了提高圖書推薦的精準性,研究人員近年來提出許多不同推薦算法[1-13]。這些算法可以分成三類:從用戶特征出發(fā)的算法,從圖書特征出發(fā)的算法以及從用戶與圖書特征相結合出發(fā)的算法。協(xié)同過濾算法[4,7,8,12,13]屬于從用戶特征出發(fā)的算法。該算法首先構建用戶-圖書評分矩陣,計算目標用戶與其它用戶的相似性;篩選出目標用戶的k個最近鄰用戶;根據k個最近鄰用戶的圖書資源訪問情況向目標用戶推薦圖書。當用戶-圖書評分矩陣稀疏時,協(xié)同過濾算法很難計算用戶-用戶相似性,從而導致推薦效率低下。徐文青等[14]利用用戶、圖書以及標簽信息,融合熱門因子,改進了基于內容和協(xié)同過濾的圖書推薦算法。鄭祥云等[10]根據目標用戶歷史借閱圖書與其它圖書的內容相似性和用戶之間的相似性,提出了一種基于潛在狄利克雷分布模型的圖書推薦算法。用戶具有多方面的特征,同樣圖書也具有多方面的特征。特征選擇不同,圖書推薦的效果差別就很大。李克潮等[9]融合用戶和圖書方面的特征來探索圖書推薦算法,即使用圖書的中圖分類號、借閱時間、頁數等多特征計算圖書相似性,使用用戶的專業(yè)、年級、性別、興趣等多特征計算用戶相似性。李樹青等[11]將圖書與用戶分別當作節(jié)點,利用圖書-用戶借閱關系構建二分網絡,提出一種測度圖書可推薦質量的迭代算法。關聯(lián)規(guī)則挖掘技術,如Apriori算法,在圖書推薦系統(tǒng)上也得到了廣泛應用[15,16]?;陉P聯(lián)規(guī)則的圖書推薦主要有生成頻繁項集和提取強關聯(lián)規(guī)則等步驟。就大數據而言,基于關聯(lián)規(guī)則的圖書推薦算法計算效率并不高。

    以上推薦算法都沒有使用圖書的內容來計算相似性。圖書內容是讀者用戶判斷或歸類圖書最核心的特征。本文采用信息檢索和過濾技術中的詞頻(term frequency,TF)與逆文本頻率(Inverse Document Frequency,IDF)概念描述圖書,進而構建圖書相似性網絡,使用CNM社區(qū)劃分算法[17]聚類圖書,從而實現(xiàn)圖書推薦。

    1 TF-IDF方法

    詞頻-逆文本頻率(TF-IDF)是文本信息檢索中非常重要的方法。詞頻是指某一個特定詞語(特征詞)在某一文件或網頁中出現(xiàn)的頻率。逆文本頻率是衡量詞語重要性的指標,可以視作特征詞的權重。Sparck Jones[18]在1972年首次提出了IDF概念,指出可以給每個特征詞賦予一個權重,而且在多個文檔中出現(xiàn)的特征詞權重應小于在少量文檔中出現(xiàn)的特征詞權重。Salton等[19-21]進而提出了TF-IDF的計算,闡述了TF-IDF的理論基礎以及在信息檢索方面的應用。假設整個數據庫中文件的總數為M,所選用的特征詞總數為N,第j個特征詞在第i個文件中出現(xiàn)的頻率記為tfij,計算如下[19,20]:

    tfij=nij/∑kniki=1…M,j=1…N

    (1)

    其中nij為特征詞j在該文件i中出現(xiàn)的次數。式(1)實際上是將特征詞頻數進行歸一化。很顯然,在同一個文件中,詞頻高的特征詞比詞頻低的重要。然而,僅使用TF進行信息檢索忽略了另一個問題。有些特征詞高頻率出現(xiàn)在幾乎所有文件中,如一些通用的詞語,“應用”,“基礎”,對分類不起什么作用。而另一些專業(yè)詞僅出現(xiàn)在少量相關文件中,則對文件分類有著重要作用。因此,應該給每個特征詞賦予一個權重,逆文本頻率就相當于這個作用,計算如下:

    (2)

    其中Mi表示數據庫中出現(xiàn)特征詞i的文件總數。很顯然,詞頻-逆文本頻率反映了兩方面:(a)在特定文件中高頻率出現(xiàn)的特征詞具有較強的分類能力;(b)特征詞的分布文件越廣,其分類能力越差。由于詞頻-逆文本頻率有效地刻畫了文件的特征,因此它在文本搜索、文獻分類等相關領域得到了廣泛應用。在本文中,利用公式(1)與公式(2)的乘積構造圖書的特征向量,即

    Vij=tfij·idfi

    (3)

    2 構造圖書相似性網絡

    網絡是一種非線性結構,由節(jié)點以及連接節(jié)點的之間的邊構成。網絡,尤其是復雜網絡,是探索復雜系統(tǒng)(如生物系統(tǒng),社區(qū)結構等)的有效方法之一。本文以TF-IDF為圖書的特征向量,進而構建圖書相似性網絡。計算圖書之間的相似性:

    (4)

    其中Vi,Vj代表特定圖書的節(jié)點,i,j∈[1,M] i≠j。若d(xi,xj)<α,則連接兩節(jié)點;否則不連接兩節(jié)點。α是相似性度量臨界值。

    3 CNM算法

    CNM算法是Clause等人[17]提出的一種適合大規(guī)模網絡社區(qū)劃分方法。CNM算法采用了模塊度度量社區(qū)之間的緊密程度。模塊度是指社區(qū)內部節(jié)點的邊所占總邊數比例與外部接入社區(qū)中的邊所占的比例差值,即

    (5)

    eii表示社區(qū)i中內部邊所占的比例,ai表示接入該社區(qū)的邊所占總邊數的比例。模塊度的上限值為1。模塊度越大,說明該網絡社區(qū)結構越明顯。因此模塊度常用于社區(qū)劃分效果的標準[22]。

    CNM算法步驟如下[23]:

    1)初始化

    (6)

    2)合并

    選擇最大的分量Δqij,合并相應的社區(qū)Ci和Cj,并標記合并后的社區(qū)為Cj,同時更新Δqij和向量A。

    (7)

    更新向量A:

    aj=ai+aj,ai=0

    (8)

    更新模塊度值

    Q=Q+max{Δqij}

    (9)

    3)迭代

    重復步驟2),直至模塊度值不增終止算法,最終得到L個社區(qū)。

    4 實驗結果

    本文采集了豆瓣讀書網(https://book.douban.com)上《信息簡史》、《愛的藝術》、《百年孤獨》、《編程珠璣》、《從零開始做運維》、《二手時間》、《克魯蘇神話》、《魔戒》、《殺死一只知更鳥》、《神經網絡與機器學習》、《小王子》一共11本圖書的信息,書名如表1所示。將“信息”、“編程”、“科學”、“互聯(lián)網”、“數據”、“程序”、“計算機”、“算法”、“哲理”、“思索”、“奇幻”、“小說”、“經典”、“文學”、“名著”一共15個詞作為TF-IDF方法中的特征詞。

    表1 11本圖書的書名

    相似度量臨界值α=2.5,得到最終的圖書劃分結果為

    只要讀者用戶選擇類別中任何一本圖書,可將同類別的其它圖書推薦給讀者。例如讀者閱讀《信息簡史》時,系統(tǒng)能夠將《編程珠璣》、《二手時間》和《神經網絡與機器學習》推薦給用戶。

    5 結論

    本文以詞頻與逆文本頻率刻畫圖書,從而構建圖書相似性網絡?;贑NM社區(qū)劃分算法實現(xiàn)圖書推薦。相比以前的圖書推薦算法,該算法從圖書的內容出發(fā),能夠排除部分主觀因素的影響,并能較好的反映出圖書之間存在的客觀聯(lián)系。

    [1]周玲元,段隆振.個性化圖書推薦系統(tǒng)設計與實現(xiàn)——以南昌航空大學圖書館為例[J].圖書館理論與實踐, 2014,(12):106-109.

    [2]楊永權.基于協(xié)同過濾技術的個性化圖書推薦系統(tǒng)研究[J].河南圖書館學刊,2014,(06):119-122.

    [3]王連喜.一種面向高校圖書館的個性化圖書推薦系統(tǒng)[J].現(xiàn)代情報,2015,(12):41-46.

    [4]孫守義,王蔚.一種基于用戶聚類的協(xié)同過濾個性化圖書推薦系統(tǒng)[J].現(xiàn)代情報,2007,(11):139-142.

    [5]付凱麗.基于社會化標簽的圖書推薦系統(tǒng)模型研究[J].情報探索,2016,(10):80-85.

    [6]陳宇亮,沈奎林.基于讀者評論的圖書推薦系統(tǒng)研究[J].圖書情報導刊,2016,(09):6-9.

    [7]曾慶輝,邱玉輝.一種基于協(xié)作過濾的電子圖書推薦系統(tǒng)[J].計算機科學,2005,(06):147-150.

    [8]安德智,劉光明,章恒.基于協(xié)同過濾的圖書推薦模型[J].圖書情報工作,2011,(01):35-38.

    [9]李克潮,梁正友.基于多特征的個性化圖書推薦算法[J].計算機工程,2012,(11):34-37.

    [10]鄭祥云,陳志剛,黃瑞,等.基于主題模型的個性化圖書推薦算法[J].計算機應用,2015,(09):2569-2573.

    [11]李樹青,徐俠,許敏佳.基于讀者借閱二分網絡的圖書可推薦質量測度方法及個性化圖書推薦服務[J].中國圖書館學報,2013,(03):83-95.

    [12]董坤.基于協(xié)同過濾算法的高校圖書館圖書推薦系統(tǒng)研究[J].現(xiàn)代圖書情報技術,2011,(11):44-47.

    [13]景民昌,于迎輝.基于借閱時間評分的協(xié)同圖書推薦模型與應用[J].圖書情報工作,2012,(03):117-120.

    [14]徐文青,雙林平.融合熱門度因子基于標簽的個性化圖書推薦算法[J].圖書情報研究,2015,(03):82-86.

    [15]林郎碟,王燦輝.Apriori算法在圖書推薦服務中的應用與研究[J].計算機技術與發(fā)展,2011,(05):22-24,28.

    [16]丁雪.基于數據挖掘的圖書智能推薦系統(tǒng)研究[J].情報理論與實踐,2010,(05):107-110.

    [17]Clauset A,Newman ME,Moore C.Finding community structure in very large networks[J].Physical review E,2004,70(2):066111.

    [18]Sparck Jones K.A statistical interpretation of term specificity and its application in retrieval[J].Journal of documentation,1972,28(1):11-21.

    [19]Salton G,Yu CT.On the construction of effective vocabularies for information retrieval[J].Acm Sigplan Notices,1973,10(1):48-60.

    [20]Salton G,Fox EA,Wu H.Extended Boolean information retrieval[J].Communications of the ACM,1983,26(11):1022-1036.

    [21]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information processing & management,1988,24(5):513-523.

    [22]韓華,王娟,王慧.改進的CNM算法對加權網絡社團結構的劃分[J].計算機工程與應用,2010,(35):86-89.

    [23]張震,李玉峰,王晶,等.基于復雜網絡挖掘的用戶行為感知機制.中國科學:信息科學,2014,(09):1069-1083.

    A book recommendation algorithm based on term frequency-inverse document frequency and community partition

    ZENG Siyan,ZHOU Jin,HUANG Guohua

    (Department of Science and Information Science,Shaoyang University,Shaoyang 422000,China)

    A book recommendation algorithm based on content was proposed.The method used the term frequency-inverse document frequency to represent the books eigenvector,computed similarities between books by the Euclidean distance,clustered books via the CNM algorithm,and finally obtained the classes of books.When users read or bought books,the method could recommend other books in the same category.It is helpful for users to read and buy books.

    book recommendation; complex network; community finding;term frequency;inverse document frequency; cluster.

    1672-7010(2017)02-0019-05

    2017-02-18

    國家自然科學基金資助項目(61672356);湖南省自然科學基金(2017JJ2239);湖南省教育廳優(yōu)秀青年項目(15B216)

    黃國華(1978-),湖南祁東人,副教授,博士,從事生物信息學、生物醫(yī)藥大數據、機器學習等研究

    TP391.1

    A

    猜你喜歡
    聚類頻率
    振動與頻率
    天天愛科學(2020年6期)2020-09-10 07:22:44
    基于K-means聚類的車-地無線通信場強研究
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    無線電頻率的特點
    探索科學(2017年4期)2017-05-04 04:09:44
    極限頻率
    美術文獻(2016年6期)2016-11-10 09:09:40
    條紋顏色分離與聚類
    基于改進的遺傳算法的模糊聚類算法
    基于部分頻率復用的可調部分頻率復用研究
    導航頻率源的同步與控制
    一種層次初始的聚類個數自適應的聚類方法研究
    炉霍县| 监利县| 太谷县| 克拉玛依市| 台江县| 天镇县| 黄平县| 涿鹿县| 大埔区| 大城县| 定陶县| 资阳市| 涟源市| 峨眉山市| 栾城县| 尼木县| 乌鲁木齐县| 临海市| 南通市| 长葛市| 资溪县| 金阳县| 寻乌县| 清徐县| 六盘水市| 岑巩县| 新乐市| 鸡西市| 阜平县| 中西区| 郎溪县| 突泉县| 常州市| 固阳县| 曲沃县| 文登市| 布拖县| 太谷县| 华容县| 中江县| 自贡市|