鄭德俊,朱婷婷,沈軍威
(南京農業(yè)大學信息管理系,南京 210095)
基于改進K均值算法的移動圖書館用戶評論需求聚類研究*
鄭德俊,朱婷婷,沈軍威
(南京農業(yè)大學信息管理系,南京 210095)
對移動圖書館用戶評論的自動聚類研究有助于更準確高效地獲取用戶需求。本文結合移動圖書館評論特征,在傳統(tǒng)K均值算法的基礎上,使用HT-LaD算法對初始聚類中心進行算法改進,并使用移動圖書館的用戶評論數(shù)據(jù)進行實證。結果表明,利用改進后K均值算法完成移動圖書館用戶評論文本的需求聚類是可行的,且聚類精度和穩(wěn)定性得到提高。
移動圖書館;改進K均值聚類;用戶評論;用戶需求
移動圖書館用戶需求一直是移動圖書館的研究熱點。已有研究主要聚焦于用戶需求興趣點的發(fā)現(xiàn)[1]、需求類型[2-3]和用戶需求特征分析[4]、需求分析方法應用[5]、用戶需求模型研究[6]等。目前,除基于問卷調查的需求獲取方法被普遍采用外,移動圖書館平臺的用戶評論反饋也日益受到重視,研究者認為用戶評論有助于發(fā)現(xiàn)用戶的隱性需求及新需求[7]。移動網(wǎng)絡信息服務環(huán)境下,與移動圖書館有關的用戶評論數(shù)量增長迅速,依靠人工進行用戶需求甄別與發(fā)現(xiàn)費時費力。因此,有必要借助一定的技術手段,引入文本挖掘方法,進行去重、篩選和分類以識別用戶需求。
已有研究將文本分類應用于移動圖書館用戶評論研究的成果較少,但相近領域的文本挖掘研究(涉及關聯(lián)分析、文檔分類、聚類和自動文摘[8]等)值得借鑒。如倪瑜澤等提出一種需求發(fā)現(xiàn)方法——DICM,對預處理后的用戶評論文本進行基于信息增益的特征選擇,利用樸素貝葉斯分類器對潛在演化需求進行分類[9];崔建苓等通過采用本體和條件隨機場模型融合的特征提取方法,對潛在軟件需求進行匯總[10]?;谝苿訄D書館用戶評論需求挖掘用戶隱性需求(尤其是新需求),結果充滿不確定性,因此本文擬采用文本聚類分析,為自動化識別和判定移動圖書館用戶需求提供支持。
目前,國內移動圖書館主要有兩種形式,一是購買商業(yè)公司的移動圖書館APP服務,另一種是自建移動圖書館服務平臺。受限于圖書館自有技術團隊和后期維護水平,國內絕大多數(shù)圖書館的移動圖書館服務以購買為主,相應的用戶評論數(shù)據(jù)存儲在商業(yè)公司服務器上,一般很難被公開查詢。2014年以來,在國內某知名商業(yè)公司移動圖書館服務平臺的支持下,本文獲取了26 976條數(shù)據(jù),并對評論數(shù)據(jù)進行錯別字校正和繁簡字體轉換。
本文的目標是通過用戶評論獲取用戶需求,需要對評論數(shù)據(jù)中包含的情感性評論進行過濾。目前在移動圖書館領域,尚沒有完整的移動圖書館專屬詞典,而詞典直接影響無效評論過濾和中文分詞的效果,進而影響聚類效果。本文首先構建移動圖書館領域專屬詞典,該詞典的詞匯涉及移動圖書館APP多方面服務,收詞53 940條。具體構建思路:(1)對移動圖書館用戶評論語料進行切分和詞頻統(tǒng)計,構造基礎詞典;(2)借鑒圖書情報領域主題詞表,經(jīng)人工判別后添加到基礎詞典;(3)基于中國知網(wǎng)期刊數(shù)據(jù)庫中與“移動圖書館”相關的文章摘要和關鍵詞,通過citespace進行分析,添加到基礎詞典;(4)考慮到用戶評論語言口語化、隨意性強,適度融入搜狗輸入法、紫光輸入法等詞庫中的相關詞匯;(5)基于哈爾濱工業(yè)大學《同義詞林》對同義詞、近義詞進行擴展。移動圖書館領域專屬詞典結構形式為“詞條+屬性”,如“電子書 n”,其中n為名詞。通過多渠道擴大收詞來源,確保所構建的移動圖書館領域專屬詞典全面和實用。本文以專屬詞典中有實際意義的詞匯作為有效詞匯,計算各詞匯在評論中的占比,設定合理閾值,進行無效評論的過濾工作。經(jīng)過數(shù)據(jù)清洗,共得到18 869條有效用戶評論數(shù)據(jù),對移動圖書館用戶評論數(shù)據(jù)的特征分析主要基于所獲取的有效數(shù)據(jù)進行。表1列出清洗后的用戶評論的長度數(shù)據(jù)。
表1 移動圖書館用戶評論字數(shù)統(tǒng)計
少于等于200字的用戶評論比例高達99.8%,龔才春將少于等于200字文本定義為短文本[11]。從整體數(shù)據(jù)看,移動圖書館用戶評論屬于短文本,具備長度短,信息量少的特點,但不拘泥語法,存在拼寫錯誤[12]。
移動圖書館用戶評論與一般APP評論存在差異。本文將移動圖書館用戶評論與一般APP評論(起點讀書、豆丁書房、手機知網(wǎng))作出對比,借鑒李亞松的思路[13],并結合APP自身服務性質和特點,從評論主體、評論自身分析移動圖書館評論的獨有特征,如表2所示。具體來看,移動圖書館用戶評論存在兩點特征。
(1)基于評論主體的移動圖書館用戶評論特征。一般APP評論主體更多元化(包括各行各業(yè)的人),用戶群體的巨大差異性造成評論質量的參差不齊,其中不乏匿名評論,因而一般APP評論主體的隱匿性強,評論的真實性、可靠性有待商榷;移動圖書館評論主體多為在校師生和科研人員,且登錄與學號、工號綁定,評論主體相對單一,因而所發(fā)表的評論差異性小,隱匿性小,評論內容的真實性、可靠性更高。
表2 移動圖書館評論的差異性分析
(2)基于評價內容的移動圖書館用戶評論特征。①社交性。一般APP評論社交性較強,用戶間有交流,可以回復、點“贊”或點“踩”,某些評論易導致跟風評論,還會出現(xiàn)因觀點不同在評論中惡語相向的情況;移動圖書館服務平臺的“意見反饋”模塊是嵌入在APP中的,每個用戶都是獨立的個體,后臺工作人員通過APP實現(xiàn)與用戶的交流與反饋,因而,移動圖書館評論的用戶間交流較少,社交性相對而言較弱。②連續(xù)性。一般網(wǎng)站用戶評論的連續(xù)性體現(xiàn)在不同用戶間的互動與交流;移動圖書館用戶評論的連續(xù)性體現(xiàn)在同一用戶在不同時間對APP的評價與心得。③評論形式。一般APP評論的形式多樣化(文字、圖片、URL鏈接等),移動圖書館評論形式單一(僅文字),且以中文為主。④語言表達?;ヂ?lián)網(wǎng)環(huán)境下,一般APP的用戶評論不乏語言表達粗俗,還有不法分子散布虛假信息、廣告信息;移動圖書館用戶評論環(huán)境相對更好,但是存在大量的語病、錯別字,除使用文字外,用戶還以特殊字符來表達內心情緒,有些評論還出現(xiàn)繁體字。受用戶群影響,與一般APP的用戶評論相比,移動圖書館用戶評論傾向于指出不足,提供建議,更具參考性。⑤評論傾向。一般APP評論更多的是表達對產品的評價與態(tài)度,移動圖書館用戶評論除表達用戶對產品的評價、指出問題與不足外,還有用戶對產品某方面較為具體的建議與改進策略。當然,移動圖書館的用戶評論內容中也存在表達個人喜惡的泛泛評論,在面向用戶需求識別時,可通過數(shù)據(jù)清洗剔除價值較低的文本數(shù)據(jù)。
總之,由于移動圖書館評論內容的差異性,使其用戶評論比一般APP的用戶評論具有更高的用戶需求識別價值,對用戶評論的文本聚類算法提出更高要求。
Flury認為同一類簇內的實體是相似的,不同類簇的實體是相異的[14]。文本聚類根據(jù)“同類文本相似度高,不同類文本相似度低”的假設,利用無監(jiān)督的機器學習方法將相似度高的文本聚合到一個簇得到聚類結果[15]。文本聚類有多種方法,如李偉等介紹了常用的文本聚類算法,并從算法適用范圍、初始參數(shù)的影響、終止條件以及對噪聲的敏感性等方面對各類方法進行分析比較[16]。在多種文本聚類方法中,K均值聚類算法憑借原理簡單、收斂高效,應用最廣泛。K均值算法是Macqueen提出的一種基于劃分的聚類方法,其基本思想是在給定的數(shù)據(jù)集中,隨機選擇k個數(shù)據(jù)對象作為k個類的初始中心點[17]。傳統(tǒng)K均值聚類存在3點缺陷:聚類個數(shù)k需要人工賦值、初始聚類中心選擇存在隨機性[18]、孤立點對聚類效果有影響[19]。
對于K均值聚類方法中初始聚類中心選擇隨機性的缺陷,很多研究者嘗試進行改進。如Tzortzis[20]和張志祥[21]等設計minmax K均值算法,但并不能保證排除全部可能的孤立點;傅德勝等選擇k個高密度區(qū)域的點作為初始聚類中心,但增加了時間復雜度[22];Bradley選取部分數(shù)據(jù)作為樣本,選擇不同的初始中心點分別執(zhí)行K均值算法,但是樣本選擇不確定且容易造成局部最優(yōu)[23];朱曉峰等提出一種基于文本平均相似度的K均值算法[24];左進等在數(shù)據(jù)緊密的地方均勻選擇k個初始中心,此法增加了算法的復雜度[19]。
現(xiàn)有的K均值聚類對初始中心點的改進方案與移動圖書館的應用場景有很多不同,尤其是移動圖書館評論數(shù)據(jù)的獨有特征對聚類算法提出更高要求,因此需設計有針對性的改進算法,具體提出兩點設想。
(1)引入緊密性參數(shù)。移動圖書館用戶評論內容不僅涵蓋用戶簡單的評價、心愿和態(tài)度,還包含用戶提供的改進建議,但少數(shù)簡單評論所含信息量過少,不利于分析用戶的潛在需求,屬于低價值評論文本。因此,在使用K均值聚類時,有必要引入緊密性參數(shù),將具備高文本價值的評論和用戶簡單低價值的評論區(qū)分。
(2)調整初始中心點計算方法。由于移動圖書館用戶評論多是短文本,語言表達隨性,在衡量評論間相似性時,若想降低高維空間帶來的影響,須將距離公式進行標準化,同時計算平均值,選取高平均值對應的文檔作為初始中心點,保證初始聚類中心點的分布均勻,降低結果的波動性,提高算法穩(wěn)定性。
因此,將高緊密性(High Tight,HT)與低平均距離(Low average Distance,LaD)相結合,基于HT-LaD的K均值改進算法有助于對移動圖書館用戶評論進行聚類并獲取用戶需求。
圖1為本文提出的用戶需求聚類研究算法框架。算法輸入為待分析的用戶評論源數(shù)據(jù),主要分為用戶評論預處理模塊、結構化表示模塊、需求聚類模塊。
圖1 用戶需求聚類研究算法框架
(1)用戶評論預處理模塊?;赑ython 2.7平臺過濾無效評論,進行繁簡轉換,考慮到移動圖書館的用戶評論表達口語化,易產生歧義,因此調用結巴分詞包對用戶評論進行分詞,最后基于中文停用詞表完成停用詞剔除工作。(2)結構化表示模塊。用戶評論表示模塊對預處理后的用戶評論進行結構化表示,本文擬利用TFIDF計算特征詞的權重方法[25],利用標準化后的歐氏距離度量文本間相似性,以適應高維空間下的數(shù)據(jù)集。(3)需求聚類模塊。通過計算文檔緊密性,合理設置閾值,將用戶評論劃分到兩個集合中,即高緊密性區(qū)域和可能的孤立值區(qū)域。在高緊密性區(qū)域計算文檔標準化歐氏距離的平均值并進行排序,得到最具代表性的文檔作為初始聚類中心,采用HT-LaD算法進行文本聚類,得到用戶需求。
本文對聚類初始中心的選擇進行改進,歸納為HTLaD算法,即通過每個文本的距離進行平均值計算和排序,將落在緊密性區(qū)域的文檔作為初始聚類中心。
(1)計算評論中的特征詞權重。根據(jù)TF-IDF值相乘得到移動圖書館用戶評論特征詞的權重(w)。
(2)計算標準化歐氏距離。文本歐氏距離將定義為:假設有文本d1和文本d2,一般用dist(d1,d2)表示文本間距離,兩條評論數(shù)據(jù)的距離越小,說明二者越相關。如果移動圖書館的用戶評論數(shù)量龐大,就容易形成高維矩陣,加入標準差的衡量可以降低文本向量長度的影響,間接起到降維作用。用公式表示即標準化后的值等于標準化前的值與分量的均值的差,再除以分量的標準差。
(3)計算平均距離集合U。在計算移動圖書館用戶評論數(shù)據(jù)集中一個文本與其他所有文本間的距離后,計算其平均值作為該文本的平均距離,并進行排序,將距離較小的文本作為初始聚類中心。定義文檔i與文檔j的距離為dij,構建文檔對角矩陣M,即dij=dji,dii=0。ai指一個文檔與其他n-1個文檔間的距離平均值,U指平均距離集合,即ai集合。
(4)引入“數(shù)據(jù)緊密性參數(shù)”進行區(qū)域限定。數(shù)據(jù)緊密性參數(shù)計算參考左進等提出的算法[19],公式(2)中D為移動圖書館用戶評論文檔集,n代表評論個數(shù),Gt(i)為i的t個最近鄰數(shù)據(jù)點集合。本文中有效評論為18 869條,t取值為0—18 868,t取值為0表示該評論與其他評論都不相關,該評論很顯然是孤立的一條評論,即聚類中的異常值;t取值為18 868表示所有的評論數(shù)據(jù)都集中在一起,即所有評論數(shù)據(jù)都相關,分布的緊密性最高。以文檔緊密性Tigh值作為降維依據(jù),經(jīng)過多次嘗試與分析,后續(xù)的實驗可設定參數(shù)t為100。進一步計算得到文檔緊密性的平均值,所有小于平均值的數(shù)據(jù)點,被認為是稀疏數(shù)據(jù)點,予以刪除,最后得到緊密數(shù)據(jù)點集合U1。
(5)對新集合U∩U1中的數(shù)據(jù)集根據(jù)平均距離排序,選擇最小值作為中心點并刪除與之相關的文本,多次重復上述步驟,直到有k個中心點。當k個中心點選取完成時,聚類過程也隨之結束。
綜上,HT-LaD算法的改進重點是初始中心的選擇。移動圖書館用戶評論中,緊密性的考量可避開需求識別價值小的用戶評論,根據(jù)距離平均值排序后選出的中心點能更優(yōu)地代表一部分數(shù)據(jù),保證中心點分布均勻。
實證數(shù)據(jù)仍使用經(jīng)過清洗后的移動圖書館用戶評論數(shù)據(jù)。隨機選取9 250條有效評論,邀請2名情報學碩士依據(jù)自身使用體驗和已有知識積累進行人工自由標注和聚類,1名信息資源管理博士對標注結果進行審核,標注一致度超過90%。同時基于Python 2.7平臺,利用改進后的算法進行聚類測試,并將機器聚類結果與人工標注結果進行對比分析。
根據(jù)人工標注結果,發(fā)現(xiàn)用戶評論反映的問題可概括為8個方面,因此設定聚類算法的K值為8,迭代次數(shù)為500次。根據(jù)表3可見,聚類類別1至聚類類別6反映了用戶的關注點分別集中在資源豐富性、功能多樣性、平臺穩(wěn)定性、登錄快捷方便性、人性化設置和平臺宣傳推廣等方面;聚類類別7和聚類類別8反映了用戶仍關注移動客戶端運行對網(wǎng)絡流量資源的占用和消耗,移動閱讀對人眼健康的影響。
表3 聚類結果分布表
類別1和2反映資源豐富性和功能多樣性的評論數(shù)共計5 318條,占比57.5%,充分說明改進功能層面需求的廣泛性;類別3和4是用戶對移動圖書館服務平臺表達了更高的需求,平臺穩(wěn)定性和登錄方便快捷需求占比19.8%,可概括為技術層面的需求;類別5和6分別反映用戶在人性化設置和宣傳推廣方面的需求,共占比16.5%,可概括為用戶關懷視角的需求。以上聚類結果分布與倪峰等研究結果相接近[7],類別7和8反映的需求是鄭德俊等研究者之前調查所未能得到的[3]。
利用BlueMC在線工具分析各類別評論數(shù)據(jù),基于詞頻統(tǒng)計,各類別中排在前3位的有意義的實詞如表4所示。
表4 用戶評論數(shù)據(jù)詞頻分布表
從整體看,移動圖書館用戶評論所反映的功能需求、技術需求和用戶關懷需求,與移動圖書館服務質量測評模型保持一致[26]。本文聚類實踐為以后用戶需求的自動化識別提供可能。根據(jù)本文聚類結果,移動圖書館服務平臺除持續(xù)在資源豐富、平臺穩(wěn)定、用戶使用支配權方面不斷努力外,還應在平臺可用性方面多下功夫,通過改進系統(tǒng)技術減少所需流量。
為驗證改進算法的科學性,本文采用綜合評價指標加權調和平均值F[27]進行評價,F值由查全率(R)與查準率(P)計算可得。其中,聚類正確評論數(shù)與聚類評論總數(shù)的比值為P值,聚類正確評論數(shù)與數(shù)據(jù)集評論總數(shù)的比值為R值,F值有助于準確衡量聚類結果和對比聚類效果[28]。
為更好地觀察不同算法的性能差異,本文將9 250條有效評論平均分為5組分別計算各組的F值(見圖2)。
圖2 實驗結果F值對比圖
5組實驗結果中,HT-LaD算法的F值明顯高于傳統(tǒng)K均值聚類,且聚類折線較為平緩,穩(wěn)定性明顯優(yōu)于傳統(tǒng)K均值聚類。通過劃分區(qū)域,在數(shù)據(jù)緊密區(qū)選取初始聚類中心點,不僅降低一般短文本聚類過程中的波動,還考慮到移動圖書館用戶評論內容的獨有特征,降低需求識別價值低的評論文本干擾。綜合考慮文檔緊密性和平均距離,使其適用于移動圖書館評論語言表達的特殊性,同時保證初始聚類中心的均勻分布;對算法中歐氏距離進行標準化,更適合移動圖書館評論高維數(shù)據(jù)的相似性度量。通過本文改進后的算法,其聚類效果明顯比原算法更有優(yōu)勢。
基于傳統(tǒng)K均值算法的文本聚類,操作簡便,但存在穩(wěn)定性較差、不適用于高維數(shù)據(jù)及聚類準確性較低等問題,本文嘗試在研究該算法的具體原理后對其進行改進。結合移動圖書館用戶評論高維數(shù)據(jù)的特點,將歐氏距離標準化,繼而提出基于平均距離的K均值算法??紤]到移動圖書館評論的獨有特征,降低需求識別價值小的評論文本干擾,加入文檔緊密性衡量,確保初始聚類中心分布均勻,保證文本聚類的質量。本文對聚類算法作出改進,今后可利用所構建的移動圖書館領域專屬詞典輔助中文分詞,結合其他研究方法(如結合條件隨機場方法)深入挖掘用戶需求,搭建自動用戶需求獲取系統(tǒng),以便及時、迅速、客觀地獲取用戶需求,并將用戶需求反饋給移動圖書館服務平臺加以改進,從而為用戶提供更好、更優(yōu)質的移動圖書館信息服務。
[1] KARIM N S A,DARUS S H,HUSSIN R.Mobile phone application in academic library services: a students’ feedback survey[J].Campus-Wide Information System,2006,23(1):35-51.
[2] CHANDHOK S,BABBAR P.M-learning in distance education libraries:a case scenario of Indira Gandhi National Open University[J].Electronic Library,2011,29(5):637-650.
[3] 鄭德俊,沈軍威,張正慧.移動圖書館服務的用戶需求調查及發(fā)展建議[J].圖書情報工作,2014,58(7):46-52.
[4] 葉莎莎,杜杏葉.移動圖書館用戶需求理論研究[J].圖書情報工作,2014,58(16):50-56.
[5] RYOKAI K,AGOGINO A M,OEHLBERG L.Mobile learning with the engineering pathway digital library[J].International Journal of Engineering Education,2012,28(5):1119-1126.
[6] 侯桂楠.基于用戶體驗的移動圖書館服務模型研究[D].重慶:重慶大學,2013.
[7] 倪峰,李永明,鄭德俊,等.移動圖書館服務平臺的改進需求識別[J].圖書情報工作,2016,60(2):17-23.
[8] 鄒臘梅,肖基毅,龔向堅. Web文本挖掘技術研究[J].情報雜志,2007(2):53-55.
[9] 倪瑜澤,彭蓉,孫棟,等.基于用戶評論的潛在演化需求發(fā)現(xiàn)方法[J].武漢大學學報(理學版),2015,61(4):347-355.
[10] 崔建苓,楊達,李娟.RERM:一種基于評論挖掘的需求獲取方法[J].計算機應用與軟件,2015,32(8):28-33.
[11] 龔才春.短文本語言計算的關鍵技術研究[D].北京:中國科學院研究生院(計算技術研究所),2008.
[12] 王仲遠,程健鵬,王海勛,等.短文本理解研究[J].計算機研究與發(fā)展,2016,53(2):262-269.
[13] 李亞松.基于文本挖掘的用戶評論分類解析系統(tǒng)的設計與實現(xiàn)[D].北京:北京郵電大學,2015.
[14] FLURY B.Algorithms for clustering data:Anil K. Jain and Richard C.Dubes Prentice Hall Advanced Reference Series in Computer Science Prentice Hall,Englewood Cliffs,NJ,1988[J].Journal of Statistical Planning & Inference,1989,21(1):137-138.
[15] 楊翔.針對短文本數(shù)據(jù)的聚類分析的算法及應用設計和實現(xiàn)[D].北京:北京郵電大學,2014.
[16] 李偉,黃穎.文本聚類算法的比較[J].科技情報開發(fā)與經(jīng)濟,2006,16(22):234-236.
[17] MACQUEEN J.Some methods for classification and analysis of multivariate observe[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press,1967:281-297.
[18] 朱建宇.K均值算法研究及其應用[D].大連:大連理工大學,2013.
[19] 左進,陳澤茂.基于改進K均值聚類的異常檢測算法[J].計算機科學,2016,43(8):258-261.
[20] TZORTZIS G,LIKAS A.The minmax K-means clustering algorithm[J].Pattern Recognition,2011,44(4):866-876.
[21] 張志祥.基于最大最小距離法的多中心聚類算法[J].計算機應用,2006,26(6):1425-1428.
[22] 傅德勝,周辰.基于密度的改進K均值算法及實現(xiàn)[J].計算機應用,2011,31(2):432-434.
[23] BRADLEY P S,FAYYAD U M.Refining initial points for K-means clustering[C]//Proceedings of the 15th International Conference on Machine Learning.[S.1.]:[s.n.],1998:91-99.
[24] 朱曉峰,陳楚楚,尹嬋娟.基于微博輿情監(jiān)測的K-Means算法改進研究[J].情報理論與實踐,2014,37(1):136-140.
[25] CHOWDHURY G G.Natural language processing[J].Annual Review of Information Science & Technology,2003,37(37):51-89.
[26] 鄭德俊,軒雙霞,沈軍威.用戶感知的移動圖書館服務質量測評模型構建[J].大學圖書館學報,2015,33(5):83-92.
[27] 劉遠超,王曉龍,徐志明,等.文檔聚類綜述[J].中文信息學報,2006,20(3):55-62.
[28] 裴超,肖詩斌,江敏.基于改進的LDA主題模型的微博用戶聚類研究[J].情報理論與實踐,2016,39(3):135-139.
鄭德俊,男,1968年生,教授,研究方向:信息服務與評價,E-mail:zdejun@njau.edu.cn。
朱婷婷,女,1993年生,碩士研究生,研究方向:移動圖書館服務,E-mail:2015114009@njau.edu.cn。
沈軍威,男,1989年生,博士,研究方向:移動圖書館服務,E-mail:t2017013@njau.edu.cn。
Research on Demand Clustering of Mobile Library from User Reviews Based on the Improved K-means Algorithm
ZHENG DeJun, ZHU TingTing, SHEN JunWei
(Department of Information Management, Nanjing Agricultural University, Nanjing 210095, China)
The automatic clustering of mobile library user reviews helps to obtain user needs more accurately and ef fi ciently. Based on the traditional K-means algorithm, this paper uses HT-LaD algorithm to improve the initial clustering center and uses the user’s evaluation data of mobile library to prove it. The results show that it is feasible to use the improved K-means algorithm to complete the demand clustering of mobile library user comment text, and the clustering accuracy and stability are improved.
Mobile Library; Improved K-means Algorithm; User Reviews; User Demands
G251
10.3772/j.issn.1673-2286.2017.10.005
* 本研究得到國家社會科學基金項目“基于用戶感知的移動圖書館服務質量評價及提升策略研究”(編號:13BTQ026)資助。
2017-09-01)