• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM和DS證據(jù)理論的圖書館讀者借閱行為分析

      2022-02-15 05:45:32姜笑楠
      圖書館研究與工作 2022年2期
      關(guān)鍵詞:分析方法準(zhǔn)確率聚類

      姜笑楠

      (大連職業(yè)技術(shù)學(xué)院圖書館 遼寧大連 116000)

      1 引言

      圖書館能夠依靠其海量館藏圖書和數(shù)字資源為各類讀者提供文獻(xiàn)信息服務(wù)[1]。我國(guó)圖書館管理系統(tǒng)已經(jīng)十分成熟,經(jīng)過(guò)數(shù)十年的發(fā)展也積累下了豐富的實(shí)踐數(shù)據(jù)[2],如讀者數(shù)據(jù)、圖書數(shù)據(jù)等。通過(guò)深度挖掘這部分?jǐn)?shù)據(jù)能夠幫助我們更好地了解讀者借閱習(xí)慣及規(guī)律,進(jìn)而為后續(xù)改善圖書館服務(wù)質(zhì)量提供有力依據(jù)[3]??偟膩?lái)說(shuō),研究圖書館讀者借閱行為對(duì)于改善我國(guó)圖書館管理水平具有顯著意義[4-5]。

      考慮到早期圖書館讀者借閱行為歷史數(shù)據(jù)并不多,所以研究者在統(tǒng)計(jì)分析讀者的借閱行為時(shí)往往會(huì)以人工方式進(jìn)行。這種方式由于過(guò)于主觀所以很難全面、準(zhǔn)確地得出讀者借閱行為規(guī)律,難以為有效提升館藏資源利用率提供決策依據(jù)[6]?,F(xiàn)代信息技術(shù)的日新月異,使得大量基于數(shù)據(jù)挖掘技術(shù)的讀者借閱行為分析方法應(yīng)運(yùn)而生[7],比如基于時(shí)間序列的分析法[8],即以時(shí)間先后來(lái)對(duì)讀者借閱行為進(jìn)行采集。不過(guò)這種方法也難以得出讀者借閱行為的總體變化特征,導(dǎo)致所得出的結(jié)果可信度較低[9]。再如,基于關(guān)聯(lián)規(guī)則算法的分析方法,旨在對(duì)借閱活動(dòng)和讀者間的聯(lián)系進(jìn)行綜合反映[10],這種方法是典型的線性分析技術(shù),但借閱活動(dòng)和讀者間聯(lián)系是非線性的,所以其分析結(jié)果往往具有較大誤差[11]。還有基于流通日志的分析方法[12],即通過(guò)流量日志來(lái)了解讀者借閱規(guī)律,不過(guò)隨著讀者人數(shù)規(guī)模的提升,流通日志的數(shù)據(jù)量也日益龐大,這將大大影響到這種分析方法的效率[13-15]。由于以上方法都存在一定缺陷,本文提出一種基于SVM與DS證據(jù)理論的分析方法來(lái)對(duì)讀者借閱行為進(jìn)行綜合分析,同時(shí)引入實(shí)證分析法驗(yàn)證其結(jié)果的科學(xué)性。

      2 圖書館讀者借閱行為特征

      2.1 特征提取

      不同的圖書館其讀者在借閱行為特征上都互有差異,我們可以這部分特征來(lái)進(jìn)行讀者借閱行為規(guī)律的識(shí)別,本研究擬定提取以下特征(見圖1)。

      圖1 讀者借閱行為特征

      2.2 讀者借閱行為特征聚類

      針對(duì)數(shù)量為n的讀者而言,其借閱行為特征數(shù)據(jù)為X={x1,x2,L,xi,L,xn},設(shè)聚類數(shù)量為k,聚類分析算法原理如下:隨機(jī)選取k個(gè)讀者借閱行為數(shù)據(jù)作為總數(shù)為n的讀者借閱行為數(shù)據(jù)的初始聚類中心,其余數(shù)據(jù)則按照其和聚類中心的距離來(lái)和其最相似類別進(jìn)行匹配。

      (1)第j類讀者借閱行為類中心用cj表示,此時(shí)xi與cj之間距離:

      xi與cj之間相似度為:

      (2)更新各聚類中心,設(shè)第j類讀者借閱行為分析樣本集合{xj1,xj2,L,xi,xjnj},其聚類中心為cj=的第k個(gè)屬性用代表:

      (3)反復(fù)以上操作,直到最終更新出前后一致的類中心為止,以均方差為本次測(cè)度標(biāo)準(zhǔn),有:

      經(jīng)過(guò)上述步驟我們即可得出有關(guān)讀者借閱行為分析樣本的相似歷史樣本數(shù)量,進(jìn)而完成建模。這種方式擺脫了對(duì)歷史樣本的依托,大大提高了分析效率。

      3 SVM-DS多特征融合行為分析算法

      3.1 SVM算法

      作為典型的廣義線性分類算法,SVM算法在處理分類問(wèn)題時(shí)盡管不能完全依托線性來(lái)完成二分類,不過(guò)可通過(guò)采用核函數(shù)方法在希爾伯特空間中映射出樣本數(shù)據(jù),從而通過(guò)建立超平面來(lái)把不可線性二分問(wèn)題轉(zhuǎn)化成線性可分問(wèn)題。在確定這一超平面時(shí)應(yīng)盡可能與其他樣本保持最大距離,并且最終的分類誤差要盡可能小。經(jīng)超平面判別所得的最終樣本會(huì)被分成兩類分類函數(shù),即:

      其中,SV代表支持向量,ia代表拉格朗日乘子,代表核函數(shù),xi、yi均為支持向量,b代表閾值,c代表懲罰系數(shù)。

      3.2 DS證據(jù)理論

      DS證據(jù)理論屬于模糊推理理論,由Dempster和Shafer提出。其原理就是通過(guò)整合兩個(gè)或更多正具體的基本概率分配來(lái)得到作為評(píng)估依據(jù)的BPA,在此期間內(nèi),識(shí)別框架U中的目標(biāo)是主要整合目標(biāo),它包含了若干目標(biāo)對(duì)象,這些對(duì)象彼此排斥,互無(wú)聯(lián)系,m:2U→ [0,1]為定義函數(shù)(U的冪集為2U),滿足條件識(shí)別框架上的BPA用m表示,信任A的程度通過(guò)m(A)體現(xiàn)。

      如果m1,m2與同一識(shí)別框架U上的BPA屬于一一對(duì)應(yīng)的關(guān)系,然后用A1,A2,...,Ak和B1,B2,...,Bk,表示焦元,且滿足 的條件,那么可以得到如下公式所示內(nèi)容:

      3.3 SVM-DS融合算法

      在分析借閱行為期間,若引入了SVM-DS融合算法,那么操作步驟如下:先構(gòu)造BPA,即先對(duì)特征參數(shù)進(jìn)行提取,然后基于SVM識(shí)別單特征,整合BPA和DS證據(jù)理論,得到相應(yīng)的結(jié)果(見圖2)。

      (1)對(duì)特征進(jìn)行提取,然后基于SVM識(shí)別單特征,先提取讀者借閱行為的特征,然后基于SVM初步識(shí)別基于3類9個(gè)單特征,然后得到公式(7)所示的正確率:

      在公式(7)當(dāng)中,無(wú)誤的樣本數(shù)量用N表示,總樣本數(shù)用M表示。

      (2)構(gòu)造BPS函數(shù)。目前有數(shù)種標(biāo)準(zhǔn)的SVM輸出類型,既不能構(gòu)造證據(jù)體的BPA,又不能對(duì)各種判別結(jié)果的概率進(jìn)行輸出,所以,在[0,1]區(qū)間內(nèi)用sigmoid函數(shù)[16]實(shí)現(xiàn)SVM輸出的映射就可以明確后驗(yàn)概率,如公式(8)所示:

      在上述公式中,SVM輸出的類型用x表示,As,Bs是對(duì)sigmoid函數(shù)形態(tài)進(jìn)行控制的參數(shù)。

      所以對(duì)于隨機(jī)1個(gè)或更多的 SVM類而言,滿足如下條件:

      (3)對(duì)DS融合評(píng)估準(zhǔn)則進(jìn)行設(shè)計(jì)。假設(shè)借閱行為有三種,記作Ar(r = 1,2,3) ,分析結(jié)果用Aw表示,然后要按照的準(zhǔn)則用BPA劃分證據(jù)類型,也就是當(dāng)目標(biāo)類的信度比某門限值大時(shí),那么信度最大的類就是這個(gè)目標(biāo)類。

      4 實(shí)驗(yàn)仿真

      用K表示仿真的初始聚類中心,然后對(duì)全體特征進(jìn)行量化,具體為:以數(shù)字的方式將圖書的借閱時(shí)間、周期,以及借閱者的年齡和借閱書籍量表示出來(lái);用數(shù)字表示借閱圖書的時(shí)段的中點(diǎn);借閱者專業(yè)上,用數(shù)字1~13來(lái)表示具體的學(xué)科門類,包括藝術(shù)學(xué)、軍事學(xué)、農(nóng)學(xué)、教與學(xué)、法學(xué)、哲學(xué)、歷史學(xué)、文學(xué)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、工學(xué)、理學(xué)等,0表示無(wú)專業(yè);借閱者學(xué)歷上,用1~4分別對(duì)應(yīng)高中及以下、???、本科、研究生;借閱者性別方面,用1表示男性,0表示女性;按照《中國(guó)圖書館分類法》中列出的類別來(lái)細(xì)分書籍類型,一共有22類,也用數(shù)字表示。這樣得到的實(shí)驗(yàn)樣本集,可用于訓(xùn)練和測(cè)試模型(見表1)。

      表1 部分實(shí)驗(yàn)樣本

      本實(shí)驗(yàn)分兩組進(jìn)行,實(shí)驗(yàn)一先綜合對(duì)比了各單特征SVM算法與多特征SVM-DS融合算法,結(jié)果發(fā)現(xiàn),與單特征評(píng)估相比,多特征評(píng)估更為科學(xué);實(shí)驗(yàn)二對(duì)比了SVM-DS融合算法、人工神經(jīng)網(wǎng)絡(luò)(ANN)算法、多特征算法(SVM輸入包含了9類特征)。結(jié)果顯示,這些算法當(dāng)中,以SVM-DS融合算法的準(zhǔn)確性最為理想。其中,SVM通過(guò)優(yōu)化粒子群算法得到核函數(shù)參數(shù)g、懲罰系數(shù)c以及BRF徑向基核函數(shù),以BP神經(jīng)網(wǎng)絡(luò)作為神經(jīng)網(wǎng)絡(luò),以tansig作為傳遞函數(shù),設(shè)置了13個(gè)中間層神經(jīng)元,兩組實(shí)驗(yàn)的次數(shù)都是10個(gè),選取225個(gè)訓(xùn)練集,25個(gè)測(cè)試集,二者在總樣本中的占比分別是90%、10%。

      表2 所示即實(shí)驗(yàn)一中單特征SVM和多特征SVMDS分析結(jié)果,通過(guò)對(duì)信度函數(shù)值進(jìn)行分析不難發(fā)現(xiàn):①實(shí)際借閱行為因?yàn)閼?yīng)用了多特征SVM-DS融合而有著較為理想的信任度;②在某些單特征判定存在沖突的情形下,多特征融合可以通過(guò)分析保證結(jié)果的準(zhǔn)確性。

      表2 單特征SVM與多特征SVM-DS分析信度對(duì)比

      圖3 給出了實(shí)驗(yàn)二內(nèi)不同算法分析結(jié)果和準(zhǔn)確率結(jié)果,其中分析行為與實(shí)際行為重合率越高則準(zhǔn)確率越高。ANN分析、SVM多特征分析、SVM-DS分析的準(zhǔn)確率分別是68%、72%和88%。通過(guò)對(duì)比不難發(fā)現(xiàn),準(zhǔn)確率較為理想的分析方法主要是多特征SVM和SVM-DS融合算法,這主要是訓(xùn)練樣本數(shù)量有限的緣故,說(shuō)明ANN在樣本有限的情況下無(wú)法發(fā)揮優(yōu)勢(shì),但是隨著特征維數(shù)的變多,多特征SVM分析方法的準(zhǔn)確率雖然也有所保證,但卻不夠穩(wěn)定,無(wú)法充分融合不確定、不完全的信息,而且有些奇異值對(duì)其影響十分顯著,會(huì)影響判別效果的可靠性,SVM-DS算法對(duì)多特征的信息進(jìn)行了整合,且算法容易操作,魯棒性也比較強(qiáng)。

      圖3 各算法對(duì)借閱行為的分析與準(zhǔn)確率結(jié)果

      5 結(jié)論

      本文歸納了會(huì)對(duì)借閱行為造成影響的三個(gè)因素,通過(guò)分析進(jìn)一步掌握?qǐng)D書館讀者借閱行為。文中所構(gòu)建的特征集是針對(duì)書籍信息特征、讀者信息特征、借閱時(shí)間特征進(jìn)行的,并提出了一種新的分析方法,即DS證據(jù)理論和SVM算法相融合。新的分析方法不但可以通過(guò)基本概率分配函數(shù)克服DS證據(jù)理論BPA的缺陷,而且可以很好地保證分析結(jié)果的客觀性和時(shí)效性。同時(shí)發(fā)現(xiàn)采用多特征融合的SVM-DS算法可以獲得88%的準(zhǔn)確率,解決了傳統(tǒng)SVM算法處理不全面、信息不確定的弊端,有效強(qiáng)化了人們分析圖書館大數(shù)據(jù)行為的能力。

      猜你喜歡
      分析方法準(zhǔn)確率聚類
      基于EMD的MEMS陀螺儀隨機(jī)漂移分析方法
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      一種角接觸球軸承靜特性分析方法
      中國(guó)設(shè)立PSSA的可行性及其分析方法
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于DBSACN聚類算法的XML文檔聚類
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      瓦房店市| 长岛县| 固始县| 梧州市| 镇江市| 北辰区| 黄梅县| 延边| 武清区| 阿图什市| 龙山县| 额敏县| 台州市| 什邡市| 开封市| 墨玉县| 宜兴市| 昂仁县| 铁岭市| 巩义市| 武隆县| 会宁县| 樟树市| 武宁县| 遂溪县| 永平县| 淳化县| 微博| 涞源县| 游戏| 河西区| 贺兰县| 墨竹工卡县| 育儿| 双柏县| 祁东县| 怀集县| 公安县| 沈阳市| 乌恰县| 高要市|