• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)技術的圖書館用戶畫像模型建構策略

      2020-06-19 07:50:33劉穎
      現(xiàn)代電子技術 2020年9期
      關鍵詞:畫像分類圖書館

      劉穎

      摘? 要: 針對在數(shù)字圖書館用戶畫像模型建構工作中用戶數(shù)據(jù)分類效果較差的問題,提出基于大數(shù)據(jù)的數(shù)字圖書館用戶畫像模型建構策略。通過運用大數(shù)據(jù)網(wǎng)絡與圖書館系統(tǒng)全面性獲取用戶操作信息;利用關鍵詞抽取技術完成信息抽取,并采用分類技術實現(xiàn)用戶分類,以此提升模型構建信息抽取分類能力;依據(jù)用戶畫像模型格式,設定用戶畫像標簽體系,完成模型構建工作。通過與采用策略前構建方法的對比實驗結(jié)果可以看出,采用所提策略后得到的用戶人群區(qū)分人數(shù)與樣本人數(shù)相同,而采用此策略前結(jié)果與樣本人數(shù)相差較大。由此可以得出,此策略可有效解決用戶數(shù)據(jù)分類效果較差的問題。

      關鍵詞: 圖書館用戶畫像模型; 大數(shù)據(jù)技術; 用戶畫像標簽體系; 關鍵詞抽取; 數(shù)字圖書館; 圖像分析

      中圖分類號: TN911.73?34; G250.76? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)09?0055?03

      A construction strategy for library users′ portrait model based on big data technology

      LIU Ying

      (Changchun Normal University, Changchun 130032, China)

      Abstract: For the poor classification effect of user data in the construction of digital library user portrait model, a big data based construction strategy of digital library user portrait model is proposed. The operation information of the library users is comprehensively obtained by means of big data network and library system. The keyword extraction technology is used to complete information extraction and the classification technology is used to achieve user classification, so as to improve the competence of information extraction and classification in the model construction. The user portrait label system is set up according to the format of user portrait model to complete the model construction. A contrast experiment was performed to compare the effect of the construction method before using the proposed strategy with that after using the proposed strategy. The experimental results show that the number of user group classification obtained after using the proposed strategy is the same as the number of samples, while that obtained before using the proposed strategy is quite different from the number of samples. Therefore, it is concluded that the proposed strategy can effectively deal with the poor classification effect of user data.

      Keywords: library user portrait model; big data technology; user portrait label system; keyword extraction; digital library; image analysis

      0? 引? 言

      隨著信息技術的進步,數(shù)字圖書館應運而生。這是一種利用數(shù)字技術完成文獻處理與存儲的電子圖書館。實質(zhì)來講,數(shù)字圖書館是一種利用多媒體制作的分布式信息系統(tǒng)[1]。通過將不同載體、不同地址位置的信息資源利用數(shù)字技術存儲,完成跨越區(qū)域、面向大眾的網(wǎng)絡查詢與傳播。在數(shù)字圖書館的應用中,對用戶畫像的研究與構建是其日后發(fā)展的基礎[2?3]。用戶畫像是理解目標用戶、具象化用戶形象、明確服務目標的重要表達形式之一。用戶需求是數(shù)字圖書館的基礎,數(shù)字圖書館構建用戶畫像需獲取用戶的體征數(shù)據(jù),精準了解用戶的需求,以可視化的方式顯示用戶的喜好,從而實現(xiàn)數(shù)字圖書館用戶服務提供方式由粗放走向精細的目標。就目前數(shù)字圖書館用戶畫像模型構建中存在分類效果較差的問題,本文提出用戶畫像模型構建策略。

      在此次提出的策略中,采用大數(shù)據(jù)技術完成用戶畫像模型構建改進。大數(shù)據(jù)技術對于用戶畫像模型中的數(shù)據(jù)處理具有重要作用,綜合運用定性與定量方式實現(xiàn)模型的精準構建,以此保證數(shù)字圖書館服務內(nèi)容精準化、服務定位精準化、服務功能用戶化、服務系統(tǒng)智慧化。

      1? 基于大數(shù)據(jù)的數(shù)字圖書館用戶畫像模型建構策略設計

      針對原有用戶畫像模型構建過程中發(fā)現(xiàn)的問題,提出相應的用戶畫像模型構建策略。為提升用戶畫像模型構建結(jié)果的分類效果,從用戶信息獲取、信息分析方法以及信息過濾處理方法方面提出對策,以此完成模型構建的優(yōu)化提升工作。將此次設計的策略分成幾個方面,具象化顯示其內(nèi)容,采用圖像體現(xiàn),具體內(nèi)容如圖1所示。

      在策略提出的過程中,對用戶信息的處理為策略的核心部分。采用大數(shù)據(jù)技術增強對用戶信息的整合處理能力,用戶信息是用戶畫像模型構建的基礎,通過上述部分提升模型構建的分類效果,為數(shù)字圖書館服務。

      1.1? 全面性獲取用戶操作信息

      使用數(shù)字圖書館的用戶都有自己特定的背景知識與個人愛好。構建用戶畫像可以幫助數(shù)字圖書館將用戶喜愛設定為計算機可以理解的形式[4],實現(xiàn)信息化處理。在獲取用戶操作信息時,需要對用戶的信息展開全面的采集。為保證采集結(jié)果的可靠性與全面性,設定采集內(nèi)容如表1所示。

      采用上述設定完成對用戶操作信息的獲取。將獲取到的信息采用統(tǒng)一數(shù)據(jù)項名稱存儲至數(shù)據(jù)庫內(nèi),以便于數(shù)據(jù)信息的抽取。基于用戶數(shù)據(jù)信息過于龐大,在信息獲取的過程中,應用大數(shù)據(jù)網(wǎng)絡完成信息的部分采集工作,其余部分通過數(shù)字圖書館自身的信息記錄完成。采用此方法可保證數(shù)據(jù)來源的多樣性,為模型構建提供充分的數(shù)據(jù)來源[5?6]。

      1.2? 引用大數(shù)據(jù)技術實現(xiàn)信息精準分類

      應用采集到的信息數(shù)據(jù)完成信息抽取工作。采取關鍵詞抽取技術結(jié)合文本挖掘技術的形式,從數(shù)據(jù)樣本內(nèi)容中挖掘用戶的個人信息,并采用關鍵詞的形式體現(xiàn)。在文本挖掘的過程中,直接獲取到的數(shù)據(jù)不能直接作為模型構建的源數(shù)據(jù)。一方面,獲取到的數(shù)據(jù)中存在較多的重復數(shù)據(jù);另一方面,數(shù)據(jù)易出現(xiàn)不完整的情況,造成模型組成缺失的問題[7?9]。因而,將獲取的數(shù)據(jù)應用大數(shù)據(jù)技術中的分布式處理技術,得到處理結(jié)果,使其可以更好地適用于分類算法。數(shù)據(jù)信息的抽取流程如圖2所示。

      采用上述流程完成數(shù)據(jù)抽取過程。在數(shù)據(jù)抽取中引入更新機制,將抽取后的本體數(shù)據(jù)與用戶興趣不斷地匹配與修正,最終獲得數(shù)據(jù)抽取結(jié)果?;诔槿√幚斫Y(jié)果,使用大數(shù)據(jù)技術中的分類算法完成用戶畫像模型的數(shù)據(jù)分類。設定完成預處理以及抽取后的用戶數(shù)據(jù)樣本集合為[W={w1,w2,…,wn}],[wn∈Rn],其中,[R]為自然數(shù),[n=1,2,…,n]。綜上可知,[W]的類別劃分為[{A1,A2,…,Am}],[m∈n]。則有:

      [Ai≠?,? ? i=1,2,…,m] (1)

      [A1?A2?…?Am=W] (2)

      [Ai?Aj=?,? ? i,j=1,2,…,m且i≠j] (3)

      式中[i,j]表示分類的序號。通過式(1)完成集合分類,確保集合結(jié)果不為空。將式(1)獲取到的集合展開進行交集處理,保證處理后的集合為樣本數(shù)據(jù),最后通過式(3)完成信息的分類。通過多次計算保證數(shù)據(jù)分類的精準度。

      1.3? 設定用戶畫像標簽體系

      在模型構建的過程中,除對原始數(shù)據(jù)的采集與處理外,還需建立相應的畫像標簽體系。據(jù)研究可知,用戶畫像是真實用戶的虛擬代表,是一種建立在真實數(shù)據(jù)上的目標用戶模型[10?12]。因而,在構建中將模型體現(xiàn)為一種多元化多因素的畫像,具體格式如圖3所示。

      通過上述格式可知,用戶畫像就是一種將用戶信息標簽化的技術,將用戶通過標簽顯示,便于數(shù)字圖書館實現(xiàn)對用戶科學管理。標簽體系是模型構建的標準之一,因而設定標簽內(nèi)容如表2所示。

      采用上述標簽,結(jié)合分類處理后的基本屬性信息,完成用戶畫像模型的構建。至此,針對模型分類效果較差的問題,基于大數(shù)據(jù)的數(shù)字圖書館用戶畫像模型建構策略提出完畢。

      2? 仿真實驗

      根據(jù)現(xiàn)有數(shù)字圖書館用戶畫像模型存在的問題,提出相應的畫像模型構建策略。為保證提出策略的有效性,構建測試環(huán)境,完成策略使用效果研究。在測試中,采用與傳統(tǒng)用戶畫像模型對比的方式得出相應的測試結(jié)果,完成研究。

      2.1? 設定實驗環(huán)境

      此次實驗的硬件環(huán)境為Windows 7操作系統(tǒng),內(nèi)存為10 GB。大數(shù)據(jù)技術以C語言開發(fā)工具為基礎,大數(shù)據(jù)計算使用Python2.7編碼實現(xiàn)。實驗目標設定為某數(shù)字圖書館,其中部分用戶為數(shù)據(jù)源,共包含10 000條用戶行為數(shù)據(jù),具體內(nèi)容如表3所示。

      由于用戶畫像具有其自身的特殊性,只能表示用戶的個人畫像與組群畫像。此次實驗僅對用戶的群組畫像展開研究,采用大數(shù)據(jù)平臺對數(shù)據(jù)分組處理。將處理后的數(shù)據(jù)通過本文提出的策略二次加工,得出實驗結(jié)果,并對比其分類效果。將實驗樣本中的特征數(shù)據(jù)通過表格形式顯示[13?14],具體如表4所示。

      以信息樣本為實驗指標,設定在此次實驗以來,自北部地區(qū)的1999年后出生的男性用戶、來自中部地區(qū)1979—1999年的女性用戶以及來自中部地區(qū)的1979年前出生的女性用戶為用戶畫像模型的構建目標,并采用本文策略后的用戶畫像分類效果作為實驗對比對象,通過按要求劃分用戶人數(shù)與樣本人數(shù)差異體現(xiàn)。

      2.2? 實驗結(jié)果

      采用上述設定完成實驗過程,將實驗結(jié)果通過數(shù)據(jù)形式顯示,具體如圖4所示。

      通過實驗結(jié)果可以看出:在使用本文提出策略前,用戶畫像分類結(jié)果與樣本人數(shù)相差較大,由此,可以斷定在使用策略前,采用原有用戶分類結(jié)果獲得的用戶畫像模型精度較差。采用這種用戶畫像對于數(shù)字圖書館而言,是具有較大弊端的,不易于數(shù)字圖書館對用戶群體的分析與自身的內(nèi)部優(yōu)化。采用本文提出的策略展開模型構建工作,所得到的分類結(jié)果與樣本人數(shù)一致,不存在誤差,與采用策略前的結(jié)果相比,采用策略后的分類結(jié)果明顯優(yōu)于原有結(jié)果[15]。由此可知,本文提出的針對原有的用戶畫像模型構建具有顯著的作用,可有效提升用戶畫像模型構建的精度與用戶群體區(qū)分效果。

      3? 結(jié)? 語

      本文通過使用大數(shù)據(jù)技術完成對數(shù)字圖書館用戶畫像模型構建工作。通過實驗結(jié)果可知,此次研究中提出的策略可有效改善原有模型構建中的問題。此次設計結(jié)果有效利用大數(shù)據(jù)技術,保證數(shù)字圖書館中海量的用戶數(shù)據(jù)得到良好的應用,并以此服務于用戶畫像工作,保證數(shù)字圖書館日后的信息化發(fā)展。在此次研究中,仍存在一些不足,例如,數(shù)據(jù)處理方面的設定較為簡單,不能充分體現(xiàn)大數(shù)據(jù)技術的應用過程等。在日后的研究中,對上述問題仍需改進。

      參考文獻

      [1] 陳艷,李君亮.大數(shù)據(jù)技術的詮釋學分析[J].學術探索,2018(7):7?12.

      [2] 鄭正廣,馮必成,趙明月.基于大數(shù)據(jù)技術的騰訊王卡用戶畫像構建研究[J].郵電設計技術,2017(9):52?56.

      [3] 王憲朋.基于視頻大數(shù)據(jù)的用戶畫像構建[J].電視技術,2017,41(6):20?23.

      [4] 楊潤佳.大數(shù)據(jù)驅(qū)動下主動防御網(wǎng)絡安全性評估技術[J].計算機測量與控制,2018,26(10):304?308.

      [5] 張鈞.基于用戶畫像的圖書館知識發(fā)現(xiàn)服務研究[J].圖書與情報,2017(6):60?63.

      [6] 劉速.淺議數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)中的用戶畫像:以天津圖書館為例[J].圖書館理論與實踐,2017(6):103?106.

      [7] 李恒超,林鴻飛,楊亮,等.一種用于構建用戶畫像的二級融合算法框架[J].計算機科學,2018,45(1):157?161.

      [8] 張海濤,崔陽,王丹,等.基于概念格的在線健康社區(qū)用戶畫像研究[J].情報學報,2018,37(9):912?922.

      [9] 王樂,倪維健,林澤東,等.基于模型堆疊的上網(wǎng)行為日志用戶畫像方法[J].山東科技大學學報(自然科學版),2018,37(5):70?78.

      [10] 萬倩,歐陽峰,趙明.知識圖譜在廣電網(wǎng)絡運營大數(shù)據(jù)分析中的應用[J].廣播與電視技術,2018,45(12):79?86.

      [11] 劉丹,張興剛,任淑敏.基于用戶畫像的高校圖書館閱讀療法模式[J].中華醫(yī)學圖書情報雜志,2018,27(7):68?71.

      [12] 張海旭,胡訪宇,趙家輝.基于話單數(shù)據(jù)的移動通信用戶畫像研究[J].計算機系統(tǒng)應用,2018,27(11):271?277.

      [13] 單曉紅,張曉月,劉曉燕.基于在線評論的用戶畫像研究:以攜程酒店為例[J].情報理論與實踐,2018,41(4):99?104.

      [14] 周景.基于商業(yè)智能WLAN的用戶畫像分析系統(tǒng)的設計及應用[J].微型電腦應用,2019,35(8):143?145.

      [15] 洪芳林,邢文明.基于大數(shù)據(jù)平臺的圖書館利用有聲閱讀平臺開展用戶服務研究[J].四川圖書館學報,2019(4):33?37.

      猜你喜歡
      畫像分類圖書館
      威猛的畫像
      分類算一算
      “00后”畫像
      畫像
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      圖書館
      小太陽畫報(2018年1期)2018-05-14 17:19:25
      教你一招:數(shù)的分類
      飛躍圖書館
      去圖書館
      富蕴县| 广丰县| 元朗区| 阜阳市| 邻水| 淄博市| 通山县| 治县。| 张北县| 家居| 丰台区| 长春市| 台安县| 凤台县| 曲阜市| 吉木萨尔县| 沁水县| 故城县| 屯留县| 南涧| 金沙县| 留坝县| 商南县| 龙岩市| 伊金霍洛旗| 通州市| 和林格尔县| 五原县| 仪征市| 西安市| 彩票| 河北省| 伊春市| 台江县| 县级市| 肇庆市| 石棉县| 黄骅市| 清丰县| 绍兴县| 盐边县|