• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義的分布式知識管理系統(tǒng)模型

      2016-08-04 08:58:05王志華劉衍鵬
      中原工學院學報 2016年3期
      關(guān)鍵詞:知識管理分布式

      王志華, 劉衍鵬

      (鄭州大學 軟件與應(yīng)用科技學院, 鄭州 450000)

      ?

      基于語義的分布式知識管理系統(tǒng)模型

      王志華, 劉衍鵬

      (鄭州大學 軟件與應(yīng)用科技學院, 鄭州 450000)

      摘要:針對現(xiàn)有集中式的、應(yīng)用傳統(tǒng)檢索技術(shù)的知識管理系統(tǒng)的局限性,提出了一種基于語義的分布式知識管理系統(tǒng)模型。在系統(tǒng)功能模塊和本體設(shè)計基礎(chǔ)上,重點分析和改進了全文檢索、日志分析、個性化推薦三大功能模塊的關(guān)鍵技術(shù),提出了神經(jīng)網(wǎng)絡(luò)和字符串匹配相結(jié)合的中文分詞算法,優(yōu)化了一種局部合并改進算法,并將其應(yīng)用于日志分析模塊。使用改進的TF-IDF算法實現(xiàn)了個性化推薦模塊,完善了該知識管理系統(tǒng)模型。實驗表明,該模型檢索效率和系統(tǒng)效率都有改善和提升。

      關(guān)鍵詞:知識管理;分布式;語義檢索

      伴隨著時代的變遷與發(fā)展,知識管理作為一個嶄新的概念,逐漸流行開來。通過長期實踐,大多企業(yè)積累了較多的知識經(jīng)驗或數(shù)據(jù)資料,并且伴隨著持續(xù)開展的管理活動、生產(chǎn)活動以及科研活動,知識的儲量還將不斷激增,從而產(chǎn)生越來越龐大的數(shù)據(jù)量。對企業(yè)來說,這些數(shù)據(jù)都是重要的資源,是實現(xiàn)自身持續(xù)發(fā)展的重要資本[1]。調(diào)查數(shù)據(jù)顯示,大多數(shù)同類的大型公司都重視知識方面的管理和創(chuàng)新,這也是它們保持長期競爭力的重要因素。

      近年來,數(shù)據(jù)信息領(lǐng)域涌現(xiàn)出了大量的新概念,如大數(shù)據(jù)、云計算、分布式計算等等[2]。在PB級非結(jié)構(gòu)化數(shù)據(jù)處理方面,集中式檢索的知識管理系統(tǒng)的局限性越來越突出,使用價值也越來越低。此時,要想準確而且高效地檢索知識,需要采用全新的、基于分布式計算的知識管理系統(tǒng)。相比以前的系統(tǒng),該系統(tǒng)更加穩(wěn)定和高效,也更加適合企業(yè)的需求。

      在信息檢索方面,傳統(tǒng)信息檢索技術(shù)存在很大的弊端,除非關(guān)鍵詞匹配,否則很難檢索到想要的內(nèi)容[3]。而且,這些內(nèi)容基本上都是顯性的??梢?,在傳統(tǒng)技術(shù)條件下,用戶的檢索需求與隱性信息需求都無法得到較好的滿足。語義數(shù)據(jù)具有結(jié)構(gòu)化、個性化、智能化等特征,其快速的、大規(guī)模的增長,為數(shù)據(jù)信息檢索創(chuàng)造了全新的條件,使檢索內(nèi)容更加準確。因此,增加語義檢索功能是一項必然之舉。

      1基于語義的知識管理系統(tǒng)模型

      1.1系統(tǒng)功能模塊

      根據(jù)對企業(yè)知識管理平臺的需求分析,設(shè)定企業(yè)知識管理平臺功能模塊結(jié)構(gòu),如圖1所示。

      圖1 知識管理系統(tǒng)功能模塊

      對于企業(yè)來說,因涉及的文檔內(nèi)容比較多,體系不夠簡化,且很多信息都分布在多個計算機上,使文檔內(nèi)容查找具有一定難度。通過全文檢索模塊不僅能夠建立針對性的文檔索引、為用戶提供專業(yè)的文檔查詢與搜索功能,還可以從根本上實現(xiàn)知識文檔查詢效率的有效提高。對于個性化文檔來說,在對其內(nèi)容進行全面分析后,可自動為工作人員提供所需文檔,進而降低獲取知識的難度。另外,日志分析模塊也具有強大的功能優(yōu)勢,可對用戶瀏覽訪問情況進行分析與處理,進而為個性化文檔推薦提供幫助。其他功能模塊比如知識社區(qū)、知識地圖、知識維護等,使系統(tǒng)功能更加全面,可為用戶提供更優(yōu)質(zhì)的使用體驗。

      1.2企業(yè)本體構(gòu)建

      本體可實現(xiàn)信息的互換,其功能包括互操作性、系統(tǒng)工程等。在本體論知識的指導(dǎo)下,語義Web可很好地實現(xiàn)知識層面的共享,做到語義上的互操作性。要完成這兩大目標,需要構(gòu)建共享知識本體。本體提供對某領(lǐng)域共享、通用的理解,在語級上實現(xiàn)異構(gòu)數(shù)據(jù)的信息集成,而不用去考慮具體語法,因此本體是概念化信息的顯性解釋。

      本體對概念模型進行了清晰、規(guī)范的描述,可以用來解釋領(lǐng)域知識的結(jié)構(gòu),為知識表示打下良好的基礎(chǔ)。另外,本體避免了相關(guān)領(lǐng)域知識的重復(fù)分析,并結(jié)合相關(guān)的術(shù)語和概念,使知識共享成為可能。領(lǐng)域本體構(gòu)成了某些領(lǐng)域相關(guān)信息資源的組織框架,抽象描述了具體領(lǐng)域中存在的概念和關(guān)系。領(lǐng)域本體在整個系統(tǒng)中具有重要的作用,它貫穿于系統(tǒng)中,為所有模塊提供必要的參照和依據(jù)[4]。

      檢索領(lǐng)域的專業(yè)知識通常被存儲在本體知識庫中,包含專業(yè)領(lǐng)域的許多實體之間的關(guān)系。領(lǐng)域本體知識庫是檢測系統(tǒng)中最重要的知識源,既可以應(yīng)用于事實數(shù)據(jù)的標引和檢索,也可以實現(xiàn)算法的匹配、擴展用戶的查詢方式。在專業(yè)領(lǐng)域知識中,各層次的實體對象間的關(guān)系可采用本體技術(shù)進行相關(guān)掃描,某些深層次、隱性的知識可采用機器可讀的方式進行描述。領(lǐng)域本體在進行結(jié)構(gòu)優(yōu)化和鏈接多類型的關(guān)系后,可以為較復(fù)雜的檢索計算和有關(guān)語義推理提供技術(shù)支持。

      下面以企業(yè)本體為例介紹其相關(guān)語義結(jié)構(gòu),如圖2所示。

      圖2 企業(yè)本體

      定義企業(yè)本體,即定義了企業(yè)領(lǐng)域中一系列術(shù)語和關(guān)系的集合。設(shè)定EO為企業(yè)本體,則EO={{E},{R}}。其中E為企業(yè)中各實體的集合,包括部門、團隊、任務(wù)等;R為實體相關(guān)關(guān)系集合。企業(yè)本體的構(gòu)建,使系統(tǒng)可以直接獲得類目的層次關(guān)系和對象之間的依賴關(guān)系。比如,當用戶提交的查詢?yōu)椤安块T”時,實驗系統(tǒng)查詢到的數(shù)據(jù)為與部門相關(guān)的信息,包括“管理部門”與“生產(chǎn)部門”的種類數(shù)據(jù),以及相關(guān)實例數(shù)據(jù),如“人力資源部”和“車間”等。

      2模型實現(xiàn)關(guān)鍵技術(shù)

      2.1全文檢索關(guān)鍵技術(shù)

      在全文檢索模塊中,分詞可謂重中之重?,F(xiàn)有比較成熟的中文分詞算法基本都是基于字符串匹配和基于統(tǒng)計的分詞算法[5],但是這些只是一種“淺理解”的分詞方法,不涉及真正的含義理解。在歧義識別和新詞識別時,計算機難以做出正確的分詞選擇,會出現(xiàn)錯誤,使分詞的準確性降低。為了進一步提高檢索結(jié)果的準確性,通過對語義檢索的理解和現(xiàn)有分詞算法的研究,對原有的分詞算法進行改進,提出了一種語義理解和字符串匹配相結(jié)合的中文分詞算法。

      本算法結(jié)合字符串匹配方法,得到匹配到詞的頻率。通過神經(jīng)網(wǎng)絡(luò)的最后一層的輸出值,即神經(jīng)網(wǎng)絡(luò)中的分詞概率,將兩者相結(jié)合,綜合判定最后的分詞結(jié)果。算法的分詞模型流程如圖3所示。

      圖3 分詞模型流程圖

      算法采用有三層神經(jīng)元的神經(jīng)網(wǎng)絡(luò)模型,如圖4所示,第一層是輸入層,第二層是隱層,第三層是輸出層。

      從輸入層到隱層采用全連接方式,每一個連接都有一個權(quán)重。輸出層只有一個神經(jīng)元,該神經(jīng)元的輸出表示當前字后面的位置是否為分詞位置。神經(jīng)元的輸出值小于閾值的時候,輸出為0,表示當前字之后位置并非分詞位置;反之則輸出為1,表示當前字之后位置即為分詞位置。

      圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

      分詞網(wǎng)絡(luò)開始學習時,內(nèi)部連接權(quán)值,閾值初始化,初始化的值可以隨機賦予。為各網(wǎng)絡(luò)單元提供一組輸入輸出模式對,獲得各單元的輸出值并求出其參考誤差。根據(jù)各單元參考誤差,調(diào)整內(nèi)部各連接權(quán)值和閾值大小,使最后輸出值滿足要求,從而完成一次迭代。然后選擇下一組輸入輸出模式對,重復(fù)上面過程。當最后一組模式對迭代完成后,重復(fù)第一對模式對的迭代。這樣循環(huán)下去,一直到輸出層誤差滿足要求為止。

      “雙向擇崗”最大的好處之一就是能夠顯示一個站(辦)所的人心向背。一般來說,等量資源、同等條件下人員變動率低的部門應(yīng)當更為融洽、更能擰成一股繩。除黨政辦、黨建站變動率比較高之外,愛衛(wèi)辦、民政所、衛(wèi)生執(zhí)法所(按之前的衛(wèi)計所數(shù)據(jù)統(tǒng)計)人員變動率均高于30%,表明這些部門內(nèi)部人員還不夠團結(jié),凝聚力和吸引力不足。

      在本文的分詞算法中,用Ci標記中文字符[6]。當前送入神經(jīng)網(wǎng)絡(luò)需要進行判定的字符標記為C0。這個字符前的中文字符標記為C-3、C-2、C-1,這個字符后的字符標記為C1、C2、C3。通過這種方式來判斷C0后的位置是否為分詞位置。首先以C0為中心,設(shè)置一個偏移量,得到一系列的中文字符串,相當于以一個變化的滑動窗口為中心進行滑動,將得到的字符串作為候選詞,然后在字典中進行查找,如果找到,記下該候選詞以C0為中心的偏移量和字符串整體長度,并且記錄該詞詞頻。

      得到候選詞后,該候選詞i所代表的分詞輸出為:

      (1)

      (2)

      其中,m表示該詞的詞數(shù)。

      然后按照下面的公式計算出P值:

      P=(Q1+Pn)/2

      (3)

      將計算得到的P值與閾值相比較,如果P值大于閾值,表示當前字后面的位置即為分詞位置,將其后置為1,否則后置為0,同時指針后移進行下一個判斷。

      2.2日志分析關(guān)鍵技術(shù)

      日志分析不僅需要對系統(tǒng)日志進行統(tǒng)一整理研究,還要對用戶操作系統(tǒng)的習慣展開研究。在統(tǒng)計過程中,以統(tǒng)計熱點主題為例,基于MapReduce相關(guān)算法找出最熱門的主題。在應(yīng)用程序中,為每一類型的內(nèi)容設(shè)置一個標簽,以顯示其主題。首先,建立一個Map函數(shù),發(fā)出標簽和一個基于熱門度的值。簡化(Reduce)同一個標簽的所有值,形成這個標簽的分數(shù)。

      在Map函數(shù)中,假設(shè)URI為key,value即為對應(yīng)URI的點擊次數(shù)。這樣,在統(tǒng)計單個文檔的熱門度時,就會產(chǎn)生一個鍵值對,并以此作為中間結(jié)果輸出。但是單獨文檔中不可避免地會出現(xiàn)同樣的URI,這就意味著會有不少重復(fù)的鍵值對產(chǎn)生。將這些相同的結(jié)果傳遞給Reduce時,會消耗帶寬,對系統(tǒng)運行效率產(chǎn)生很大影響。

      針對這種情況,為了有效節(jié)省帶寬和提高系統(tǒng)運行效率,可以考慮在Map運行結(jié)束后先將相同中間結(jié)果進行合并,再傳遞給Reduce函數(shù)。具體實現(xiàn)流程如圖5所示。

      圖5 MapReduce數(shù)據(jù)分析流程圖

      2.3個性化推薦關(guān)鍵技術(shù)

      在系統(tǒng)數(shù)據(jù)處理信息過程中,采用的算法為TF-IDF算法。這種算法能夠?qū)?shù)據(jù)進行相似性模擬運算,從而得到需要的結(jié)果[7]。

      在TF-IDF算法中,TF是基于特定關(guān)鍵詞的出現(xiàn)頻率,IDF則是特定關(guān)鍵詞的重要性。TF能夠反映文檔中某些特定值被提及的次數(shù),進而體現(xiàn)出該文檔的關(guān)注點。在對熱點詞匯進行篩選統(tǒng)計的過程中,還需要設(shè)置對一些無意義助詞進行篩選的篩選因子。在對TF進行統(tǒng)計后,將IDF因子引入算法進行檢索評價篩選,剔除那些無意義的助詞,以確保獲得的推薦數(shù)據(jù)均為能夠反映用戶行為的信息。

      假定文檔集合D={D1,D2,…,Dn},匹配關(guān)鍵詞(Key word)為 Term,Term 在其中一個文檔中的頻次為C={C1,C2,C3,…,Cn},Term 在所有文檔中的頻次為Nt,則Di中Term的 TF-IDF 計算公式為:

      (4)

      TF-IDF將文檔內(nèi)的全部數(shù)據(jù)作為一個整體進行分析,這種算法并沒有針對特征詞在不同類目中的屬性進行區(qū)分,在文檔不同類目下特征詞的權(quán)重應(yīng)該有所不同。結(jié)合算法的描述,部分高熱度的能夠反映特征的信息權(quán)重較低。比如說某個特征詞在全部文檔中大量出現(xiàn),那么這個特征詞的IDF值應(yīng)該是比較低的。但是如果該詞僅僅在某一個類目中大量出現(xiàn),而在其他類目中很少出現(xiàn),那么應(yīng)該給予它較高的IDF值。對于這種問題,需要對TF-IDF算法進行優(yōu)化,增加那些在類目中具有代表性的特征詞的權(quán)值,以便于更加精確地對實際文檔的關(guān)鍵詞進行統(tǒng)計篩選。

      設(shè)文檔總數(shù)為N,包含當前特征項Term的文檔數(shù)為n,其中在某一類目C中有m個文檔包含該特征項,非C類中有i個文檔包含該特征項??梢栽O(shè):

      (5)

      (6)

      其中,m1>m2。

      在式(6)中,當m增大時,f(m)增大;當i增加時,f(m)減小,這正好能滿足算法改進的思想,所以,Term新的IDF計算公式為:

      (7)

      3實驗結(jié)果和分析

      3.1全文檢索性能分析

      全文檢索有兩個衡量標準,分別是查全率和查準率。其中,查全率=(檢索出的所有有關(guān)信息量/系統(tǒng)中所有有關(guān)信息量)×100%;而查準率=(檢索出的有關(guān)信息量/檢索出的所有信息量)×100%。

      本系統(tǒng)使用提前準備好的100篇本地文檔作為測試數(shù)據(jù),包括pdf、html、doc、xls等格式。選擇5個樣本詞語進行測試,分別使用Lucene自帶分詞器和改進的中文分詞方法,得到的結(jié)果如表1和表2所示。

      從表1和表2可以看出,應(yīng)用基于語義的中文分詞技術(shù)后,全文檢索的查全率并沒有太大的變化,只提高了2.1%,但是系統(tǒng)的查準率提高了9.7%,有了大幅度提高,這充分說明使用基于語義的中文分詞方法,有助于提高系統(tǒng)檢索效率和準確性。

      表1 改進前檢索系統(tǒng)查全率和查準率

      表2 改進后檢索系統(tǒng)查全率和查準率

      3.2系統(tǒng)性能分析

      根據(jù)系統(tǒng)集群配置情況,采用相對應(yīng)的數(shù)據(jù)量對系統(tǒng)進行檢測,并與單機性能做對比。在比較實驗中計算機都需按照此標準進行配置:處理器型號為Intel I5、CPU主頻為3.30 GHz、內(nèi)存容量為4 GB、硬盤總?cè)萘繛? TB。其中,Hadoop集群由3臺這樣配置的計算機搭建,單機模式則只由1臺這樣配置的計算機搭建。然后對索引時間進行運算,對兩者性能進行檢測。為得到客觀、真實的結(jié)果,需反復(fù)測驗,選取平局值進行對比,對比結(jié)果如圖6所示。

      圖6 集群與單機模式性能對比圖

      通過圖6可知,在數(shù)據(jù)量不多的情況下,Hadoop集群處理速度明顯低于單機模式,產(chǎn)生此問題的原因在于Hadoop的分布特性。數(shù)據(jù)量過小,無法發(fā)揮集群強大的運算優(yōu)勢。在數(shù)據(jù)由4 GB擴展為20 GB時,Hadoop處理時間沒有出現(xiàn)明顯增加,而單機處理時間卻快速上升。在處理20 GB數(shù)據(jù)時,Hadoop集群的處理速度是單機模式的4倍。根據(jù)對比試驗可知,在處理大規(guī)模數(shù)據(jù)時Hadoop集群優(yōu)勢最突出。

      4結(jié)語

      本文針對傳統(tǒng)的集中式知識管理系統(tǒng)在功能、性能上的一些缺陷,提出了一個基于語義的分布式知識管理系統(tǒng)模型,并對其三個重要功能模塊及核心算法進行改進和介紹。實驗證明,該模型有效地提高了全文檢索的查全率、查準率,提高了系統(tǒng)各項功能模塊以及整個系統(tǒng)集群的工作效率。對于一個完整的知識管理系統(tǒng)來說,仍有很多功能需要加入和完善,如知識門戶、知識地圖、知識社區(qū)等。如何對這些功能模塊進行改進和完善,是進一步提升系統(tǒng)所需要考慮的。

      其次,語義技術(shù)在系統(tǒng)中的應(yīng)用并不是很成熟。本文僅初步使用了本體和語義檢索的相關(guān)技術(shù)來對中文分詞進行改進。在下一步的改進中,應(yīng)該加強對本體推理、概念約束等技術(shù)的應(yīng)用,以提高系統(tǒng)設(shè)計水平和檢索效率。

      總體而言,一個完善的知識管理系統(tǒng),對于企業(yè)的發(fā)展創(chuàng)新和提升競爭力都具有十分關(guān)鍵的意義。分布式技術(shù)和語義技術(shù)的應(yīng)用,為系統(tǒng)的檢索和運行效率提供了穩(wěn)固的技術(shù)保障。

      參考文獻:

      [1]李艷青,國外知識管理與信息管理的概念框架[J],創(chuàng)新科技,2013(4):24-25.

      [2]馮蘭萍,張繼國. 基于本體的中文信息檢索模型[J]. 河海大學常州分校學報,2004(4):40-42.

      [3]Bill Franks.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013.

      [4]金保華,趙家明.基于語義的應(yīng)急預(yù)案庫檢索本體表示研究[J].中原工學院學報,2014,25(6):89-92.

      [5]Gao J F, Wu A D, Li M, et al. Adaptive Chinese Word Segmentation[C]//42nd Annual Meeting of the Association for Computational Linguistics,Barcelona,Spain,2004.

      [6]Jin K L, Ng H T, Guo W. A Maximum Entropy Approach to Chinese Word Segmentation[C]//Proceedings of the Fourth Sighan Work-shop on Chinese Language Processing, Jeju Island, Korea,2005.

      [7]唐真.基于 hadoop 的推薦系統(tǒng)設(shè)計與實現(xiàn)[D]. 成都:電子科技大學,2013.

      (責任編輯:席艷君)

      收稿日期:2016-05-30

      基金項目:河南省基礎(chǔ)與前沿技術(shù)研究計劃項目(142300410226)

      作者簡介:王志華(1977-),男,河南鄲城人,副教授,碩士,主要研究方向為信息處理。

      文章編號:1671-6906(2016)03-0078-06

      中圖分類號:TP391

      文獻標志碼:A

      DOI:10.3969/j.issn.1671-6906.2016.03.018

      Distributed Knowledge Management System Model Based on Semantic

      WANG Zhi-hua, LIU Yan-peng

      (Zhengzhou University, Zhengzhou 450052, China)

      Abstract:In view of the existing centralized application of the knowledge management system limitations of the traditional retrieval technology is more and more outstanding, this paper proposes a distributed knowledge management system based on semantic model. Based on the construction of the Knowledge Management System modules,this paper focuses on the analysis and implementation of key technology such as the full-text search, log analysis and personalized recommendation. It proposes and implements a Chinese Word Segmentation which combines neural networks and string matching, improves an Improved algorithm and applies it to log analysis module, achieves personalized recommendation module with the improved TF-IDF algorithm and Completes the knowledge management system model. Finally, experimental results show that the model retrieval efficiency and system efficiency are improved and ascend .

      key words:knowledge management; distributed; semantic search

      猜你喜歡
      知識管理分布式
      分布式光伏發(fā)展的四大矛盾
      能源(2017年7期)2018-01-19 05:05:03
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      人力資源管理實踐、知識管理導(dǎo)向與企業(yè)績效
      基于知識管理的高校圖書館管理創(chuàng)新
      提升企業(yè)知識管理能力 增強企業(yè)的強勁發(fā)展態(tài)勢
      檔案管理與知識管理的關(guān)系研究
      大數(shù)據(jù)時代高校學生知識管理
      科技視界(2016年21期)2016-10-17 18:42:37
      我國高新技術(shù)企業(yè)實施知識管理的重要性研究
      德安县| 平乡县| 揭西县| 都兰县| 石嘴山市| 永修县| 兴安盟| 水城县| 通海县| 阿拉善右旗| 札达县| 克东县| 洛川县| 张家口市| 铜山县| 肥城市| 石阡县| 吴忠市| 和林格尔县| 屯昌县| 玛纳斯县| 平原县| 石门县| 赤水市| 称多县| 获嘉县| 新宁县| 陆川县| 惠来县| 玛纳斯县| 沂源县| 福安市| 胶南市| 曲阜市| 富裕县| 嘉鱼县| 石首市| 昌邑市| 忻城县| 浦城县| 满城县|