• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識圖譜的人物關(guān)系設(shè)計和實現(xiàn)

      2021-01-29 03:06:44羅潤雨安徽理工大學(xué)
      數(shù)碼世界 2020年12期
      關(guān)鍵詞:張三分詞搜索引擎

      羅潤雨 安徽理工大學(xué)

      互聯(lián)網(wǎng)時代,手握搜索引擎即可將世界一系列信息一覽無余,比如在輸入框中輸入搜索詞,便可以得到相關(guān)的搜索結(jié)果。2012年,搜索巨頭谷歌率先闡釋“知識圖譜”概念,使得搜索結(jié)果產(chǎn)生重大變化。比如在搜索引擎之中輸入數(shù)學(xué)表達式可以獲取所需要的網(wǎng)頁。還可以在搜索之中輸入“張三的爸爸的弟弟的生日”,根據(jù)知識圖譜獲取該人物與張三的關(guān)系,從而找出此人的生日時間。若輸入“蘋果”,由于蘋果可以表示水果中的蘋果,也可以表示是蘋果公司。依據(jù)知識圖譜影響力與關(guān)聯(lián)性,其呈現(xiàn)出的信息數(shù)據(jù)同樣各有差異。借助搜索引擎的方式,能夠基于知識圖譜展開進一步延伸,實現(xiàn)功能的豐富與拓張。知識圖譜不僅僅是各種信息的堆砌,同時亦蘊藏著實體抽取等先進技術(shù),能夠統(tǒng)籌歸納用戶需求目標形成一種觀點關(guān)系展示出來。

      1 數(shù)據(jù)采集層

      1.1 結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入

      系統(tǒng)數(shù)據(jù)在格式方面具備顯著復(fù)雜性,其來源更是極其分散。結(jié)構(gòu)化數(shù)據(jù)主要包含了oracle、mysql、txt、excel。非結(jié)構(gòu)化數(shù)據(jù)則主要以極具普及性的txt以及word為主。由于結(jié)構(gòu)化數(shù)據(jù)差異,與之關(guān)聯(lián)的適配器亦有差別,因而應(yīng)當確保數(shù)據(jù)導(dǎo)入環(huán)節(jié)分門別類,更具契合度。比如某個數(shù)據(jù)庫某個數(shù)據(jù)表中有9千萬條數(shù)據(jù),應(yīng)用sqlserver格式,數(shù)據(jù)則是需要囊括頭字段名,比如QQ號是2個字段,郵箱號是1個字段,備注信息文本是1個字段。若web進行消息傳輸時需要用到worker,那么此時workersql獲取任務(wù)指令,即選擇動態(tài)讀取數(shù)據(jù)的方式,首先讀取100萬條數(shù)據(jù)并且保存為csv文件,其于hbase表形成記錄一項,同時于Recod表形成記錄一項,在此之后,傳輸消息至worker,當workerimp完成接受之時,針對抽取方式展開相應(yīng)識別。其中兩大重要元素郵箱以及QQ無需進行抽取,備注則是應(yīng)當展開分詞抽取,根據(jù)每個分詞結(jié)果,對已有類庫的規(guī)則進行匹配,并且標上標簽。隨后于orientdb范圍之中對于抽取實體進行儲存處理。隨后展開后續(xù)流程,最終即可有效達成sqlserver導(dǎo)入目標。

      1.2 靜態(tài)文本數(shù)據(jù)監(jiān)聽導(dǎo)入

      文本數(shù)據(jù)一直以來都是系統(tǒng)范疇具有重要影響力的數(shù)據(jù)源泉,每一條數(shù)據(jù)格式是json,其中還包括了data、detip、srcip等字段。每個文件有將近有1萬條數(shù)據(jù),系統(tǒng)會不斷的進行文件更新,針對這些數(shù)據(jù)的來源需要在mongodb數(shù)據(jù)庫之中導(dǎo)入這些數(shù)據(jù)。導(dǎo)入過程中可能會存在的問題是部分數(shù)據(jù)寫一部份數(shù)據(jù)被讀取,從而導(dǎo)致數(shù)據(jù)導(dǎo)入不完整。無法監(jiān)聽所有的文件。

      1.3 mongodb存儲原始數(shù)據(jù)

      在大數(shù)據(jù)時代,原本根深蒂固關(guān)系型數(shù)據(jù)庫難以應(yīng)對海量的數(shù)據(jù)搜索、存儲,索引,要解決此問題首要任務(wù)就是提高可擴展性,實現(xiàn)高效存儲。sql層面很難解決此問題,但是nosql可以解決,sql在關(guān)系層面有著業(yè)務(wù)優(yōu)勢,而nosql在數(shù)據(jù)存儲與數(shù)據(jù)擴展性方面有著巨大的優(yōu)勢。nosql數(shù)據(jù)庫包含混合數(shù)據(jù)庫、圖數(shù)據(jù)庫、文檔型數(shù)據(jù)庫等。

      1.4 實體抽取

      當前具備影響力與有效性的分詞方案堪稱雙峰插云,由中科院設(shè)計的ICTCLAS分詞系統(tǒng)以及哈工大設(shè)計的LTP平臺,均圍繞非結(jié)構(gòu)化文本實體抽取這一重要技術(shù)展開,對于結(jié)果進行系統(tǒng)分析之后進行抽取分析,是實體抽取技術(shù)FLP的有效呈現(xiàn)。FLP其針對LTP特征,以及難以有效踐行號碼類范疇任務(wù)等問題進行針對性補充。主要利用了數(shù)字自動機正則引擎,實現(xiàn)對于包括hanLP各項名稱進行識別,隨后利用基于數(shù)字類實體進行的一系列抽取等等展開,應(yīng)用范圍極其廣布。ICTCLAS系統(tǒng)則是圍繞中文自然語言進行分詞,其基礎(chǔ)在于詞性界定,隨后即可完成對于目標名詞的識別,進而判定姓名,書名,商品名,企業(yè)名等等,并將其歸入用戶詞典范疇,完成識別過程中的詞匯無需重復(fù)分詞。

      2 知識圖譜應(yīng)用

      數(shù)據(jù)展示需要依靠底層知識圖譜,不同實體建立起一系列關(guān)聯(lián),將其進行集合即可獲取網(wǎng)狀結(jié)構(gòu),可視化含義是把許多的信息、數(shù)據(jù)以及知識轉(zhuǎn)化成一種人類的可視化,知識圖譜的作用在于幫助人們以宏觀視角完成對于目標事物的識別與了解,進而提升查詢效率以及記憶程度。借助分析數(shù)據(jù)的方式可以找到數(shù)據(jù)關(guān)聯(lián)聯(lián)系,從中找到直接測算數(shù)據(jù)難以精準得出的其他關(guān)聯(lián),實現(xiàn)認知水平的有效趨升?,F(xiàn)如今可視化研究發(fā)展愈發(fā)廣泛性與先進性,知識圖譜作為其中最具關(guān)鍵性的分支未來前景愈發(fā)可觀。

      2.1 基于搜索引擎的關(guān)聯(lián)查詢

      知識圖譜有著廣泛的運用,甚至被譽為未來搜索引擎的靈丹妙藥。在搜索欄中輸入“張三”,可以顯示出有關(guān)“張三”的基本信息,還包括“張三”的個人經(jīng)歷,朋友關(guān)系等信息,以及其他的一些人員信息。這一類信息并非屬于張三直接信息,不過借助知識圖譜,能夠以“張三”為核心進行輻射,找到與其關(guān)聯(lián)的實體,隨后完成對于相關(guān)數(shù)據(jù)的歸納構(gòu)設(shè)。倘若外延程度更廣,捕捉到的實體信息亦將愈發(fā)繁雜,不過科學(xué)指出查詢應(yīng)當限制在六層之內(nèi),原因在于以外數(shù)據(jù)不具備過高借鑒價值。

      2.2 可視化關(guān)聯(lián)分析圖

      關(guān)鍵資源的分析圖是知識圖譜之中一個重要內(nèi)容。知識圖譜的關(guān)鍵點在于把握實體之間的關(guān)聯(lián)差異。應(yīng)當認識到,關(guān)聯(lián)分析圖通常需要基于分組展開,兩實體與整體并不屬于直接關(guān)聯(lián)狀態(tài),其主要依據(jù)分組節(jié)點的方式完成相應(yīng)關(guān)聯(lián)。舉例而言,小賈與小譚是同學(xué)關(guān)系,小賈與小陳同樣亦是同學(xué)關(guān)系,此時借助“相關(guān)人員”這一節(jié)點完成整體串聯(lián),小賈關(guān)聯(lián)相關(guān)人員,相關(guān)人員則是分別延伸至小賈與小譚。

      3 知識圖譜查詢管理

      知識圖譜的出現(xiàn),使得語義搜索重綻生機,在語義網(wǎng)絡(luò)中知識圖譜有著巨大的作用。從某種角度而言,知識圖譜屬于傳統(tǒng)搜索引擎的科學(xué)升級,搜索引擎通過語義網(wǎng)絡(luò)實體之間的關(guān)系從而優(yōu)化搜索,從某一個人物出發(fā)從而找出人物之間的關(guān)系,以此遞歸下去,隨著遞歸次數(shù)增加,重要性也就降低。知識圖譜在關(guān)聯(lián)關(guān)系查詢方面有著很大運用,可以在數(shù)據(jù)繁雜的數(shù)據(jù)群體中有效識別數(shù)據(jù)存在的關(guān)聯(lián)性。在關(guān)系網(wǎng)中,和張三有關(guān)聯(lián)關(guān)系的人主要是來自于知識圖譜,張三有朋友,親人,老婆,父母,每一個人物能夠逐次打開,同時繼延伸。通過定性與定量分析,從而完整地展示知識圖譜體系。

      4 結(jié)語

      隨著知識圖譜的飛速發(fā)展,Google便是基于知識圖譜展開深層次的搜索升級,使得無論輸入什么搜索關(guān)鍵詞,都可以提取到需要的信息,給予用戶高質(zhì)量體驗。隨著知識圖譜技術(shù)的不斷更新,幾乎全部的搜索引擎都不斷地靠近知識圖譜,輸入任何一個關(guān)鍵詞,從而得到自己想要的結(jié)果,然而需要意識到,知識圖譜無論功能效果多顯著多領(lǐng)先,其核心都需要圍繞知識庫展開,因此未來對于知識庫的選擇與審視同樣不容小覷。

      猜你喜歡
      張三分詞搜索引擎
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      值得重視的分詞的特殊用法
      下車就跑
      東方劍(2016年6期)2016-08-27 06:12:27
      讀張三書法之感想
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      尋找張三
      小說月刊(2014年1期)2014-04-23 08:59:55
      我的名字叫張三
      小說月刊(2014年11期)2014-04-18 14:12:24
      廣告主與搜索引擎的雙向博弈分析
      高考分詞作狀語考點歸納與疑難解析
      锡林郭勒盟| 田林县| 剑阁县| 文水县| 西丰县| 连南| 大竹县| 平远县| 乳山市| 澎湖县| 灌南县| 太湖县| 清新县| 綦江县| 新巴尔虎左旗| 邵阳市| 双城市| 彭阳县| 应城市| 密云县| 延吉市| 宜兰县| 杭州市| 安义县| 元谋县| 赞皇县| 揭西县| 凤山县| 绥芬河市| 忻州市| 资兴市| 城市| 五家渠市| 海阳市| 晋州市| 麟游县| 瑞金市| 简阳市| 铁岭县| 梁河县| 武夷山市|