• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實體對齊的知識圖譜構(gòu)建研究

      2018-06-28 09:04:54,
      關(guān)鍵詞:百科結(jié)構(gòu)化圖譜

      ,

      ( 1. 安徽科技學院信息與網(wǎng)絡工程學院,安徽 滁州 233100; 2.北京郵電大學計算機學院,北京 100876 )

      0 引 言

      知識圖譜自2012年由谷歌提出后,引起了人們的廣泛關(guān)注。如Knowledge Graph[1],DBpedia[2]、百度知心,以及清華大學和上海交通大學建立的XLORE[3]和Zhishi.me[4]。這些知識圖譜大都是利用群體智能在已有的結(jié)構(gòu)化知識上建立的,對非結(jié)構(gòu)化的文本信息覆蓋比較少。由于大部分的實體都沒有結(jié)構(gòu)化的信息,在使用時僅覆蓋少數(shù)領(lǐng)域。因此面向領(lǐng)域的知識圖譜的研究逐漸引起人們的注意,清華大學的楊玉基[5]等人提出通過“四步法”,基于領(lǐng)域本體、語義標注和互聯(lián)網(wǎng)數(shù)據(jù)準確高效的構(gòu)建地理學科知識圖譜,為構(gòu)建領(lǐng)域知識圖譜提供新的思路。杜亞軍[6]等為了擴大微博搜索的效率,通過提取微博社區(qū)中的人物、事件、地點、話題和事件等概念及概念之間的組合關(guān)系構(gòu)建微博社區(qū)知識圖譜,并對圖譜進行分析。熊晶[7]等為了提高甲骨文信息共享率,基于MKD知識圖譜和甲骨文中隱含的語義關(guān)系,重點解決甲骨文知識圖譜構(gòu)建過程中的實體發(fā)現(xiàn)問題。唐詩是中國文學史上的燦爛明珠,作品量比較多,如果利用知識圖譜技術(shù)建立唐詩、作者和地點等關(guān)系圖譜,可以幫助學習者從多個方面研究唐詩文化,從而挖掘其中深層次的知識。但是,關(guān)于詩詞知識圖譜的研究還處于初期,由于現(xiàn)在可依賴的詩詞書籍和網(wǎng)絡資源比較豐富,百科類的數(shù)據(jù)如維基百科和互動百科中關(guān)于詩詞和詩人介紹的也比較多,因此在分析各種數(shù)據(jù)源的基礎(chǔ)上,探討基于實體對齊的知識圖譜構(gòu)建方法,系統(tǒng)技術(shù)路線如圖1所示,共分為三個部分。分別是數(shù)據(jù)來源、知識圖譜構(gòu)建的關(guān)鍵技術(shù)和知識圖譜存儲。其中,數(shù)據(jù)來源部分主要自動抓取百科和垂直網(wǎng)站中的詩人相關(guān)的數(shù)據(jù);知識圖譜構(gòu)建的關(guān)鍵技術(shù)包含構(gòu)建本體模型,抽取實體和屬性相關(guān)數(shù)據(jù)并通過實體對齊技術(shù)對數(shù)據(jù)進行融合;最后把融合后的知識圖譜存儲到數(shù)據(jù)庫中為查詢和推理提供技術(shù)支持。

      圖1 系統(tǒng)技術(shù)路線圖

      1 數(shù)據(jù)來源

      1.1 百科類數(shù)據(jù)

      百科類網(wǎng)站以圖的結(jié)構(gòu)存儲大量的用戶生成數(shù)據(jù),覆蓋面比較廣,各個領(lǐng)域的數(shù)據(jù)都會涉及,因此可做為面向領(lǐng)域的知識圖譜的數(shù)據(jù)來源之一。在中文領(lǐng)域,比較知名的是維基百科、百度百科和互動百科,它們都含有詩人、古詩和地點的結(jié)構(gòu)化數(shù)據(jù),每個頁面具體包括標題、類別標簽、信息框和摘要等信息。標題一般對應實體的名字。類別標簽表示實體所屬的類別,比如,在百度百科中,實體“李白”的標簽有“詩人”,“文學家”,“文化人物”和“歷史人物”。信息框可以作為實體屬性和實體關(guān)系的來源,摘要主要是描述實體的文本信息。

      1.2 其他數(shù)據(jù)源

      面向領(lǐng)域的網(wǎng)站上的數(shù)據(jù)是半結(jié)構(gòu)化,描述的也是特定領(lǐng)域的知識,很多站點都是把保存在數(shù)據(jù)庫中某些領(lǐng)域的知識展示出來。雖然范圍比較窄,但是專業(yè)性比較強,是構(gòu)建知識圖譜中比較好的數(shù)據(jù)來源。目前關(guān)于詩詞的網(wǎng)站比較多,古詩文網(wǎng)作為傳承經(jīng)典的網(wǎng)站,專注于古詩文的服務,包括各個朝代的作者簡介,詩詞和古籍信息等,數(shù)據(jù)比較集中和完備,所以從該網(wǎng)站爬取了42153條唐代所有作者的詩詞信息來補充和擴充從百科中爬取的數(shù)據(jù)。

      2 關(guān)鍵技術(shù)

      2.1 本體構(gòu)建

      知識圖譜的構(gòu)建可采用自頂向下和自底向上的方法,自頂向下主要是先構(gòu)建本體[8],為知識圖譜提煉模式,定義領(lǐng)域內(nèi)的概念、關(guān)系后,再把實體一個個添加進去。自底向上的方法則是從實體開始進行歸納底層的概念,然后逐步抽象上層的概念。這里采用自頂向下的方法構(gòu)建知識圖譜,統(tǒng)計在相關(guān)資料中出現(xiàn)頻率相對較高的術(shù)語作為領(lǐng)域內(nèi)的核心概念,如“地點”、“詩人”和“古詩”等,每個概念下都有若干實體,如“詩人”這個概念下就包含“李白”、“杜甫”、“白居易”等實體。另一方面,關(guān)系也是知識圖譜的核心要素,他描述了領(lǐng)域內(nèi)的概念、實體之間的相互作用,關(guān)系越多知識圖譜越豐富。關(guān)系的類型參考百科的標簽、實體的信息框及在文本中抽取的關(guān)系來確定,其中最主要的是上下位關(guān)系。

      2.2 信息抽取

      信息抽取主要是自動的從多數(shù)據(jù)源中抽取出實體、關(guān)系及屬性等信息。抽取實體是指從文本集中抽取人命、地名或組織結(jié)構(gòu)名等,它是信息抽取的基礎(chǔ),這里利用斯坦福的實體識別工具進行抽取。而實體之間的關(guān)系可分為上下位關(guān)系、屬性關(guān)系及開放式關(guān)系。上下位關(guān)系是描述實體間包含與被包含的語義關(guān)系,上位詞是指比較廣泛的概念,下位詞是指比較窄的概念。如上例中“李白”就是其標簽“詩人”的下位詞,可以通過百科中的描述信息獲得。同樣屬性關(guān)系可以通過百科中的信息框得到,它包含大量的屬性關(guān)系元組,比如“李白”的信息框中有屬性“去世地”是“安徽馬鞍山市當涂縣”,通過這個關(guān)系就把詩人和地點信息建立了關(guān)聯(lián)。利用Selenium爬取百科類的數(shù)據(jù),并對同一實體的屬性值進行整合。如圖2所示,從百度百科、互動百科和維基百科中獲取的“白居易”的信息框,對姓名屬性,各百科中的描述是不一樣的,在構(gòu)建圖譜前需要整合。但是百科中的信息畢竟有限,在非結(jié)構(gòu)化的文本集中也存在大量的關(guān)系元組,因為該領(lǐng)域的關(guān)系類型比較稀少,因此這里采用人工定義關(guān)系類型,然后自動抽取“實體-關(guān)系-實體”元組來擴充知識圖譜。

      圖2 實體屬性整合

      圖3 CBOW模型結(jié)構(gòu)圖

      圖4 詩人知識圖譜展示

      2.3 實體對齊

      不同的網(wǎng)站可能包含對同一實體的描述數(shù)據(jù),當基于多數(shù)據(jù)源來構(gòu)建知識圖譜時,需要對實體對齊,找出不同來源的實體是否描述的是現(xiàn)實世界中的同一實體,以便把開放領(lǐng)域抽取的三元組添加到知識圖譜中,對知識圖譜進行擴充。如 “王維”可能指唐朝詩人、畫家,也可能指清華大學教授、博士生導師和北京兒童醫(yī)院副主任醫(yī)師等。因此,當我們擴充知識圖譜時,首先要進行實體對齊。主要基于詞向量來表示實體的上下文,通過文本相似性完成對齊。Mikolov提出的詞向量主要是將字詞轉(zhuǎn)為計算機可以理解的稠密向量[9],包括CBOW和Skim-Gram兩種模式,CBOW主要是根據(jù)上下文來預測目標字詞,適用于小語料,而Skip-Gram則是根據(jù)目標字詞預測上下文,在大型語料上表現(xiàn)比較好。由于主要是對唐代詩人數(shù)據(jù),因此這里主要采用CBOW模型來訓練數(shù)據(jù)。模型結(jié)構(gòu)如圖3所示,給定一個單詞wt的上下文序列wt-2,wt-1,…,wt+1,wt+2,采用層次softmax算法,并結(jié)合Huffman編碼,讓要預測詞的二進制編碼概率最大。

      訓練好詞向量后,實體所在的上下文就可以通過其含有的所有詞的詞向量相加并取平均值的方式表示,公式如下所示:

      (1)

      其中,wt表示特征詞t的詞向量,N(c)表示上下文c中的詞數(shù),v(c)是上下文c的向量表示。同樣,知識圖譜中的實體也可以用上述公式把它的描述信息k的向量表示為v(k),然后通過余弦相似度公式計算兩個實體的相似性,當余弦值大于0.7時,認為它們是同一實體,把它添加到知識圖譜中。

      3 知識圖譜存儲

      構(gòu)建好知識圖譜后,需要進行合理的存儲,以便高效的查詢和展示。在唐代詩人知識圖譜中,概念、實體之間存在非常復雜的關(guān)聯(lián),所有的節(jié)點構(gòu)成一張圖,因此,可使用圖數(shù)據(jù)庫進行存儲和展示。常用的圖數(shù)據(jù)庫Neo4j,F(xiàn)lockDB,InfoGrid等,其中Neo4j是一個高性能的圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡上而不是表中。實現(xiàn)了圖結(jié)構(gòu)中的節(jié)點,邊以及屬性來進行圖數(shù)據(jù)的存儲,比較適合知識圖譜的存儲和展示。這個使用Neo4j來存儲構(gòu)建好的圖譜,圖4展示了唐代詩人知識圖譜的一部分。這里單個節(jié)點表示實體,實體之間的連線表示存在一點的關(guān)系。比如“送人東游”、“臨洞庭上張丞相”和“望月懷遠”和“荊州”之間都存在寫作地點這樣的關(guān)系,這就可以為按地點的詩詞查詢和推薦提供服務。

      4 結(jié) 語

      知識圖譜可以從海量的數(shù)據(jù)中提取結(jié)構(gòu)化的知識,因此為多源數(shù)據(jù)的組織提供了一種更為有效的方式。目前,知識圖譜已在智能搜索、深度問答、社交網(wǎng)絡以及一些垂直行業(yè)中有所應用。但許多領(lǐng)域的應用也只是處于初級階段,古詩詞是中華民族的瑰寶,可以熏陶人的文學素養(yǎng)和言行舉止。但是,現(xiàn)在古詩詞的數(shù)據(jù)分布比較廣,類型多樣,基于實體對齊技術(shù),以唐詩為例,獲取大量的地點、詩人和古詩相關(guān)的信息,構(gòu)建唐代詩人知識圖譜,為有效的組織詩詞數(shù)據(jù)以及探索知識圖譜在行業(yè)領(lǐng)域的應用提供了新思路。

      參考文獻:

      [1] Singhal A. Introducing the knowledge graph: things, not strings. Official Google Blog, 2012-5.

      [2] Bizer C, Lehmann J, Kobilarov G, et al. DBpedia-A crystallization point for the Web of Data. Web Semantics: science, services and agents on the world wide web, 2009, 7(3): 154-165.

      [3] Wang Z, Li J, Wang Z, et al. XLore: A Large-scale English-Chinese Bilingual Knowledge Graph[C]//International semantic web conference (Posters & Demos). 2013, 1035: 121-124.

      [4] Niu X, Sun X, Wang H, et al. Zhishi. me-weaving chinese linking open data[C]//International Semantic Web Conference. Springer, Berlin, Heidelberg, 2011: 205-220.

      [5] 楊玉基,許斌,胡家威,等.一種準確高效的領(lǐng)域知識圖譜構(gòu)建方法.軟件學報,2018,29(10).

      [6] 杜亞軍,吳越.微博知識圖譜構(gòu)建方法研究[J].西華大學學報 (自然科學版), 2015,34(1): 27-35.

      [7] 熊晶,鐘珞,王愛民.甲骨文知識圖譜構(gòu)建中的實體關(guān)系發(fā)現(xiàn)研究[J].計算機工程與科學,2015, 37(11): 2188-2194.

      [8] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods[J]. Data & knowledge engineering,1998, 25(1-2): 161-197.

      [9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space. ICLR Workshop, 2013.

      猜你喜歡
      百科結(jié)構(gòu)化圖譜
      促進知識結(jié)構(gòu)化的主題式復習初探
      繪一張成長圖譜
      結(jié)構(gòu)化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      樂樂“畫”百科
      百科小知識
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      探索百科
      基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
      梧州市| 娄烦县| 赤壁市| 宁陵县| 韶关市| 葵青区| 曲靖市| 平陆县| 桑植县| 安塞县| 祁门县| 甘肃省| 雅安市| 岢岚县| 宜章县| 黄冈市| 常德市| 吉安市| 栖霞市| 吉林省| 衡南县| 武山县| 金门县| 崇礼县| 年辖:市辖区| 千阳县| 方山县| 济南市| 石泉县| 罗源县| 普陀区| 克什克腾旗| 安达市| 绥化市| 武安市| 昔阳县| 梧州市| 辽宁省| 灵山县| 革吉县| 七台河市|