• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的知識圖譜應(yīng)用研究

      2019-09-25 06:08:11王立平曹立勇吳興燕丁衛(wèi)明
      科技視界 2019年21期
      關(guān)鍵詞:知識圖譜大數(shù)據(jù)

      王立平 曹立勇 吳興燕 丁衛(wèi)明

      【摘 要】隨著互聯(lián)網(wǎng)和信息的高速發(fā)展,知識圖譜得到了廣泛的關(guān)注。本文介紹了知識圖譜的發(fā)展現(xiàn)狀和實際應(yīng)用情況,并綜述了知識圖譜的關(guān)鍵技術(shù)模塊:知識表示、知識抽取、知識融合和知識推理。進一步對知識圖譜的發(fā)展和應(yīng)用前景進行了展望。

      【關(guān)鍵詞】知識圖譜;大數(shù)據(jù);知識表示

      中圖分類號: TP311.13;TP391.1文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2019)21-0089-002

      DOI:10.19694/j.cnki.issn2095-2457.2019.21.040

      Application Research Based on Big Data Knowledge Graph

      WANG Li-ping CAO Li-yong* WU Xing-yan DING Wei-ming

      (Anqing Medical College,Anqing Anhui 246052,China)

      【Abstract】With the rapid development of the Internet and information,the knowledge graph has received extensive attention.This paper introduces the development status and practical application of knowledge graph,And summarizes the key technical modules of the knowledge graph:Knowledge Representation、Knowledge Extraction、Knowledge Fusion and Knowledge Inference.Furthermore,the development and application prospect of knowledge graph are prospected.

      【Key words】Knowledge Graph;Big Data;Knowledge Representation

      0 引言

      隨著大數(shù)據(jù)時代的到來,海量的數(shù)據(jù)信息呈爆炸式增長。如何從這些數(shù)據(jù)信息中抽取有效的知識,并表示和存儲從而更好地為人類和機器理解使用是當(dāng)前熱門的研究課題。然而互聯(lián)網(wǎng)上的內(nèi)容多源異質(zhì)、結(jié)構(gòu)松散為知識的抽取、表示和存儲帶來了極大的挑戰(zhàn)。知識圖譜就是在這種背景下產(chǎn)生的課題。近幾年,知識圖譜得到了廣泛的關(guān)注,通過數(shù)據(jù)整理、數(shù)據(jù)挖掘、機器學(xué)習(xí)和專家系統(tǒng)等技術(shù),知識圖譜的應(yīng)用得到了長足的發(fā)展。但目前知識圖譜的應(yīng)用研究尚處在起步階段且存在限制多、效率低、拓展性差等缺點。

      1 知識圖譜的研究現(xiàn)狀

      知識圖譜的概念于2012年5月被Google正式提出,原來的目的主要是為了提高搜索引擎的能力,提升搜索結(jié)果的質(zhì)量以便更好滿足用戶的搜索體驗。本質(zhì)上,知識圖譜是描述各種實體或概念及其關(guān)系,它們構(gòu)成了一張巨大的語義圖,節(jié)點表示實體或概念,邊則是節(jié)點的屬性或關(guān)系構(gòu)成。

      隨著人工智能的不斷發(fā)展和應(yīng)用,知識圖譜在學(xué)術(shù)界和工業(yè)界得到了普及,并在智能檢索、智能問答、大數(shù)據(jù)風(fēng)控、推薦系統(tǒng)等領(lǐng)域發(fā)揮出了重要的作用。國際上最具影響力的知識圖譜主要包括以下幾種:谷歌知識圖譜Freebase[1]是一個類似于Wikipedia的創(chuàng)作共享類網(wǎng)站,它的所有內(nèi)容都是通過創(chuàng)意共用的方式由用戶添加。YAGO(Yet Another Great Ontology)[2]系列知識圖譜是由德國Max Planck計算機科學(xué)研究所創(chuàng)建,它通過對維基百科和WorldNet的大規(guī)模本體進行整合完成了大規(guī)模本體的構(gòu)建。目前,YAGO擁有10種語言約459萬個實體,2400萬個Facts,且支持?jǐn)?shù)據(jù)集的完全下載。另外還有微軟Satori和Facebook的Entity Graph。其中,2016年10月,微軟亞洲研究院發(fā)布全新的、能幫助計算機更好運作的微軟知識圖譜(Microsoft Concept Graph)[3],它是一個大型的知識圖譜系統(tǒng),包含的知識來自數(shù)以億計的網(wǎng)頁和多年積累的搜索日志,可以為機器提供文本理解的常識性知識。

      隨著大數(shù)據(jù)時代的興起,國外越來越多的研究機構(gòu)和公司都構(gòu)建和發(fā)布了自己的知識圖譜。而國內(nèi)的知識圖譜建設(shè)起步較晚,規(guī)模比較完善的主要集中在幾家大型的互聯(lián)網(wǎng)公司,如百度的知識圖譜Schema[4]、阿里巴巴的商品知識圖譜和搜狗的知立方[5]等。百度的知識圖譜Schema目前主要用來規(guī)范百度內(nèi)外部合作方結(jié)構(gòu)化數(shù)據(jù)交換,以及作為百度知識圖譜構(gòu)建、知識計算的核心數(shù)據(jù)結(jié)構(gòu)。阿里知識圖譜以商品為核心,憑借自身海量數(shù)據(jù),利用實體識別、實體鏈指和語義分析等技術(shù)構(gòu)建了一個龐大的商品庫,以便更好地服務(wù)用戶。而為了讓用戶獲取信息更簡單,搜狗搜索于2012年11月23日發(fā)布全新的知識庫搜索引擎--“知立方”,這是國內(nèi)搜索引擎行業(yè)中首家知識庫搜索產(chǎn)品。

      在醫(yī)療健康領(lǐng)域,目前有Google構(gòu)建了包含常見癥狀、治療手段、受此問題影響的典型年齡組、是否嚴(yán)重等信息的知識圖譜。中國醫(yī)學(xué)院醫(yī)學(xué)信息研究所通過對醫(yī)藥衛(wèi)生領(lǐng)域各類知識的分析、整理,使用圖形學(xué)、信息可視化技術(shù),構(gòu)建的共五大類311種疾病的知識圖譜[6]。中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所主要以“中醫(yī)藥學(xué)語言系統(tǒng)”中10余萬個中醫(yī)概念以及100余萬個語義關(guān)系為知識圖譜的骨架構(gòu)建中醫(yī)藥知識圖譜體系[7]。

      2 知識圖譜的關(guān)鍵技術(shù)模塊

      隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)信息呈爆炸式增長,這些海量的數(shù)據(jù)具有多源、異構(gòu)、組織結(jié)構(gòu)松散等特點,它與用戶有限的獲取知識和處理數(shù)據(jù)的能力之間的矛盾日益明顯。數(shù)據(jù)多源異構(gòu),結(jié)構(gòu)松散的特質(zhì),在信息技術(shù)飛速發(fā)展的今天,知識大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的表格、網(wǎng)頁以及信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中,而隨著普通民眾生活水平的提高,大家對生活品質(zhì)和信息獲取也越來越重視。所以,人們都迫切地需要一種能夠幫助他們簡單快速地獲取數(shù)據(jù)信息的渠道和方法。

      2.1 知識圖譜的定義與表示

      知識圖譜是語義Web基礎(chǔ)下的一種技術(shù)應(yīng)用,是一種圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點和標(biāo)注的邊組成,或者說是由實體和實體間的關(guān)系組成。知識圖譜較為普遍的表示形式是三元組,即G=(head,relation,tail),其中head和tail均為實體,relation=r ,r ,…,r 是實體的關(guān)系集合。三元組的形式有(實體1,關(guān)系,實體2)和(概念,屬性,屬性值)等,實體是知識圖譜的基本元素,關(guān)系是存在于不同實體之間的聯(lián)系,概念主要是指對象、類別、種類等,屬性是指對象具有的特點與性質(zhì),屬性值則是對象特定屬性的值。通過一個標(biāo)識ID來定義實體,實體內(nèi)部通過屬性-屬性值來刻畫,實體間的關(guān)聯(lián)通過關(guān)系來表述。三元組表示一個既定事實,即實體處于給定類型的關(guān)系中。所有三元組構(gòu)成一個圖,其中圖的節(jié)點表示實體,邊表示實體間的關(guān)系。

      按照功能和應(yīng)用來劃分,知識圖譜可以分為通用知識圖譜和行業(yè)知識圖譜。其中通用知識圖譜覆蓋的內(nèi)容更廣,融合的實體更多,但準(zhǔn)確度不高,其主要被應(yīng)用于智能語義搜索領(lǐng)域;行業(yè)知識圖譜則針對特定領(lǐng)域的數(shù)據(jù)來構(gòu)建,實體的屬性和數(shù)值會比較詳細(xì)和規(guī)范,行業(yè)知識圖譜對輔助和指導(dǎo)該行業(yè)有重要的價值。

      2.2 知識圖譜的知識抽取

      基于互聯(lián)網(wǎng)中海量的數(shù)據(jù)信息和開放的行業(yè)數(shù)據(jù)抽取可用的知識單元,包括實體、實體的屬性、實體間的關(guān)系等要素。知識抽取就是將這些不同來源、不同結(jié)構(gòu)的數(shù)據(jù)進行抽取,形成結(jié)構(gòu)化的知識存入到知識圖譜中。其中包括:實體抽取、實體間關(guān)系抽取和屬性抽取等。

      實體抽取是指從數(shù)據(jù)信息中抽取相關(guān)實體信息,比如有人名、地名、機構(gòu)、時間、數(shù)值等。在抽取的過程中不僅要識別實體還要對所抽取的實體進行分類。所屬類別可以根據(jù)知識圖譜的要求而調(diào)整。關(guān)系抽取則是抽取多個的實體的語義關(guān)系。根據(jù)關(guān)系抽取的方法可分為:基于模板的方法、基于監(jiān)督學(xué)習(xí)的方法等。

      2.3 知識圖譜的知識融合

      知識圖譜技術(shù)提供了一種分析抽取知識、融合表示知識、存儲計算知識來構(gòu)建結(jié)構(gòu)化數(shù)據(jù)的方法,并通過深度學(xué)習(xí)和專家系統(tǒng)不斷完善,結(jié)合大數(shù)據(jù)技術(shù)和可視化技術(shù)達(dá)到快速方便地讓人們使用數(shù)據(jù)。針對領(lǐng)域數(shù)據(jù)專業(yè)性強、結(jié)構(gòu)復(fù)雜等特點,知識圖譜技術(shù)在構(gòu)建需要進行更全面的分析和研究。并針對知識的表示、抽取、融合和推理進行深入的分析和比較。

      知識融合最主要的問題就是將來自不同來源和結(jié)構(gòu)的同一種實體的描述進行信息融合。一般要分為兩步來完成,首先是要進行本體對齊,然后在通過相似度計算進行實體匹配。其中實體相似度是根據(jù)實體的屬性相似度向量得到的,而屬性相似度向量則是綜合了各個屬性相似度。屬性相似度的計算常用的方法有距離相似度、集合相似度等。

      3 結(jié)語

      知識圖譜技術(shù)是對語義Web技術(shù)的一次重要改造和升華,我們在依據(jù)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)信息組織原則,探索并構(gòu)建既符合網(wǎng)絡(luò)信息資源不斷變化規(guī)律又能切合適應(yīng)用戶認(rèn)知需求的知識互聯(lián)方法,使其更加深刻地展示整體而相互關(guān)聯(lián)的人類認(rèn)知世界。但目前,知識圖譜的構(gòu)建還面臨著數(shù)據(jù)抽取難度大,知識實體對應(yīng)不準(zhǔn)確、數(shù)據(jù)存儲方式不合理等困難和挑戰(zhàn),也是我們下一步需要去研究和克服的。

      【參考文獻(xiàn)】

      [1]微軟亞洲研究院 https://www.msra.cn/.

      [2]百度知識圖譜Schema http://ai.baidu.com/tech/kg/schema.

      [3]搜狗知立方 https://www.sogou.com/.

      [4]中國醫(yī)學(xué)院醫(yī)學(xué)信息研究所.知識圖譜.http://med.ckcest.cn/knowledge-graphs.html.

      [5]于彤,劉靜,賈李蓉,等.大型中醫(yī)藥知識圖譜構(gòu)建研究[J].中國數(shù)字醫(yī)學(xué),2015,10(3):80-82.

      [6]Xin luna Dong,Evgeniy Gabrilovich,et al. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion[C],Google,1600 Amphitheatre Parkway,Mountain View,CA 94043.

      [7]袁凱琦,鄧揚,陳道源,等.醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)與研究進展[J].計算機應(yīng)用研究,2018,8(7):1929-1936.

      [8]唐偉,洪宇,馮艷卉,等.網(wǎng)頁中商品"屬性—值"關(guān)系的自動抽取方法研究[J].中文信息學(xué)報,2013(1).

      猜你喜歡
      知識圖譜大數(shù)據(jù)
      國內(nèi)圖書館嵌入式服務(wù)研究主題分析
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
      近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      兴山县| 察哈| 博爱县| 天气| 邯郸市| 宁津县| 乡城县| 大埔县| 巴青县| 黄龙县| 葵青区| 紫云| 张家口市| 纳雍县| 会理县| 衡阳县| 黔江区| 佛冈县| 稻城县| 依兰县| 临沧市| 宣恩县| 邓州市| 寿宁县| 固阳县| 黔江区| 中阳县| 黄龙县| 克东县| 合水县| 高唐县| 武安市| 泰宁县| 准格尔旗| 尼玛县| 金寨县| 财经| 梅州市| 普安县| 达州市| 彰化市|