• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識(shí)圖譜在人物檔案利用中的 應(yīng)用研究

      2018-10-11 03:25:44劉曉影
      檔案天地 2018年8期
      關(guān)鍵詞:結(jié)構(gòu)化圖譜檢索

      劉曉影

      一、知識(shí)圖譜及其發(fā)展現(xiàn)狀

      知識(shí)圖譜(Knowledge Graph)2012年由谷歌正式提出,其本質(zhì)是語義網(wǎng)絡(luò)知識(shí)庫,關(guān)注數(shù)據(jù)的本體和語義,強(qiáng)調(diào)的是實(shí)體、以及實(shí)體之間的關(guān)聯(lián),它是一種以語義三元組為結(jié)構(gòu)的知識(shí)庫,以圖模型描述語義關(guān)系,其中的結(jié)點(diǎn)代表實(shí)體或者概念,連接的邊則代表各種語義關(guān)系。知識(shí)圖譜獲取大量計(jì)算機(jī)可讀的知識(shí),對(duì)從不同來源收集到的數(shù)據(jù)進(jìn)行融合并利用清洗技術(shù)進(jìn)行再加工,然后將其表達(dá)成更接近人類認(rèn)知的形式,以便用者能夠更好地組織管理和利用海量信息。隨著知識(shí)圖譜的研究深入和各種工具的出現(xiàn),知識(shí)圖譜作為一種信息分析工具,已經(jīng)成為一種新的知識(shí)管理思路,在搜索引擎、各種智能系統(tǒng)以及數(shù)據(jù)存儲(chǔ)領(lǐng)域都有應(yīng)用。知識(shí)圖譜已經(jīng)成為互聯(lián)網(wǎng)基于知識(shí)的智能服務(wù)的基礎(chǔ)設(shè)施,成為推動(dòng)人工智能發(fā)展的核心驅(qū)動(dòng)力之一。

      二、知識(shí)圖譜應(yīng)用在人物檔案利用中的可行性

      1.優(yōu)勢(shì)

      知識(shí)圖譜具有直觀、定量、高效等諸多優(yōu)點(diǎn)。對(duì)人物檔案加以更好的利用,首先要將其變?yōu)闄C(jī)器可識(shí)別、可讀的數(shù)據(jù),在此可以借助知識(shí)圖譜來進(jìn)行人物檔案的中文實(shí)體識(shí)別。知識(shí)圖譜可以將來自不同檔案來源的數(shù)據(jù)整合,打通人物相關(guān)聯(lián)的數(shù)據(jù)脈絡(luò),將復(fù)雜的人物檔案有序化,可以有效地提高對(duì)人物特征提取,分析人物關(guān)系,解決實(shí)際的問題需求,提高人物檔案的利用率,推動(dòng)檔案公眾化服務(wù)進(jìn)程的加快。知識(shí)圖譜對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的良好處理能力,可幫助高效地實(shí)現(xiàn)檔案中人物信息的分類和完善標(biāo)簽,同時(shí),知識(shí)圖譜還具有非常多的優(yōu)勢(shì),它的規(guī)模巨大、語義關(guān)系豐富、結(jié)構(gòu)友好,比如常用RDF來表示等等,可以用于輔助深度理解語言和支持推理,幫助機(jī)器識(shí)別人物檔案的各種記載,將各個(gè)人物檔案進(jìn)行深度關(guān)系的推理。

      2.解決的問題

      知識(shí)圖譜可以用來改善檢索結(jié)果,為搜索提供結(jié)構(gòu)化結(jié)果。比如檢索人物檔案中關(guān)于北京大學(xué)的內(nèi)容,不僅顯示涉及北京大學(xué)的檔案內(nèi)容,也會(huì)檢索到可相關(guān)人物,相關(guān)高校內(nèi)容。知識(shí)圖譜可以幫助進(jìn)行人物檔案標(biāo)準(zhǔn)化利用,將各種類型的記載用統(tǒng)一的規(guī)范進(jìn)行錄入和整理,形成有分類的人物檔案數(shù)據(jù)源,方便之后的使用。還可以進(jìn)行人物關(guān)系抽取,促進(jìn)相關(guān)人物的檔案共同研究。檔案使用者可以以自然語言提問的形式提出信息查詢需求,問題輸入進(jìn)去以后會(huì)先進(jìn)行解析,分析使用者的真實(shí)意圖,然后根據(jù)理解到的意圖去從各種人物檔案數(shù)據(jù)資源中進(jìn)行查詢和檢索,然后對(duì)查詢和檢索的結(jié)果做一個(gè)排序篩選,從而進(jìn)行最終結(jié)果的輸出,這就需要依托大量高質(zhì)量的數(shù)據(jù)和知識(shí),還需要強(qiáng)大的自然語言處理系統(tǒng)。在人物檔案的電子數(shù)據(jù)錄入中應(yīng)用知識(shí)圖譜還可以減少人力成本,替代非常大的工作量。再者,知識(shí)圖譜還能夠?qū)θ宋餀n案進(jìn)行圖結(jié)構(gòu)的分析,用原生態(tài)的語義網(wǎng)絡(luò)形式進(jìn)行描述,能夠清晰的展示對(duì)使用者需求的人物檔案信息。

      3.比較傳統(tǒng)的工具

      采用人工進(jìn)行人物檔案的整理,在檔案電子化環(huán)節(jié)中需要非常大的工作量,而且還可能有錯(cuò)誤并進(jìn)行另外的人工校對(duì)。人類思維對(duì)人物檔案可以進(jìn)行分析,進(jìn)行演繹、推理、類比、歸納等,人類擁有的情感、想象力、猜想方式、教育背景等會(huì)影響分析的全面性和深入性,不同的人對(duì)信息有不同的解讀和推測(cè),會(huì)產(chǎn)生歧義;之前使用計(jì)算機(jī)進(jìn)行人物檔案開發(fā)利用,多采用統(tǒng)計(jì)的方法,對(duì)收集到的數(shù)據(jù)進(jìn)行簡(jiǎn)單的分類、排序,存儲(chǔ)以及計(jì)算,對(duì)人物信息進(jìn)行描述。而采用知識(shí)圖譜,是計(jì)算機(jī)模擬人類的行為進(jìn)行語義分析,可以進(jìn)行垂直領(lǐng)域的語義理解。知識(shí)圖譜通過可視化的表現(xiàn)方式,更直觀、鮮活的展示人物關(guān)聯(lián),將復(fù)雜檔案來源處理成簡(jiǎn)便易懂的方式,知識(shí)圖譜比傳統(tǒng)的統(tǒng)計(jì)工具更好更精準(zhǔn)的分析,比起人工的分析也更方便快捷,節(jié)省時(shí)間精力人力,不容易遺漏一些細(xì)節(jié)方面,還可以輔助進(jìn)行決策分析,幫助使用者確定需要閱讀的檔案和展示需要的內(nèi)容。

      三、知識(shí)圖譜在人物檔案利用中的應(yīng)用場(chǎng)景

      1.檢索人物檔案

      利用知識(shí)圖譜將人物檔案資源按知識(shí)利用的要求組織起來,推動(dòng)檔案智能檢索研究與應(yīng)用的發(fā)展。用戶檢索人物檔案,將傳統(tǒng)的基于關(guān)鍵字的檢索推進(jìn)到基于語義的實(shí)體搜索,可解釋的人工智能不僅反饋問題的答案,還反饋這個(gè)答案是怎么來的,只有具備解釋性,用戶才會(huì)相信這個(gè)模型。用戶進(jìn)行檔案的搜索時(shí),機(jī)器會(huì)根據(jù)他的檢索詞,最大程度地還原用戶的使用偏好及業(yè)務(wù)需求,在此基礎(chǔ)上進(jìn)行精準(zhǔn)推薦,推薦需要閱讀的檔案內(nèi)容。在現(xiàn)代智能檢索系統(tǒng)的幫助下,根據(jù)用戶的要求,自動(dòng)搜尋相關(guān)知識(shí),最大限度地滿足用戶利用需求,從而為用戶創(chuàng)造更多、更大的價(jià)值。使用知識(shí)圖譜進(jìn)行人物檔案檢索,可以使用戶體驗(yàn)得到提升、降低用戶的使用成本。對(duì)于進(jìn)行科學(xué)研究的經(jīng)常查閱同一類型檔案的人員,可以通過其基礎(chǔ)信息和行為數(shù)據(jù)進(jìn)行更為快速的檢索和反饋。當(dāng)用戶搜索某個(gè)名人時(shí),系統(tǒng)會(huì)自動(dòng)根據(jù)圖譜中的人物關(guān)系向用戶推薦關(guān)聯(lián)性較強(qiáng)的人物或事。還可以用知識(shí)圖譜做一個(gè)間接的匹配,用中間實(shí)體概念和概念橋接兩個(gè)完全不相關(guān)的事件或人物,把兩個(gè)看上去語言描述完全不一樣的東西進(jìn)行匹配。

      2.人物關(guān)聯(lián)分析

      知識(shí)圖譜將大量數(shù)據(jù)放在一起,可以作為讓機(jī)器理解語言的背景知識(shí)庫。機(jī)器理解語言是一件非常復(fù)雜的事情,進(jìn)行自然語言的處理往往需要上下文,很多語言的表達(dá)是隱形的,委婉的,還具有語義的多樣性等等,這都讓機(jī)器對(duì)語言的處理困難重重。知識(shí)圖譜將自己知識(shí)庫里的人物檔案分析出主題以及分類,將語義關(guān)系聯(lián)系到一起,進(jìn)行深層關(guān)系推理,不僅僅進(jìn)行簡(jiǎn)單的關(guān)系表示。上海圖書館名人手稿檔案關(guān)聯(lián)開放數(shù)據(jù)集,包括上海圖書館館藏的24萬余種手稿及檔案的元數(shù)據(jù),數(shù)據(jù)經(jīng)過語義化的清洗、加工、轉(zhuǎn)換進(jìn)行知識(shí)組織之后,不再是簡(jiǎn)單的關(guān)于文獻(xiàn)的描述性元數(shù)據(jù),而存在著豐富的人與人、人與文獻(xiàn)、文獻(xiàn)與文獻(xiàn)間的關(guān)聯(lián)關(guān)系,可以通過時(shí)間軸關(guān)聯(lián)同一時(shí)期同一年份的人物手稿,還可以通過地域的不同對(duì)名人手稿進(jìn)行分類,是研究近現(xiàn)代歷史、人文、經(jīng)濟(jì)、社會(huì)等問題的寶貴資料。

      3.不一致性檢驗(yàn)

      知識(shí)圖譜經(jīng)過眾包和多源校驗(yàn),使得其質(zhì)量較高。采用單一數(shù)據(jù)源的人物檔案信息分析有可能會(huì)由于數(shù)據(jù)的片面性而導(dǎo)致分析的偏差、失誤與孤證難立。知識(shí)圖譜融合各個(gè)領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)如各種關(guān)系數(shù)據(jù)庫、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)如文本資料數(shù)據(jù),可能使用多個(gè)知識(shí)抽取工具為每個(gè)數(shù)據(jù)項(xiàng)從每個(gè)數(shù)據(jù)源中抽取相應(yīng)的值,對(duì)出現(xiàn)不一致性的地方進(jìn)行自動(dòng)標(biāo)注,減少人工的工作量。在人物檔案利用中,可以綜合利用不同層面、不同平臺(tái)、不同類型的多種人物檔案數(shù)據(jù)源,相互補(bǔ)充、相互關(guān)聯(lián),充分利用數(shù)量眾多的文字、實(shí)物等記錄,以進(jìn)行多角度知識(shí)發(fā)現(xiàn),從而實(shí)現(xiàn)更全面、深入的分析;還可根據(jù)同一歷史事件、同一人物分析結(jié)果的一致性對(duì)結(jié)論的可靠性進(jìn)行交叉驗(yàn)證,以此來真正提高人物檔案電子化的科學(xué)性、準(zhǔn)確性與可靠性。

      四、知識(shí)圖譜在人物檔案利用中的應(yīng)用方法

      1.數(shù)據(jù)挖掘

      目前,人物檔案資源并非憑借現(xiàn)代化的技術(shù)和設(shè)備就能很好地被利用,即使利用,在很大程度上也已難達(dá)到預(yù)期的效果。從人物檔案海量的文本、圖像等各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體、實(shí)體屬性、實(shí)體之間的關(guān)系,由此來構(gòu)建知識(shí)圖譜,一般以圖模型來描述語義關(guān)系,其中的節(jié)點(diǎn)表示實(shí)體,而鏈接節(jié)點(diǎn)之間的線條來刻畫屬性或關(guān)系,顯示真實(shí)的相關(guān)信息。通過數(shù)據(jù)挖掘,發(fā)現(xiàn)蘊(yùn)藏在人物檔案資源中的各類隱性知識(shí)因子,將人物檔案中的知識(shí)盡量顯性化,為廣大用戶利用這些知識(shí)創(chuàng)造條件。在檔案中提取涉及的實(shí)體和概念,然后在知識(shí)圖譜中查找相關(guān)的實(shí)體和屬性值,也就是將人物檔案與知識(shí)圖譜中已經(jīng)有的相關(guān)的實(shí)體和概念相匹配,同時(shí)將該實(shí)體的其他屬性以及周邊有關(guān)系的實(shí)體一并記錄。將分散的記錄關(guān)聯(lián)起來,有利于知識(shí)聚合的實(shí)現(xiàn),發(fā)掘出新的知識(shí),從而達(dá)到對(duì)人物檔案進(jìn)行深層次開發(fā)的目的。

      2.實(shí)體識(shí)別

      識(shí)別文本中的實(shí)體,并將它們連接到知識(shí)庫中是讓機(jī)器理解語言的第一步。實(shí)體識(shí)別出來的實(shí)體名通常是有歧義的,比如北京一詞,它可能是在說古代時(shí)的太原,也可能是在說現(xiàn)在的首都,還可能是一本小說的名稱,一首歌曲。解決這個(gè)問題的關(guān)鍵是有效地利用實(shí)體本身屬性以及實(shí)體名出現(xiàn)時(shí)上下文的信息。采用啟發(fā)式方法與知識(shí)圖譜的分析形成互補(bǔ)和驗(yàn)證,數(shù)據(jù)數(shù)量不夠、缺少知識(shí)背景時(shí),利用人的經(jīng)驗(yàn)在解決問題時(shí)采用已經(jīng)行之有效的方法。中文相較于英文有一個(gè)很大的特點(diǎn)是中心詞在后面,因此在對(duì)人物檔案進(jìn)行信息匹配時(shí)應(yīng)從后向前進(jìn)行匹配,以提高工作的效率,這樣的疊加匹配也可以提高人物識(shí)別的準(zhǔn)確率。

      3.知識(shí)推理

      知識(shí)推理是按照某種策略由已知判斷推出新的判斷的思維過程。知識(shí)圖譜補(bǔ)全和去噪是知識(shí)推理的兩大基礎(chǔ)應(yīng)用,現(xiàn)有的知識(shí)圖譜由于數(shù)據(jù)來源的不全面以及知識(shí)獲取的遺漏,不可能構(gòu)建完備的知識(shí)圖譜,利用知識(shí)圖譜中已有的知識(shí)去推理出新的事實(shí),從而盡可能地對(duì)知識(shí)圖譜進(jìn)行補(bǔ)全。知識(shí)圖譜的知識(shí)推理不僅僅局限于以基于邏輯和規(guī)則為主的傳統(tǒng)知識(shí)推理,還可以有更多樣化的推理方法。知識(shí)圖譜關(guān)注大量的具體實(shí)例三元組,以中立的方式描述概念,概念之間的關(guān)系和它們的屬性,由于知識(shí)圖譜自身實(shí)例為主導(dǎo)的特征,不局限于本體主要的概念層面的抽象推理,通過知識(shí)圖譜的語義關(guān)系網(wǎng),可以用關(guān)系來推斷一些人物檔案之間的聯(lián)系。對(duì)于描述同一個(gè)人、同一事件的同一詞進(jìn)行相似判斷,兩個(gè)詞可能是同一種描述的不同表達(dá),但語義上的相似可以將兩個(gè)詞,兩個(gè)檔案內(nèi)容聯(lián)系起來。

      (作者單位:上海大學(xué)圖書情報(bào)檔案系)

      猜你喜歡
      結(jié)構(gòu)化圖譜檢索
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      繪一張成長圖譜
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      2019年第4-6期便捷檢索目錄
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
      雜草圖譜
      香港| 洛宁县| 凤城市| 永顺县| 乌兰浩特市| 兴文县| 商洛市| 高邑县| 阳城县| 苏尼特左旗| 天门市| 虹口区| 贵南县| 中宁县| 油尖旺区| 海门市| 靖江市| 阿拉善右旗| 江西省| 惠东县| 鹤峰县| 通辽市| 抚顺县| 乌拉特中旗| 孙吴县| 闵行区| 雷波县| 东莞市| 勃利县| 湘西| 巴南区| 郧西县| 和顺县| 荥经县| 建阳市| 沙田区| 桑植县| 昌图县| 涪陵区| 同仁县| 榆林市|