• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體的檔案知識共享服務(wù)模式構(gòu)建*

      2022-02-19 13:24:40李海平李京林
      甘肅科技 2022年24期
      關(guān)鍵詞:知識庫本體實(shí)體

      馬 強(qiáng),李海平,李京林,徐 濤△

      (1.西北民族大學(xué),甘肅 蘭州 730030;2.甘肅省檔案館,甘肅 蘭州 730010)

      1 引言

      2020年底,全國檔案局長館長會議上明確提出“要加快推進(jìn)檔案信息化戰(zhàn)略轉(zhuǎn)型,切實(shí)保障信息化建設(shè)的前瞻性、針對性、實(shí)效性,進(jìn)一步加強(qiáng)頂層設(shè)計(jì),大力完善基礎(chǔ)設(shè)施,加強(qiáng)標(biāo)準(zhǔn)規(guī)范建設(shè),積極推動互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈技術(shù)和檔案工作的深度融合,加快檔案信息資源共享服務(wù)平臺建設(shè),拓展檔案工作數(shù)字化、網(wǎng)絡(luò)化、智能化的應(yīng)用場景。”

      在這種發(fā)展要求下,將新一代信息技術(shù)和檔案信息化工作相結(jié)合,對于研究檔案領(lǐng)域智能化、個性化的知識共享服務(wù)已經(jīng)有了一定進(jìn)展。黃雪梅和黃永勤[1]從體系結(jié)構(gòu)、業(yè)務(wù)模式等幾個方面,進(jìn)一步闡明檔案知識業(yè)務(wù)系統(tǒng)的規(guī)劃設(shè)計(jì)和使用理念;呂元智[2]從用戶實(shí)際利用檔案服務(wù)行為的不同視角出發(fā),分析與設(shè)計(jì)檔案管理知識服務(wù)信息系統(tǒng)框架;在分析國內(nèi)外關(guān)于區(qū)塊鏈技術(shù)建立電子檔案管理系統(tǒng)的研究和實(shí)踐的基礎(chǔ)上,左晉佺和張曉娟[3]又提出了采用“聯(lián)盟+公眾”雙區(qū)塊鏈技術(shù)的電子文檔系統(tǒng);張斌等[4]提出了如何構(gòu)建基于檔案館的大型知識庫,從而向廣大用戶實(shí)時提供知識集成服務(wù)。

      傳統(tǒng)檔案館的知識服務(wù)管理系統(tǒng)通過收集用戶信息,并提供單一的檢索、瀏覽服務(wù)機(jī)制,存在檔案資源利用率低、針對性弱、異構(gòu)化資源難以實(shí)時共享等主要缺陷[5]。為此,通過利用本體技術(shù)關(guān)聯(lián)自然語言處理、知識圖譜等知識構(gòu)建檔案知識庫,使檔案信息資源結(jié)構(gòu)化、語義化和知識化,再融合用戶偏好特征,以準(zhǔn)確獲取、動態(tài)更新用戶檔案需求,從而強(qiáng)化用戶使用檔案的獲得感和滿足感。本文將從檔案本體構(gòu)建出發(fā),闡述人工智能技術(shù)在檔案知識共享服務(wù)中使用的主要方法和技術(shù),從而為提高檔案用戶體驗(yàn)和優(yōu)化服務(wù)效果提供參考。

      2 基于本體的檔案知識共享服務(wù)

      1.1 基于本體的檔案知識共享服務(wù)

      構(gòu)建檔案領(lǐng)域本體前提下,通過信息技術(shù)和人工智能技術(shù)支撐構(gòu)建檔案知識庫[6],結(jié)合不同用戶在數(shù)據(jù)查詢時的行為和興趣愛好信息,構(gòu)建并實(shí)時更新用戶興趣行為模型,全面描述用戶興趣特征及個性化需求,智能拓展與滿足用戶潛在相關(guān)知識需求,從而可以有效地實(shí)現(xiàn)協(xié)同管理客戶的資源,從而提升客戶服務(wù)、服務(wù)質(zhì)量的全過程[7]。與傳統(tǒng)檔案信息服務(wù)的對比見表1。

      表1 基于本體的檔案知識共享服務(wù)與傳統(tǒng)檔案知識服務(wù)對比

      1.2 檔案知識共享服務(wù)模式框架與核心內(nèi)容

      基于檔案本體的知識共享服務(wù)模式核心內(nèi)容有核心技術(shù)、用戶興趣與行為建模、知識庫管理、知識服務(wù)機(jī)制和知識應(yīng)用。建設(shè)框架如圖1所示。

      圖1 建設(shè)框架

      2 基于本體的檔案知識共享服務(wù)核心內(nèi)容研究

      2.1 核心技術(shù)

      2.1.1 本體技術(shù)

      本體是用來定義如何組成某個“領(lǐng)域”的一個詞匯表及其中的具體術(shù)語與其詞的關(guān)系,并用來明確定義一個詞匯的列表及其外延的基本規(guī)則。本體知識是相關(guān)概念的一種結(jié)構(gòu)化知識規(guī)范和表現(xiàn)形式,可以直接形成對某一領(lǐng)域相關(guān)概念的知識共享和共同性的理解,完成知識資源共享和性能重用[8]。

      本體語義描述語言是一種具有良好的描述語法和基本語義,以及具備一定表達(dá)能力的形式化描述語言。OWL是一種描述標(biāo)準(zhǔn)本體類型的語言,它具備很強(qiáng)的語義表達(dá)能力,有利于領(lǐng)域本體的資源描述和構(gòu)建,更有助于資源的整合與共享。

      領(lǐng)域本體的復(fù)合構(gòu)造設(shè)計(jì)技術(shù)有很多種,國內(nèi)主流是斯坦福大學(xué)醫(yī)學(xué)院研究的七步法[8],適合于各個領(lǐng)域自然本體的復(fù)合構(gòu)造。本文借鑒七步法,重點(diǎn)考慮以檔案主題詞內(nèi)容為依據(jù)建立檔案的本體。詳細(xì)步驟如圖2所示。

      圖2 檔案領(lǐng)域本體構(gòu)建過程

      2.1.2 自然語言處理

      自然語言處理技術(shù)(NLP)是溝通機(jī)器語言與人類自然語言的主要橋梁,是一種以快速實(shí)現(xiàn)各類人機(jī)交互為主要目的信息技術(shù)[9]。NLP有兩大類核心的內(nèi)容:自然語言理解和自然語言生成,包括核心步驟,如分詞、詞性標(biāo)注、起名實(shí)體識別等。

      分詞是通過把包含詞語、句子、文字等信息的資料,分解成以詞為基本單元的結(jié)構(gòu),方便人們進(jìn)行資料的后續(xù)管理以及資料操作的管理。

      詞性標(biāo)注是在任何已給出的句子中,得出每個詞的語法范圍,確定其詞性,并對其詞進(jìn)行定義標(biāo)注,在自然語言處理中也是一項(xiàng)非常重要的基礎(chǔ)性任務(wù)[10]。

      命名實(shí)體識別(NER)是指在自然文本中識別各種實(shí)體所指稱的特定界限和語義類別,包括人名、地名、機(jī)構(gòu)名稱、專有名詞等。在分析檔案的信息時,可對文檔信息中的信息進(jìn)行訓(xùn)練與整合,便于文檔知識庫中各種實(shí)體的特殊語義關(guān)系的填充[10]。比較經(jīng)典的深度學(xué)習(xí)模型有BERT+BiLSTM+CRF。

      2.1.3 知識圖譜

      知識圖譜是基于Google為加強(qiáng)其搜索引擎知識性能而設(shè)計(jì)的知識庫,其實(shí)質(zhì)是用來準(zhǔn)確描述處于客觀世界的各個概念語義實(shí)體以及各概念實(shí)體之間的客觀關(guān)系的大型概念語義知識網(wǎng)絡(luò),是指以實(shí)體概念為節(jié)點(diǎn),以客觀關(guān)系為邊,由三元組結(jié)構(gòu)構(gòu)成的一種以實(shí)體視角看待世界客觀關(guān)系的結(jié)構(gòu)。三元組是由實(shí)體、屬性或特殊屬性值和關(guān)系所形成,圖3是一種簡易社交網(wǎng)絡(luò)圖譜。

      圖3 社交網(wǎng)絡(luò)圖譜

      知識圖譜的整體構(gòu)建包括邏輯架構(gòu)和知識管理架構(gòu),分為知識模式層和建立數(shù)據(jù)層,其中數(shù)據(jù)層由一系列知識事實(shí)數(shù)據(jù)構(gòu)成,新知識將管理存儲在以這些事實(shí)為單位的基礎(chǔ)之上。知識模式層是建立本體數(shù)據(jù)庫規(guī)范其在數(shù)據(jù)層的一系列知識事實(shí)和表達(dá)[11];知識管理架構(gòu)指的是建立模型架構(gòu),知識圖譜大多采用自底向上的構(gòu)造法。

      知識圖譜的關(guān)鍵技術(shù)[12]主要有知識表示抽取、知識形式表示、知識融合和知識邏輯推理,其中知識表示抽取指的是抽取知識中實(shí)體、關(guān)系與屬性等事實(shí)性的表達(dá)形式;知識形式表示指的是通過三元組準(zhǔn)確地表達(dá)知識中的實(shí)體、關(guān)系與屬性之間的復(fù)雜語義聯(lián)系;知識融合指的是同一框架規(guī)范下對異構(gòu)數(shù)據(jù)信息進(jìn)行整合、消歧等綜合處理操作的過程;知識邏輯推理指的是進(jìn)一步解析推理和發(fā)掘隱藏的相關(guān)知識,從而擴(kuò)充可用知識庫[13]。

      2.2 用戶興趣行為與建模

      用戶興趣行為建模是從用戶注冊的基本信息和瀏覽、檢索等歷史瀏覽活動中分析和建立用戶興趣模型的重要步驟,力求準(zhǔn)確、全面地描述用戶的個性化知識要求,建模過程可以細(xì)分為用戶模型表示、模型初始值優(yōu)化和用戶模型更新。

      2.2.1 用戶模型表示

      通過本體語義概念層次結(jié)構(gòu)、語義邏輯推理以及功能語義分析用戶個性潛在需求,將其中自然語言邏輯關(guān)系轉(zhuǎn)換為用戶本體語義概念間邏輯關(guān)系,滿足用戶個性潛在需求并及時發(fā)現(xiàn)其潛在興趣,實(shí)現(xiàn)滿足用戶興趣的語義抽象化、結(jié)構(gòu)化語義表示與信息存儲[14]。

      2.2.2 用戶興趣模型初始化

      興趣采集內(nèi)容為用戶個性化信息,有主要信息,如姓名、性別、年齡等;網(wǎng)頁瀏覽、檢索、訪問歷史、評價等行為記錄信息,通過深挖,摸清用戶的需求,構(gòu)成用戶特征行為數(shù)據(jù)庫。利用數(shù)據(jù)挖掘、自然語言處理等技術(shù),將用戶利用行為信息進(jìn)行分類,總結(jié)不同用戶的行為偏好與行為模式、習(xí)慣等的相互變化,構(gòu)建基于不同用戶需求的用戶行為管理知識庫。圖4為用戶興趣模型搭建過程。

      圖4 用戶興趣模型構(gòu)建流程

      2.2.3 用戶興趣模型更新

      根據(jù)用戶使用歷史與興趣愛好變化,動態(tài)改善與修正用戶興趣模型,以長期反映用戶個性化需求。

      2.3 知識服務(wù)機(jī)制

      基于檔案領(lǐng)域本體的檔案知識服務(wù)過程如圖5所示。首先,利用概念推理方法提取文件信息,建立結(jié)構(gòu)化的文檔數(shù)據(jù)庫。其次,通過提取用戶的興趣愛好、行為特點(diǎn),并存入檔案用戶行為本體庫,從而形成了語義的檔案用戶興趣愛好行為模式[14]。然后,通過檔案知識的處理與分析及成果的呈現(xiàn),制定服務(wù)策略與處理檢索結(jié)果,生成用戶個性化信息檢索、推薦信息列表及相關(guān)知識語義鏈接等展示給用戶。最后,對檔案用戶的反饋信息進(jìn)行動態(tài)收集,對檔案本體庫和用戶興趣行為模型進(jìn)行更新。

      圖5 檔案知識服務(wù)機(jī)制

      2.4 知識庫管理

      分為知識抽取、表示、存儲及更新,主要管理用戶興趣資源、檔案知識以及服務(wù)檔案用戶過程中產(chǎn)生的新知識。

      2.4.1 知識抽取

      從各種異構(gòu)檔案數(shù)據(jù)源中分別抽取檔案實(shí)體、特定檔案實(shí)體關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化數(shù)據(jù)信息。對檔案實(shí)體的識別提取,可以轉(zhuǎn)化成標(biāo)號順序的問題,常用的方法有深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(CRF)[15];提取特定檔案實(shí)體關(guān)系常用的是根據(jù)訓(xùn)練數(shù)據(jù)分析設(shè)計(jì)有效的關(guān)系特征值,根據(jù)監(jiān)督提取方法學(xué)習(xí)各種分類問題模型的方法;實(shí)體屬性的提取主要是從不同的檔案信息來源中,對具體的檔案實(shí)體進(jìn)行屬性信息的采集,一般情況下等同于實(shí)體關(guān)系抽取問題。

      2.4.2 知識表示

      由于檔案實(shí)體擁有各種各樣的屬性關(guān)系,因此可以用檔案實(shí)體、檔案實(shí)體關(guān)系的屬性圖來表示知識。除了數(shù)據(jù)屬性圖之外,這里主要介紹用資源信息描述框架(RDF)來進(jìn)行知識的表示,主要特點(diǎn)是數(shù)據(jù)易于獨(dú)立發(fā)布和實(shí)時分享各類數(shù)據(jù),通過兩個實(shí)體的關(guān)系鏈接而形成一個有向的數(shù)據(jù)網(wǎng)絡(luò)。見表2和圖6所示。

      表2 三元組表

      圖6 三元組有向圖

      2.4.3 知識存儲

      把各種關(guān)系信息保存到數(shù)據(jù)庫系統(tǒng)中,以實(shí)體-關(guān)系-實(shí)體或?qū)嶓w-屬性-值的三元組形式為信息的主要表達(dá)方式,從而形成了一種強(qiáng)大的實(shí)體關(guān)聯(lián)語義網(wǎng)絡(luò)。由于檔案知識關(guān)系結(jié)構(gòu)復(fù)雜,主要使用Neo4J圖數(shù)據(jù)庫(如圖7),還可以使用MySQL關(guān)系型數(shù)據(jù)庫等。

      圖7 圖數(shù)據(jù)庫表示多家公司之間關(guān)系

      2.4.4 知識更新

      知識的自動更新主要包括新增數(shù)據(jù)后將新的概念添加到本體庫中,在充分考慮現(xiàn)有數(shù)據(jù)源的安全可靠性、數(shù)據(jù)的一致性等因素,實(shí)體、關(guān)系和屬性值均有新增或更新。

      2.5 知識應(yīng)用

      根據(jù)不同檔案用戶個性化需求行為,可以主動提供專業(yè)知識資源問答、知識資源推薦和專業(yè)知識資源檢索等各類服務(wù)。

      2.5.1 知識問答

      利用本體語義表示與邏輯推理能力有效回答用戶問題,首先進(jìn)行本體預(yù)處理,明確用戶提問意圖;然后匹配檔案知識庫中相似度高的知識,若成功則自動返回測試結(jié)果,否則自動刪除匹配用戶關(guān)聯(lián)的數(shù)據(jù)并及時更新反饋用戶意見[15-16]。

      2.5.2 知識推薦

      根據(jù)相應(yīng)用戶興趣愛好和訪問歷史,準(zhǔn)確地預(yù)測其潛在用戶需求,通過系統(tǒng)檢索收集檔案知識庫中符合相應(yīng)用戶潛在需求的檔案知識,經(jīng)系統(tǒng)分類、排序后以適當(dāng)方式對其進(jìn)行用戶推薦。

      2.5.3 知識檢索

      利用本體的綜合邏輯推理與語義表示理解能力,分別處理多個檢索查詢請求,實(shí)現(xiàn)語義表示理解與邏輯拓展,并對檢索結(jié)果進(jìn)行語義匹配、排序及數(shù)據(jù)顯示,從而大大提升檔案數(shù)據(jù)的知識利用率。

      3 結(jié)語

      文章概述了基于本體的檔案知識服務(wù)核心內(nèi)容,主要從內(nèi)涵、主要技術(shù)、用戶興趣模型構(gòu)建、知識服務(wù)過程、知識管理與應(yīng)用5方面介紹了檔案知識服務(wù)模式過程。此外,檔案信息化資源、利用、安全體系建設(shè)全面推進(jìn),檔案信息化戰(zhàn)略轉(zhuǎn)型不斷深化,也成為新時期檔案科技與信息化建設(shè)的重點(diǎn)。

      猜你喜歡
      知識庫本體實(shí)體
      Abstracts and Key Words
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      阿瓦提县| 攀枝花市| 忻州市| 根河市| 宁明县| 阳西县| 阳江市| 青海省| 长丰县| 贵德县| 兰坪| 海晏县| 泸西县| 麻栗坡县| 稻城县| 类乌齐县| 临沧市| 特克斯县| 安多县| 江津市| 广州市| 大悟县| 龙川县| 赣州市| 安西县| 拉萨市| 柳河县| 涿州市| 弥勒县| 满城县| 都匀市| 济南市| 寻甸| 兴城市| 彭山县| 崇明县| 白朗县| 衡山县| 德庆县| 怀远县| 喜德县|