• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    科技政策知識圖譜構(gòu)建研究*

    2021-10-14 03:46:12張雨吳俊
    數(shù)字圖書館論壇 2021年8期
    關(guān)鍵詞:本體圖譜實體

    張雨 吳俊

    (北京郵電大學(xué)經(jīng)濟管理學(xué)院,北京 100876)

    近年來國家高度重視科學(xué)技術(shù)發(fā)展,為鼓勵“政用產(chǎn)學(xué)研”協(xié)同創(chuàng)新,從中央到地方出臺了一系列科技政策。一方面,這些政策散布于政府及媒體網(wǎng)站,不方便用戶集中查閱和整合分析;另一方面,政策內(nèi)容包羅萬象,涉及諸多行業(yè),公文化的表達方式不利于企業(yè)或個人快速檢索,把握不同政策間的內(nèi)在聯(lián)系[1]。如何準(zhǔn)確而快速地挖掘科技政策文本的關(guān)鍵語義信息,以結(jié)構(gòu)化形態(tài)展現(xiàn)科技政策主要條目的層級關(guān)系,以可視化方式展現(xiàn)多個政策主體以及政策屬性特征間的不同關(guān)系,成為學(xué)術(shù)界和企業(yè)界亟待解決的問題。這一問題的解決不僅有利于垂直領(lǐng)域的知識發(fā)現(xiàn)與利用,也有助于廣大中小企業(yè)及時跟蹤了解各級政府的科技創(chuàng)新政策動向。

    科技政策文本的語義挖掘與知識結(jié)構(gòu)化解析可以借助知識圖譜技術(shù)解決。知識圖譜旨在通過提取知識實體及實體間關(guān)系,將原始的文本數(shù)據(jù)解析為表征知識本體的語義屬性及脈絡(luò)關(guān)系,進而以圖網(wǎng)絡(luò)形態(tài)幫助用戶快速理解知識結(jié)構(gòu),揭示領(lǐng)域知識的特征和規(guī)律[2]。將知識圖譜技術(shù)應(yīng)用于科技政策的知識序化,展現(xiàn)政策內(nèi)容與政策主體間的關(guān)系,揭示不同政策之間的內(nèi)在聯(lián)系,提升政策文本的使用價值,解決用戶長期以來反映的“擁而難用、匯而不慧”難題。此外,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,通過深度神經(jīng)網(wǎng)絡(luò)模型智能識別與提取實體間關(guān)系也為領(lǐng)域知識圖譜的專業(yè)化和精細(xì)化提供了新手段。

    具體而言,本文以采集到的各級政府公開發(fā)布的科技政策文本為數(shù)據(jù)源,構(gòu)建政策知識本體,應(yīng)用Bi-LSTM模型抽取政策文本實體及屬性特征,使用Neo4j圖數(shù)據(jù)庫構(gòu)建科技政策知識圖譜并實現(xiàn)可視化查詢,以提升科技政策的利用效率,更大程度發(fā)揮科技政策的效用。

    1 相關(guān)研究

    1.1 知識圖譜

    知識圖譜較早由Google基于語義網(wǎng)研究提出,旨在實現(xiàn)語義搜索的智能化,提升用戶對知識的搜索質(zhì)量與體驗[3]。知識圖譜主要由<實體,關(guān)系,實體>和<實體,屬性,屬性值>三元組構(gòu)成,優(yōu)點在于構(gòu)建的語義知識庫以圖形化形式展示現(xiàn)實世界中的實體及其相互關(guān)系。

    隨著知識圖譜相關(guān)技術(shù)的快速發(fā)展,在通用知識圖譜之外,眾多行業(yè)領(lǐng)域知識圖譜逐漸興起。一般而言,通用知識圖譜以常識性知識為對象,以大規(guī)模開源知識為支撐,構(gòu)建廣域語義知識庫,主要應(yīng)用在智能搜索領(lǐng)域,知名的通用知識圖譜開源庫有FreeBase、DBPedia、Wikidata等。行業(yè)知識圖譜則面向垂直行業(yè),以從特定領(lǐng)域采集的文本信息為支撐,聚焦定域的語義知識庫,具有鮮明的行業(yè)應(yīng)用特征,對專業(yè)性與準(zhǔn)確度要求更高[4]。此外,行業(yè)知識圖譜更加強調(diào)領(lǐng)域知識的有序化、結(jié)構(gòu)化和可視化,以提高管理決策效率為主要目標(biāo)。以金融股權(quán)知識圖譜[5]為例,它從股權(quán)角度出發(fā),通過股權(quán)穿透式查詢,可從全局實現(xiàn)風(fēng)險識別,通過持股比例判斷機構(gòu)風(fēng)險水平,為企業(yè)風(fēng)險識別與預(yù)測提供新方法。在圖書情報領(lǐng)域,白如江等[6]提出科學(xué)事件元數(shù)據(jù)模型,以文獻摘要為挖掘?qū)ο?,?gòu)建科學(xué)事件知識圖譜。在醫(yī)療領(lǐng)域,曹明宇等[7]構(gòu)建肝癌知識圖譜,并進一步設(shè)計了肝癌知識問答系統(tǒng),能夠有效回答肝癌相關(guān)的疾病癥狀、治療藥物及治療手段等問題。

    作為智能互聯(lián)時代知識優(yōu)化和推薦的重要手段,知識圖譜技術(shù)已成為學(xué)術(shù)界和工業(yè)界研究的焦點,被廣泛應(yīng)用于個性化推薦、語義搜索、智能問答、風(fēng)險識別及預(yù)警等領(lǐng)域。

    1.2 科技政策

    科技政策是政府為促進科學(xué)技術(shù)發(fā)展以及利用科學(xué)技術(shù)為國家目標(biāo)服務(wù)而采取的集中性和協(xié)調(diào)性措施,是科學(xué)技術(shù)與國家發(fā)展的有機整合[8]。隨著各級政府科技投入的加大,科技政策引領(lǐng)科技發(fā)展的作用日益凸顯。相應(yīng)的,科技政策的相關(guān)研究也呈現(xiàn)內(nèi)容多元、方法多樣的特點。

    已有的科技政策研究方法大致可分為3類。第一類是利用學(xué)者Rothwell等[9]提出的政策工具法進行定量研究。徐硼等[10]基于政策工具視角深入剖析了我國科技創(chuàng)新政策,指出3種政策工具在應(yīng)用層面存在結(jié)構(gòu)失衡的問題,并對未來科技政策制定提出了改進策略。針對我國科技政策間協(xié)調(diào)性差,政策體系不完善的問題,仲偉俊等[11]基于政策工具分析框架對科技政策進行具體分析,總結(jié)現(xiàn)有科技政策的合理性和不足,探討完善政策的路徑。第二類是利用文本挖掘方法對科技政策文本內(nèi)容進行詞頻和語義分析。例如:宋偉等[12]以地方政府發(fā)布的人工智能科技政策文本為對象,通過文本語義分析,指出人工智能政策主題存在群聚化特點;祝鑫梅等[13]對1979—2017年國家層面的245篇政策文本進行分析,對政策文本的高頻主題詞進行可視化,揭示了政策主題循環(huán)往復(fù)、螺旋上升的演化過程。第三類方法是將文獻計量法應(yīng)用于科技政策文獻的量化研究,識別并發(fā)現(xiàn)政策文獻的知識分布與演化等規(guī)律。如黃萃等[14]以1949—2010年中國科技政策數(shù)據(jù)為研究對象,繪制我國科技政策主題詞的聚類圖,展示中國科技政策的主題熱點與演化路徑,進一步總結(jié)中國政府執(zhí)政理念的變化。

    1.3 科技政策的知識圖譜研究

    由于科技政策文本數(shù)量日趨龐大,語義關(guān)系日漸繁雜,將知識圖譜技術(shù)用于科技政策領(lǐng)域,以實現(xiàn)政策主體、政策屬性與關(guān)系的結(jié)構(gòu)化和顯性化越來越重要。既有的研究呈現(xiàn)兩種特點。一是聚焦科技政策領(lǐng)域的文獻研究,主要是應(yīng)用Citespace等可視化工具構(gòu)建領(lǐng)域知識圖譜,展示領(lǐng)域研究的發(fā)展脈絡(luò)和熱點動向,用以預(yù)測前沿趨勢,推動科技政策制定過程的科學(xué)性和規(guī)范性。例如:李梅芳等[15]以Research Policy期刊1974—2016年發(fā)表的2 855篇文獻為研究對象,利用Citespace軟件繪制文獻共被引知識圖譜以揭示科技政策領(lǐng)域國際研究的演化情況;趙繪存等[16]在李梅芳研究的基礎(chǔ)上,對2007—2017年Research Policy發(fā)表的文章進行分析,通過VOSviewer軟件構(gòu)建作者網(wǎng)絡(luò)共現(xiàn)關(guān)系圖譜和國家合作網(wǎng)絡(luò)圖譜,發(fā)現(xiàn)科技政策研究個人合作強度不足,但國家合作網(wǎng)絡(luò)聯(lián)系緊密的特點。二是利用自然語言處理開源工具從政策文本中抽取知識實體與關(guān)系。張維沖等[17]利用HanLP等工具對716篇貴州省大數(shù)據(jù)政策文本進行實體抽取,構(gòu)建大數(shù)據(jù)政策圖譜;Wang等[18]利用正則表達式提取政策實體及屬性,采用規(guī)則匹配與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法抽取關(guān)系,構(gòu)建政策知識圖譜分析平臺。

    既有研究至少存在兩大不足:一是基于Citespace的科技政策研究知識圖譜聚焦學(xué)術(shù)文獻而非政策文本;二是已構(gòu)建的科技政策知識圖譜多采用自下而上的構(gòu)建思路,關(guān)注政策實體與實體間關(guān)系,忽略了科技政策的扶持類和禁止類重要屬性信息。本文采用自上向下的構(gòu)建路徑,首先考慮科技政策的新發(fā)展,構(gòu)建政策知識本體,定義科技政策實體、屬性和關(guān)系;然后應(yīng)用BiLSTM模型,識別并提取政策實體、屬性及關(guān)系,尤其是提取政策扶持類和禁止類實體信息;最后導(dǎo)入Neo4j圖數(shù)據(jù)庫完成政策實體、屬性及其關(guān)系的可視化查詢與檢索。

    2 研究框架

    知識圖譜在邏輯結(jié)構(gòu)上由模式層和數(shù)據(jù)層兩部分構(gòu)成[19],模式層通過本體庫規(guī)范目標(biāo)領(lǐng)域內(nèi)的實體、屬性以及不同對象之間的關(guān)系,數(shù)據(jù)層則以<實體,關(guān)系,實體>或<實體,屬性,屬性值>三元組的形式表征知識結(jié)構(gòu),通過知識抽取實現(xiàn)模式層的實例化。本文構(gòu)建的科技政策知識圖譜,首先定義模式層,明確科技政策主體、客體、政策元數(shù)據(jù)特征,借此梳理得到科技政策的實體、屬性與關(guān)系,形成科技政策本體模型;然后在數(shù)據(jù)層針對采集的科技政策文本應(yīng)用知識抽取技術(shù)提取實體和屬性信息,并將三元組信息存入圖數(shù)據(jù)庫,完成知識圖譜的構(gòu)建。具體可劃分為數(shù)據(jù)獲取、本體構(gòu)建、知識抽取、知識存儲4個部分,具體的構(gòu)建流程如下。

    (1)數(shù)據(jù)獲取??萍颊呶谋緛碓粗饕獜母骷壵木W(wǎng)站通過爬蟲程序采集獲取,將采集的政策文本存放在數(shù)據(jù)庫中,方便后續(xù)處理。

    (2)本體構(gòu)建。分析科技政策知識結(jié)構(gòu),確定政策本體中的概念體系,確立類、屬性及關(guān)系,構(gòu)建科技政策本體。本體中的概念主要包括政府機構(gòu)、政策類別以及區(qū)域等;屬性是對政策文本知識粒度的進一步細(xì)化,包括發(fā)布時間、政策扶持條文和政策禁止條文等;關(guān)系包括政策與機構(gòu)之間的發(fā)布關(guān)系,以及政策間的引用關(guān)系等。

    (3)知識抽取。基于構(gòu)建的政策本體模型,應(yīng)用深度學(xué)習(xí)算法從政策文本中抽取實體、屬性及關(guān)系信息。實體抽取包括抽取政策標(biāo)題、發(fā)布單位等;屬性抽取主要利用深度學(xué)習(xí)模型從政策全文中抽取出包含情感態(tài)度的扶持內(nèi)容和禁止內(nèi)容;關(guān)系抽取主要包括科技政策與政府機構(gòu)之間的發(fā)布關(guān)系和政策文件之間的相互引用關(guān)系等。

    (4)知識存儲。將上述處理流程中獲取的實體和關(guān)系數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)格式并批量導(dǎo)入Neo4j圖數(shù)據(jù)庫中,采用圖結(jié)構(gòu)存儲知識,并通過Neo4j實現(xiàn)可視化,直觀展示科技政策實體之間以及實體與屬性之間的關(guān)系。

    3 科技政策知識圖譜的構(gòu)建過程

    3.1 政策文本收集及預(yù)處理

    為構(gòu)建一個較為全面的科技政策知識圖譜,本文從多個渠道檢索科技政策文本,既包括各級政府網(wǎng)站等官方平臺,也包含各類政策咨詢服務(wù)平臺。通過Python爬蟲共獲取28 741條科技政策文本,經(jīng)過合并、去重、刪除無效數(shù)據(jù)的整合分析后,數(shù)據(jù)量縮減到26 660條(縮減7.24%),之后將政策文本存儲在MySQL數(shù)據(jù)庫中,為后續(xù)知識三元組抽取做準(zhǔn)備。在存儲過程中,也對政策文本數(shù)據(jù)集進行預(yù)處理,包括去除文本空格、網(wǎng)頁標(biāo)識符等。

    3.2 模式層構(gòu)建

    模式層是知識圖譜的概念模型和邏輯基礎(chǔ),能夠?qū)?shù)據(jù)層進行規(guī)范約束,在研究中多采用本體作為知識圖譜的模式層。本體定義知識圖譜的數(shù)據(jù)模式,是對知識圖譜的抽象化表示,通過本體庫而形成的知識圖譜不僅層次結(jié)構(gòu)較強,而且冗余程度較小[4]。通過研讀科技政策文本內(nèi)容,對科技政策實體、屬性和關(guān)系進行定義,構(gòu)建科技政策本體模型(見圖1)。

    圖1 科技政策本體模型

    3.2.1 實體定義

    實體是知識圖譜中的重要節(jié)點,在政策本體中實體可以是政策文件、政策類別、政策發(fā)布機構(gòu)等元數(shù)據(jù),也可以是政策文件中提及的關(guān)聯(lián)政策,還可以是抽象的政策概念。本文基于科技政策數(shù)據(jù)的外部特征和內(nèi)在知識元素來構(gòu)建科技政策知識圖譜中所需實體,主要包括科技政策、類別、政府機構(gòu)、關(guān)聯(lián)政策、地區(qū)、省份、城市七大實體類型,如表1所示。

    表1 科技政策本體中的實體類型及描述

    3.2.2 屬性定義

    科技政策本體中的實體屬性及描述如表2所示?,F(xiàn)有實體大多為科技政策的外部特征信息(包括發(fā)布時間),而缺乏用戶亟需的、蘊含在政策內(nèi)容中的關(guān)鍵信息。本文將扶持類政策條文和禁止類政策條文歸為科技政策的實體屬性,目的是幫助廣大中小企業(yè)用好政策紅利,規(guī)避風(fēng)險和政策禁區(qū)。

    表2 科技政策本體中的實體屬性及描述

    3.2.3 關(guān)系定義

    鑒于科技政策的制訂與出臺存在時序性和關(guān)聯(lián)性,例如,A政策參考了B政策的規(guī)定、解釋、標(biāo)準(zhǔn)等,或者A政策以B政策為指導(dǎo)思想制定,在這些情形下A政策與B政策具有時間和語義的關(guān)聯(lián),因此構(gòu)建政策實體之間的引用關(guān)系,能夠清晰梳理政府機構(gòu)政策制定思路以及政策發(fā)展脈絡(luò),明晰政策導(dǎo)向[20]。此外,在科技政策的本體概念模型中,實體之間的關(guān)系還包括類別、發(fā)布、隸屬三大主要關(guān)系。據(jù)此,本文確定科技政策本體中的關(guān)系類型及描述如表3所示。

    表3 科技政策本體中的關(guān)系類型及描述

    3.3 數(shù)據(jù)層構(gòu)建

    數(shù)據(jù)層構(gòu)建是以模式層構(gòu)建的科技政策本體為基礎(chǔ),從已獲取的語料中抽取結(jié)構(gòu)化信息,主要包括實體抽取、屬性抽取、關(guān)系抽取三部分[21]。實體是知識圖譜的最基本元素,因此實體抽取是知識抽取中最基礎(chǔ)和關(guān)鍵的部分,其任務(wù)是從語料中識別出命名實體。文本語料經(jīng)過實體抽取,得到的是離散的命名實體,還需要提取實體之間的關(guān)聯(lián)關(guān)系,將實體聯(lián)系起來形成網(wǎng)狀的知識結(jié)構(gòu)。屬性抽取是從語料中抽取特定實體的屬性信息,刻畫完整的實體。關(guān)系抽取是構(gòu)建知識圖譜的關(guān)鍵一步,其主要任務(wù)是從文本內(nèi)容中挖掘出實體與實體之間的語義關(guān)系,構(gòu)建<實體,關(guān)系,實體 >的三元組,用于后續(xù)知識圖譜的構(gòu)建。

    3.3.1 實體抽取

    (1)提取科技政策文本中的省份、城市、區(qū)域?qū)嶓w。chinese_province_city_area_mapper(cpca)是一個用于識別中文字符串中省、市和區(qū)的Python開源庫。利用cpca庫從政策來源字段中提取出政策所屬省市,其提取效果如表4所示。經(jīng)過數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),政策數(shù)據(jù)集中的省市信息提取率超過90%,提取效果較好。為避免空值信息對后續(xù)統(tǒng)計產(chǎn)生影響,在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,人工校對空值,使之能夠獲取每條數(shù)據(jù)政策的省市信息。然后將省、市字段按照其地理位置劃分為東部、西部、中部、東北部、中央5個類別,歸納為地區(qū)實體。

    表4 省市實體提取效果

    (2)提取科技政策實體。通過使用Python中內(nèi)置的“re”模塊來使用正則表達式檢查政策文本是否引用某個政策,之后將同一政策文本中引用的多個政策進行合并。具體操作:首先制定過濾規(guī)則,匹配政策文本包含“《 》”“貫徹落實”“依據(jù)”“參照”等標(biāo)志詞的字符串,然后從匹配成功的文本字符串中提取科技政策實體并存儲。以某政策內(nèi)容為例:“各有關(guān)企業(yè):現(xiàn)將《關(guān)于組織申報2018年度市級知識產(chǎn)權(quán)優(yōu)勢企業(yè)的通知》(渝知發(fā)〔2018〕45號)印發(fā)與你們,請符合相關(guān)條件的企業(yè)自行申報,并將申報材料傳一份至縣科委”,在本例中提取結(jié)果為《關(guān)于組織申報2018年度市級知識產(chǎn)權(quán)優(yōu)勢企業(yè)的通知》。本研究所收集的全部科技政策文本,經(jīng)過處理后共提取出13 389條引用的科技政策,占全體的50.22%。

    3.3.2 提取政策扶持條文和政策禁止條文屬性

    情感分析是自然語言處理的任務(wù)之一。從自然語言處理技術(shù)角度來看,情感分析的任務(wù)是從文本中提取該文本表達的情感傾向。本研究需從政策內(nèi)容中提取出政策扶持條文和政策禁止條文,因此適用于用情感分析方法解決此問題。

    情感分析根據(jù)處理文本顆粒度的不同,可分為篇章級和句子級。篇章級情感分析的目標(biāo)是判斷整篇文檔表達的是褒義還是貶義的情感;句子級情感分析的任務(wù)是判斷一個句子表達的是褒義還是貶義的情感。不過,篇章級情感分析只能得到每一條政策數(shù)據(jù)的情感等級,而無法獲得每一條政策數(shù)據(jù)中包含的帶有情感色彩的政策內(nèi)容,因此舍棄該方法,采用句子級情感分析來完成該任務(wù)。

    情感分析在某種程度上是文本分類的一種,所以本文利用深度學(xué)習(xí)方法,根據(jù)政策內(nèi)容訓(xùn)練Bi-LSTM模型對科技政策文本情感分類,具體實現(xiàn)流程如圖2所示。

    圖2 科技政策文本情感分類流程

    步驟一,確定政策文本按照句子級別劃分的類型,具體分為扶持型、禁止型、普通型。如果句子中出現(xiàn)負(fù)面詞匯“嚴(yán)禁”“整治”“控制”等,或具有明顯的懲罰性表達,則劃分為禁止型;反之,如果內(nèi)容中多出現(xiàn)正面詞匯,如“補貼”“扶持”“鼓勵”等,則劃分為扶持型;兩者都不是,則劃分為普通型。

    步驟二,將每條政策內(nèi)容劃分為多個句子,并按照上述規(guī)則對句子類型進行數(shù)據(jù)標(biāo)注和編碼。本研究將26 660條政策文本劃分為30多萬條句子,由人工對句子進行標(biāo)注。為獲得較好的訓(xùn)練效果,防止過擬合,盡量保證訓(xùn)練集中每一類的句子數(shù)目一致。

    步驟三,將訓(xùn)練集與測試集輸入Bi-LSTM模型中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,并把epoch設(shè)置為60,模型訓(xùn)練結(jié)果F1值達到69%。然后,基于已訓(xùn)練好的模型,對其余句子進行預(yù)測,并將結(jié)果存入CSV文件中。

    步驟四,得到帶有標(biāo)簽的句子后,將所有的句子整合,提取出每條政策對應(yīng)的扶持條文和禁止條文。

    經(jīng)過上述處理步驟,獲得政策知識圖譜所需實體、屬性及關(guān)系三元組,其中,提取46 392個實體、23 400個屬性以及158 432條實體間關(guān)系。之后將三元組存儲于Neo4j圖形數(shù)據(jù)庫中,實現(xiàn)科技政策知識圖譜的可視化查詢。

    3.4 知識存儲

    Neo4j數(shù)據(jù)庫是一個高性能的圖形數(shù)據(jù)庫,具備高可用性、易擴展性、完整的數(shù)據(jù)庫事務(wù)支持和快速檢索4個特征,具有強大的可視化能力,也是目前使用最多的圖數(shù)據(jù)庫[22]。Cypher是Neo4j的官方查詢語言,是一個類SQL語言,可以方便地對圖形數(shù)據(jù)庫進行查詢和更新。Neo4j支持多種數(shù)據(jù)導(dǎo)入方式,既可以使用Cypher語言中的LOAD CSV語句直接導(dǎo)入,也可以采用Neo4j-import命令將CSV文件批量導(dǎo)入。其中:第一種方法導(dǎo)入速度較慢;第二種方法速度較快,但需在初始化時進行數(shù)據(jù)導(dǎo)入。

    本文使用第二種方法,首先建立知識網(wǎng)絡(luò)的關(guān)系映射表,然后將科技政策文本中抽取的三元組處理成Neo4j要求的格式,使用Neo4j-import命令批量導(dǎo)入數(shù)據(jù)庫中,構(gòu)建科技政策知識圖譜。該知識圖譜包含46 392個節(jié)點、158 432條邊。數(shù)據(jù)導(dǎo)入后可利用Cypher語言對構(gòu)建的科技政策知識圖譜進行可視化查詢。由于實體節(jié)點較多且可視化空間有限,科技政策圖譜部分展示如圖3所示。每個節(jié)點代表一個實體,節(jié)點之間的連線代表兩兩實體間關(guān)系,單擊實體或關(guān)系可查看對應(yīng)屬性信息。

    圖3 科技政策知識圖譜部分展示

    4 科技政策知識圖譜的可視化查詢

    構(gòu)建科技政策知識圖譜的最終目的是從海量的政策數(shù)據(jù)中提取關(guān)鍵語義信息,實現(xiàn)科技政策領(lǐng)域知識的可視化查詢和知識發(fā)現(xiàn)服務(wù),為政府、企業(yè)和個人提供工作抓手?;谇拔臉?gòu)建的科技政策知識圖譜,利用Neo4j的Cypher查詢語言可以實現(xiàn)對科技政策實體和實體關(guān)系的查詢,并將查詢結(jié)果可視化呈現(xiàn),便于用戶高效地掌握關(guān)鍵信息,發(fā)現(xiàn)事物之間的潛在聯(lián)系。

    4.1 科技政策實體關(guān)系查詢

    在Neo4j數(shù)據(jù)庫中使用Cypher語句中的MATCH子句可實現(xiàn)對科技政策、政府機構(gòu)、關(guān)聯(lián)政策等實體和相關(guān)關(guān)系的查詢操作。以查詢某一科技政策為例,輸入“MATCH(m:科技政策)-[r]->(n)WHERE m.name = '內(nèi)蒙古自治區(qū)科技成果轉(zhuǎn)化專項資金管理辦法' RETURN m,r,n;”其中“m”為實體信息,“[ ]”內(nèi)填寫需要查詢的關(guān)系類型,WHERE對查詢數(shù)據(jù)進行過濾,RETURN表示返回結(jié)果。該語句生成的知識圖譜可查詢出與《內(nèi)蒙古自治區(qū)科技成果轉(zhuǎn)化專項資金管理辦法》政策相連的所有實體和關(guān)系,發(fā)布機構(gòu)、政策類型、隸屬的地區(qū)以及關(guān)聯(lián)政策等數(shù)據(jù)都會被呈現(xiàn)。其中,不同實體類型的節(jié)點會通過顏色區(qū)分,單擊實體或可查看其包含的扶持條文和禁止條文等屬性信息。該政策中涉及的政策扶持信息包括科技成果轉(zhuǎn)化引導(dǎo)資金、主要支持的重點領(lǐng)域和補貼標(biāo)準(zhǔn),可幫助用戶抓住機會,順應(yīng)政策導(dǎo)向,實現(xiàn)供需方的精準(zhǔn)匹配,而政策禁止內(nèi)容則總結(jié)了政策內(nèi)容的禁止性規(guī)定,能夠幫助用戶及時規(guī)避風(fēng)險。

    4.2 科技政策引文查詢

    引文分析是文獻計量學(xué)的一種方法,并被廣泛應(yīng)用于知識發(fā)現(xiàn)中,主要是通過對文獻對象的引用與被引用關(guān)系,反映文獻之間的外在聯(lián)系,揭示學(xué)科領(lǐng)域的結(jié)構(gòu)和演化規(guī)律。政策數(shù)據(jù)與文獻數(shù)據(jù)類似,也存在引用關(guān)系??萍颊咭膱D譜可為政策的制定提供決策支持,也能梳理不同政策間的關(guān)系,明晰政策制訂依據(jù)。輸入“MATCH (m)-[r:引用]->(n) RETURN m,r,n;”可以生成政策實體間“引用”關(guān)系圖譜,能夠?qū)崿F(xiàn)政策溯源,展現(xiàn)政策體系演進過程,反映中央政府頒布的政策與其他政策的關(guān)聯(lián)關(guān)系,以及中央政策與地方政策主題、政策目標(biāo)的銜接性。

    5 結(jié)論與啟示

    為全面深化改革,黨的十八屆三中全會提出推進國家治理體系和治理能力現(xiàn)代化的宏偉藍圖。實現(xiàn)國家治理現(xiàn)代化,首當(dāng)其沖的任務(wù)是要實現(xiàn)政府治理現(xiàn)代化,而建設(shè)數(shù)字政府是實現(xiàn)政府治理現(xiàn)代化的重要途徑。隨著政府信息公開廣度和深度的不斷延伸,如何有效挖掘海量政策數(shù)據(jù),發(fā)揮政策對科技創(chuàng)新的指引作用日益引起各界重視。

    本文提出的科技政策知識圖譜構(gòu)建方法,為面向政策領(lǐng)域的知識圖譜應(yīng)用提供了鮮活的實例,所構(gòu)建的科技政策本體庫,可以為研究者開展其他政策圖譜編繪提供參考,采用的知識抽取與存儲技術(shù)在其他垂直行業(yè)以及金融、教育、醫(yī)療等領(lǐng)域也有廣闊的應(yīng)用前景。

    未來研究可以從兩方面延展。一是充實并完善政策本體。可以考慮借鑒政策評價相關(guān)理論,從政策目標(biāo)、政策工具等出發(fā),豐富政策實體的表征維度,在實現(xiàn)科技政策查詢的基礎(chǔ)上,滿足各級政府開展政策評價的新需求。二是引入新興技術(shù),完善政策語義知識庫的廣度與深度。將BERT等考慮上下文語義信息的預(yù)訓(xùn)練語言模型與Bi-LSTM模型結(jié)合,從更細(xì)的粒度抽取政策實體和關(guān)系,提升科技政策知識圖譜的適應(yīng)性與易用性。此外,在本文構(gòu)建的知識圖譜基礎(chǔ)上,還可以進一步延伸開發(fā)在線政策智能問答系統(tǒng),滿足政府與企業(yè)、科技提供商與技術(shù)應(yīng)用者對前沿科技政策信息的準(zhǔn)確定位與實時獲取。

    猜你喜歡
    本體圖譜實體
    Abstracts and Key Words
    繪一張成長圖譜
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    前海自貿(mào)區(qū):金融服務(wù)實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    補腎強身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    主動對接你思維的知識圖譜
    《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
    郁南县| 繁峙县| 龙岩市| 海盐县| 临沧市| 泉州市| 龙州县| 那曲县| 德江县| 蓝田县| 江川县| 易门县| 军事| 拜泉县| 康定县| 稷山县| 济南市| 曲麻莱县| 庄河市| 许昌市| 巴塘县| 本溪| 新乐市| 建湖县| 高唐县| 定远县| 洪江市| 班玛县| 锡林郭勒盟| 灵川县| 肇庆市| 沈阳市| 汉中市| 鄂托克旗| 峨眉山市| 建始县| 静乐县| 泰州市| 杨浦区| 当涂县| 盐亭县|