朱金連 法勇 呂健 沈卓 張雨
(1.南京海關(guān),江蘇 南京 210001; 2.南通海關(guān),江蘇 南通 226006)
海關(guān)治理體系和治理能力現(xiàn)代化是國家治理體系和治理能力現(xiàn)代化的重要組成部分?!笆奈濉焙jP(guān)科技發(fā)展規(guī)劃指出,“將法律法規(guī)、技術(shù)標準、工作規(guī)范、業(yè)務(wù)基礎(chǔ)知識匯聚、融合,建設(shè)海關(guān)通用和業(yè)務(wù)重點領(lǐng)域知識圖譜。引入智能規(guī)則引擎等工具,應(yīng)用語音識別、視頻識別、圖像識別、自然語言處理等技術(shù),建設(shè)海關(guān)業(yè)務(wù)知識庫平臺”。
海關(guān)知識庫平臺需要以海關(guān)內(nèi)外部各條線業(yè)務(wù)數(shù)據(jù)為基礎(chǔ),重點解決領(lǐng)域知識圖譜的構(gòu)建,并圖像識別、自然語言處理、文字識別、多語種翻譯、語音識別等人工智能技術(shù)為輔助,以海關(guān)業(yè)務(wù)知識資源持續(xù)開發(fā)和運營為手段,實現(xiàn)“前臺綜合執(zhí)法后臺知識支撐”的智能化服務(wù),滿足海關(guān)內(nèi)外部用戶不同群體的知識獲取需要,實現(xiàn)海關(guān)領(lǐng)域知識的“業(yè)務(wù)百科”。
作為知識來源,各業(yè)務(wù)條線的數(shù)據(jù)資源匯聚,既是海關(guān)知識庫的平臺特色,也是平臺建設(shè)的關(guān)鍵點。各業(yè)務(wù)條線的數(shù)據(jù)主要包括海關(guān)各類政策法規(guī)、海關(guān)辭庫、數(shù)字圖書館、動植標本庫、貿(mào)易單據(jù)無紙化數(shù)據(jù)、國外證書樣本數(shù)據(jù)、商品庫數(shù)據(jù)等內(nèi)容,具有對接系統(tǒng)眾多、數(shù)據(jù)量大、數(shù)據(jù)時效性差異顯著、數(shù)據(jù)結(jié)構(gòu)及對接環(huán)境復(fù)雜等特點[1]。基于此,數(shù)據(jù)采集應(yīng)采用一次性采集、增量采集、定期采集等多種方式,接口應(yīng)采用數(shù)據(jù)庫接口、文件接口、系統(tǒng)接口等多種對接方法,逐步匯聚起海關(guān)知識庫底層數(shù)據(jù)資源。
主要體現(xiàn)在以下兩個方面:一方面是通過對海關(guān)長期積累的大量文檔、業(yè)務(wù)數(shù)據(jù)等資源進行圖譜構(gòu)建,逐步建立領(lǐng)域的基礎(chǔ)知識圖譜平臺和可視化場景,并通過對接智能搜索等應(yīng)用,輔助海關(guān)對積累的知識進行管理,提升內(nèi)、外用戶對知識的獲取效率。另一方面,知識圖譜的專業(yè)性體現(xiàn)在特定領(lǐng)域的知識圖譜構(gòu)建方面,逐步實現(xiàn)特定領(lǐng)域的專項知識圖譜構(gòu)建[2]。比如建設(shè)洋垃圾專項圖譜、瀕危物種專項圖譜等,可以廣泛應(yīng)用于海關(guān)業(yè)務(wù)領(lǐng)域的知識發(fā)現(xiàn)、關(guān)聯(lián)關(guān)系挖掘、風險分析控制等場景。
“圖庫、研庫、學庫及關(guān)搜、關(guān)問、智識、智用”等“三庫四用”應(yīng)用體系開創(chuàng)性地提出了知識庫的領(lǐng)域應(yīng)用解決方案。作為一種應(yīng)用框架,“三庫四用”通過各具特色的應(yīng)用場景發(fā)揮各自的應(yīng)用價值。“圖庫”重點面向圖像檢索、識別,“研庫”側(cè)重于各類政策法規(guī)、文獻期刊等應(yīng)用,“學庫”面向于微學習場景;“四用”方面,“關(guān)搜”是典型的多模態(tài)搜索應(yīng)用,“關(guān)問”則側(cè)重專家系統(tǒng)、問答系統(tǒng),“智識”為業(yè)務(wù)場景提供智能識別支持,“智用”則貼合具體業(yè)務(wù)場景,以現(xiàn)場操作、執(zhí)法依據(jù)、作業(yè)流程為核心,輔助用戶的實際作業(yè),切實發(fā)揮出海關(guān)知識庫應(yīng)用價值。
海關(guān)知識庫平臺AI服務(wù)中心,同樣可為其他業(yè)務(wù)系統(tǒng)提供相應(yīng)的AI服務(wù)。作為基本能力平臺,通過匯集各其他業(yè)務(wù)場景中涉及的AI能力,可支撐海關(guān)建立起規(guī)?;?、體系化、共建共享的海關(guān)AI服務(wù)資源池。比如:標簽識別能力可以作為“智能審圖”的基礎(chǔ)支撐,為進出口食品監(jiān)管等場景提供智能識別服務(wù);智能翻譯可通過服務(wù)開放,為輿情分析、緝私辦案及監(jiān)管等場景提供文本翻譯服務(wù)等。通過建設(shè)共建共享的AI服務(wù)中心,可有效提高服務(wù)能力本身,并降低全國海關(guān)在類似服務(wù)能力建設(shè)方面的成本投入。
多種AI技術(shù)在海關(guān)知識生產(chǎn)和應(yīng)用過程中還應(yīng)加快場景化融合。比如,平臺支持文字、語音、圖像等多種識別技術(shù)的多模態(tài)搜索服務(wù),能夠在語義理解的基礎(chǔ)上對語音輸入內(nèi)容、文字輸入內(nèi)容或者是拍照圖片內(nèi)容進行精準識別及需求理解;融合自然語言理解、情感分析、智能問答等能力,精準理解用戶問題中提及的業(yè)務(wù)、服務(wù)領(lǐng)域和意圖,并基于此對意圖、指代等進行準確分析,提供以自然語言對話、語音合成對話等形式,使關(guān)員有更良好的知識檢索、知識應(yīng)用體驗[3]。
知識圖譜是當前很受熱捧的人工智能研究方向。從概念上講,知識圖譜是由各類本體相互連接而成的語義網(wǎng)絡(luò),它基于圖數(shù)據(jù)庫,本質(zhì)上是一張具有N個節(jié)點、M條邊的圖。它能在現(xiàn)有web基礎(chǔ)之上構(gòu)建一層覆蓋網(wǎng)絡(luò),在web表達上建立概念之間的語義鏈接關(guān)系,從而將網(wǎng)絡(luò)上各種信息組織起來,成為可以被利用的知識。在海關(guān)知識庫平臺中,可利用動態(tài)本體知識圖譜構(gòu)建技術(shù),基于對現(xiàn)有數(shù)據(jù)的再加工、結(jié)構(gòu)化,逐步形成一個統(tǒng)一的、邏輯上全局的海關(guān)行業(yè)性知識庫。
本體最早起源于哲學上的一個概念:本體是客觀存在的一個系統(tǒng)的解釋或說明,是客觀現(xiàn)實的抽象本質(zhì)。目前業(yè)界關(guān)于“本體”的定義,已被人工智能賦予新的內(nèi)容。(見表1)
表1 本體定義的演變過程
在上述定義中,人們引用最廣泛的是1998年Studer提出的:本體是共享概念模型的明確的形式化規(guī)范說明。這個定義體現(xiàn)了本體O的四層含義:概念模型M、明確U、形式化F和共享R,可以表達為:O={M(),U(),F(),R()}[4]。
在海關(guān)業(yè)務(wù)領(lǐng)域,我們認為“概念模型”是指通過抽象出海關(guān)業(yè)務(wù)中的具體概念而得到的模型MC,比如法人機構(gòu)、口岸、商品等;“明確U”是指所使用的業(yè)務(wù)概念及使用這些業(yè)務(wù)概念的約束都有明確的定義UC,比如針對商品,應(yīng)有海關(guān)領(lǐng)域的具體約束,區(qū)別于其他行業(yè)對商品的不同定義;“形式化”是指本體OC是能被計算機處理的FC,即能夠結(jié)構(gòu)化描述;“共享”是指海關(guān)業(yè)務(wù)本體體現(xiàn)的是行業(yè)認可的知識,反映的是領(lǐng)域中公認的概念集RC,以下是海關(guān)業(yè)務(wù)領(lǐng)域的本體定義:
通常本體所展示的邏輯或概念是相對穩(wěn)定的,甚至是固定的。但在實際行業(yè)應(yīng)用中,本體的概念和外延并非一成不變,往往需要隨著時間、政策調(diào)整、業(yè)務(wù)變更等因素進行動態(tài)調(diào)整。因此,我們在海關(guān)知識庫項目中,運用動態(tài)本體理論,將通過基于動態(tài)本體的知識圖譜構(gòu)建技術(shù),來實現(xiàn)領(lǐng)域知識圖譜的構(gòu)建。
動態(tài)本體是指動態(tài)的本體結(jié)構(gòu),它可以在本體部署應(yīng)用之后,仍然可以不斷地進行修改?;趧討B(tài)本體的知識構(gòu)建是目前本體研究的熱點課題,不少機構(gòu)對動態(tài)本體的知識建模、構(gòu)建流程、本體構(gòu)建標準等進行了較為深入的研究,但目前國內(nèi)外學者尚未形成統(tǒng)一的認識[5]。
本文主要從海關(guān)業(yè)務(wù)領(lǐng)域,通過對本體的概念模型MC、約束定義UC、本體的形式化FC以及領(lǐng)域公認的概念集RC進行領(lǐng)域化處理,嘗試通過對領(lǐng)域本體對象根類型定義來促進動態(tài)本體的知識圖譜構(gòu)建。
通過對海關(guān)行業(yè)的海量數(shù)據(jù)分析,我們首先歸納出兩種基本的數(shù)據(jù)對象:實體對象和事件對象。其中,實體對象一般是作為主體存在的,和我們現(xiàn)實世界中有著明確的實體對應(yīng)關(guān)系。在海關(guān)業(yè)務(wù)中,實體是各業(yè)務(wù)環(huán)節(jié)中的關(guān)鍵要素,比如進出口食品監(jiān)管環(huán)節(jié),實體主要包括企業(yè)、食品、國家/地區(qū)、口岸等,數(shù)據(jù)來源基本以特定業(yè)務(wù)系統(tǒng)數(shù)據(jù)為主;事件對象則通常是某實體的行為集,或者某幾個實體之間的事件關(guān)系集,在海關(guān)業(yè)務(wù)中,事件對象是對業(yè)務(wù)行為的具體描述,比如針對某個物品的查驗業(yè)務(wù),查驗環(huán)節(jié)就是事件描述,它發(fā)生在物品、企業(yè)和查驗機構(gòu)等實體關(guān)系之間,具有查驗事件、查驗過程、查驗結(jié)果等屬性,其數(shù)據(jù)來源也以業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集為核心。
對于海關(guān)行業(yè)領(lǐng)域,文本、圖片、視頻等數(shù)據(jù)所占的比例非常高。比如眾多的海關(guān)相關(guān)政策法規(guī)、業(yè)務(wù)指南、圖書文獻等,基本以文本格式存在的數(shù)據(jù)為主,用戶往往需要從大量文本中進行業(yè)務(wù)知識的提取、分析,這些業(yè)務(wù)知識對充實實體或事件對象的描述非常重要。因此,我們認為應(yīng)將文本對象當作海關(guān)行業(yè)的一種基礎(chǔ)對象類型,研究將主要圍繞基于NLP技術(shù)的海關(guān)領(lǐng)域智能分詞、文本智能識別等方面展開,其數(shù)據(jù)來源包括海關(guān)內(nèi)部各管理系統(tǒng)產(chǎn)生的文本文檔、資源庫中存儲的大量非結(jié)構(gòu)化文本數(shù)據(jù)或者從互聯(lián)網(wǎng)爬取的部分補充描述數(shù)據(jù)等。
除此之外,在有害生物監(jiān)管、進出口食品安全監(jiān)管等領(lǐng)域,會產(chǎn)生大量的圖片、音頻、視頻等數(shù)據(jù),在AI分析技術(shù)能力不斷提高的基礎(chǔ)上,用戶也需要從大量現(xiàn)場圖片、樣本圖片、監(jiān)控視頻、語音錄音等數(shù)據(jù)中進行業(yè)務(wù)知識提取,比如從現(xiàn)場拍攝的物品照片中對商標進行識別,從而驗證該物品的歸屬,并與特定企業(yè)進行關(guān)聯(lián)管理。因此,我們認為應(yīng)將圖片對象、音視頻對象也作為重要對象類型加以研究[6]。
基于以上分析,海關(guān)知識圖譜領(lǐng)域的本體對象基本就可以總結(jié)為五種基本類型:實體對象CE、事件對象CV、文本對象CT、圖片對象CP和音視頻對象CM,它們同樣具有繼承性、封裝性、多態(tài)性等對象特征。比如實體對象作為父類,可以擴展出機構(gòu)類實體、人員類實體、商品類實體等子類,并可通過繼承關(guān)系進行約定和描述。
為了在知識庫平臺中形成對知識的統(tǒng)一規(guī)范性描述,我們?yōu)槲宸N對象設(shè)立了一個知識本體根對象CR,這五種類型的對象都從該本體對象CR向下進行擴展、繼承,從而構(gòu)成海關(guān)知識圖譜的動態(tài)本體表達D。以下是海關(guān)業(yè)務(wù)領(lǐng)域的動態(tài)本體表達:
海關(guān)知識庫平臺應(yīng)用動態(tài)本體技術(shù)進行知識圖譜構(gòu)建,還需重點考慮動態(tài)本體的構(gòu)建標準問題。目前,關(guān)于動態(tài)本體的構(gòu)建標準大多使用本體評估方法,我們認為應(yīng)該系統(tǒng)性地提出動態(tài)本體構(gòu)建的指標評價體系。
動態(tài)本體指標評價體系的建立,需要綜合考慮海關(guān)知識庫平臺的定位,以及整個海關(guān)業(yè)務(wù)知識的運營體系構(gòu)建。通過組織、制度、管理和技術(shù)等措施,從知識應(yīng)用、知識資源、能力服務(wù)三個層面逐步推進海關(guān)動態(tài)本體指標評價體系的建設(shè):
“三庫四用”的特色應(yīng)用體系應(yīng)進一步專業(yè)化,為業(yè)務(wù)提供知識應(yīng)用的“業(yè)務(wù)中臺”組件,不斷豐富知識應(yīng)用的場景,增強平臺的業(yè)務(wù)價值和用戶黏性,以知識應(yīng)用為抓手推動動態(tài)本體的指標評價標準。
通過組織、制度手段,確立知識庫平臺對各業(yè)務(wù)條線數(shù)據(jù)的匯聚職責和權(quán)利,從根本上保證各業(yè)務(wù)條線數(shù)據(jù)對知識庫的數(shù)據(jù)供給,促進知識庫的“數(shù)據(jù)中臺”組件建設(shè),并通過與知識應(yīng)用良性互動,推動建立、完善海關(guān)知識圖譜的動態(tài)本體評價指標集。
不同于普通的業(yè)務(wù)應(yīng)用軟件,知識庫不僅需要技術(shù)上的運維保障,更需要進行業(yè)務(wù)上的運作。建立專門的知識運營管理機構(gòu)、工作機制和配套制度規(guī)范,梳理、構(gòu)建海關(guān)知識體系,協(xié)調(diào)海關(guān)知識資源基礎(chǔ)數(shù)據(jù),保障知識圖譜等的順利構(gòu)建,并有力推動動態(tài)本體評價指標體系的落地。