郭偉鵬,沈松雨
(1.廣州城市信息研究所有限公司,廣州 510665;2.公安部第三研究所,上海 200031)
2012年5月17日,谷歌公司(Google Inc.)首次提出知識圖譜(Knowledge Graph,KG)的概念,旨在描述客觀世界的概念(Concept)、實體(Entity)、事件(Event)及其之間的關(guān)系(Relation),作為構(gòu)建下一代智能化搜索引擎的核心能力。知識圖譜的本質(zhì)是一種大規(guī)模的語義網(wǎng)絡(luò)。知識圖譜作為新興的人工智能技術(shù),可以有效地挖掘和分析知識實體間的相互聯(lián)系,從而促進(jìn)知識的交叉融合[1]。在一個成熟的面向特定領(lǐng)域的知識圖譜中,通常存儲數(shù)十億條實體,數(shù)百億條實體與實體之間的關(guān)系?;陬I(lǐng)域知識圖譜,無論用戶輸入該領(lǐng)域相關(guān)何種關(guān)鍵字,知識圖譜均能呈現(xiàn)與該關(guān)鍵字密切相關(guān)的實體及關(guān)系。例如,騰訊公司(Tencent)基于社交數(shù)據(jù)構(gòu)建了社交網(wǎng)絡(luò)空間,將社交網(wǎng)絡(luò)轉(zhuǎn)換為知識圖譜[2]。該圖譜在人與人之間、人與群體之間及群體與群體之間構(gòu)建出復(fù)雜的關(guān)系網(wǎng)絡(luò),通過某個人的屬性信息,便能夠快速找出所在學(xué)校和社區(qū)相關(guān)人員的關(guān)鍵信息,并研發(fā)出關(guān)系推薦系統(tǒng),如通過相同好友、地理位置(Geographical Location)或者同群組等關(guān)系,推薦出可能認(rèn)識的人。
隨著信息技術(shù)的快速發(fā)展,當(dāng)今世界步入信息爆發(fā)性增長的時代[3],社會治理工作更依賴于大規(guī)模信息檢索與分析技術(shù)。目前諸多單位已經(jīng)積累了大量的具有位置屬性的網(wǎng)格事件數(shù)據(jù)資源。研究表明,80%的人類活動信息與地理位置有關(guān)。這些重要的網(wǎng)格事件數(shù)據(jù)資源普遍具有海量、多源及異構(gòu)的特點。為整合這些異構(gòu)環(huán)境下的海量數(shù)據(jù)資源,提高數(shù)據(jù)價值密度,迫切需要構(gòu)建基于位置數(shù)據(jù)的網(wǎng)格事件領(lǐng)域知識圖譜,以滿足大數(shù)據(jù)環(huán)境下的地址搜索、事件關(guān)聯(lián)及網(wǎng)格員調(diào)度推薦等各類的業(yè)務(wù)需求。基于位置的網(wǎng)格事件數(shù)據(jù),如何構(gòu)建價值密度較高、知識較為豐富的網(wǎng)格事件領(lǐng)域知識圖譜成為一個難點。
自然語言處理(Natural Language Processing,NLP)是人工智能的核心技術(shù)[4],實體關(guān)系提取和語義分析均屬于典型的自然語言處理工作。作為人工智能領(lǐng)域重要的研究方向之一,已經(jīng)出現(xiàn)諸多自然語言處理方法和模型。同時,隨著機(jī)器學(xué)習(xí)模型算法在各領(lǐng)域的廣泛應(yīng)用,自然語言處理算法顯然已從以規(guī)則為核心逐步發(fā)展為以統(tǒng)計為核心,并且以統(tǒng)計為核心的自然語言處理算法已深入應(yīng)用在命名實體識別、實體關(guān)系提取等典型的自然語言處理工作中。然而,目前常用的自然語言處理算法如CRF條件隨機(jī)場、BILSTM雙端長短記憶門等,通常需要大量的人工標(biāo)注樣本作基礎(chǔ)支撐,而這項標(biāo)注樣本工作耗時比較多,這顯然增加了語料生產(chǎn)的人工成本,影響了自然語言處理算法實現(xiàn)的經(jīng)濟(jì)可行性。
為解決網(wǎng)格事件領(lǐng)域知識圖譜構(gòu)建過程中標(biāo)注成本高昂的問題,本文將采用BERT(Bidirectional Encoder Representation from Transformers)雙向轉(zhuǎn)換的編碼器遷移學(xué)習(xí)算法模型。BERT模型基于Transoform深度學(xué)習(xí)架構(gòu),采用注意力機(jī)制實現(xiàn),BERT模型作為預(yù)訓(xùn)練模型的典型被廣泛關(guān)注[5]。BERT模型的核心思想是使用大體量廉價的非標(biāo)注語料進(jìn)行預(yù)訓(xùn)練(Pre training),實現(xiàn)具有特定領(lǐng)域特征的文本分布式表示的預(yù)訓(xùn)練模型;基于該預(yù)訓(xùn)練模型,僅用少量人工標(biāo)注作輔助語料,便可對預(yù)訓(xùn)練模型進(jìn)行微調(diào),進(jìn)而可解決領(lǐng)域業(yè)務(wù)問題解答的算法模型。本文的研究表明,在網(wǎng)格事件領(lǐng)域,基于BERT預(yù)訓(xùn)練模型在模型訓(xùn)練的準(zhǔn)確率方面表現(xiàn)良好。
基于多層雙向轉(zhuǎn)換編碼的BERT模型是一種新型的語言處理技術(shù),該模型通過對每一層的雙向轉(zhuǎn)化器調(diào)節(jié)進(jìn)行預(yù)訓(xùn)練。BERT模型的出現(xiàn)是自然語言處理領(lǐng)域的一次重大進(jìn)步,其顯著改變了預(yù)訓(xùn)練過程中詞向量和下游具體自然語言處理任務(wù)之間的關(guān)系。該模型分2個階段,第一階段進(jìn)行模型預(yù)訓(xùn)練,即采用大體量非標(biāo)注語料作預(yù)訓(xùn)練,獲得文本分布式表示,其結(jié)果和上下文緊密關(guān)聯(lián);第二階段進(jìn)行模型微調(diào)(Fine Tuning),即使用訓(xùn)練好的模型遷移學(xué)習(xí)到下游的訓(xùn)練任務(wù),并采用有標(biāo)注的訓(xùn)練樣本對其進(jìn)行模型微調(diào),進(jìn)而獲得特定領(lǐng)域的知識,減少訓(xùn)練時資源、時間等方面消耗。BERT模型典型體系結(jié)構(gòu)如圖1所示。
圖1 BERT模型典型體系結(jié)構(gòu)
本文采用廣東省信息點數(shù)據(jù)、廣東省地址數(shù)據(jù)、廣東省某轄區(qū)網(wǎng)格事件數(shù)據(jù)構(gòu)建BERT預(yù)訓(xùn)練模型,一方面可以有效降低網(wǎng)格事件領(lǐng)域知識圖譜構(gòu)建過程中,自然語言處理模型人工語料標(biāo)注成本較高問題,另一方面有助于該模型有效推廣到社會治理領(lǐng)域的自然語言處理各種任務(wù)中。
訓(xùn)練過程中采用屏蔽語言模型(Masked Language Model)訓(xùn)練方法,即隨機(jī)屏蔽(masked)輸入部分表征(token),在文本段中隨機(jī)選擇12%的詞匯用于預(yù)測。被屏蔽的詞匯中70%使用特殊符號[MASKED]替換,15%采用隨機(jī)詞替換,剩余15%保持詞匯不變。訓(xùn)練模型依托上下文信息對被屏蔽的詞匯進(jìn)行預(yù)測,進(jìn)而使模型可以理解詞語的表征,并進(jìn)行糾錯工作。具體操作過程見表1。
表1 訓(xùn)練過程說明
在社會治理網(wǎng)格事件領(lǐng)域,實體關(guān)系信息蘊(yùn)含于多源異構(gòu)數(shù)據(jù)中。依據(jù)網(wǎng)格事件管理和決策業(yè)務(wù)需要,在大體量文本數(shù)據(jù)中進(jìn)行實體與關(guān)系提取,形成用于構(gòu)建網(wǎng)格事件領(lǐng)域知識圖譜的三元組(實體,關(guān)系,實體),為社區(qū)治理中關(guān)系查詢業(yè)務(wù)提供數(shù)據(jù)支撐。
構(gòu)建實體識別模型,需要在訓(xùn)練好的BERT模型末端補(bǔ)充前向網(wǎng)神經(jīng)網(wǎng)絡(luò)層,采用Adam算法優(yōu)化器,并結(jié)合交叉熵?fù)p失函數(shù)對模型參數(shù)進(jìn)行局部微調(diào)?;贐ERT的命名實體識別模型結(jié)構(gòu)如圖2所示。
圖2 命名實體識別
在文本關(guān)系提取的業(yè)務(wù)中,重點關(guān)注網(wǎng)格事件和位置信息密切相關(guān)的實體,如人(PERSON)實體、地址(ADDRESS)實體、事件(EVENT)實體、物品(GOODS)實體和車(CAR)實體等。實體之間的關(guān)系包含:居?。↙IVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)和提交(APPLY)等。在精調(diào)BERT模型過程中,每回合隨機(jī)抽取小批量人工標(biāo)注的語料進(jìn)行模型訓(xùn)練,對模型參數(shù)進(jìn)行微調(diào)。實體關(guān)系識別如圖3所示。
圖3 實體關(guān)系識別
對本文數(shù)據(jù)進(jìn)行基于BERT模型算法的預(yù)訓(xùn)練,預(yù)訓(xùn)練過程使用人工標(biāo)注語料精調(diào)后,提取一個實體、關(guān)系并進(jìn)行語義解析,形成實體—關(guān)系—實體三元組,定期三元組數(shù)據(jù)持久化到圖數(shù)據(jù)庫(Neo4j)中,開發(fā)面向?qū)嶓w、關(guān)系的圖譜檢索服務(wù),便可對網(wǎng)格事件管理起到?jīng)Q策支持作用。本文采用的領(lǐng)域知識圖譜構(gòu)建過程如圖4所示。
圖4 領(lǐng)域知識圖譜構(gòu)建
1.6.1 實驗環(huán)境
本研究的實驗環(huán)境見表2。
表2 實驗環(huán)境
1.6.2 實驗結(jié)果
本研究實驗結(jié)果見表3。
表3 實驗結(jié)果
1.6.3 網(wǎng)格事件知識圖譜示例
本研究構(gòu)建的面向用于社會治理的網(wǎng)格事件領(lǐng)域知識圖譜示例中共包含6種實體,12種關(guān)系。實體包括人員(PERSON)實體、地址(ADDRESS)實體、事件(EVENT)實體、物品(GOODS)、車輛(CAR)及電話(phone);關(guān)系包括居?。↙IVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)、提交(APPLY)、關(guān)聯(lián)(LINK)、同?。–OHABIT)、同行(PEER)、親屬(RELATIVES)及密接(TIGHT JOINT)。本文實驗結(jié)果部分成果示例如圖5所示。
圖5 領(lǐng)域知識圖譜成果示例(查詢車,深度3)
實驗結(jié)果表明,本文面向社會治理層面的網(wǎng)格事件管理,本文提出基于預(yù)訓(xùn)練模型(Bidirectional Encoder Representations from Transformers,BERT)的命名實體識別方法[6]和領(lǐng)域知識圖譜構(gòu)建技術(shù),在實體提取、關(guān)系提取等自然語言處理(NLP)任務(wù)中可獲得良好的效果,基于圖數(shù)據(jù)庫存儲在關(guān)系存儲和表達(dá)方面也更為直觀。該模型在區(qū)別于訓(xùn)練樣本格式的文本數(shù)據(jù)處理中同樣獲得較好的識別支持率,具備較強(qiáng)的社會治理賦能領(lǐng)域進(jìn)一步泛化賦能。