余安國,劉繼鵬,郭偉,孫志杰,張艷麗
(國網(wǎng)冀北電力有限公司營銷服務(wù)中心(資金集約中心、計(jì)量中心),北京 100032)
隨著我國經(jīng)濟(jì)社會(huì)和科學(xué)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在社會(huì)生產(chǎn)生活中得到越來越廣泛的應(yīng)用,知識(shí)圖譜技術(shù)也應(yīng)運(yùn)而生[1-2]。知識(shí)圖譜技術(shù)主要包括應(yīng)用數(shù)學(xué)、信息科學(xué)和可視化技術(shù)等,將相關(guān)聯(lián)的知識(shí)內(nèi)容根據(jù)其關(guān)系進(jìn)行關(guān)聯(lián)圖譜劃分構(gòu)建,整合成一個(gè)相互關(guān)聯(lián)的知識(shí)信息關(guān)系圖譜。比如在瀏覽器中輸入一個(gè)關(guān)鍵詞,出來的搜索界面中會(huì)推薦與其存在關(guān)聯(lián)關(guān)系的其他關(guān)鍵詞,并且隨著搜索關(guān)鍵詞次數(shù)的增加,推薦的關(guān)聯(lián)性內(nèi)容信息增多[3]。
知識(shí)圖譜技術(shù)能夠從整個(gè)互聯(lián)網(wǎng)資源中提取知識(shí)信息,為用戶提供系統(tǒng)化、關(guān)聯(lián)化的關(guān)鍵詞知識(shí)體系。目前的許多瀏覽器、社交軟件和其他網(wǎng)絡(luò)平臺(tái)都需要應(yīng)用知識(shí)圖譜技術(shù)[4]。
隨著知識(shí)圖譜技術(shù)的推廣與普及,該文針對(duì)許多企業(yè)公司或事業(yè)單位業(yè)務(wù)稽查規(guī)則方面存在的問題,基于深度學(xué)習(xí)方面的原理和技術(shù),構(gòu)建了業(yè)務(wù)稽查規(guī)則知識(shí)圖譜,有利于相關(guān)企業(yè)單位提高自身業(yè)務(wù)稽查的管理能力和工作效率。
構(gòu)建業(yè)務(wù)稽查規(guī)則知識(shí)圖譜首先需要對(duì)該企業(yè)所需的業(yè)務(wù)稽查信息內(nèi)容進(jìn)行采集整理,完成實(shí)體抽取和關(guān)系挖掘[5]。針對(duì)營銷業(yè)務(wù)方面,由于各部門負(fù)責(zé)的工作內(nèi)容具有一定的分散性和獨(dú)立性,需要將分散的管理規(guī)則分別采集到一個(gè)統(tǒng)一的數(shù)據(jù)庫中。將各部門內(nèi)的業(yè)務(wù)稽查規(guī)則從系統(tǒng)中復(fù)制并提取出來,按照部門進(jìn)行分類整理,根據(jù)數(shù)據(jù)處理系統(tǒng)的業(yè)務(wù)規(guī)則內(nèi)容進(jìn)行數(shù)據(jù)預(yù)處理,檢驗(yàn)業(yè)務(wù)規(guī)則內(nèi)容的合理性,篩選并排除存在異常的業(yè)務(wù)規(guī)則和管理內(nèi)容。
將所有正常的業(yè)務(wù)稽查規(guī)則整合到一起后,進(jìn)行業(yè)務(wù)規(guī)則的關(guān)系挖掘[6-7]。根據(jù)企業(yè)設(shè)定的稽查主題和核心規(guī)則,制定支持主題核心規(guī)則的相關(guān)稽查規(guī)則。依據(jù)規(guī)則的內(nèi)容要求,提取業(yè)務(wù)規(guī)則數(shù)據(jù)庫內(nèi)部的相關(guān)關(guān)鍵詞,并按照關(guān)聯(lián)度進(jìn)行排序,根據(jù)關(guān)鍵詞所屬的業(yè)務(wù)規(guī)則,將相關(guān)聯(lián)的業(yè)務(wù)規(guī)則進(jìn)行關(guān)系搭建[8-9]。知識(shí)圖譜信息業(yè)務(wù)關(guān)系如圖1 所示。
圖1 知識(shí)圖譜信息業(yè)務(wù)關(guān)系
上述分析初步對(duì)業(yè)務(wù)稽查規(guī)則的關(guān)系進(jìn)行搭建,為了實(shí)現(xiàn)業(yè)務(wù)稽查規(guī)則知識(shí)圖譜的智能化,需要對(duì)業(yè)務(wù)規(guī)則內(nèi)容和關(guān)鍵詞進(jìn)行相關(guān)的語言描述。將初步形成的關(guān)聯(lián)關(guān)系業(yè)務(wù)稽查規(guī)則內(nèi)容,通過系統(tǒng)檢索程序進(jìn)行相關(guān)描述內(nèi)容檢索,參與業(yè)務(wù)稽查規(guī)則知識(shí)圖譜的構(gòu)建,有利于實(shí)現(xiàn)該知識(shí)圖譜的智能化[10]。
業(yè)務(wù)稽查規(guī)則知識(shí)圖譜構(gòu)建過程包括兩個(gè)主要步驟:知識(shí)要素識(shí)別和關(guān)系分析,基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜構(gòu)建流程如圖2 所示。
圖2 業(yè)務(wù)稽查規(guī)則知識(shí)圖譜構(gòu)建流程
業(yè)務(wù)稽查規(guī)則知識(shí)實(shí)體識(shí)別通過NLP 自然語言處理和深度學(xué)習(xí)模型算法來實(shí)現(xiàn)。將之前采集整理好的業(yè)務(wù)稽查規(guī)則信息資源傳輸?shù)綌?shù)據(jù)處理系統(tǒng),系統(tǒng)的數(shù)據(jù)處理程序先對(duì)業(yè)務(wù)規(guī)則內(nèi)容進(jìn)行內(nèi)容知識(shí)實(shí)體識(shí)別,并對(duì)識(shí)別出的知識(shí)實(shí)體進(jìn)行關(guān)鍵詞特征提取,包括詞匯特征、語言特征、關(guān)聯(lián)特征等,根據(jù)特征情況對(duì)知識(shí)實(shí)體進(jìn)行相關(guān)描述,然后將描述信息對(duì)應(yīng)標(biāo)注在知識(shí)實(shí)體內(nèi)容中[11-12]。知識(shí)識(shí)別內(nèi)容如圖3 所示。
圖3 知識(shí)識(shí)別內(nèi)容
NLP 自然語言處理技術(shù)主要負(fù)責(zé)業(yè)務(wù)規(guī)則內(nèi)容和相關(guān)語言描述在計(jì)算機(jī)語言和自然語言的相互轉(zhuǎn)化,實(shí)現(xiàn)人機(jī)之間的自然語言通信。在自然語言處理技術(shù)的基礎(chǔ)上,對(duì)知識(shí)圖譜的知識(shí)實(shí)體進(jìn)行識(shí)別分析。知識(shí)實(shí)體識(shí)別一般以相關(guān)詞典為基礎(chǔ),對(duì)業(yè)務(wù)稽查規(guī)則進(jìn)行知識(shí)圖譜構(gòu)建,可選用業(yè)務(wù)稽查規(guī)則相關(guān)詞典作為識(shí)別基礎(chǔ)。將字典中的關(guān)鍵詞匯及其描述的相關(guān)特征導(dǎo)入識(shí)別程序中,然后采用深度學(xué)習(xí)算法,對(duì)業(yè)務(wù)規(guī)則知識(shí)圖譜的樣本信息數(shù)據(jù)進(jìn)行關(guān)聯(lián)運(yùn)算。根據(jù)運(yùn)算所得的關(guān)聯(lián)程度,對(duì)知識(shí)實(shí)體和相關(guān)詞條進(jìn)行關(guān)系識(shí)別[13-14]。根據(jù)深度置信網(wǎng)絡(luò)進(jìn)行知識(shí)實(shí)體和關(guān)系識(shí)別的運(yùn)算。關(guān)鍵詞特征判定公式為:
式(1)中,v表示該詞匯的所屬特征判定結(jié)果,d表示其對(duì)應(yīng)的描述特征,E表示存在關(guān)聯(lián)性的詞匯。運(yùn)算結(jié)果越接近于1,則表示兩詞匯的關(guān)聯(lián)度越高,詞匯存在的關(guān)系越強(qiáng)。然后對(duì)詞匯在其所屬文檔或網(wǎng)頁出現(xiàn)的頻率進(jìn)行計(jì)算,公式如下:
式(2)中,P表示詞匯在其所屬文檔或網(wǎng)頁出現(xiàn)的頻率,ti fi表示詞匯ti在文檔或網(wǎng)頁fi中出現(xiàn)的次數(shù),N表示知識(shí)圖譜數(shù)據(jù)庫中的文檔總數(shù),ni表示該文檔出現(xiàn)詞匯ti的相關(guān)詞匯樹。根據(jù)此公式能夠得出詞匯的重要性和與其相關(guān)的關(guān)聯(lián)文檔,進(jìn)而獲取多個(gè)文檔之間存在的關(guān)系。
基于特征法對(duì)關(guān)鍵詞匯進(jìn)行關(guān)系識(shí)別判定,得到的特征識(shí)別結(jié)果如圖4 所示。
圖4 特征識(shí)別結(jié)果
根據(jù)圖4 可知,對(duì)獲取到的知識(shí)實(shí)體詞匯及其關(guān)聯(lián)詞匯和文檔進(jìn)行語言處理和關(guān)系識(shí)別。知識(shí)實(shí)體語言作為分析對(duì)象,根據(jù)描述特征選擇不同的識(shí)別方法,比如字符特征、詞性特征、含義內(nèi)容等。更具體的識(shí)別可根據(jù)業(yè)務(wù)稽查規(guī)則的相關(guān)詞匯分類進(jìn)行特征關(guān)系識(shí)別,比如人名、地名、機(jī)構(gòu)名稱、專業(yè)工作詞匯等。在業(yè)務(wù)稽查規(guī)則知識(shí)圖譜中,關(guān)鍵詞匯或語言主要包括稽查目標(biāo)、問題描述、快速輸出、與稽查目標(biāo)相匹配的稽查主題和業(yè)務(wù)管控規(guī)則等。
根據(jù)描述特征對(duì)存在關(guān)聯(lián)關(guān)系的詞匯和語句進(jìn)行特征識(shí)別分析,推斷出兩者之間的關(guān)系性質(zhì),并進(jìn)行關(guān)系定義描述,增加關(guān)聯(lián)詞條解釋,同時(shí)雙方所屬文檔也參與到這兩個(gè)詞匯或語言的關(guān)系圖譜構(gòu)建中;對(duì)于文檔內(nèi)容的關(guān)系識(shí)別,則需要從關(guān)鍵詞雙方的關(guān)聯(lián)程度入手,結(jié)合其他語言描述關(guān)系的識(shí)別結(jié)果和關(guān)系判定結(jié)果進(jìn)行關(guān)聯(lián)關(guān)系構(gòu)建,并對(duì)關(guān)系描述詞條加以注釋[15-16]。
在完成了業(yè)務(wù)稽查規(guī)則知識(shí)特征提取和關(guān)系識(shí)別后,整合其關(guān)系處理數(shù)據(jù)資源,對(duì)業(yè)務(wù)稽查規(guī)則知識(shí)圖譜進(jìn)行構(gòu)建。將分析處理好的知識(shí)實(shí)體信息和相關(guān)數(shù)據(jù)按照一定的關(guān)系進(jìn)行劃分。分批次導(dǎo)入到模型構(gòu)建系統(tǒng)的數(shù)據(jù)庫中,系統(tǒng)采用Cypher 語言對(duì)詞匯和文檔關(guān)系模型進(jìn)行框架程序編寫。Cypher 能夠在系統(tǒng)資源數(shù)據(jù)庫和互聯(lián)網(wǎng)平臺(tái)中,查詢?cè)~匯或文檔的關(guān)聯(lián)節(jié)點(diǎn)和所有關(guān)系特征的關(guān)鍵描述,根據(jù)檢索所得的關(guān)系結(jié)果進(jìn)一步完善詞匯之間的關(guān)系網(wǎng)和關(guān)聯(lián)描述,層層推進(jìn),構(gòu)建互相關(guān)聯(lián)的關(guān)系網(wǎng)。同時(shí)Cypher 還能夠根據(jù)查詢到的關(guān)系信息對(duì)其關(guān)聯(lián)度進(jìn)行個(gè)性化的判定,依據(jù)關(guān)聯(lián)程度的大小構(gòu)建緊密程度不同的關(guān)系網(wǎng)。因此,使用者在使用該知識(shí)圖譜時(shí),系統(tǒng)會(huì)根據(jù)搜索關(guān)鍵詞的關(guān)聯(lián)程度推薦關(guān)聯(lián)度較高的信息內(nèi)容,其他內(nèi)容推薦的數(shù)量根據(jù)關(guān)聯(lián)程度依次遞減,使用者能夠享受到比較個(gè)性化、智能化的檢索服務(wù)。此外,該圖譜與系統(tǒng)數(shù)據(jù)庫保持同步聯(lián)系的狀態(tài),會(huì)對(duì)檢索內(nèi)容進(jìn)行相關(guān)的記錄,并隨時(shí)更新錄入的信息資源,保持知識(shí)圖譜的實(shí)時(shí)性,保障企業(yè)單位的業(yè)務(wù)稽查規(guī)則和相關(guān)工作內(nèi)容記錄的真實(shí)性、完整性。構(gòu)建的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜如圖5 所示。
圖5 構(gòu)建的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜
同時(shí)業(yè)務(wù)稽查規(guī)則知識(shí)圖譜還具備檢驗(yàn)功能,能夠根據(jù)自身的檢索規(guī)則對(duì)業(yè)務(wù)內(nèi)容進(jìn)行檢驗(yàn)分析,對(duì)于存在問題的部分內(nèi)容,可自動(dòng)進(jìn)行錯(cuò)誤指出和修改糾正,智能解析稽查工單的原始信息和核實(shí)后的原因說明,提出稽查核實(shí)步驟和整改措施指引等反饋信息,判斷導(dǎo)致異常的原因類型,并標(biāo)記問題產(chǎn)生的原因標(biāo)簽,輔助業(yè)務(wù)人員開展工作,提升稽查規(guī)則的創(chuàng)建維護(hù)管理效率,從而實(shí)現(xiàn)業(yè)務(wù)管控支撐的智能化。采用Python 語言對(duì)知識(shí)圖譜進(jìn)行模塊操作訓(xùn)練。圖6 為基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜工作運(yùn)行流程。
圖6 基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜工作流程
選取該企業(yè)的本季度業(yè)務(wù)工單為實(shí)驗(yàn)對(duì)象,對(duì)其進(jìn)行問題稽查,檢驗(yàn)其存在問題的類型。將公司業(yè)務(wù)工單內(nèi)容等信息資源傳輸?shù)街R(shí)圖譜處理系統(tǒng)中,進(jìn)行詞匯提取分類和特征提取識(shí)別,根據(jù)其特征和相關(guān)描述獲取詞匯和語言之間的關(guān)系描述,并做好標(biāo)注;然后進(jìn)行信息數(shù)據(jù)集檢驗(yàn),檢驗(yàn)業(yè)務(wù)規(guī)則信息內(nèi)容的正確性,判斷工單信息是否存在問題,在知識(shí)圖譜系統(tǒng)中,根據(jù)其關(guān)鍵詞和關(guān)系描述情況對(duì)不同文檔或詞匯之間的關(guān)聯(lián)程度信息內(nèi)容進(jìn)行判定,若存在問題則標(biāo)注出問題原因;最后將檢驗(yàn)結(jié)果輸出到用戶顯示界面中。
為了檢驗(yàn)構(gòu)建的基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜的實(shí)際應(yīng)用效果,該文進(jìn)行了實(shí)驗(yàn)研究,以某公司本季度的業(yè)務(wù)情況和工單資料為實(shí)驗(yàn)數(shù)據(jù)樣本,通過業(yè)務(wù)稽查規(guī)則知識(shí)圖譜識(shí)別檢驗(yàn)出公司業(yè)務(wù)工單中存在問題的類型。實(shí)驗(yàn)采用配備Windows 10 系統(tǒng)、MySQL 數(shù)據(jù)庫、儲(chǔ)存內(nèi)存為256 GB 的計(jì)算機(jī)為基礎(chǔ)設(shè)備。
采集的數(shù)據(jù)信息如表1 所示。
表1 數(shù)據(jù)信息
根據(jù)表1 可知,該文的知識(shí)圖譜構(gòu)建方法識(shí)別的信息更多。
關(guān)系識(shí)別的準(zhǔn)確度越高,對(duì)內(nèi)容判斷的準(zhǔn)確率越高,對(duì)業(yè)務(wù)工單存在的問題的檢驗(yàn)結(jié)果越準(zhǔn)確。該文選取了傳統(tǒng)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜進(jìn)行對(duì)比實(shí)驗(yàn)操作,記錄并比較關(guān)系識(shí)別結(jié)果的準(zhǔn)確率,其識(shí)別結(jié)果準(zhǔn)確率如圖7 所示。
圖7 業(yè)務(wù)稽查規(guī)則知識(shí)圖譜識(shí)別準(zhǔn)確度
從圖中信息可以看出,基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜的關(guān)系識(shí)別準(zhǔn)確率均在90%以上,雖然隨著檢驗(yàn)數(shù)量的增加有所下降,但基本變化比較穩(wěn)定,體現(xiàn)出其識(shí)別效果比較良好;基于關(guān)系檢測(cè)的知識(shí)圖譜識(shí)別準(zhǔn)確率一開始比較高,隨著檢驗(yàn)數(shù)量增加,準(zhǔn)確率下降較快,當(dāng)檢測(cè)數(shù)量達(dá)到500 時(shí),準(zhǔn)確率已經(jīng)低于80%,說明其識(shí)別準(zhǔn)確率受檢驗(yàn)數(shù)量影響較大,不適合進(jìn)行大量數(shù)據(jù)關(guān)系的識(shí)別;基于神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜準(zhǔn)確率保持較為穩(wěn)定的水平,基本在75%左右,關(guān)系識(shí)別準(zhǔn)確率不高。
該文針對(duì)目前社會(huì)經(jīng)濟(jì)的發(fā)展需求,構(gòu)建了基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜,并進(jìn)行了實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的業(yè)務(wù)稽查規(guī)則知識(shí)圖譜具有良好的應(yīng)用效果,能夠滿足當(dāng)前企業(yè)單位對(duì)業(yè)務(wù)稽查方面的技術(shù)需求,同時(shí)能夠?yàn)橄嚓P(guān)領(lǐng)域的知識(shí)圖譜研究提供一定的技術(shù)參考。