宋立華
(福建億榕信息技術(shù)有限公司,福建福州 350003)
在對電網(wǎng)設(shè)備進行運行管理的過程中,會將設(shè)備故障、缺陷、維修和故障排除等信息記錄在文檔中[1],并以文字的形式存儲于信息管理系統(tǒng)中,其中,既包含各種電力設(shè)備的歷史信息,又包含各種電力設(shè)備的近期使用信息[2]。電力企業(yè)對設(shè)備缺陷的分類、分析、統(tǒng)計多采用人工進行,不僅工作量大、時間長,而且由于主觀因素和經(jīng)驗差異,分類統(tǒng)計結(jié)果不夠準(zhǔn)確[3]。因此,對缺陷文本信息挖掘技術(shù)的研究顯得尤為重要和迫切。目前,缺陷文本挖掘主要采用矢量空間方法,但單純使用統(tǒng)計方法不能準(zhǔn)確提取重要數(shù)字信息和量詞;采用語義框架槽充填法進一步建立基于已有“故障與缺陷基本詞匯”的本體論詞典。在研究總結(jié)大量缺陷文本的基礎(chǔ)上,建立了電網(wǎng)缺陷文本的基本語法模型。但是該模型既不存在詞與詞之間的空格,也不存在詞與句之間的空格,詞性與句法結(jié)構(gòu)差異較大,文本挖掘結(jié)果不準(zhǔn)確。為實現(xiàn)更深層次的信息挖掘,設(shè)計了一種基于信息抽取的電網(wǎng)缺陷文本挖掘系統(tǒng)。
在電網(wǎng)缺陷文本挖掘系統(tǒng)中,設(shè)備故障內(nèi)容經(jīng)常有詳細(xì)的記錄,系統(tǒng)硬件結(jié)構(gòu)如圖1 所示。
圖1 系統(tǒng)硬件結(jié)構(gòu)
由圖1 可知,數(shù)據(jù)采集模塊主要負(fù)責(zé)從互聯(lián)網(wǎng)獲取數(shù)據(jù);網(wǎng)頁分析模塊主要負(fù)責(zé)對HTML 網(wǎng)頁進行預(yù)處理;數(shù)據(jù)存儲模塊主要負(fù)責(zé)對大量文本信息進行存儲;文字預(yù)處理模塊主要負(fù)責(zé)對原始采集的文字?jǐn)?shù)據(jù)進行處理;特征提取模塊主要負(fù)責(zé)對文字內(nèi)容挖掘中的熱點信息進行提取;文本建模模塊主要負(fù)責(zé)提取文字內(nèi)容挖掘中的主題相關(guān)信息[4-6]。
自定義數(shù)據(jù)采集方案的功能是實現(xiàn)瀏覽器端用戶和系統(tǒng)之間的連接,并控制數(shù)據(jù)采集規(guī)則;交互事件響應(yīng)模塊負(fù)責(zé)接收用戶請求,并與服務(wù)器端數(shù)據(jù)存儲設(shè)備進行通信;可視視圖生成模塊負(fù)責(zé)將客戶端返回的文本挖掘結(jié)果顯示給用戶,并根據(jù)用戶的交互需求實現(xiàn)頁面的重置[7-9]。
存儲器是數(shù)據(jù)存儲模塊的核心,是數(shù)據(jù)存儲的主要場所[10]。存儲器分為內(nèi)存儲器和外存儲器,其中內(nèi)存儲器可以直接訪問存儲器內(nèi)部數(shù)據(jù),而外存儲器需要借助主存指令,才能訪問存儲器內(nèi)部數(shù)據(jù)[11-13]。從外存儲器中獲取信息后,中央處理器才能把數(shù)據(jù)傳輸?shù)絻?nèi)存中,內(nèi)存儲模塊如圖2 所示。
圖2 內(nèi)存儲模塊
由圖2 可知,在用office 處理文檔時,鍵盤輸入的字符會儲存在內(nèi)存中。當(dāng)數(shù)據(jù)保存到磁盤上時,存儲器中的數(shù)據(jù)將被存儲到外存儲器(如硬盤)中[14]。一階(L1)、二階(L2)和三階(L3)緩存是一階緩存的模組,位于內(nèi)存儲器與外存儲器之間,借此可避免數(shù)據(jù)儲存等待時間過長。用外存儲器存儲數(shù)據(jù)時,需要經(jīng)過這3 個等級的緩存模塊;相反,用內(nèi)存儲器存儲數(shù)據(jù)時,可以直接讀取數(shù)據(jù)[15]。
應(yīng)用服務(wù)器主要負(fù)責(zé)處理用戶發(fā)送的、通常是無狀態(tài)的請求信息,服務(wù)程序本身并不需要為用戶請求記錄上下文信息。該設(shè)計的優(yōu)點是任何用戶的請求都可以提交到任何應(yīng)用服務(wù)器上[16]。事實上,應(yīng)用服務(wù)器集群通常由負(fù)載均衡服務(wù)器來構(gòu)建。
瀏覽器端可以是單進程的應(yīng)用程序,也可以是使用IPC 通信的多進程應(yīng)用程序,多進程具體分為:
瀏覽器進程:完成瀏覽標(biāo)簽的前進、后退,瀏覽地址欄、書簽欄等任務(wù),處理瀏覽器中一些不可見的底層操作,比如網(wǎng)絡(luò)請求,文件訪問等。
渲染進程:當(dāng)顯示標(biāo)簽時,負(fù)責(zé)相關(guān)工作,也稱為繪圖引擎。
插件進程:負(fù)責(zé)控制所用到的插件。
GPU 進程:負(fù)責(zé)處理整個應(yīng)用程序GPU 任務(wù)。
信息抽取就是把包含在文本中的信息進行結(jié)構(gòu)化處理,建立便于使用數(shù)據(jù)庫存儲的組織形式。信息提取系統(tǒng)的輸入信息是文本的原版,輸出信息是固定格式的。抽取來自不同文件的信息并以統(tǒng)一格式進行集成,該集成方法的優(yōu)勢是數(shù)據(jù)易于檢查、比較和自動處理?;谛畔⒊槿〉碾娋W(wǎng)缺陷文本挖掘模型如圖3 所示。
圖3 挖掘模型
基于信息抽取挖掘過程包括以下5 個步驟:
將試驗一所得數(shù)據(jù)制成時間函數(shù)和上拉桿角度(如圖5所示)、上拉桿垂直力(如圖6所示)、上拉桿水平力(如圖7所示)、右拉桿垂直力(如圖8所示)、右拉桿水平(如圖9所示)、左拉桿垂直力(如圖10所示)及在拉桿水平力(如圖11所示),從上圖可以看出,當(dāng)毒餌噴撒機做提升試驗時上拉桿角度在(32°~68°)的范圍內(nèi)。上拉桿垂直力在(0~7 285N)范圍內(nèi);上拉桿水平力在(0~5 189N)范圍內(nèi);右拉桿垂直力在(0~5 721N)范圍內(nèi);右拉桿水平力在(0~5 575N)范圍內(nèi);左拉桿垂直力在(0~5 238N)范圍內(nèi);左拉桿水平力在(856~5 863N)范圍內(nèi)。
step1:預(yù)測有用信息。自動獲取所有相關(guān)文件時,有必要盡可能地搜索不相關(guān)的信息,而有價值的信息可以通過網(wǎng)絡(luò)爬蟲來顯示。
step2:抽取信息。作為數(shù)據(jù)挖掘的預(yù)處理階段,信息提取包含了大量的信息元素,電網(wǎng)缺陷術(shù)語表如表1 所示。
表1 電網(wǎng)缺陷術(shù)語表
輸入電網(wǎng)缺陷文本后,利用術(shù)語注解標(biāo)準(zhǔn)形式識別術(shù)語表1 中的內(nèi)容,由此得到文本中的標(biāo)準(zhǔn)詞匯。調(diào)度人員在某一固定周期內(nèi)會對電網(wǎng)設(shè)備進行不同描述,由于調(diào)度人員對不同電網(wǎng)缺陷信息描述習(xí)慣a不同,其行為標(biāo)簽ti在固定周期中的覆蓋率可表示為:
式(1)中,sum 表示調(diào)度員對某種電網(wǎng)設(shè)備出現(xiàn)故障缺陷問題的標(biāo)簽描述;T表示系統(tǒng)出現(xiàn)故障缺陷的時長。
電網(wǎng)缺陷記錄的平均時間間隔計算公式為:
式(2)中,k表示電網(wǎng)缺陷記錄次數(shù);d表示時間間隔,則電網(wǎng)缺陷描述偏離度計算公式為:
如果電網(wǎng)設(shè)備出現(xiàn)故障是無周期性的,那么偏離度為0,否則偏離度與時間間隔d一致。設(shè)在固定時間內(nèi)某種電網(wǎng)缺陷標(biāo)簽標(biāo)記的時間間隔為d1,d2,…,dn,電網(wǎng)缺陷標(biāo)簽標(biāo)記的周期可表示為:
如果電網(wǎng)缺陷發(fā)生在該周期內(nèi),則說明電網(wǎng)缺陷是具有周期性的,即在相同時間段內(nèi)會出現(xiàn)周期性電網(wǎng)故障,在該段周期內(nèi),調(diào)度人員應(yīng)當(dāng)在標(biāo)簽中加入時間段描述標(biāo)簽。對于表1 中的缺陷等級術(shù)語分類,使用已標(biāo)記的標(biāo)準(zhǔn)詞匯分析后,輸出語法角色標(biāo)記的片段,如表2 所示。
表2 語法角色標(biāo)記的缺陷等級術(shù)語片段
step3:建立數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是一個集成的、用于支持管理決策的穩(wěn)定數(shù)據(jù)集。作為一個信息平臺,數(shù)據(jù)倉庫主要利用星型模型和雪花型模型組織數(shù)據(jù),使用戶能夠通過數(shù)據(jù)挖掘從數(shù)據(jù)中獲取信息和知識。
step4:挖掘數(shù)據(jù)。數(shù)據(jù)采掘就是挖掘大量結(jié)構(gòu)化數(shù)據(jù)的知識。
step5:結(jié)果可視化。運用信息可視化技術(shù)輔助展示挖掘結(jié)果。
選擇某電網(wǎng)公司2015-2019 年的數(shù)據(jù),共包括1 515 條有關(guān)變壓器缺陷的文本歷史記錄,以該數(shù)據(jù)為基礎(chǔ),對基于信息抽取的電網(wǎng)缺陷文本挖掘系統(tǒng)設(shè)計的合理性進行實驗驗證分析。
分別使用向量空間法、語義框架槽填充方法和基于信息抽取方法分析變壓器缺陷文本挖掘精準(zhǔn)度,對比結(jié)果如圖4 所示。
圖4 不同方法缺陷文本挖掘精準(zhǔn)度對比
由圖4 可知,使用傳統(tǒng)方法挖掘缺陷文本時,挖掘精準(zhǔn)度明顯低于所提方法;而所提方法的挖掘精準(zhǔn)度較高,最低精準(zhǔn)度也達到了85%,說明該方法的挖掘結(jié)果更可靠。
以斷路器為對象,對斷路器發(fā)生故障下缺陷文本的挖掘精度進行分析,機械電磁拖動檢流動作精度低是造成斷路器出現(xiàn)缺陷的主要原因,機械電磁拖動檢流動作如圖5 所示。
圖5 機械電磁拖動檢流動作
根據(jù)圖5 所示,對比不同方法的斷路器缺陷文本挖掘精準(zhǔn)度,結(jié)果如圖6 所示。
圖6 斷路器缺陷文本挖掘精準(zhǔn)度對比
由圖6 可知,傳統(tǒng)方法針對斷路器缺陷文本進行挖掘時,挖掘精度較低。而使用所提方法對斷路器缺陷文本進行挖掘時,挖掘精度明顯更高。說明所提方法對斷路器缺陷文本挖掘結(jié)果更可靠,充分驗證了所提方法的有效性。
電網(wǎng)缺陷文本挖掘系統(tǒng)是一個基于信息抽取技術(shù)的網(wǎng)絡(luò)熱點內(nèi)容挖掘系統(tǒng),它將文本采集、大數(shù)據(jù)處理和文本信息可視化融為一體。該系統(tǒng)能夠根據(jù)目標(biāo)文本集合整合詞匯信息,快速識別目標(biāo)文本中的關(guān)鍵內(nèi)容,幫助用戶快速獲取網(wǎng)絡(luò)信息重載環(huán)境下的宏觀信息。從系統(tǒng)性能方面,利用信息提取技術(shù),實現(xiàn)了文本分析模塊,在文本特征和主題挖掘過程中,計算了網(wǎng)絡(luò)缺陷描述的偏差度,從而大大提高了網(wǎng)絡(luò)缺陷處理結(jié)果的準(zhǔn)確性。