陳張帆 龐帆 張婷 田昀
摘要:堅(jiān)強(qiáng)智能電網(wǎng)需要強(qiáng)大的信息通信技術(shù)支撐,通過(guò)“電力流、信息流、業(yè)務(wù)流”的高度融合實(shí)現(xiàn)設(shè)備間的互聯(lián)互通。項(xiàng)目建設(shè)和設(shè)備檔案管理信息需要各環(huán)節(jié)協(xié)調(diào)一致,得以保障電力企業(yè)經(jīng)營(yíng)、監(jiān)測(cè)的數(shù)據(jù)信息。然而,傳統(tǒng)的項(xiàng)目/設(shè)備信息實(shí)行部門化管理,管理職責(zé)割裂,信息系統(tǒng)脫節(jié),缺少全鏈條綜合管理,電網(wǎng)設(shè)備資產(chǎn)檔案與設(shè)備運(yùn)行信息難以對(duì)應(yīng)一致,統(tǒng)計(jì)分析數(shù)據(jù)不規(guī)范、考慮設(shè)備實(shí)時(shí)運(yùn)行的電網(wǎng)性能評(píng)估理論不完善、項(xiàng)目管理系統(tǒng)數(shù)據(jù)不貫通等問(wèn)題日益凸顯。本文針對(duì)這些問(wèn)題,提出了一種從項(xiàng)目立項(xiàng)、投產(chǎn)建設(shè)到設(shè)備運(yùn)行的全部過(guò)程信息綜合匯總統(tǒng)計(jì),并將項(xiàng)目與設(shè)備信息相關(guān)聯(lián)匹配的方法,該方法將多源系統(tǒng)信息集成、匯總,并將項(xiàng)目、設(shè)備信息進(jìn)行關(guān)聯(lián)、匹配,實(shí)現(xiàn)了項(xiàng)目與設(shè)備檔案的全過(guò)程貫通,為項(xiàng)目/設(shè)備統(tǒng)計(jì)提供基礎(chǔ)。項(xiàng)目/設(shè)備快速高效匹配,降低了人工成本投入,大大提高了匹配效率和準(zhǔn)確率。
關(guān)鍵詞:電力設(shè)備信息;數(shù)據(jù)溯源;中文分詞;TF-IDF;關(guān)聯(lián)匹配
中圖分類號(hào):TP391 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)15-0250-02
1 引言
堅(jiān)強(qiáng)智能電網(wǎng)[1]是以特高壓為骨干網(wǎng)架、各級(jí)電網(wǎng)協(xié)調(diào)發(fā)展的堅(jiān)強(qiáng)網(wǎng)架為基礎(chǔ),以信息通信平臺(tái)為支撐,具備信息化、自動(dòng)化、互動(dòng)化特征,包含電力系統(tǒng)各環(huán)節(jié),覆蓋各電壓等級(jí),實(shí)現(xiàn)“電力流、信息流、業(yè)務(wù)流”的高度一體化融合。其中,信息化是堅(jiān)強(qiáng)智能電網(wǎng)的基本特征,體現(xiàn)為實(shí)時(shí)和非實(shí)時(shí)信息的高度集成和挖掘能力??梢酝ㄟ^(guò)數(shù)據(jù)采集、數(shù)據(jù)傳輸、信息集成、分析優(yōu)化和信息展示五個(gè)方面,實(shí)現(xiàn)對(duì)電力系統(tǒng)各環(huán)節(jié)的全面監(jiān)測(cè)。
電力建設(shè)項(xiàng)目和設(shè)備檔案信息作為電網(wǎng)企業(yè)經(jīng)營(yíng)、監(jiān)測(cè)的主要數(shù)據(jù)信息[2][3],需要保證數(shù)據(jù)的可靠性在各環(huán)節(jié)協(xié)調(diào)一致,一方面能夠?qū)崿F(xiàn)設(shè)備資產(chǎn)的統(tǒng)計(jì)匯總,另一方面能夠?qū)υO(shè)備運(yùn)行信息實(shí)施監(jiān)測(cè)和分析。隨著電網(wǎng)建設(shè)流程逐步優(yōu)化,管理精益化水平顯著提高,各專業(yè)對(duì)明細(xì)數(shù)據(jù)、實(shí)時(shí)信息等需求越來(lái)越迫切,對(duì)堅(jiān)強(qiáng)智能電網(wǎng)建設(shè)、企業(yè)高效協(xié)同經(jīng)營(yíng)管理等提出了更高要求。
然而,傳統(tǒng)的項(xiàng)目/設(shè)備信息實(shí)行部門化管理,管理職責(zé)割裂,信息系統(tǒng)脫節(jié),缺少全鏈條綜合管理,電網(wǎng)設(shè)備資產(chǎn)檔案與設(shè)備運(yùn)行信息難以對(duì)應(yīng)一致,統(tǒng)計(jì)分析數(shù)據(jù)不規(guī)范、考慮設(shè)備實(shí)時(shí)運(yùn)行的電網(wǎng)性能評(píng)估理論不完善、項(xiàng)目管理系統(tǒng)數(shù)據(jù)不貫通等問(wèn)題日益凸顯。針對(duì)上述問(wèn)題,本文提出了一種從項(xiàng)目立項(xiàng)、投產(chǎn)建設(shè)到設(shè)備運(yùn)行的全部過(guò)程信息集成、匯總統(tǒng)計(jì),并將項(xiàng)目與設(shè)備信息相關(guān)聯(lián)匹配的方法,該方法全面梳理了電網(wǎng)項(xiàng)目及設(shè)備的全過(guò)程綜合統(tǒng)計(jì)指標(biāo)體系,根據(jù)項(xiàng)目/設(shè)備信息的不同情況,制定了輔助項(xiàng)目與設(shè)備的智能匹配方法。本方法在國(guó)家電網(wǎng)公司電網(wǎng)設(shè)備運(yùn)行信息統(tǒng)計(jì)分析系統(tǒng)中已得到應(yīng)用,對(duì)于項(xiàng)目建設(shè)、設(shè)備運(yùn)行全過(guò)程實(shí)時(shí)信息統(tǒng)計(jì)提供了可能性,通過(guò)多業(yè)務(wù)系統(tǒng)溯源集成,貫通了各個(gè)業(yè)務(wù)系統(tǒng)信息,為項(xiàng)目/設(shè)備統(tǒng)計(jì)提供基礎(chǔ)。項(xiàng)目/設(shè)備快速高效匹配,降低了人工成本投入,大大提高了匹配效率和準(zhǔn)確率。
2 設(shè)備信息智能匹配關(guān)鍵技術(shù)
2.1 中文分詞
中文分詞(Chinese Word Segmentation) [4]指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,唯獨(dú)詞沒(méi)有一個(gè)形式上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題,不過(guò)在詞這一層上,中文比之英文要復(fù)雜得多、困難得多[5]。
中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功地進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。在中文分詞中,有兩大難題一直沒(méi)有完全突破:歧義識(shí)別與新詞識(shí)別。歧義是指同樣的一句話,可能有兩種或者更多的切分方法。新詞[6]指在分詞詞典中沒(méi)有收錄,但又確實(shí)能稱為詞的那些詞。包括人名、機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語(yǔ)等。分詞系統(tǒng)中的新詞識(shí)別十分重要,新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。
基于人工智能的中文分詞技術(shù)研究[7-9]要求我們以機(jī)器學(xué)習(xí)和模式識(shí)別的方法改善傳統(tǒng)分詞算法的不足,實(shí)現(xiàn)對(duì)歧義的準(zhǔn)確識(shí)別與新詞的更新,使分詞結(jié)果更精確、語(yǔ)義更明確、結(jié)果更具可信度。
2.2 TF-IDF方法
TF-IDF(term frequency–inverse document frequency)[10]是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),用以評(píng)估某一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。
TF-IDF的思想主要是:若一個(gè)詞語(yǔ)的詞頻越高,則該詞語(yǔ)越重要;若包含某詞語(yǔ)的文本數(shù)量越少,則這個(gè)詞語(yǔ)的類別區(qū)分能力越強(qiáng),反之若某詞語(yǔ)出現(xiàn)在很多文本中,則它的類別區(qū)分能力就很弱。最終計(jì)算出某個(gè)詞語(yǔ)[tij]的TF與IDF的乘積即得到特征權(quán)重。式(2-1)中,[tfij]代表詞[ti]在文檔[Dj]中的TF權(quán)重,[ni,j]代表詞[ti]在文檔[Dj]中出現(xiàn)的次數(shù)(頻度),[ Maxnj]代表文檔[Dj]中出現(xiàn)頻度最高的詞的頻度;[idfij]代表詞[ti]在文檔[Dj]中的IDF權(quán)重,|D|代表語(yǔ)料庫(kù)所含文本數(shù)量。[{j:ti∈dj}]代表語(yǔ)料庫(kù)中包含詞語(yǔ)[ti]的文檔數(shù)量。詞語(yǔ)[ti]的TF-IDF權(quán)重[wij]等于其TF權(quán)重與IDF權(quán)重的乘積。
TF-IDF是一種經(jīng)典而有效的文本表示分析方法,也是本項(xiàng)目的一個(gè)重要部分。如何改進(jìn)算法、使提取的TF-IDF權(quán)值更精確是本項(xiàng)目一個(gè)研究的重點(diǎn)。
2.3 余弦相似度
文本的相似度[11]一般是指語(yǔ)義的相似度。相似度計(jì)算是進(jìn)行文本聚類的依據(jù)和關(guān)鍵。文本表示為計(jì)算機(jī)可以運(yùn)算的數(shù)學(xué)模型后,以模型在數(shù)學(xué)上的相似度來(lái)近似文本語(yǔ)義的相似度。在向量空間模型中,文檔被視為空間中的向量或是點(diǎn),一般可以使用兩向量的余弦或兩點(diǎn)的距離來(lái)計(jì)算。
余弦相似度度量公式如下。其中,Cos(X,Y)取值范圍為[0,1],當(dāng)Cos(X,Y)=0時(shí),兩文本不相關(guān),即正交;當(dāng)Cos(X,Y)=1時(shí),兩文本相似度最高。
Sim(X,Y) = Cos(X,Y) = [ixi*yi(ix2i)*(iy2i)]
余弦相似度是本項(xiàng)目考慮的首要相似度評(píng)價(jià)方法,我們需要根據(jù)具體的、海量的電網(wǎng)設(shè)備信息來(lái)優(yōu)化、更新該方法。以該算法為基礎(chǔ),以數(shù)據(jù)為驅(qū)動(dòng),通過(guò)大量試驗(yàn)找到最準(zhǔn)確、最客觀的評(píng)價(jià)方法。
3 基于TF-IDF的電力設(shè)備信息智能匹配
3.1 基于TF-IDF的輔助智能匹配
根據(jù)項(xiàng)目/設(shè)備信息不同情況,制定了輔助智能匹配方法[12-14],如流程圖1所示,首先,選取設(shè)備,查看該設(shè)備是否完成關(guān)聯(lián),對(duì)于未實(shí)現(xiàn)關(guān)聯(lián)的設(shè)備通過(guò)設(shè)備的“所屬單位”、“電壓等級(jí)”、“變電容量”、“項(xiàng)目投產(chǎn)日期”等設(shè)備屬性進(jìn)行查詢,如果存在一條或若干條查詢結(jié)果時(shí),進(jìn)行人工校驗(yàn)實(shí)現(xiàn)匹配。如果結(jié)果為0,則使用基于TF-IDF的匹配方法進(jìn)行二次匹配,最終會(huì)選取5-10個(gè)余弦相似度最接近的信息推薦給校驗(yàn)專責(zé)進(jìn)行確認(rèn),完成最終的匹配。
其中,基于TF-IDF的輔助智能匹配流程圖如圖所示。
1)分詞:按一定規(guī)則將文本進(jìn)行切分;
2)學(xué)習(xí)訓(xùn)練:具體流程見(jiàn)計(jì)算流程;
3)返回匹配結(jié)果。
計(jì)算流程如下圖所示:
1)將設(shè)備名稱切分成詞,例如:閆村/工業(yè)/園/2#/公用變;
2)計(jì)算線路或設(shè)備名稱的TF-IDF權(quán)值,可以從表中挑選一些輔助字段,與TF-IDF權(quán)值共同組成特征向量輔助匹配;
3)對(duì)于某個(gè)設(shè)備名稱,計(jì)算另一表中所有向量與其余的弦相似度;
4)根據(jù)數(shù)據(jù)的情況制定匹配的標(biāo)準(zhǔn),例如,若相似度最大的匹配項(xiàng)目的相似度大于90%,則作為最佳匹配項(xiàng);若最大的匹配相似度不足90%則列出相似度排名,作為人工選擇的參考。
3.2 效果應(yīng)用與驗(yàn)證
取某省主變?cè)O(shè)備信息,總計(jì)1245條,其中,通過(guò)直接關(guān)聯(lián)的設(shè)備有1171條信息,針對(duì)未匹配中的74條進(jìn)行基于TF-IDF的方法進(jìn)行匹配,匹配中55條信息,有效將信息匹配率從原有94.06%提高到98.47%,提升了電力設(shè)備信息的統(tǒng)計(jì)基礎(chǔ),
4 總結(jié)
傳統(tǒng)信息系統(tǒng)建設(shè)中存在的項(xiàng)目/設(shè)備信息實(shí)行部門化管理,管理職責(zé)割裂,信息系統(tǒng)脫節(jié),缺少全鏈條綜合管理,電網(wǎng)設(shè)備資產(chǎn)檔案與設(shè)備運(yùn)行信息難以對(duì)應(yīng)一致,統(tǒng)計(jì)分析數(shù)據(jù)不規(guī)范、考慮設(shè)備實(shí)時(shí)運(yùn)行的電網(wǎng)性能評(píng)估理論不完善、項(xiàng)目管理系統(tǒng)數(shù)據(jù)不貫通等問(wèn)題,本文通過(guò)提出一種將項(xiàng)目、設(shè)備等多源信息集成、匯總、匹配到統(tǒng)計(jì)的方法,目前,本方法在國(guó)家電網(wǎng)公司電網(wǎng)設(shè)備運(yùn)行信息統(tǒng)計(jì)分析系統(tǒng)中已得到應(yīng)用,對(duì)于項(xiàng)目建設(shè)、設(shè)備運(yùn)行全過(guò)程實(shí)時(shí)信息統(tǒng)計(jì)提供了可能性,通過(guò)多業(yè)務(wù)系統(tǒng)溯源集成,貫通了各個(gè)業(yè)務(wù)系統(tǒng)信息,為項(xiàng)目/設(shè)備統(tǒng)計(jì)提供基礎(chǔ)。項(xiàng)目/設(shè)備快速高效匹配,降低了人工成本投入,大大提高了匹配效率和準(zhǔn)確率。
參考文獻(xiàn):
[1] 李力,曹榮.以創(chuàng)新精神建設(shè)堅(jiān)強(qiáng)智能電網(wǎng)[J].電力需求側(cè)管理,2009,(5):4-5,10.
[2] 劉文博.供電企業(yè)用電信息采集系統(tǒng)研究與應(yīng)用[D].華北電力大學(xué)(北京),2016.
[3] 劉新超.A電力公司ERP資產(chǎn)管理的應(yīng)用[D].中國(guó)人民大學(xué),2008.
[4] 劉延吉.基于詞典的中文分詞歧義算法研究[D].東北師范大學(xué),2009.
[5] 田學(xué)東,吳麗紅,趙蕾蕾. 基于多特征模糊模式識(shí)別的公式符號(hào)關(guān)系判定[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,(5).
[6] 蔣建洪,趙嵩正,羅玫. 詞典與統(tǒng)計(jì)方法結(jié)合的中文分詞模型研究及應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2012,(1).
[7] 黃翼彪. 開(kāi)源中文分詞器的比較研究[D]. 鄭州大學(xué),2013.
[8] 陳振華,余永權(quán),張瑞. 模糊模式識(shí)別的幾種基本模型研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2010,(9).
[9] 何苗,全宇. 基于關(guān)鍵詞的文本內(nèi)容過(guò)濾算法的改進(jìn)[J]. 微計(jì)算機(jī)應(yīng)用,2007,(8).
[10] 陳琦,伍朝輝,姚芳,等. 基于TF*IDF的垃圾郵件過(guò)濾特征選擇改進(jìn)算法[J]. 計(jì)算機(jī)應(yīng)用研究,2009,(6).
[11] 朱命冬,徐立新,申德榮, 等.面向不確定文本數(shù)據(jù)的余弦相似性查詢方法[J].計(jì)算機(jī)科學(xué)與探索,2018,(1):49-64.
【通聯(lián)編輯:唐一東】