宋才華, 陳春梅, 鄧乾
(廣東電網(wǎng)有限責(zé)任公司 佛山供電局,佛山 528000)
在城市建設(shè)日新月異的今天,眾多街道、社區(qū)被重新規(guī)劃與建設(shè),這種現(xiàn)象造成供電企業(yè)營銷系統(tǒng)中越來越多客戶用電地址數(shù)據(jù)與現(xiàn)實地址不一致。除此之外,由于一些歷史原因?qū)е卢F(xiàn)有的客戶用電地址數(shù)據(jù)存在大量的錯誤、名稱混亂、信息不完整等現(xiàn)象,如將表號作為地址、小區(qū)、樓棟等沒有標準稱謂等。同時,由于存量的客戶用電地址數(shù)據(jù)不是結(jié)構(gòu)化的數(shù)據(jù),存在不同小區(qū)的客戶地址填寫的規(guī)律不一致,甚至同一小區(qū)不同開發(fā)期、不同樓棟之間的地址填寫規(guī)律都不一致問題。這些問題嚴重影響了客戶服務(wù)工作、應(yīng)急檢修工作的質(zhì)量,對基于地址數(shù)據(jù)開展的各類分析與決策支持系統(tǒng)建設(shè)也產(chǎn)生了嚴重的影響。
本文圍繞供電企業(yè)客戶用電地址數(shù)據(jù)質(zhì)量的現(xiàn)狀,結(jié)合大數(shù)據(jù)分析與挖掘的技術(shù)手段,以某地市供電局存量客戶用電地址數(shù)據(jù)的清理工作為案例,闡述供電企業(yè)如何通過創(chuàng)新技術(shù)手段實現(xiàn)客戶用電地址數(shù)據(jù)的結(jié)構(gòu)化和規(guī)范化、并提高完整性與準確率。
某供電局客戶用電地址數(shù)據(jù)存在的問題可以總結(jié)以下幾類情況:
地址被簡寫、縮寫,如:XX區(qū)城市花園南區(qū)11#301、與碧桂園花園南區(qū)12棟502均處于同一個小區(qū),即:XX區(qū)碧桂園城市花園。
相同地址以不同方式表述,如:XX區(qū)港口路2號3棟202、東方水岸3棟401也是同處于一個小區(qū),即:XX區(qū)東方水岸。
歷史遺留的表述,如:石頭村居民小組、XX區(qū)石頭村夏園新村一街7號同處于XX區(qū)石頭夏園新村,其中石頭村居民小組是小區(qū)改造前的稱謂。
還有其他各種形式的問題,本文不再一一列舉。
將所有客戶用電地址進行結(jié)構(gòu)化與規(guī)范化的處理,實現(xiàn)行政區(qū)域、街道辦、小區(qū)的命名統(tǒng)一,即將客戶用電地址統(tǒng)一處理并表述為:市+區(qū)縣+街道+小區(qū)+樓棟+門牌號的形式(沒有小區(qū)的可采用道路+道路號形式)。[1]
地址規(guī)范化清理是一個多次循環(huán)的處理過程,每次清理的成果都會用來補充和修正基礎(chǔ)地址字典庫,然后用經(jīng)過補充和修正的基礎(chǔ)地址字典庫參與下一輪的處理過程,直到完成整個清理過程,如圖1所示。
圖1 地址數(shù)據(jù)清理過程框架
在每一個地址規(guī)范化清理的循環(huán)中,首先會應(yīng)用文本特征構(gòu)建算法將待處理的客戶用電地址關(guān)鍵特征文本識別出來,進行原始地址層級化解析。然后將經(jīng)過層級化解析的地址數(shù)據(jù)與基礎(chǔ)地址字典庫進行匹配,將匹配度滿足要求的數(shù)據(jù)作為清理成果,將匹配度不滿足要求的數(shù)據(jù)放入下一個清理循環(huán)中。即應(yīng)用相似度與一致性評估的算法對清理成果進行綜合評估,從而在結(jié)構(gòu)化地址列表中尋找與未被結(jié)構(gòu)化的地址相一致或高度相似的地址數(shù)據(jù)繼續(xù)進行處理。[2]
基礎(chǔ)字典庫包含兩部分內(nèi)容,即滿足層次化要求的佛山市基礎(chǔ)地址庫與地址要素通名庫。佛山市基礎(chǔ)地址庫從各類公開的電子地圖供應(yīng)商獲取,地址要素通名庫借鑒已公開的數(shù)據(jù)成果并結(jié)合佛山市的實際情況進行補充[3]。
佛山市地址基礎(chǔ)庫結(jié)構(gòu),如圖2所示。
地址要素通名庫結(jié)構(gòu)如下:
編號類型通名1道路路/大道/道/大街/街/巷/胡同/條/里2門牌號號3住宅小區(qū)里/區(qū)/園/村/坊/莊/居/寓/苑/墅/小區(qū)/弄/公寓4樓牌號號/號樓/樓/宿舍/齋/館/堂5POI大廈/廣場/飯店/中心/大樓/場/廣場/館/酒店/賓館/市場/花園/招待所
圖2 地址要素庫示意
對原始地址進行層級化解析的方法主要是分詞算法,而傳統(tǒng)的分詞算法主要包括3種模式:①基于字符串匹配的分詞方法;②基于理解的分詞方法;③基于統(tǒng)計的分詞方法。[4]
基于字符串匹配的分詞算法是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。這種算法要有足夠強大的機器詞典(在本案例中即基礎(chǔ)地址庫),并且原始數(shù)據(jù)的質(zhì)量相對較高。
基于理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。通常這種方法應(yīng)用在對特定的信息集進行語義分析方面,而地址字符串中的字符之間難以確定明確的上下文關(guān)系。[5]
基于統(tǒng)計的分詞方法的基本思想可以理解為某個字在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。[6]
在本案例的應(yīng)用中,在對“基于統(tǒng)計的分詞方法”思想進行理解的基礎(chǔ)上,進行算法擴展來實現(xiàn)原始地址的層級化解析。即在應(yīng)用頻率(DF)之外,增加了信息增益(IG)、互信息、ⅹ2統(tǒng)計(CHI)、期望交叉熵(CE)4種方法,由傳統(tǒng)的分詞方法改進成為基于文本特征的分詞方法。
DF(Document frequency):此處可表述為用電地址頻率. DF表示在訓(xùn)練集中包含某個特征項t的用電地址數(shù)。這種衡量特征想重要程度的方法基于這樣一個假設(shè):DF較小的特征項對分類結(jié)果的影響較??;這種方法優(yōu)先取DF較大的特征項,而DF較小的特征項將被剔除。
信息增益(IG):IG通過統(tǒng)計某個特征項在用電地址中出現(xiàn)或不出現(xiàn)的次數(shù)來預(yù)測用電地址的類別。IG的計算如式(1):
信息增益G(t)反映了特征t對分類混亂程度的降低,也就是對分類的信息量。在實現(xiàn)中通過根據(jù)各個特征的信息贏取值排序,并根據(jù)設(shè)置的閾值選擇出合適規(guī)模的特征子集[7]。
互信息Ml(Mutual information):互信息值,它通過計算特征t和類別c間的相關(guān)性來完成提取。計算式如式(2)。
(2)
其中:A為t和c同時出現(xiàn)的次數(shù)。B為t出現(xiàn)而c沒有出現(xiàn)的次數(shù)。C為c出現(xiàn)而t沒有出現(xiàn)的次數(shù)。N為所有用電地址數(shù)。如果t和c不相關(guān),則I(t,c)值為0。如果有m個類,于是對于每個t會有m個值,取它們的平均,就可得到特征選取所需的一個線性序。大的I平均值的特征被選取的可能性大[8]。
ⅹ2統(tǒng)計(CHI):CHI方法有和Ml方法基本相似的思想,同樣通過計算特征t和類別c間的依賴程度來完成提取。如果特征項t和類別c反相關(guān),就說明含有特征項t的用電地址不屬于c的概率要大一些,這對于判斷用電地址是否不屬于類別也是很有指導(dǎo)意義的。為克服這個缺陷,CHI使用公式計算特征項t和類別c的相關(guān)性。計算式可表達為式(3)。
(3)
由于客戶地址數(shù)據(jù)對供電企業(yè)來說是非常重要的數(shù)據(jù)資產(chǎn),其準確程度對客戶服務(wù)工作、各類檢修工作影響都很大。所以,客戶用電地址數(shù)據(jù)的清理成果必須相較原始數(shù)據(jù)必須具有更高的準確度。[10]
相似度與一致性評估可以為客戶地址的層級化提供幫助,也可以有效提高地址規(guī)范化清理成果的準確性。本案例中對某一個群組里的客戶用電地址的相似度與一致性評估的數(shù)學(xué)算法主要采用了聚類算法、K近鄰算法、CART分類樹回歸算法。
聚類算法:一般情況下同類的用電地址相似度較大,而不同類的用電地址相似度較小。作為一種無監(jiān)督的機器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程,以及不需要預(yù)先對文本手工標注類別,因此具有一定的靈活性和較高的自動化處理能力。[11]
一個用電地址表現(xiàn)為一個由字、詞和數(shù)字組成,可采用最出名的信息檢索方面的向量空間模型(vector space model,VSM),將用電地址表示為加權(quán)特征向量D=D(T1,W1;T2,W2;…;Tn,Wn),然后,通過計算用電地址相似度的方法來確定待分樣本的類別。當(dāng)用電地址被表示為空間向量模型的時候,用電地址的相似度就可以借助特征向量之間的內(nèi)積來表示。最簡單來說一個用電地址可以看成是由若干個單詞組成的,每個單詞轉(zhuǎn)化成權(quán)值以后, 每個權(quán)值可以看成向量中的一個分量,那么一個用電地址可以看成是n維空間中的一個向量,這就是向量空間模型的由來。單詞對應(yīng)的權(quán)值可以通過TF-IDF加權(quán)技術(shù)計算出來[12]。
CART分類回歸樹:是一種決策樹分類方法,采用基于最小距離的基尼指數(shù)估計函數(shù),用來決定由該子數(shù)據(jù)集生成的決策樹的拓展形。在本案例中,關(guān)鍵在于檢驗?zāi)硞€地址樣本集的分類回歸樹的基尼不純度。基尼不純度表示一個隨機選中的地址樣本在子集中被分錯的可能性(如一個客戶用電地址被分配到一個錯誤的小區(qū))?;岵患兌葹檫@個樣本被選中的概率乘以它被分錯的概率。當(dāng)一個節(jié)點中所有樣本都是一個類時,基尼不純度為零。[13]
某局營銷系統(tǒng)中的存量用電地址數(shù)據(jù)共2 457 829條,其中有90%的地址在經(jīng)過規(guī)范化清理后實現(xiàn)了層級化。為檢查清理成果的準確度,在清理結(jié)果中選取了1 000個樣本數(shù)據(jù)進行電話核查,發(fā)現(xiàn)準確率高達99.9%。
隨著電力體制改革的推進,供電企業(yè)亟需進行市場化營銷服務(wù)轉(zhuǎn)型,包括開展?fàn)I銷工作管理創(chuàng)新、營銷客戶服務(wù)創(chuàng)新,借助移動互聯(lián)網(wǎng)的技術(shù)優(yōu)勢提升客戶服務(wù)水平與質(zhì)量。而實現(xiàn)上述工作目標的一項重要的基礎(chǔ)性工作就是提升客戶檔案信息的完整率與準確度,只有客戶檔案信息的完整率與準確度足夠高的情況下,才能充分發(fā)揮移動互聯(lián)網(wǎng)的技術(shù)優(yōu)勢。[15]
本文所論述與展示的客戶用電地址清理思路、應(yīng)用的相關(guān)算法是基于對供電局客戶用電地址數(shù)據(jù)進行深入統(tǒng)計分析后的研究成果,并已經(jīng)在某供電局地址規(guī)范化工作中得到了驗證。其清理成果在提高用戶報障地址判斷的準確度、提高應(yīng)急檢修的響應(yīng)速度、為受停電影響的區(qū)域用戶發(fā)送消息提醒、掌握區(qū)域性的用電負荷需求等方面都發(fā)揮了非常重要的作用。其他公共事業(yè)機構(gòu)在解決客戶地址的有效性與規(guī)范性時,可以結(jié)合本單位的客戶地址數(shù)據(jù)的實際情況,參考本文中所涉及的思路與方法或?qū)ζ溥M行進一步的改進。