國網(wǎng)客服中心南方分中心 江蘇 南京 210000
電力客服中心承載著受理電力用戶故障報(bào)修、業(yè)務(wù)咨詢、服務(wù)申請、投訴舉報(bào)、意見建議等工作。經(jīng)統(tǒng)計(jì),目前電力服務(wù)行業(yè)中,客戶能夠直接提供戶號的比例在50%左右,有近50%的客戶無法提供戶號信息,客服專員只能通過地址等信息進(jìn)行再次查詢,而地址是查詢停電信息、歷史報(bào)修記錄、派發(fā)供電單位等主要依據(jù)。同時(shí),在服務(wù)問題分析定位中,需要對某類問題高發(fā)的區(qū)域進(jìn)行提取,那么同樣要對地址進(jìn)行統(tǒng)計(jì)。實(shí)際應(yīng)用中,為了便于地址之間做匹配,需要將客戶地址中的“村、小區(qū)、街道、路、單位/公司名稱”等實(shí)體信息提取出來,從而提升匹配的成功率。在這一背景下,我們研究了一種地址實(shí)體提取的方法。
地址信息的提取不光在電力客服中心有著重要的應(yīng)用,在其他行業(yè)也有著相關(guān)應(yīng)用。隨著電子地圖的發(fā)展,地址在人們生活中的作用越來越重要,將大量的中文地址轉(zhuǎn)化為地理坐標(biāo),并定位到地圖上,從而實(shí)現(xiàn)空間與非空間數(shù)據(jù)的整合[1]。在地址分析方面,也涌現(xiàn)出了很多方法,比如在《基于規(guī)則的中文地址要素解析方法》論文中,通過構(gòu)建各類地址要素特征詞庫,利用地名詞典和特征詞庫來解析地址[2]。《基于自動(dòng)機(jī)分詞的中文地址地理編碼技術(shù)研究與實(shí)現(xiàn)》中提出了利用中文地址的自動(dòng)機(jī)的中文分詞算法等等[3]。以上方法的分詞準(zhǔn)確率還有待進(jìn)一步提升。本文的優(yōu)勢在于在結(jié)合電力行業(yè)客戶地址特點(diǎn)的基礎(chǔ)上,形成本行業(yè)內(nèi)特有的地址庫和“切點(diǎn)庫”從而有利于提升地址實(shí)體提取的準(zhǔn)確性。
(1)規(guī)律總結(jié)。對電力服務(wù)中客戶提供的地址進(jìn)行了特點(diǎn)總結(jié),共總結(jié)出“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”、“X省”+“X市”+“X區(qū)/縣”+“X街道/社區(qū)”+“X路”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”等17種地址模式。
地址特點(diǎn)總結(jié)(舉例)現(xiàn)場地址 地址特點(diǎn)陜西省渭南市臨渭區(qū)三張鎮(zhèn)張毛村 標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省咸陽市秦都區(qū)人民西路49號芙蓉佳苑小區(qū)8-2-201標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省延安市黃陵縣腰坪鄉(xiāng)建莊村 標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省西安市藍(lán)田縣三里鎮(zhèn)楊坡頭村二組標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村+X組”陜西省西安市高陵縣耿鎮(zhèn)蘇家村 標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省安康市漢濱區(qū)老城街道鼓樓社區(qū)興安東路北醫(yī)大小區(qū)3號樓-2-303標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X街道/社區(qū)”+“X路”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”陜西省西安市未央?yún)^(qū)鳳城三路東段888號頤和郡小區(qū)6-1-1801標(biāo)準(zhǔn)的“X省”+“X市”+“X區(qū)/縣”+“X路”+“X號”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”
(2)具體方法。鑒于電力客服中心的客戶地址具備一定的結(jié)構(gòu)性,區(qū)別于傳統(tǒng)的完全基于地址庫匹配方式的地址分詞算法,本文采用前三級地址用地址庫+后級地址進(jìn)行“切點(diǎn)”分詞的方法,進(jìn)行地址中的實(shí)體信息提取。
前三級地址采用地址庫匹配方法主要原因?yàn)?,前三級地址涉及省、市、縣/區(qū),該部分信息在國家統(tǒng)計(jì)局官網(wǎng)中即可獲取,容易組成地址地名庫進(jìn)行匹配,匹配成功率高。后級地址采用逐詞搜索辦法,主要原因是客戶提供信息差異化較大,地址地名庫不夠完善,匹配率低,因此通過將地址中“切點(diǎn)”找出進(jìn)行分詞的方法進(jìn)行實(shí)體信息提取。常規(guī)切點(diǎn)主要指的是“鎮(zhèn)/鄉(xiāng)、組、街、路、大道、弄、小區(qū)、村”等信息。
利用VBA編寫代碼,前三級地址與地址庫逐級匹配,后幾級主要通過關(guān)鍵詞進(jìn)行截取,從而提取出“小區(qū)、村、街道”等末級信息。
(1)停電信息檢索。將客戶地址信息中的“村、小區(qū)、街道、路”等信息提取出來,后臺系統(tǒng)自動(dòng)實(shí)現(xiàn)與停電信息中停電影響范圍中的地理信息對比,從而實(shí)現(xiàn)停電信息的自動(dòng)化檢索,為節(jié)省人力提供了有效支撐。
(2)頻繁停電區(qū)域定位。通過對反映頻繁停電問題的客戶地址進(jìn)行提取,最終定位頻繁區(qū)域,為電網(wǎng)質(zhì)量改善提供了支撐。
以上方法對電力客服中心工單地址實(shí)體信息的有效提取率達(dá)到90%以上,有效支撐了業(yè)務(wù)受理和數(shù)據(jù)分析工作。