• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本挖掘技術(shù)在電力工單數(shù)據(jù)分析中的應(yīng)用

      2016-04-12 00:00:00鄒云峰何維民趙洪瑩程雅夢(mèng)楊紅
      現(xiàn)代電子技術(shù) 2016年17期

      摘 要: 文本挖掘技術(shù)為文本分析提供了方法和技術(shù)支持,以文本挖掘中的文本分類技術(shù)為基礎(chǔ),簡(jiǎn)要介紹文本預(yù)處理、文本分類器模型構(gòu)建的方法和過(guò)程,并以供電服務(wù)過(guò)程中客戶通過(guò)供電服務(wù)中心反映的熱點(diǎn)事件為實(shí)例,建立95598工單文本自動(dòng)分類的模型,通過(guò)驗(yàn)證實(shí)現(xiàn)95598工單文本快速精準(zhǔn)的自動(dòng)分類,及時(shí)準(zhǔn)確地挖掘出隱藏的重要信息,并且為分析供電服務(wù)對(duì)客戶的用電訴求的影響提供依據(jù)和數(shù)據(jù)基礎(chǔ)。

      關(guān)鍵詞: 95598工單; 文本挖掘; 文本分類; 自動(dòng)分類; 用電訴求

      中圖分類號(hào): TN915?34; TM711 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0149?04

      0 引 言

      電力客戶服務(wù)呼叫中心(即95598業(yè)務(wù))作為供電企業(yè)與電力客戶交流的窗口,不僅能夠?yàn)殡娏蛻籼峁﹥?yōu)質(zhì)便捷的服務(wù),而且能直接客觀地反映客戶用電訴求[1]。目前對(duì)工單數(shù)據(jù)的分析,主要是數(shù)據(jù)分析人員依據(jù)坐席人員受理工單時(shí)勾選的業(yè)務(wù)類型,進(jìn)行統(tǒng)計(jì)匯總實(shí)現(xiàn)工單的分類分析。該分類結(jié)果受坐席人員的主觀判斷影響大:一方面不能及時(shí)、客觀地反映散布在不同工單類型中的供電服務(wù)熱點(diǎn)事件;另一方面不能完整地反映用電客戶的真實(shí)訴求,更不能挖掘出客戶產(chǎn)生訴求的真實(shí)原因。因此在電力行業(yè)急需一種高效的文本數(shù)據(jù)挖掘方法對(duì)工單中隱藏的內(nèi)容進(jìn)行挖掘分析,并為電力營(yíng)銷服務(wù)提供輔助決策。

      文本挖掘作為一種有效信息挖掘和文本處理的技術(shù),根據(jù)挖掘出的不同知識(shí)、模式劃分,可分為文本摘要、文本分類、文本聚類、關(guān)聯(lián)規(guī)則以及趨勢(shì)預(yù)測(cè)等不同類型。其中文本分類作為一種有效的電子文本分類方式,在信息過(guò)濾、信息檢索、文本數(shù)據(jù)庫(kù)和數(shù)字圖書館等領(lǐng)域得到了廣泛的應(yīng)用和關(guān)注,為深層次的分析提供了技術(shù)支持和解決方案。本研究將文本分類技術(shù)應(yīng)用到電力營(yíng)銷領(lǐng)域,通過(guò)一系列的文本預(yù)處理技術(shù)以及文本分類的方法,對(duì)供電服務(wù)過(guò)程產(chǎn)生的工單信息進(jìn)行挖掘分析,實(shí)現(xiàn)工單文本快速精準(zhǔn)的自動(dòng)分類,并及時(shí)準(zhǔn)確地挖掘出隱藏的重要信息,為實(shí)現(xiàn)有效地分析供電服務(wù)對(duì)客戶的用電訴求的影響提供依據(jù)和數(shù)據(jù)基礎(chǔ)。

      1 文本分類方法研究

      文本分類是指將一篇文本歸類到已知的文本類別中,其主要包括文本預(yù)處理和分類器模型構(gòu)建兩個(gè)過(guò)程,文本分類流程如圖1所示。

      2 95598工單文本挖掘?qū)嵶C分析

      本研究以江蘇省2013年1月—2015年8月所有工單為數(shù)據(jù)基礎(chǔ),從工單受理內(nèi)容出發(fā)進(jìn)行挖掘分析,工單記錄數(shù)共計(jì)12 375 270條。

      2.1 工單文本預(yù)處理

      本次研究結(jié)合中文分詞研究方法,采用R語(yǔ)言程序?qū)挝谋具M(jìn)行分詞,通過(guò)不斷地完善和加入詞庫(kù)來(lái)優(yōu)化分詞的效果,最終分詞后得到52 186個(gè)詞匯,如表2所示。

      將分詞結(jié)果經(jīng)去除停用詞處理后,再進(jìn)行特征降維。從本研究統(tǒng)計(jì)方法出發(fā),結(jié)合電力行業(yè)特征,從詞性、詞頻、權(quán)重以及詞義與詞頻相結(jié)合等多方面進(jìn)行特征選擇,部分特征詞匯如表3所示。

      2.2 分類器模型構(gòu)建

      2.2.1 訓(xùn)練集選取

      在電力服務(wù)行業(yè)中,客戶通過(guò)工單反映出的用電問(wèn)題多種多樣,為統(tǒng)一、準(zhǔn)確、詳細(xì)地反映客戶的用電訴求,研究以供電服務(wù)過(guò)程中產(chǎn)生的熱點(diǎn)事件為對(duì)象進(jìn)行研究,如“串戶”、“電表空走”、“表箱問(wèn)題”等。

      本文主要以“串戶”為例進(jìn)行分析,隨機(jī)從全量工單中篩選出部分樣本工單,從受理內(nèi)容上人工判定是否屬于疑似“串戶”,從判定結(jié)果中選出具有代表性疑似“串戶”工單和一定比例非“串戶”工單作為訓(xùn)練集。

      2.2.2 分類器模型確定

      通過(guò)文本挖掘工具調(diào)用文本挖掘算法集中合適的文本挖掘算法,構(gòu)建多個(gè)分類器模型,并對(duì)比分析不同分類器的分類效果,對(duì)比結(jié)果如圖2和表4所示。

      由圖2的增益曲線可知,C5樹和SVM分類算法在40%的百分位時(shí)就能達(dá)到98%以上的增益,因此C5樹和SVM分類算法分類效果最佳;從表4來(lái)看,決策樹模型中的C5樹分類模型準(zhǔn)確率最高,CR樹分類模型遺漏率最低,C5樹模型遺漏率次之。綜合多方面結(jié)果最終選定決策樹C5樹模型作為熱點(diǎn)事件“串戶”的分類器模型。

      2.3 分類評(píng)估及結(jié)果

      2.3.1 分類效果評(píng)估及調(diào)整

      將待分類工單輸入C5樹分類器模型進(jìn)行分類,從分類結(jié)果中隨機(jī)抽選1萬(wàn)張工單進(jìn)行效果評(píng)估,評(píng)估結(jié)果如表5所示。

      從表5的分類結(jié)果檢驗(yàn)來(lái)看,模型查全率達(dá)到92.2%,遺漏率7.8%,基本能識(shí)別出疑似“串戶”工單,且遺漏工單較少。但從模型查準(zhǔn)率和準(zhǔn)確率來(lái)看,分別為28.1%和75.2%,意味著該模型盡管能識(shí)別出“串戶”工單,但卻也將不屬于該熱點(diǎn)的工單判定為該熱點(diǎn),因此需要對(duì)分類模型進(jìn)行調(diào)整和改進(jìn)。

      模型調(diào)整主要從三個(gè)方面進(jìn)行改進(jìn):第一,豐富同義詞庫(kù)和專業(yè)詞庫(kù),使分詞結(jié)果更精準(zhǔn);第二,更精準(zhǔn)地選定特征詞;第三,調(diào)整決策樹模型的深度和葉子節(jié)點(diǎn)樹。分類器模型調(diào)整后,結(jié)果評(píng)估見表6。

      由表6可知,經(jīng)過(guò)模型調(diào)整和改進(jìn)后,準(zhǔn)確率和查準(zhǔn)率分別提高至91.6%,91.8%,遺漏率雖略有增高,但仍在業(yè)務(wù)可接受范圍內(nèi)。通過(guò)驗(yàn)證認(rèn)為,調(diào)整后的分類器模型能從工單受理內(nèi)容出發(fā),較為精準(zhǔn)地識(shí)別出熱點(diǎn)事件工單。

      2.3.2 分類結(jié)果及應(yīng)用

      利用調(diào)整后的分類器模型對(duì)全量分類后,共識(shí)別出疑似“串戶”工單37 161張,工單業(yè)務(wù)類型情況如圖3,圖4所示。

      從圖3和圖4呈現(xiàn)的結(jié)果來(lái)看,利用決策樹分類器模型進(jìn)行文本分類時(shí),可以忽略工單記錄過(guò)程中的多級(jí)業(yè)務(wù)類型層級(jí),直接從工單的受理內(nèi)容出發(fā),識(shí)別和挖掘出隱藏在不同類型中的熱點(diǎn)事件疑似“串戶”工單。其中業(yè)務(wù)咨詢類工單共31 282張,占總疑似“串戶”工單的84.2%,投訴類工單占比5.6%,意見類工單占比6.4%。

      以其中的投訴類工單為例進(jìn)行分析,在原始的工單分類標(biāo)準(zhǔn)中,僅僅統(tǒng)計(jì)分析投訴以及投訴下多層子目錄,如服務(wù)行為、電能計(jì)量等,而用電客戶表達(dá)的實(shí)際問(wèn)題往往會(huì)被忽略或者隱藏在目錄標(biāo)題下得不到反映。同時(shí)在劃分業(yè)務(wù)類型時(shí),常常會(huì)受坐席人員業(yè)務(wù)判斷能力以及管理政策的影響,從而使得分類結(jié)果更加背離客戶所反映的真實(shí)問(wèn)題。經(jīng)文本分類后,客戶表達(dá)的訴求和反映的問(wèn)題可直接以熱點(diǎn)事件的形式及時(shí)、準(zhǔn)確地被挖掘出來(lái),而不受時(shí)間、政策以及業(yè)務(wù)類別準(zhǔn)確性的影響。

      此外,通過(guò)將熱點(diǎn)事件工單與相關(guān)的營(yíng)銷業(yè)務(wù)活動(dòng)匹配關(guān)聯(lián),還可進(jìn)一步挖掘出疑似“串戶”訴求的產(chǎn)生主要是由“表計(jì)輪換”以及“批量新裝”等業(yè)務(wù)引起。因此為減少該類問(wèn)題的產(chǎn)生,則可從營(yíng)銷服務(wù)活動(dòng)環(huán)節(jié)出發(fā)找出改進(jìn)方法和有效的解決措施。

      3 結(jié) 論

      本文研究在當(dāng)前電力呼叫中心工單統(tǒng)計(jì)分析不全面的背景下,利用文本挖掘中文本分類的技術(shù),以供電服務(wù)過(guò)程中客戶反映的熱點(diǎn)事件為例對(duì)呼叫中心95598工單進(jìn)行挖掘分析,通過(guò)研究驗(yàn)證認(rèn)為:利用文本分類的挖掘方式能快速、高效地實(shí)現(xiàn)對(duì)工單自動(dòng)、有效的分類;可從工單實(shí)際內(nèi)容出發(fā),及時(shí)、準(zhǔn)確地找出隱藏在多種同業(yè)務(wù)類型中的熱點(diǎn)事件工單,從而減少人為參與辨別時(shí)的主觀影響。

      此外,從分類后的工單中還能進(jìn)一步挖掘出供電服務(wù)中對(duì)客戶產(chǎn)生用電訴求的影響:通過(guò)客戶訴求溯源反映出供電服務(wù)活動(dòng)中存在的問(wèn)題,為供電服務(wù)質(zhì)量的分析提供依據(jù);通過(guò)分析營(yíng)銷業(yè)務(wù)與熱點(diǎn)事件工單之間的關(guān)系,為供電企業(yè)進(jìn)行主動(dòng)服務(wù)以及提升營(yíng)銷業(yè)務(wù)管控水平提供指導(dǎo)建議;將分類后的熱點(diǎn)事件工單與營(yíng)銷業(yè)務(wù)相關(guān)聯(lián)進(jìn)行研究,可分析出不同營(yíng)銷業(yè)務(wù)對(duì)客戶的滿意度或投訴率的影響情況,以此為營(yíng)銷業(yè)務(wù)服務(wù)的風(fēng)險(xiǎn)大小以及風(fēng)險(xiǎn)的預(yù)警提供基礎(chǔ)。

      參考文獻(xiàn)

      [1] 吳剛.江蘇電力客戶服務(wù)系統(tǒng)研究[J].電力信息化,2004(2):49?53.

      [2] 龍樹全,趙正華,唐華.中文分詞算法概述[J].電腦知識(shí)與技術(shù),2009,5(10):2605?2607.

      [3] 龐觀松,蔣盛益.文本自動(dòng)分類技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2012,35(2):123?128.

      [4] 陸玉昌,魯明羽,李凡,等.向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1205?1210.

      [5] 楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長(zhǎng)春:吉林大學(xué),2013.

      [6] ZHANG W, YOSHIDA T, TANG X. A comparative study of TF* IDF, LSI and multi?words for text classification [J]. Expert systems with applications, 2011, 38(3): 2758?2765.

      [7] 李榮陸.文本分類及其相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.

      [8] 閆瑞,曹先彬,李凱.面向短文本的動(dòng)態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019?1024.

      [9] 鄭霖,徐德華.基于改進(jìn)TFIDF算法的文本分類研究[J].計(jì)算機(jī)與現(xiàn)代化,2014(9):6?9.

      [10] 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究[J].中文信息學(xué)報(bào),2004,18(3):17?23.

      [11] 趙世奇,張宇,劉挺,等.基于類別特征域的文本分類特征選擇方法[J].中文信息學(xué)報(bào),2005,19(6):21?27.

      [12] 徐燕,李錦濤.基于區(qū)分類別能力的高性能特征選擇方法[J].軟件學(xué)報(bào),2008,19(1):82?89.

      [13] YANG Y M, PEDERSON J O. A comparative study on feature selection in text categorization [C]// Proceedings of 1997 14th International Conference on Machine Learning. Nashville: Morgan Kaufmann, 1997: 412?420.

      [14] 蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].武漢:中國(guó)地質(zhì)大學(xué),2009.

      [15] 張華鑫,龐建剛.基于SVM和KNN的文本分類研究[J].現(xiàn)代情報(bào),2015,35(5):73?77.

      [16] 季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場(chǎng),2007(1):9?12.

      [17] 黃曉斌,趙超.文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J].情報(bào)科學(xué),2009,27(1):94?99.

      [18] 胡龍茂.中文文本分類技術(shù)比較研究[J].安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,21(2):49?53.

      [19] 何國(guó)輝,吳禮發(fā).基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的研究[J].計(jì)算機(jī)與現(xiàn)代化,2009(8):4?6.

      [20] 蒲筱哥.自動(dòng)文本分類方法研究述評(píng)[J].情報(bào)科學(xué),2008,26(3):469?475.

      [21] 石志偉,劉濤,吳功宜.一種快速高效的文本分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2005(29):180?183.

      [22] 張征杰,王自強(qiáng).文本分類及算法綜述[J].電腦知識(shí)與技術(shù),2012(4):825?828.

      [23] 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006(9):1848?1859.

      绥芬河市| 朔州市| 通化市| 杭锦后旗| 永善县| 漠河县| 丰顺县| 婺源县| 宾阳县| 香河县| 富阳市| 潢川县| 梁平县| 昌吉市| 兴和县| 丹阳市| 菏泽市| 蒙城县| 茌平县| 赤壁市| 修水县| 遂川县| 宿迁市| 南投市| 陇川县| 德格县| 郯城县| 嘉兴市| 长沙市| 嘉善县| 阳西县| 吉安县| 新津县| 建瓯市| 香港| 饶河县| 丰宁| 长治市| 仁寿县| 大同县| 高要市|