師婭杰
(廣東電網(wǎng)有限責(zé)任公司肇慶供電局,廣東 肇慶 526060)
重復(fù)訴求是指客戶在某一時(shí)段內(nèi),對(duì)同一事件多次致電,要求處理的訴求。在分析客服工單時(shí)發(fā)現(xiàn),部分重復(fù)訴求存在“同一事件有不同來電號(hào)碼、不同客戶名稱”的情況或者“同一來電號(hào)碼在某一時(shí)段內(nèi)反映不同事件”的情況。由于第二種情況較為常見,故本文主要針對(duì)第二種情況介紹智能分析方法。其中,客戶反映問題是否為“不同事件”主要根據(jù)業(yè)務(wù)歸口部門來判斷,即同一號(hào)碼在某一時(shí)段內(nèi)多次致電反映同一歸口部門的問題,認(rèn)定為重復(fù)訴求[1]。
在客服工單中,同一業(yè)務(wù)子類可能涉及2-3個(gè)歸口部門。如故障停電,需要現(xiàn)場(chǎng)調(diào)查后才能確定停屬于一戶還是一帶,電壓等級(jí)屬于高壓還是低壓,歸口部門屬于營(yíng)銷、生產(chǎn)還是基建。這樣的業(yè)務(wù)子類還有很多,如電網(wǎng)建設(shè)、安全隱患、服務(wù)態(tài)度等,由于歸口部門的不確定性,我們定義這些業(yè)務(wù)子類的歸口部門為“模糊邊界歸口部門”。歸口部門的確定對(duì)于重復(fù)訴求的判定具有重要意義,傳統(tǒng)模式下對(duì)“模糊邊界歸口部門”的判斷,通常需要人工閱讀“來電內(nèi)容”及“處理意見”等大量長(zhǎng)文本,效率低下且準(zhǔn)確率無(wú)法保證。為確?!澳:吔鐨w口部門”智能分類的準(zhǔn)確率,本文使用公司大數(shù)據(jù)平臺(tái)的敏捷挖掘工具(SmartMining),構(gòu)建以數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)為主要分析方法的數(shù)據(jù)科學(xué)工作流,對(duì)“模糊邊界歸口部門”設(shè)置4次判斷,其中首次判斷1次,校驗(yàn)判斷3次,將該流程定義為三級(jí)校驗(yàn)。具體操作如下:使用ansj分詞器將長(zhǎng)文本拆解成短詞匯,再與關(guān)鍵詞詞庫(kù)做匹配,若文本包含詞庫(kù)中的關(guān)鍵詞,則輸出相應(yīng)的判定結(jié)果,并校驗(yàn)上一級(jí)結(jié)果,若三級(jí)校驗(yàn)中各級(jí)校驗(yàn)結(jié)果相同,則判定結(jié)果輸出正常,實(shí)現(xiàn)“模糊邊界歸口部門”的智能分類,否則當(dāng)異常值輸出,需人工判斷。
?
在三級(jí)校驗(yàn)中,首次判斷、一級(jí)校驗(yàn)屬于事件調(diào)查前對(duì)歸口部門的判斷,在客服工單下發(fā)時(shí)進(jìn)行;二、三級(jí)校驗(yàn)屬于事件調(diào)查后對(duì)歸口部門的判斷,在客服工單歸檔后進(jìn)行。工單下發(fā)至歸檔間隔3天左右,判定規(guī)則由粗到細(xì),關(guān)鍵詞詞庫(kù)也由少變多,若某些關(guān)鍵詞同時(shí)出現(xiàn)在3次校驗(yàn)的判斷中,會(huì)導(dǎo)致計(jì)算機(jī)無(wú)法準(zhǔn)確識(shí)別歸類,因此在設(shè)置關(guān)鍵詞詞庫(kù)時(shí)對(duì)這類詞要謹(jǐn)慎取舍??偟脑瓌t是,在同一業(yè)務(wù)子類的各級(jí)校驗(yàn)中設(shè)置關(guān)鍵詞時(shí),關(guān)鍵詞不能重復(fù)[2]。
采集營(yíng)銷系統(tǒng)全量客服工單,可通過兩種方式獲取數(shù)據(jù):一是在公司大數(shù)據(jù)平臺(tái)通過后臺(tái)獲取,使用標(biāo)準(zhǔn)查詢語(yǔ)言SQL語(yǔ)句,對(duì)關(guān)系型數(shù)據(jù)庫(kù)中的表記錄進(jìn)行查詢和操縱;二是通過營(yíng)銷系統(tǒng)直接導(dǎo)出數(shù)據(jù),再通過“用戶輸入”導(dǎo)入大數(shù)據(jù)平臺(tái),生成數(shù)據(jù)源。
(1)剔除噪聲數(shù)據(jù)。對(duì)客服工單中的全量字段進(jìn)行功能劃分,篩選出有意義的字段,剔除噪聲字段。
(2)處理丟失數(shù)據(jù)。對(duì)關(guān)鍵字段“來電號(hào)碼”中的缺失項(xiàng)進(jìn)行填充,從“來電內(nèi)容”的長(zhǎng)文本中用公式提取“來電號(hào)碼”,節(jié)約人工補(bǔ)錄成本。
(3)數(shù)據(jù)精簡(jiǎn)。對(duì)于不同的分析目標(biāo),僅篩選與目標(biāo)相關(guān)的列字段,避免數(shù)據(jù)過大、數(shù)據(jù)不集中導(dǎo)致的分析速度慢[3]。
在分析階段,設(shè)計(jì)三種模型來實(shí)現(xiàn)“模糊邊界歸口部門”的智能分類,并根據(jù)不同模型的準(zhǔn)確率進(jìn)行組合優(yōu)化。
(1)構(gòu)建關(guān)鍵詞詞庫(kù)?,F(xiàn)實(shí)狀態(tài)下,客戶“來電內(nèi)容”通常由雜亂無(wú)章的長(zhǎng)文本構(gòu)成,其中包含諸多噪聲詞,單純依靠分詞器進(jìn)行詞頻統(tǒng)計(jì)無(wú)法識(shí)別關(guān)鍵信息。為提高分詞的準(zhǔn)確性,首先需要在統(tǒng)計(jì)詞頻的基礎(chǔ)上,綜合業(yè)務(wù)經(jīng)驗(yàn),人工篩選具有意義的高、低頻詞匯,剔除無(wú)意義的噪聲詞,形成關(guān)鍵詞詞庫(kù)(客戶情緒詞庫(kù)、同義詞庫(kù)、電力術(shù)語(yǔ)詞庫(kù)),通過關(guān)鍵詞詞庫(kù)反向識(shí)別和修剪噪聲詞。其次,應(yīng)針對(duì)不同類型的文本內(nèi)容,在幾十種開源的和商用的分詞工具及分詞處理方法中選擇合適的工具模型。本文依據(jù)敏捷挖掘中的分詞節(jié)點(diǎn)ansj分詞器對(duì)長(zhǎng)文本進(jìn)行拆解,統(tǒng)計(jì)詞頻[4]。
(2)模型準(zhǔn)確率。經(jīng)驗(yàn)證,在一級(jí)校驗(yàn)中使用“詞頻向量模型”判斷歸口部門的準(zhǔn)確率為68.58%。
上文中,三級(jí)校驗(yàn)?zāi)P偷臏?zhǔn)確度較低,經(jīng)測(cè)試,關(guān)鍵詞詞庫(kù)的變更對(duì)于模型準(zhǔn)確性影響最大。人工構(gòu)建關(guān)鍵詞詞庫(kù)較為主觀,需要采用更科學(xué)的文本分析技術(shù),對(duì)詞的權(quán)重進(jìn)行分配。本文依據(jù)向量空間模型TFIDF進(jìn)行權(quán)重分析。
向量空間模型TF-IDF:評(píng)估一個(gè)單詞或字對(duì)于一個(gè)文檔集或一個(gè)語(yǔ)料庫(kù)中的其中一份文檔的重要程度。
定義:Tf-Idf(w)=Tf(w)*log(N/Df(w))。其中,Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),Df(w)是文檔集中包含詞w的文檔數(shù)目,N代表文檔的總數(shù)。Tf-Idf(w)代表詞w對(duì)某個(gè)文檔的相對(duì)重要性。如果一個(gè)詞對(duì)于某個(gè)文檔越重要,那么它就越多地出現(xiàn)在該文檔中(Tf(w)值較大),并且越少地出現(xiàn)在其余的文檔中(Df(w)值較?。?。
(1)模型理解。設(shè)置三個(gè)文檔,其中:
列1:由字母ABCG構(gòu)成
列2:由字母ACEF構(gòu)成
列3:由字母ABCEF構(gòu)成
Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),通過分詞及詞頻統(tǒng)計(jì)可以實(shí)現(xiàn)。
N代表文檔的總數(shù),N=3。
Df(w)是文檔集中包含詞w的文檔數(shù)目,取值范圍為1、2、3。
?
如圖,Df(w)=E2=1+C2+D2
其中,Df(w)=1時(shí),log(N/Df(w))=0.477
如上圖所示,Tf-Idf(w)值成功過濾掉字母AC,字母G最重要,字母BEF的重要性僅由Tf(w)決定。
同理,將歸口部門為營(yíng)銷、生產(chǎn)、基建的工單設(shè)置為三個(gè)文檔,可依據(jù)TF-IDF重新構(gòu)建關(guān)鍵詞詞庫(kù)。分詞匯總后選擇詞頻大于2,即Tf(w)大于2的詞匯,將Df(w)=1的詞作為關(guān)鍵詞詞庫(kù)。
(2) 模型準(zhǔn)確率。經(jīng)驗(yàn)證,在一、二級(jí)校驗(yàn)中使用“TF-IDF模型”判斷歸口部門的準(zhǔn)確率分別為75.62%、81.83%。
(1)建立訓(xùn)練集與測(cè)試集。以80:20的比例,對(duì)數(shù)據(jù)建立訓(xùn)練集和測(cè)試集,通過歸納思想推測(cè)相關(guān)結(jié)論。
(2)分類預(yù)測(cè)算法。
樸素貝葉斯:為名義型字段計(jì)算其所有值的記錄數(shù),為數(shù)值型字段計(jì)算高斯分布概率。
隨機(jī)森林:利用隨機(jī)的方式將許多決策樹組合成一個(gè)森林,每個(gè)決策樹在分類的時(shí)候投票決定測(cè)試樣本的最終類別。隨機(jī)森林同時(shí)訓(xùn)練多個(gè)決策樹,模型的結(jié)果由多個(gè)決策樹基于投票策略決定[5]。
C4.5:在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性。
(3)模型準(zhǔn)確率。經(jīng)驗(yàn)證,C4.5模型對(duì)于測(cè)試值和訓(xùn)練值的預(yù)測(cè)準(zhǔn)確度達(dá)79.4%、78.6%,預(yù)測(cè)水平最優(yōu)。
(1)模型組合。針對(duì)一、二、三級(jí)校驗(yàn)的數(shù)據(jù)特點(diǎn),結(jié)合不同模型的準(zhǔn)確率,選取最優(yōu)組合構(gòu)建三級(jí)校驗(yàn)?zāi)P汀F渲?,一?jí)校驗(yàn)因文本較短、數(shù)據(jù)信息不全,采用機(jī)器學(xué)習(xí)C4.5模型;二級(jí)校驗(yàn)文本信息量充足,采用TF-IDF模型;三級(jí)校驗(yàn)直接使用工單回復(fù)內(nèi)容判斷。
(2)模型優(yōu)化。對(duì)異常值進(jìn)行統(tǒng)一分析,修正關(guān)鍵詞詞庫(kù),提高“模糊邊界歸口部門”智能分類的準(zhǔn)確率。
?
重復(fù)訴求是生成客戶投訴的一個(gè)重要原因,人工逐宗進(jìn)行歷史來電的篩選及分析效率低下,導(dǎo)致重復(fù)訴求管控難度大,投訴數(shù)居高不下。本文通過文本挖掘和機(jī)器學(xué)習(xí)算法確定歸口部門,重點(diǎn)解決了長(zhǎng)文本分析效率低、機(jī)器識(shí)別并修剪噪聲詞困難、模糊邊界歸口部門判斷不精準(zhǔn)的問題。通過建立三級(jí)校驗(yàn)?zāi)P?,?shí)現(xiàn)了客戶重復(fù)訴求智能分析[6]。該應(yīng)用可以實(shí)時(shí)查看客戶重復(fù)訴求的變化趨勢(shì),把數(shù)據(jù)分析交給數(shù)據(jù)應(yīng)用后臺(tái),對(duì)敏感客戶及關(guān)聯(lián)事件升級(jí)風(fēng)險(xiǎn)提前預(yù)警,引起監(jiān)控人員的重視,將員工的精力投入解決實(shí)際問題當(dāng)中,為基層減負(fù)增效。實(shí)時(shí)、準(zhǔn)確的數(shù)據(jù)應(yīng)用加快整體應(yīng)急響應(yīng)速度,提升客戶重復(fù)訴求管控工作成效,提高了客戶滿意度。