吳剛勇,張千斌,吳恒超,顧冰
(國網浙江省湖州供電公司,浙江 湖州 313000)
隨著配售電市場的不斷開放,新增配網將允許外部資本投資,各地售電公司紛紛成立,將來將成為電力公司的售電競爭者,由此如何減少客戶資源流失將是亟待解決的問題。而保障客戶穩(wěn)固的首要措施是提高客戶滿意度,意味著客戶投訴減少。因此,利用自然語言處理技術對客戶投訴工單進行文本挖掘分析,了解客戶投訴的主要問題,并針對性的提高差異化的服務策略是當下提高客戶滿意度,增加客戶粘性的重要舉措。
在計算機科學與人工智能中自然語言處理(NLP)是一個重要的研究方向。它是一種能實現在計算機與人之間用自然語言進行高效溝通的理論和方法。
自然語言處理涉及到多種統計的方法,并在此基礎上發(fā)展衍生出多種模型:最大熵模型、雙向搜索算法、隱馬爾可夫模型、A?搜索算法、概率上下文無關語法、貝葉斯方法、n元語法、噪聲信道理論、最小編輯距離算法、Viterbi算法、加權自動機、支持向量機等。本文主要對隱馬爾可夫模型在自然語言處理中的應用進行介紹。
隱馬爾可夫模型(HMM)是用來描述包含隱含未知參數的馬爾可夫過程,該模型是關于時序的概率模型。隱馬爾可夫模型的狀態(tài)不能直接觀察到,但是,它能夠以觀測向量序列觀察到,每個觀測向量的各種表現狀態(tài)都是通過概率密度呈現的,每一個觀測向量是基于相應概率密度分布的狀態(tài)序列產生。
隱馬爾可夫模型是一個五元組<S,O,A,B,π>:
S:狀態(tài)集合:由四種狀態(tài)構成:詞頭(標記為F),詞中(標記為M)、詞尾(標記為E)、單字成詞(標記為 W)。
A:狀態(tài)轉移分布,即S中各元素中,兩兩之間轉移的概率值。比如當前是s2,下一個狀態(tài)是s9的轉移概率為s2,9(小于1)。
B:每種狀態(tài)出現的概率分布。
π:初始的狀態(tài)分布。
按照機器學習方式的不同,求取參數A、B、π的方法大體上分為兩類,監(jiān)督學習和非監(jiān)督學習。
(1)監(jiān)督學習方法
如果訓練數據集已經給出觀測序列及相應的路徑序列:
基于統計分析,對每個句子開頭第一個字出現頻率進行統計,以其統計數除以句子總數,即可計算得到該字的初始狀態(tài)F、W的概率情況。
假設學習狀態(tài)轉移矩陣A的子元素為a(i->j),那么,子元素a(i->j)=(由qi狀態(tài)變到qj狀態(tài)的次數)/(狀態(tài)變化總次數)。本文只考慮元素的狀態(tài)變化,而不考慮觀測值變化。
假設觀測概率分布B的子元素為bj(k),那么,bj(k)=(j狀態(tài)下觀測為k的次數)/(所有狀態(tài)的總次數)。
總而言之,監(jiān)督學習方法主要是基于統計頻數除以總數,得到相應的概率,以此構成模型參數。
(2)非監(jiān)督學習方法
由于監(jiān)督學習方法需要進行人工標注,這樣往往會付出很大的代價,因此,可采用非監(jiān)督學習的算法來實現。
最后基于維特比算法:基于動態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,即:從t=1開始遞歸計算,得出在t時刻狀態(tài)為i的各條路徑的最大概率,到t=T時終止,從而實現最終分詞。
近幾年來,數據挖掘領域出現了一個新興分支-文本挖掘,它是以文本類型的數據作為特定的分析挖掘對象的知識挖掘。本文的挖掘對象是基于抽取的95598投訴工單中有效、有用、散布在工單中的有價值知識,并且利用這些知識更好的了解客戶需求。對投訴內容進行分詞是文本挖掘的要點,根據分詞結果,從文本數據中抽取出客戶投訴特征信息,從而形成文本的中間表示。把原來的非結構化的客戶投訴文本數據以結構化的數據呈現,再利用分類、聚類等數據挖掘技術轉化為結構化文本,并根據該結構化的文本發(fā)現新的概念和相應的關系。
TF-IDF是一種統計方法,是通過分析挖掘一字(詞)對于一個文件集(語料庫)中的其中的重要程度。字(詞)的重要性與它在文件中出現的次數成正比例關系,與它在語料庫中出現的頻率成反比關系。實際上TF-IDF是:TF表示詞頻,IDF表示逆向文件頻率,TF表示分詞后的詞匯T在文本中出現的次數。DF表示的文本頻率,即文本集合中含有的文本頻率。IDF表示的逆文本頻率,公式如下:
式中:n為文本總數。
對字詞的重要性進行權重計算,計算公式如下:
在實際應用中,需要對進行歸一化處理,
基于自然語言處理技術出發(fā),對電力客戶投訴工單進行深入文本挖掘,利用分詞技術分析投訴工單中的受理內容,對分詞結果開展特征選取與降維處理,并進行詞頻統計,運用詞云分析技術進行分析結果可視化展示,把控住當下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務策略,從而提高客戶滿意度和忠誠度。如下圖1為文本挖掘過程。
文本分詞是指使用計算機自動對文本進行詞語的切分。通過大數據軟件Python中的Jieba包,運用隱馬爾可夫模型,實現對客戶投訴受理內容的分詞。分詞結果如下圖2所示。
圖1 文本挖掘過程
圖2 投訴文本的分詞結果
(1)特征選取
通過對255條投訴工單文本數據進行分詞,將每個詞作為標識文本的特征,通過對各特征在整個文本集合進行統計分析,結果如圖3所示。
圖3 投訴文本的分詞結果
(2)特征降維
特征降維主要是為了對特征進行識別剔除,剔除掉對文本區(qū)分程度很少的特征,如與電力業(yè)務關系不大的特征,以降低后續(xù)文本聚類的算法復雜度,主要包括以下情形:
①剔除掉幾乎每條文本都出現的詞,如:“客戶”、“來電”、“判定”等在255多條文本數據中出現200次以上的高頻無用詞匯。
②剔除掉常用特殊詞,主要包括常見的稱謂詞、結構詞、語氣助詞,如“我”、“你”、“是”、“啊”等與電力業(yè)務無關詞匯。
③去除一些詞頻很小的特征,如“導致”、“今天”、“由于”、“周圍”等在255多條文本數據中出現次數少于10的低頻詞匯。
通過對出現頻率設定相應的閾值(上限,下限)來自動實現特征的降維。
通過上述對分詞結果進行特征選取與降維,實現對無關詞匯的過濾,留下與電力業(yè)務相關的關鍵詞。結合實際電力業(yè)務,對現有關鍵詞進一步篩選,通過TFIDF(詞頻-逆文檔頻率)算法計算關鍵詞重要性權重值,提取權重值大的關鍵詞頻作為客戶投訴文本挖掘的最終結果。
通過Python軟件,運用詞云分析實現投訴工單文本挖掘結果展示如下圖4。
圖4 投訴文本詞云
由圖可知在客戶投訴中,詞語“營業(yè)廳”、“停電”、“故障”等出現頻數較多,表明客戶主要對營業(yè)廳、停電、故障等意見較大,可從這幾個方面入手,如提高營業(yè)廳服務水平、減少停電或停電信息通知到位、加強故障檢修減少故障發(fā)生等等措施,從而提高客戶滿意度,改善客戶投訴問題。
95598投訴工單的深入分析與研究是基于“客戶訴求”出發(fā),深入客戶投訴工單受理內容,挖掘客戶的真實需求與投訴原因。應用大數據分析技術,采取隱馬爾可夫模型、分詞等分析方法對投訴工單開展文本挖掘,打破原有對客戶投訴需求模糊不清的壁壘,把控住當下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務策略,提高客戶粘性和滿意度。
本文利用基于自然語言處理的文本挖掘技術,結合浙江湖州電力業(yè)務需求,熱點業(yè)務工單專題研究,打破了客戶對用電訴求存在的盲區(qū),提高對用戶用電需求的管理程度,實現熱點投訴業(yè)務工單的原因挖掘。專題的應用,將會提高客服部門的工作效率,為實現主動、精準的客戶服務提供決策支持,以提升客戶服務能力。