戈邱
摘 要 ITSM是ITIL(一種企業(yè)信息技術(shù)最佳實踐的標準)在我行落地的實施工具,目前該工具中常用的有服務(wù)請求、事件管理、變更管理等流程模塊,與之對應(yīng)的有日常工作中被廣泛使用的各流程工單。自2017年5月份上線以來,各流程共積累了幾萬件工單,利用好這些承載了我行信息技術(shù)工作內(nèi)容的信息對于整體把握我行科技工作情況,更加合理調(diào)配信息科技資源會很有幫助。比如通過對工單所屬目錄和數(shù)量反映出的某時間段內(nèi)IT服務(wù)工作內(nèi)容的著重點和飽和度,可以幫助判斷目前工作中人員的工作內(nèi)容和工作強度,以便有針對性地調(diào)配人力物力資源;對事件的出現(xiàn)數(shù)量和分布范圍進行分析,幫助解決當前遇到的事件,同時可以輔助預(yù)測和排查潛在的風險點,早發(fā)現(xiàn)早解決,防患于未然。結(jié)合一些數(shù)據(jù)挖掘和數(shù)據(jù)分析的知識,本文主要就數(shù)據(jù)挖掘的過程同具體ITSM系統(tǒng)中積累的工單的結(jié)合情況探討一下其中幾個需要注意和研究的點。
關(guān)鍵詞 ITSM;數(shù)據(jù)挖掘;python
1 數(shù)據(jù)挖掘技術(shù)簡述
數(shù)據(jù)挖掘首先要了解待處理的數(shù)據(jù),具體的工單一般包含序號、標題、描述、申請人、負責人、滿意度等屬性。其中,序號一般對于數(shù)據(jù)挖掘沒有太大意義,可以舍去,比如員工年齡和工號這兩個屬性,談?wù)搯T工平均年齡是有意義的,但看員工的平均工號并沒有太大價值。對于標題、描述這種沒有標準結(jié)構(gòu)的數(shù)據(jù),可以利用python的分詞包比如jieba來對中文分詞,可以統(tǒng)計出關(guān)鍵詞的出現(xiàn)頻次,之后還可以使用詞云工具來生成更形象的詞云來較直觀地描述這些詞匯的出現(xiàn)頻次。原始數(shù)據(jù)會存在數(shù)據(jù)缺失、遺漏、重復(fù)等影響數(shù)據(jù)質(zhì)量的情形,在使用數(shù)據(jù)前,應(yīng)當預(yù)先將數(shù)據(jù)進行預(yù)處理,把離群點刪去或選擇忽視掉;對于數(shù)據(jù)缺失和遺漏,可以比如用0或者null來補全;重復(fù)的數(shù)據(jù)進行合并規(guī)整。數(shù)據(jù)清洗是使數(shù)據(jù)適合挖掘的預(yù)處理步驟,例如,可能需要將連續(xù)值屬性(如長度)轉(zhuǎn)換成具有離散的分類值屬性(如短、中、長);又如,數(shù)據(jù)集屬性的數(shù)目通常不能太多,否則會影響數(shù)據(jù)挖掘的準確性和有效性,因此需要刪去一些相對較弱的屬性,使得數(shù)據(jù)挖掘結(jié)果更準確。
數(shù)據(jù)挖掘方法眾多,對于不同的場景各有不通的優(yōu)缺點,比較常見的有聚類中的K均值和分類中的決策樹等。
1.1 聚類
聚類是無監(jiān)督學(xué)習(xí)的一種,這是相對有監(jiān)督而言的。監(jiān)督其實可以理解為在已有的數(shù)據(jù)推導(dǎo)的模型基礎(chǔ)上將模型應(yīng)用在待驗證和處理的數(shù)據(jù)上,即有沒有類似外界其他同類數(shù)據(jù)的“指導(dǎo)監(jiān)督”。K均指方法即K-means,大體的思想是對于N個對象,主觀地指定一個值K,使其分為K類,每個類都有一個隨機的中心點Px,然后計算所有點到這K個中心點Px的距離,這些點到K個中心點最近的歸到這個初始中心點的類中,這時便完成了首次聚類,然后再次計算每個類中除中心點外所有的點到中心點的平均距離,將這個平局距離所確定的點的坐標作為新的中心點(這個新的中心點很可能沒有落在原本真實的點上,也很可能不是之前的點),之后再次按照上述過程算出每個類中新的中心點,直到下次計算的中心點不再變化或者在規(guī)定的可接受范圍之內(nèi)。這種方法比較簡單,計算時間相對也比較快,效果也還不錯。但缺點也很明顯,需要提前人為確定K值,這就加大了不確定性,甚至如果每次選擇的K不同,結(jié)果也會有所區(qū)別,另外如果沒有提前篩選掉異常點,則聚類結(jié)果可能會被異常值帶偏,因為計算方式僅僅看距離,遠離群里的點在這其中的影響會很大。
1.2 分類
與聚類相對的是有監(jiān)督的分類方法,所謂監(jiān)督,一般是說對于已有的數(shù)據(jù),已知某個指標是正向或反向的,那么將這些指標作為模型應(yīng)用于余下想要分析的數(shù)據(jù)。分類方法中決策樹算法較為常見,而Hunt貪心算法是許多決策樹算法的基礎(chǔ),比如ID3、C4.5和CART。Hunt算法簡單來說就是把比如二元的數(shù)據(jù)分類,使用樹形結(jié)構(gòu),到葉子節(jié)點就不再分,遇到子女節(jié)點則繼續(xù)遞歸使用hunt算法進行分類,直到分為葉子節(jié)點為止,這是一種局部最優(yōu)的策略。上述所謂子女節(jié)點,就是包含不通類別可以再分的,葉節(jié)點就是所屬同一個類不可再分的。
2 數(shù)據(jù)挖掘和數(shù)據(jù)分析
結(jié)合具體工單和分類與聚類兩個不同數(shù)據(jù)挖掘方式的典型方法的優(yōu)缺點,可以嘗試使用聚類的方式來找出一些異常點,再加以人工評測是否準確?;蛘呖梢試L試用分類的方法結(jié)合時間維度的關(guān)聯(lián)分析,找出特殊時間段內(nèi)的一些特殊事件或者哪些時間段內(nèi)集中出現(xiàn)的事件或者服務(wù)請求。
數(shù)據(jù)挖掘是在海量的原始數(shù)據(jù)基礎(chǔ)上找尋其中蘊含的內(nèi)在關(guān)系、潛在規(guī)律和發(fā)展趨勢等,而數(shù)據(jù)分析是將比較明確的數(shù)據(jù)按照明確的方向去對數(shù)據(jù)進行分析。借用一個例子,運營商發(fā)現(xiàn)總有客戶不按時繳費,如何評估這一現(xiàn)象?一個數(shù)據(jù)分析人員可能會得到逾期繳費用戶大多收入不高,那么適當優(yōu)化套餐內(nèi)容,降低套餐額度會是改善的方向。而一個從事數(shù)據(jù)挖掘的人員可能會發(fā)現(xiàn)不按時繳費的用戶地理位置分布大多距離營業(yè)廳較遠,那么對此的改善建議可能是優(yōu)化網(wǎng)點布局。近期行內(nèi)舉辦的數(shù)據(jù)分析課程就python數(shù)據(jù)分析做了初步教學(xué)和討論,讓我們了解到python中pandas、numpy包的強大功能,下一步還需要結(jié)合實際場景進一步提高所學(xué)技能,更好地應(yīng)用在工作中去。
3 結(jié)束語
不同的方法和角度會得到不通的結(jié)論,無論哪種方式,利用好手上的數(shù)據(jù),加以探索處理,去主動發(fā)現(xiàn)問題解決問題對于提高工作效率都會有巨大幫助。