張 明
(首都醫(yī)科大學 附屬北京朝陽醫(yī)院, 北京 100020)
信息技術(IT: Information Technology)運維是將客戶當作中心, 以改變組織結構為基礎, 合理設計運行機制, 可實現(xiàn)業(yè)務數(shù)據(jù)的集中處理。運維管理是信息部門的主要工作, 信息管理是信息化的重要標志, 不僅體現(xiàn)出企業(yè)管理的標準化程度, 也改善了對客戶的服務質量。隨著IT運維集中化程度的逐漸提高, 企業(yè)運營逐漸加大了對IT系統(tǒng)的依賴程度。其中數(shù)據(jù)信息是該系統(tǒng)中使用最為頻繁的信息源, 主要包括人力資源、 業(yè)務數(shù)據(jù)、 資金信息和戰(zhàn)略信息等。由于數(shù)據(jù)量的飛快增加, 數(shù)據(jù)檢索工作已經(jīng)面臨嚴峻挑戰(zhàn)。
為此, 何寶榮[1]提出基于遺傳算法的信息檢索方法, 利用遺傳算法實現(xiàn)特征集合的優(yōu)化選擇, 通過偏F檢驗方式選取最佳子集, 構成優(yōu)化特征集合; 以信息檢索理論為中心, 建立信息檢索模型。屈娟娟[2]則利用大數(shù)據(jù)技術設計一種用戶瀏覽式反饋信息檢索方法, 通過觀察用戶瀏覽的頁面獲取反饋信息, 結合這些信息構建用戶興趣模型; 使用向量表示用戶所瀏覽的頁面文件, 為全部瀏覽行為賦予合理權重; 根據(jù)權重推算出用戶對某類信息的感興趣程度, 以此實現(xiàn)反饋信息檢索。
但上述檢索方式會通過其強大的檢索功能向用戶推薦大量信息, 而用戶必須對這些信息進行甄別, 做出取舍, 浪費大量時間。因此用戶迫切想要利用一種能過濾冗余信息且對檢索詞匯較為敏感的檢索工具。為此, 筆者提出了基于貝葉斯網(wǎng)絡的集中化IT運維信息檢索方法。貝葉斯網(wǎng)絡是將統(tǒng)計理論作為基礎, 是數(shù)據(jù)挖掘領域常用的一種方法。其本質屬于一個有向無限循環(huán)圖[3], 可描述多個變量存在的關系以及表述每個節(jié)點的關系密切性。此外, 貝葉斯網(wǎng)絡能將先驗知識與已有信息相結合, 提高推理結果的合理性。通過對概率分別地限定, 簡化檢索算法計算量, 解決由于用戶輸入的關鍵詞不當導致的檢索不準確問題。
1) 運維戰(zhàn)略[4]。表示在發(fā)展戰(zhàn)略引導下, 根據(jù)IT運維現(xiàn)狀與發(fā)展趨勢, 制定綱領文件, 分為思想、 原則、 目標與戰(zhàn)略4個方面。
2) 運維模式。表現(xiàn)出運維工作結構與相互聯(lián)系, 是企業(yè)進行IT運維的核心方法, 分為流程、 平臺、 組織與保障4個部分。
3) 制度流程。和IT運維有關的制度與規(guī)范, 屬于運維服務的使用人員與管理人員互相開展協(xié)同工作的重要機制。包括數(shù)據(jù)調度、 客戶服務等。
4) 技術支撐[5]??蓜澐譃檎故灸K、 管理模塊與監(jiān)控模塊。其中展示功能可以實現(xiàn)運維系統(tǒng)的登錄及信息交互, 管理則是對運維服務的流程進行統(tǒng)一管控; 監(jiān)控是利用監(jiān)控平臺, 分析服務目標與資源。
5) 運維組織。是經(jīng)過對企業(yè)職能進行詳細研究后, 設計的機構職責, 定義了企業(yè)相關角色, 規(guī)劃運維人員的職業(yè)發(fā)展狀況。
6) 績效保障。屬于一種管理方式, 可協(xié)助企業(yè)實現(xiàn)運維的標準化管理, 提高流程執(zhí)行力。績效保障將運維戰(zhàn)略劃分為體系、 流程與角色不同維度, 構成一個完整的指標考核體系。
服務請求為用戶提交申請的窗口, 也是單位與服務臺之間僅有的交流端口。服務臺的接入形式有多種, 它可以及時響應用戶需求, 解決服務申請, 還能與用戶積極進行溝通, 獲取用戶反饋信息, 提升服務質量與用戶滿意度。
圖1 IT運維體系架構示意圖 圖2 IT運維服務流程圖 Fig.1 IT operation and maintenance architecture Fig.2 IT flowchart maintenance service flow chart
用戶向服務臺提交申請的方式較多, 服務臺結合服務單完成分派, 按照規(guī)定的流程對申請進行處理, 處理結束后, 關閉服務請求, 將處理結果反饋用戶。
1) 瀏覽內(nèi)容結構化顯示。用戶瀏覽的內(nèi)容可以反映用戶的興趣愛好, 所以結合瀏覽內(nèi)容實現(xiàn)信息檢索是必要過程之一。
為精準獲取用戶瀏覽內(nèi)容, 必須對文本信息做預處理, 采集文本特征, 并利用結構化的形式體現(xiàn)。筆者通過向量空間模型描述文檔, 通過詞頻反映任意詞的作用程度。詞頻的計算方式為
(1)
其中d為用戶瀏覽的界面數(shù)目,t為詞條,f()為逆向文件頻率,N為文檔總數(shù),nt為包含詞條t的文檔數(shù)。
將全部文檔定義為文檔集合D, 通過下述矩陣描述其特征
(2)
其中T為文檔增益,W為文檔詞頻,i=1,2,…,n為期望交叉熵,j=1,2,…,m為文本證據(jù)權。
2) 相似度計算。筆者通過編輯距離算法完成特征矢量的相似度計算[6], 此方法最早應用于字符串的相似程度對比, 其核心理論是計算從初始字符串變換為理想字符串最少需做多少次相關操作, 操作次數(shù)即為兩個字符串的編輯距離[7]。其定義式如下
(3)
貝葉斯網(wǎng)絡是一種表現(xiàn)因果信息的方式, 可挖掘信息之間的潛在關聯(lián)。在該網(wǎng)絡中, 通過節(jié)點描述變量, 有向邊代表不同變量之間存在的依賴關系。
筆者使用自然語言同時從模型構建視角分析貝葉斯網(wǎng)絡。根據(jù)不同事件的因果聯(lián)系, 設定某組事件表示為{x1,x2,…,xn}, 此事件集合的概率分布計算公式如下
(4)
其中ui?{x1,x2,…,xi=1}為事件xi的全部原因集合。
使用節(jié)點表示事件, 描述直接因果聯(lián)系, 建立有向無環(huán)圖G。針對任意節(jié)點Xi, 通過二維表反映其條件概率分布P(Xi|Ui), 將其稱作條件概率表。
此有向圖G與n個概率表共同組成貝葉斯網(wǎng)絡, 寫作BN=(G,{CPT})。
上述所提Xi屬于一個事件, 在有向圖中描述某節(jié)點, 也與隨機變量互相對應。
由此可得出, 概率表事實上與某聯(lián)合概率分布P(x1,x2,…,xn)相互對應, 所以貝葉斯網(wǎng)絡還可描述為(G,P)。
結合上述拓撲結構能得出術語邊緣之間相互獨立, 所以文檔在確定術語狀況下也相互獨立。進而預測出術語節(jié)點與文檔節(jié)點的概率分布情況。
1) 術語節(jié)點。全部術語均屬于根節(jié)點, 任意術語Ti的先驗概率計算公式為
(5)
其中M為集合內(nèi)術語數(shù)量。利用式(5)可對全部根節(jié)點數(shù)據(jù)定義相同的先驗概率。
2) 文檔節(jié)點。每個真實的文檔均與一個節(jié)點相互對應, 不同文檔之間存在的關系均能從索引項中獲取, 因此在貝葉斯網(wǎng)絡結構中各文件之間不需要連接線。這表明在定義文件關鍵詞后, 文件條件獨立。
假設Pa(Dj)描述文件Dj的全部索引術語集, 即Dj的父節(jié)點[8];pa(Dj)為Dj的全部術語取值后的某一組合。則Dj的條件概率計算公式為
(6)
其中wij為文檔Dj∈D的術語Ti∈Dj的權值, 且0≤wij。ti∈pa(Dj)描述組合pa(Dj)內(nèi)Ti的所有權重之和。所以pa(Dj)有關術語越多, 相應的Dj概率值也越高。權重wij的表達式為
(7)
(8)
其中ni為術語Ti包括的文件數(shù)目。
3) 推理。結合兩種節(jié)點概率分布狀況, 獲取文件Dj和檢索Q之間的有關概率
(9)
由于術語節(jié)點存在邊緣獨立特征, 通過獨立條件能得出若Ti∈Q, 則存在p(ti|Q)=1; 若Ti?Q, 此時有p(Ti|Q)=1/M。將其引入式(9)中, 可以得到新的表達式
(10)
通過計算術語節(jié)點與文檔節(jié)點的概率分布情況, 推理出文件與檢索之間的概率關系, 利用此種關系即可過濾檢索概率較小的文件, 確保檢索詞匯更加敏感, 減少檢索量。
結合實際需求, 綜合分析IT運維信息檢索過程, 確保用戶在輸入檢索詞后, 經(jīng)過短時間響應, 為用戶檢索出想要的信息資源。該模型基于對概率分布的理解, 將信息檢索問題變換為已知證據(jù)的推理問題。結合用戶給定的關鍵詞, 推理用戶需求, 利用貝葉斯網(wǎng)絡對關鍵詞進行擴展處理, 再對貝葉斯網(wǎng)絡做簡化運算, 完成對用戶的結果反饋, 實現(xiàn)信息檢索。
結合貝葉斯網(wǎng)絡拓撲結構, 構建IT運維信息檢索模型。該模型明確了概率樣本空間, 具有更為堅實的理論基礎與表達能力。
假設文件集合D內(nèi)全部文件的索引項組成模型樣本空間, 表示為S=(t1,t2,…,tn)。在此空間中某概念C屬于集合S的某個子集, 定義式為
C={t1,t2,…,tm}?S
(11)
將每個文件均當作樣本空間中的一個概念, 表示為d′, 同理將檢索Q也當做樣本空間中的概念。針對空間S中某概念C, 其概率P(C)表示概念C對樣本空間的覆蓋率, 表達式如下
(12)
其中U為樣本空間S中全部概念組成的集合。
綜上所述, 將信息檢索變換為在空間S中的概念匹配, 其具體過程如下。
文件D和檢索Q之間的關聯(lián)程度表示在樣本空間S中, 則兩個概念之間的覆蓋度計算公式如下
fr(q,d)=P(d=1|q=1)
(13)
式(13)即為關聯(lián)函數(shù)[10]表達式。此表達式的推導公式如下
p(d|q)=p(q,d)/p(q)=αp(q,d)
(14)
其中α為常數(shù), 因此只需獲取p(q,d)的值即可。對該值進行計算時需通過不同變量的概率依賴程度, 利用貝葉斯拓撲結構確定每個變量的值域均為{0,1}的二值變量。上述即為貝葉斯信息檢索模型, 通過獲取文件與檢索之間的關聯(lián)函數(shù), 實現(xiàn)信息檢索。但以上關聯(lián)函數(shù)形式復雜, 筆者對其進行進一步簡化處理。
首先確定如下關系
xi=x(gi(x)=1∧?j≠igj(x)=0)
(15)
其次, 由上述關系得出
(16)
最后獲得
(17)
利用上述步驟完成對概率p(q,d)的限定, 則利用貝葉斯檢索模型獲取的信息量會大大減少, 同時準確度更高。
為更加客觀、 全面地驗證筆者算法性能, 與文獻[1]和文獻[2]算法共同進行仿真實驗。實驗數(shù)據(jù)集合是從Gnutella網(wǎng)絡中采集的真實IT運維信息。仿真系統(tǒng)中節(jié)點總數(shù)為800, 任意節(jié)點的連接度為5, 每個節(jié)點的初始資源數(shù)量為5個, 且各節(jié)點任意選取N個鄰居, 針對同種請求, 經(jīng)過多次檢索后3種方法的檢索效果如表1所示。筆者的檢測指標為查全率與查準率。
1) 查全率。在檢索過程中, 得出的有關信息量w′和信息庫中儲存的有關信息量x′的比率, 表達式如下
(18)
2) 查準率。在檢索過程中, 檢出的有關信息量w′和檢出信息總數(shù)量m′之間的比率, 計算公式如下
(19)
表1 3種算法檢索性能對比表
由表1可知, 3種算法的查準率都受到查全率的影響, 且隨查全率的降低而提高。在查全率相同情況下, 所提方法的查準率最高。這是因為筆者方法在檢索前對文本信息進行預處理, 結合用戶興趣愛好, 構建特征矩陣, 去除冗余信息, 抑制了“檢索漂移”現(xiàn)象, 克服檢索查準率低的問題。
圖3 帶寬利用情況對比圖Fig.3 Comparison of bandwidth utilization
除上述指標外, 帶寬利用情況同樣也能體現(xiàn)出算法性能。帶寬利用率表示每秒接收與發(fā)送數(shù)據(jù)的效率。如果一個檢索算法具備良好的帶寬利用率則會避免網(wǎng)絡擁塞。3種方法的帶寬利用情況如圖3所示。
圖3表明, 筆者方法在每次檢索過程中推薦的消息量最少, 因此不會對網(wǎng)絡造成負擔, 提高帶寬利用率。隨著查詢次數(shù)的逐漸增多, 算法已知用戶的實際需求, 此時消息量逐漸減少, 所提方法的消息量遠低于其他兩種方法。這表明, 要想達到同樣的傳輸成功率, 該算法總信息量要比其他方法少很多。
為確保用戶能高效檢索集中化IT運維信息, 筆者利用貝葉斯網(wǎng)絡設計一種檢索模型。貝葉斯網(wǎng)絡具有扎實的理論基礎與很強的推理能力, 可有效表達文件之間的聯(lián)系。仿真實驗證明, 該方法查準率較高, 且有效提高帶寬利用率。隨著數(shù)據(jù)量的不斷增長, 數(shù)據(jù)源分析過程會浪費巨大資源, 若要進一步降低系統(tǒng)負擔, 需引進增量挖掘技術, 使該技術與貝葉斯檢索模型進行有效融合。