王希軍
摘 要 我們?nèi)缃竦纳顣龅酱罅康男畔?,一方面人們隨時隨地可以查閱相關(guān)信息但是另一方面不利于人們來進行分門別類和快速的獲得主要信息,數(shù)據(jù)挖掘技術(shù)的使用使人們能夠段時間內(nèi)完成信息的處理。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的含義和包括的方法,然后闡釋了數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況并對它面臨的問題進行了分析。
‘【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù) 軟件工程 應(yīng)用
社會的發(fā)展使得技術(shù)也得到了快速發(fā)展,信息技術(shù)營運而生,并且被人們廣泛的應(yīng)用于機械、醫(yī)療、化工和教育等領(lǐng)域,發(fā)揮著越來越重要的作用。在當(dāng)前社會的發(fā)展背景下,信息技術(shù)中的軟件工程雖然發(fā)展規(guī)模不斷擴大,但是在技術(shù)上已經(jīng)不能滿足對資源管理的要求,而數(shù)據(jù)挖掘技術(shù)的到來彌補了軟件軟件工程的不足,促進了軟件工程的進一步發(fā)展
1 數(shù)據(jù)挖掘技術(shù)的簡介
1.1 數(shù)據(jù)挖掘技術(shù)的含義
所謂數(shù)據(jù)挖掘,主要指的是在大量的數(shù)據(jù)信息中利用科學(xué)、有效的算法第一時間獲取到有用信息的篩選過程。大量的信息存在于生產(chǎn)和生活領(lǐng)域,使得人們在處理事情是無從下手,這樣大大降低了人們的工作效率,也浪費了工作人員寶貴的時間。而這一問題通過數(shù)據(jù)挖掘技術(shù)的使用得到了很好的解決
1.2 數(shù)據(jù)挖掘技術(shù)所采用的方法
在具體的操作中,數(shù)據(jù)挖掘技術(shù)會通過很多方法來使任務(wù)得以完成。具體的方法有如下幾種:
1.2.1 遺傳算法的使用
所謂遺傳算法,主要是指基于生物自然選擇與遺傳激勵的隨機搜索算法,也是數(shù)據(jù)挖掘技術(shù)常用的一種操作方法。遺傳算法的有點就在于表面上看似無聯(lián)系的事物,卻能在事物模型間建立相關(guān)的練習(xí),實現(xiàn)事物之間共同發(fā)展,現(xiàn)在生物界越來越重視的遺傳基因等的研究,所以這種方法很受人們的歡迎。
1.2.2 采用決策樹方法
這種方法主要用于對信息的分類和整合,在遇到大量的信息的時候,能夠在短時間內(nèi)找出關(guān)鍵的信息,能夠使信息分類的快速化和簡單化,并且保證了信息分類的準(zhǔn)確度,但是此方法的不足之處就在于具有較差的抗噪性能,不能全面的來表述較為復(fù)雜的概念。
1.2.3 采用統(tǒng)計分析法
往往會利用回歸分析和主成分分析等方法來分析數(shù)據(jù)庫字段之間的關(guān)系。在字段之間的關(guān)系包括相關(guān)關(guān)系,函數(shù)關(guān)系也是其中的一種,不同的是函數(shù)關(guān)系可以用公式來表示,而相關(guān)關(guān)系則不能通過公示來表示關(guān)系,系統(tǒng)分析法的使用為這種關(guān)系的分析提供了便利。
1.2.4 采用可視化技術(shù)
可視化技術(shù)是采用一些圖表來對數(shù)據(jù)進行表現(xiàn),便于對數(shù)據(jù)的理解,比如,使用簡單圖形來展示存在于數(shù)據(jù)庫中的多個數(shù)據(jù),使研究者看起來一目了然,使單調(diào)的數(shù)據(jù)形象化,更容易掌握數(shù)據(jù)的相關(guān)信息。
1.2.5 采用神經(jīng)網(wǎng)絡(luò)方法
它模擬人腦神經(jīng)元結(jié)構(gòu), 以MP 模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ), 用神經(jīng)網(wǎng)絡(luò)連接的權(quán)值表示知識, 其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上。前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)是常用的三種神經(jīng)網(wǎng)絡(luò)模型,分別用于預(yù)測、聯(lián)想記憶和聚類等。
2 軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用表現(xiàn)
2.1 用于軟件項目管理方面
軟件項目的管理呈現(xiàn)出復(fù)雜化和系統(tǒng)化的特點,數(shù)據(jù)挖掘技術(shù)應(yīng)用于軟件項目管理一方面
表現(xiàn)在對組織關(guān)系的挖掘,比如公司舉辦年會等大型活動,在人員的分配上如果處理不好,就會出現(xiàn)混亂的局面,為了實現(xiàn)人力資源的合理配制,往往采用數(shù)據(jù)挖掘技術(shù)來區(qū)分每個職員的職責(zé),實現(xiàn)項目管理的有序化,提高了辦事效率;軟件項目管理中使用數(shù)據(jù)挖掘技術(shù)的另一個方面就是挖掘版本控制信息,在此系統(tǒng)面臨外系統(tǒng)入侵時提出警告是數(shù)據(jù)挖掘技術(shù)所具備的功能之一,除此之外數(shù)據(jù)挖掘技術(shù)可以檢測該系統(tǒng)的修復(fù)情況,版本控制信息的作用就是方便了人們對版本信息的查看,而數(shù)據(jù)挖掘技術(shù)的使用為系統(tǒng)的安全運行提供了更有利的保障,使得軟件項目的管理水平逐步提高。
2.2 漏洞的檢測時數(shù)據(jù)挖掘技術(shù)的使用
當(dāng)數(shù)據(jù)挖掘技術(shù)用于檢測軟件的漏洞時,第一步要弄清楚要檢測什么樣的軟件,第二步就是要制定合理的計劃,計劃的目的是為了更好的對軟件進行檢測,不同軟件的構(gòu)成和性質(zhì)決定了檢測要采用不同的方式,緊接著就是對漏洞庫中的數(shù)據(jù)進行整理,對于不需要的數(shù)據(jù)進行清除,除此之外對于丟失的項目要采取措施補救回來,用數(shù)值表示來代替數(shù)據(jù)屬性。
另外,要對合適的數(shù)據(jù)模型進行驗證,不同的項目會采取不同的方法,重要的是選擇合適的發(fā)掘方式來使其形成測試集,進而可以對全部的結(jié)果進行比較,通過比較找出最滿意的方式,數(shù)據(jù)挖掘技術(shù)的應(yīng)用不見可以檢測漏洞還可以對未知的漏洞進行防護,并且把漏洞的種類進行分析,整合出修復(fù)的方法,能使的在第一時間找出漏洞并進行修復(fù),使得軟件能夠保持良好的性能,使其運行速度不至于減慢。
2.3 挖掘程序代碼和結(jié)構(gòu)中數(shù)據(jù)挖掘技術(shù)的使用
在挖掘程序代碼和結(jié)構(gòu)方面比較常用的一種數(shù)據(jù)挖掘方法就是克隆代碼檢測法,該方法分為度量、文本對比、程序結(jié)構(gòu)和標(biāo)識符對比這四種方法,四種方法各有各自的特點,具體的運用中需要考慮實際情況來確定到底使用那種方法。克隆代碼檢測通常會復(fù)制粘貼某一個代碼,在特殊的要求下,會根據(jù)需求來改正某些代碼,檢測這些代碼主要是為了防止大面積出現(xiàn)故障,維護系統(tǒng)的安全,為軟件運行提供一個可靠的環(huán)境。另一個常見的就是Aspect的挖掘,Aspect的挖掘就是常見說的橫切關(guān)注點挖掘。軟件工程中面向方面軟件的改造需要解決好Aspect的挖掘,雖然可以采用大量的方式來解決這個問題,但是最重要的方法之一就是度量分析法。
3 數(shù)據(jù)挖掘技術(shù)在具體的使用中面臨的問題
3.1 數(shù)據(jù)復(fù)雜化
目前的軟件工程數(shù)據(jù)主要包括結(jié)構(gòu)化和非結(jié)構(gòu)化兩類數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括軟件代碼,結(jié)構(gòu)化數(shù)據(jù)則跟軟件的版本信息有關(guān),非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間聯(lián)系密切,因此在使用數(shù)據(jù)挖掘技術(shù)的時候,要對著兩種數(shù)據(jù)的關(guān)系進行考慮,這就增加了挖掘技術(shù)使用的難度。
3.2 評價標(biāo)準(zhǔn)不一致
生產(chǎn)生活中很多領(lǐng)域都在使用數(shù)據(jù)挖掘技術(shù),在使用后對它的結(jié)果也采取了一定的評價方法,但是往往這些方法不能一致,在軟件工程中也很難統(tǒng)一評價標(biāo)準(zhǔn),因為在軟件工程中出現(xiàn)的信息一般比較復(fù)雜,而且往往通過不同的方法來表達,所以獲取者在進行信息比較時候,面臨很大的苦難,所以導(dǎo)致不能準(zhǔn)確的對數(shù)據(jù)挖掘結(jié)果進行分析。
4 結(jié)論
總而言之,時代的發(fā)展越來越離不開數(shù)據(jù)挖掘技術(shù)的使用,這項技術(shù)很大程度上滿足了人們的需求,受到越來越多的重視,經(jīng)過本文的論述之后,可以得知數(shù)據(jù)挖掘技術(shù)不僅使軟件工程更加完善,而且使人們學(xué)會用新的方式來獲得信息,雖然書籍挖掘技術(shù)在實際的應(yīng)用中會因為軟件項目的數(shù)據(jù)復(fù)雜等原因會面臨一些挑戰(zhàn),但是科技也在不斷進步,相信未來,數(shù)據(jù)挖掘技術(shù)會得到更廣泛的應(yīng)用。
參考文獻
[1]陳建樺.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].硅谷,2014(01):11-12.
[2]姚文濤.試論軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].河南科技,2014(23):45-46.
[3]雷蕾.關(guān)于數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用綜述[J].電子測試,2014(02):19-20.
作者單位
許昌職業(yè)技術(shù)學(xué)院 河南省許昌市 461000