• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的測試工程數(shù)據(jù)整合分析平臺

      2015-01-16 05:27:08李外云
      電子設(shè)計工程 2015年11期
      關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

      韓 茂,邱 崧,李外云

      (華東師范大學(xué) 信息科學(xué)技術(shù)學(xué)院,上海 200241)

      測試工程是保證產(chǎn)品質(zhì)量的一個重要環(huán)節(jié),測試工程技術(shù)在企業(yè)設(shè)計、研發(fā)、生產(chǎn)產(chǎn)品面向市場的過程中是必不可少的一環(huán)。有效的測試工程技術(shù)不僅可以將讓工程師快速地了解產(chǎn)品的實(shí)際狀態(tài),避免生產(chǎn)出不合格的產(chǎn)品,而且還可以促進(jìn)產(chǎn)品的后續(xù)改進(jìn)和提高。當(dāng)前,許多企業(yè)已經(jīng)建立了各自完備的自動化、半自動化測試流程與技術(shù),將測試工程的自動化、規(guī)范化作為一項(xiàng)必不可少的工作流程。實(shí)踐證明,這些測試方式不僅可以保證產(chǎn)品的質(zhì)量,而且還可以提高工作效率。但是,相當(dāng)一部分企業(yè)包括目前大部分針對這方面的研究都是通過測試工程獲取基礎(chǔ)的數(shù)據(jù)信息后,只會對數(shù)據(jù)進(jìn)行一般性的技術(shù)處理[1],或者用一些專業(yè)軟件對數(shù)據(jù)進(jìn)行分析[2-3],對歷史數(shù)據(jù)的管理也僅僅是借助于Office辦公軟件進(jìn)行分析和管理[4],并沒有形成統(tǒng)一、可靠、有效的管理體系。因此,對于更優(yōu)秀的測試工程數(shù)據(jù)整合分析平臺需要解決以下幾個問題:

      1)如何整合、挖掘企業(yè)內(nèi)部不同系統(tǒng)或部門的測試數(shù)據(jù)信息,甚至包括被部分加工過的數(shù)據(jù)信息。

      2)由自動化測試工程產(chǎn)生的大量數(shù)據(jù)所引起的數(shù)據(jù)存儲方式及結(jié)構(gòu)問題,即數(shù)據(jù)庫建設(shè)問題。

      3)對于已經(jīng)整合好的數(shù)據(jù)信息,需要通過設(shè)計的算法對其分析,才能實(shí)現(xiàn)對數(shù)據(jù)信息的可視化處理,讓測試工程平臺更直觀、快捷地反映企業(yè)產(chǎn)品的信息特征。

      為了克服這些問題,本文提出設(shè)計一套測試工程數(shù)據(jù)整合分析平臺,該平臺首先實(shí)現(xiàn)了將測試工程數(shù)據(jù)分類,分別開發(fā)出快捷可靠的數(shù)據(jù)挖掘流轉(zhuǎn)方案(例如,針對Web端數(shù)據(jù)的數(shù)據(jù)挖掘方案),將這些數(shù)據(jù)抽取到中轉(zhuǎn)數(shù)據(jù)池中。然后創(chuàng)造性地利用Microsoft SQL Server(MS SQL)對中轉(zhuǎn)數(shù)據(jù)池中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘[5],這種方法能夠精確、迅速地分辨龐大的數(shù)據(jù)池中有用的信息。最后,該平臺又基于實(shí)際的業(yè)務(wù)需求設(shè)計算法,靈活地對已經(jīng)挖掘的數(shù)據(jù)再加工,將其可視化為圖表和其他形式。整個系統(tǒng)相較與傳統(tǒng)模式,極大地增強(qiáng)了對測試工程數(shù)據(jù)的科學(xué)管理,縮短了數(shù)據(jù)處理的周期,同時也有助于工程師對產(chǎn)品測試結(jié)果有更直觀、可靠的判斷。

      1 測試工程數(shù)據(jù)整合分析平臺系統(tǒng)設(shè)計

      本系統(tǒng)的設(shè)計遵循了可靠性、高效性、實(shí)用性等幾個原則,按照業(yè)務(wù)要求分層處理,將數(shù)據(jù)處理的流程分為3個步驟:數(shù)據(jù)獲取層、數(shù)據(jù)挖掘與存儲層、數(shù)據(jù)分析顯示層。圖1所示,就是該系統(tǒng)框架設(shè)計的結(jié)構(gòu)圖。

      圖1 平臺系統(tǒng)框架設(shè)計結(jié)構(gòu)圖Fig.1 Platform system framework design architecture

      在數(shù)據(jù)獲取層,考慮到數(shù)據(jù)源的分散以及產(chǎn)生渠道的不同,系統(tǒng)給出了多個接口,它們可以承接來自測試系統(tǒng)(Web)、Office Automation Software (OA)、Access數(shù)據(jù)庫等多通道的數(shù)據(jù)。除Access等數(shù)據(jù)庫是直接導(dǎo)入數(shù)據(jù)池,其他數(shù)接口的數(shù)據(jù)都通過基于Excel上的Visual Basic Application(VBA語言轉(zhuǎn)化為數(shù)據(jù)結(jié)構(gòu)清晰的Excel數(shù)據(jù)表格,最關(guān)鍵的是這些過程一旦實(shí)現(xiàn)源數(shù)據(jù)語義信息穩(wěn)定后,都是全自動的,這對于測試工程而言無疑是有巨大幫助的。

      在數(shù)據(jù)挖掘與存儲層,對于已經(jīng)注入數(shù)據(jù)池的數(shù)據(jù)整合分析,根據(jù)目標(biāo)信息的特征結(jié)合本層的核心算法將符合特征的數(shù)據(jù)挖掘填表,構(gòu)建新的數(shù)據(jù)庫。數(shù)據(jù)挖掘的方法和工具有很多[6],比如 SPSS Clementine、IBM Intelligent Miner 等,但本文關(guān)注的測試工程環(huán)境不需要面對特別復(fù)雜的非結(jié)構(gòu)性數(shù)據(jù),反而在基于MS SQL數(shù)據(jù)庫的數(shù)據(jù)挖掘功能,用Transaction Structured Query Language (T-SQL)語言結(jié)合適當(dāng)?shù)乃惴纯煽焖偻昝赖貙?shí)現(xiàn)這類挖掘效果[7]。

      在數(shù)據(jù)分析顯示層,本方案采用了Browser/Server(B/S)架構(gòu),該架構(gòu)適合于各種不同平臺和系統(tǒng)遠(yuǎn)程訪問,極方便地使數(shù)據(jù)以良好的Graphical User Interface(GUI)面向客戶。此外,數(shù)據(jù)的分析功能也由此結(jié)構(gòu)負(fù)責(zé),比如建立數(shù)據(jù)模型,分析某段時間內(nèi)一個批次的產(chǎn)品各項(xiàng)指標(biāo)比較。還比如根據(jù)工程師設(shè)定的技術(shù)指標(biāo),設(shè)計算法,利用JSP技術(shù)中JavaScript優(yōu)良的設(shè)計功能,對數(shù)據(jù)分析的結(jié)能以非常專業(yè)而精準(zhǔn)的圖像顯示,這對于直觀、快捷判斷測試結(jié)果是至關(guān)重要的。

      2 設(shè)計過程與算法實(shí)現(xiàn)

      2.1 數(shù)據(jù)獲取層

      測試數(shù)據(jù)的來源有很多種,對其處理方式也不盡相同。比如說,對于原本就數(shù)據(jù)結(jié)構(gòu)良好的數(shù)據(jù)庫或者OA系統(tǒng)傳送來的數(shù)據(jù),只要實(shí)現(xiàn)它們的自動化處理即可。而真正比較復(fù)雜的是來自自動測試系統(tǒng)的Web端數(shù)據(jù)[8],它們是基于HTML5的文本數(shù)據(jù),處理起來略微復(fù)雜。本文設(shè)計的數(shù)據(jù)獲取層就針對如何把Web端數(shù)據(jù)也通過某種方式抽取出來形成一個比較合理和清晰的數(shù)據(jù)格式。圖2是該層的流程圖。

      圖2 數(shù)據(jù)獲取層流程圖Fig.2 Data acquiring process

      算法描述及實(shí)現(xiàn):對網(wǎng)頁的數(shù)據(jù)抽取與轉(zhuǎn)換用基于Excel的VBA語言完成。VBA是一種可寄生在應(yīng)用程序中的Visual Basic(VB)宏語言,并可實(shí)現(xiàn)該應(yīng)用程序的自動化運(yùn)行。利用VBA控制Excel表格的運(yùn)行,可以結(jié)合Excel對數(shù)據(jù)表格化的處理功能[9],極大地將邏輯結(jié)構(gòu)復(fù)雜的HTML格式數(shù)據(jù)轉(zhuǎn)換成行列關(guān)系。以下是算法描述:

      第一步:實(shí)現(xiàn)單頁數(shù)據(jù)抽取

      With ActiveSheet.QueryTables.Add(URL) //訪問網(wǎng)址

      FillAdjacentFormulas//調(diào)整格式

      AdjustColumnWidth(x)

      WebPreFormattedTextToColumns (x,y) //將數(shù)據(jù)放入指定行列中

      End With

      第二步:將數(shù)據(jù)轉(zhuǎn)存入SQL預(yù)處理數(shù)據(jù)池中

      For k=1 To rs.Fields.Count-1 //rs是ADODB.Recordset,也即數(shù)據(jù)庫行記錄集

      rs.Fields(k) =Trim(ws.Cells(h, k).Value)

      Next k

      rs.Update

      第三步:訪問其他URL內(nèi)容,抽取數(shù)據(jù)至數(shù)據(jù)池

      For i=1 To n

      Website=Trim(WebArray(i))

      SaveAs File//備份日志文件

      Next i

      回上海前一天,陶小西陪溫衡去福利院看奶奶,奶奶卻已經(jīng)患了老年癡呆,認(rèn)不出她的孫女了。溫衡無奈地塞給她一些錢,又千恩萬謝地拜托護(hù)士好好照料。

      2.2 數(shù)據(jù)挖掘與存儲層

      數(shù)據(jù)挖掘的方式有很多,本文設(shè)計的數(shù)據(jù)整合分析平臺在數(shù)據(jù)抽取階段已經(jīng)完成將源數(shù)據(jù)按照最基本的行列關(guān)系抽取到SQL的數(shù)據(jù)池中,因此,利用T-SQL語言在SQL Server上對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,重新建表。圖3是數(shù)據(jù)挖掘的流程圖。

      圖3 數(shù)據(jù)挖掘與存儲流程圖Fig.3 Data mining and storage process

      此外,本層設(shè)計的最終目的是將挖掘好的數(shù)據(jù)重新構(gòu)表,建立結(jié)構(gòu)良好的數(shù)據(jù)庫方便下游對數(shù)據(jù)做進(jìn)一步分析處理。所以,本層設(shè)計構(gòu)建了邏輯明晰、結(jié)構(gòu)合理的滿足第三范式[10]的數(shù)據(jù)庫存儲數(shù)據(jù)。面對大量進(jìn)入數(shù)據(jù)池的數(shù)據(jù),SQL必須能夠準(zhǔn)確理解這些數(shù)據(jù)的結(jié)構(gòu)并對目標(biāo)數(shù)據(jù)的語義信息做充分分析,基于這倆點(diǎn)構(gòu)建出的挖掘規(guī)則才會可靠。鑒于此,本文提出一種基于關(guān)聯(lián)規(guī)則的優(yōu)化的Apriori算法[11]。

      2.2.1 關(guān)聯(lián)規(guī)則的基本概念和原理

      關(guān)聯(lián)規(guī)則形式化描述如下:設(shè) I=(I1,I2,…Im)是項(xiàng)的集合,任務(wù)相關(guān)數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每一個事務(wù)T都是項(xiàng)的非空子集,使得TI。關(guān)聯(lián)規(guī)則是形如A的蘊(yùn)含式,其中 A 和 B 是項(xiàng)集,且 AI,BI,A∩B=?。定義支持度(support)為D中包含的事務(wù)占全部事務(wù)的百分比,記作:

      置信度(confidence)為D中包含A∪B的事務(wù)數(shù)與包含A的事務(wù)數(shù)的比值,記作:

      提升度:

      2.2.2 改進(jìn)的Apriori算法應(yīng)用

      Apriori算法是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法。該算法的實(shí)現(xiàn)主要分為倆個階段:首先通過迭代檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項(xiàng)集,設(shè)置最小支持度閥值。然后,利用頻繁項(xiàng)集構(gòu)造出滿足最小置信度的規(guī)則,即產(chǎn)生關(guān)聯(lián)規(guī)則。本文利用T-SQL語言獲取關(guān)聯(lián)規(guī)則的參數(shù)并設(shè)定出挖掘規(guī)則,以下是優(yōu)化的Apriori建模及算法實(shí)現(xiàn)[12]:

      1)計算全局頻繁項(xiàng)集:由于測試工程數(shù)據(jù)從內(nèi)容來說,有良好的完整性和組織結(jié)構(gòu)關(guān)系,對這類數(shù)據(jù)的挖掘不像普通的Web數(shù)據(jù)挖掘那樣需要大海撈針般尋找全局頻繁項(xiàng)集。此外,對于本設(shè)計而言,計算全局頻繁項(xiàng)集有倆個目標(biāo):第一,判斷某項(xiàng)測試報告是否合格。第二,確定挖掘規(guī)則的參考項(xiàng)。 鑒于此,需要先設(shè)定項(xiàng)的集合I=(I1,I2,…Im),從表中找出每項(xiàng)的頻繁度,據(jù)此建立輔表H1(列名是項(xiàng)的名稱),統(tǒng)計頻繁度。偽代碼如下:

      For i=1 To n//數(shù)據(jù)池包含n列

      For j=1 To m//數(shù)據(jù)池包含m行

      SELECT F (i) FROM TABLENAME WHERE F1 LIKE‘string(x)’WHERE DATE_ROWNUM=j

      //從列 F(i),第 j行中找出類似字符串 x的數(shù)據(jù)

      Next m

      Next i

      構(gòu)建好輔表H1后,結(jié)合經(jīng)驗(yàn),設(shè)定好針對第一目標(biāo)的最小支持計數(shù),據(jù)此就可以完成本階段第一個目標(biāo),即判斷某測試報告是否合格。若不合格則返回報告,供測試部門處理。針對第二個目標(biāo),即確定數(shù)據(jù)挖掘規(guī)則,還需要確定目標(biāo)數(shù)據(jù)與參考項(xiàng)的關(guān)聯(lián)度。

      2)獲取強(qiáng)關(guān)聯(lián)規(guī)則度:找出要挖掘的目標(biāo)數(shù)據(jù)語義信息特征,位置特征,數(shù)據(jù)結(jié)構(gòu)特征等,構(gòu)建與參考項(xiàng)的關(guān)系規(guī)則表H2。例如,設(shè)定目標(biāo)信息項(xiàng)為B,其參考項(xiàng)為A,那么表H2中包含項(xiàng)A,項(xiàng)B包含的字符串y。算法描述如下:

      For i=1 To n//數(shù)據(jù)池包含n列

      For j=1 To m//數(shù)據(jù)池包含m行

      SELECT F (i) FROM TABLENAME WHERE F1 LIKE‘string(y)’ WHERE DATE_ROWNUM=j//從列 F(i),第 j行中找出類似字符串y的數(shù)據(jù)

      Next m

      Next i

      構(gòu)建好H2表后,計算目標(biāo)數(shù)據(jù)B與參考項(xiàng)A的置信度,并合理設(shè)定最小置信度閥值。

      3)根據(jù)前兩步,得出由目標(biāo)數(shù)據(jù)的最小支持計數(shù)與最小置信度制定的關(guān)聯(lián)規(guī)則,然后據(jù)此開發(fā)和完善數(shù)據(jù)挖掘代碼,對其他同類型的測試數(shù)據(jù)挖掘也參照H1、H2等表,無需重復(fù)掃描數(shù)據(jù)池構(gòu)建關(guān)聯(lián)規(guī)則。

      2.3 數(shù)據(jù)分析顯示層

      圖4 數(shù)據(jù)分析顯示MVC構(gòu)架圖Fig.4 Data analysis display MVC architecture diagram

      本層的目的是為了方便調(diào)取和觀察測試數(shù)據(jù),使得測試數(shù)據(jù)的形式經(jīng)過分析加工后可以很直觀的顯示測試工程進(jìn)展、產(chǎn)品質(zhì)量、產(chǎn)品效果分析、測試效率等指標(biāo)。

      本系統(tǒng)利用Struts2+Spring+Hibernate(SSH)框架開發(fā)[13],該框架也是目前最成熟的Web應(yīng)用企業(yè)級框架。結(jié)合JSP技術(shù)的優(yōu)勢,本系統(tǒng)很好地展現(xiàn)了網(wǎng)站作為數(shù)據(jù)展示平臺的實(shí)用性、靈活性甚至專業(yè)性。圖4是本文設(shè)計的基于Model View Controller(MVC)架構(gòu)的數(shù)據(jù)分析顯示層構(gòu)架圖。

      3 基于某閃存芯片的測試工程案例應(yīng)用

      為了驗(yàn)證上述設(shè)計的可行性,該方案被用于一家半導(dǎo)體公司的閃存芯片測試工程中。在該測試工程中涉及到芯片的各項(xiàng)技術(shù)參數(shù),測試工程包含的項(xiàng)目繁雜,測試數(shù)據(jù)量很大,對測試數(shù)據(jù)分析的要求也很高,因而能很好地檢驗(yàn)本設(shè)計的可行性。該案例中,設(shè)計了滿足第三范式的數(shù)據(jù)庫。圖5是數(shù)據(jù)庫的 Entity-Relationship(E-R)圖。

      借助于良好的數(shù)據(jù)源,圖6所示是網(wǎng)站對芯片測試結(jié)果的效果圖。該圖非常友好和專業(yè)地顯示了測試工程中某芯片各項(xiàng)數(shù)據(jù),與通過傳統(tǒng)方式得出的結(jié)論非常接近。但整個運(yùn)行時間卻從傳統(tǒng)方式的一周總結(jié)一次,縮短到每天都可以跟進(jìn)產(chǎn)品測試詳細(xì)結(jié)果數(shù)據(jù)。對具體芯片的測試數(shù)據(jù)管理也做到了從紛繁雜亂到有序管理。這充分說明其可行性。

      圖5 數(shù)據(jù)庫實(shí)體-聯(lián)系圖Fig.5 Database entity-relationship diagram

      4 結(jié)束語

      本文高度結(jié)合了Excel的實(shí)用性,SQL對關(guān)系型數(shù)據(jù)的處理能力,JSP技術(shù)的顯示平臺,構(gòu)建出非常合理可行的一個基于Web數(shù)據(jù)挖掘的測試工程數(shù)據(jù)整合分析平臺?;趯?shí)際企業(yè)中對某芯片的測試案例,全程投入采用,運(yùn)行穩(wěn)定,效果良好。據(jù)此,以后的平臺可實(shí)現(xiàn)更自智能化,更高效的測試數(shù)據(jù)處理流程。這對于產(chǎn)品的性能評估進(jìn)程有重要影響。

      [1]Cheng Yeh,Che-huiLien.Then comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients [J].Expert System with Application,2009(36):2473-2480.

      [2]WEKA[DB/OL].[2012-01-03].http://www.cs.waikato.ac.nz/ml/weka/.

      [3]Rapid-I[DB/OL].[2012-01-02].http://rapid-i/com/content/view/181/196/.

      [4]吳丹.Excel 2007數(shù)據(jù)挖掘工具的研究與應(yīng)用[J].電子知識與技術(shù),2013,9(8):1736-1738.WU Dan.Research and application of data mining tools based on Excel 2007[J].Electronic knowledge and technology,2013,9(8):1736-1738.

      [5]范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

      [6]ZENG Dadan,YUAN Jun.Data mining application in E-government OA system[D].Shanghai:East China Normal University,2010.

      [7]Ken Henderson, The Guru’s Guide to Transact-SQL[M].A ddison Wesley,2002.

      [8]Chen Minsya,Jong Soo Park.Efficient data mining for path traversal pattems[J].IEEE Trasactions on Knowledge and Data Englneering,1998,10(2):209-221.

      [9]Ludwig K R.Users Manual for Isoplot/Ex rev.2.49:A Geochronological toolkit for Microsoft Excel[M].Berkeley Geochronology Center Special Publication No.la,2001.

      [10]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases,in:ACM SIGMOD Record,1993:207-216.

      [11]Agrawal R,Srikant R.Fast algorithm for Mining association rules in large databases[C]//Proceedings of the 20th VLDB Conference.Santiago, Chile:IEEE,1994:487-499.

      [12]EnduDuneja R I T S,Bhopal M P A K,Sachan R I T S.A survey on frequent itemset mining with association rules[J].International Journal of Computer Applic-ations,2012,46(23):18-24.

      [13]屈霞,劉自強(qiáng),張小鳴.基于J2EE/MVC Model2的公共圖書館管理系統(tǒng)的研究[J].計算機(jī)工程與設(shè)計,2009(20):4651-4653,4657.QU Xia,LIU Zi-qiang,ZHANG Xiao-ming.Researchof public library management system based on J2EE/MVC Model2[J].Computer Engineering and Design,2009 (20):4651-4653,4657.

      [14]Chen Min,Gao Xuedong, Li Huifei.An Efficient Parallel FP-growth Algorithm [C].Proc.Of Conference on Cyberenabled Distributed Computing and Knowledge Discovery Zhangjiajie, China:[s.n.], 2009.

      圖6 芯片測試結(jié)果圖Fig.6 Chip testing map

      猜你喜歡
      數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
      撐竿跳規(guī)則的制定
      數(shù)獨(dú)的規(guī)則和演變
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      TPP反腐敗規(guī)則對我國的啟示
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      永福县| 襄城县| 高密市| 平利县| 台山市| 安泽县| 柳林县| 南城县| 商丘市| 佛教| 宁阳县| 永德县| 兴化市| 大姚县| 纳雍县| 贺州市| 资溪县| 张家口市| 隆回县| 金堂县| 论坛| 左贡县| 平利县| 栾川县| 长武县| 若尔盖县| 安乡县| 赤峰市| 民和| 岳普湖县| 保亭| 临夏市| 辽宁省| 定安县| 杨浦区| 眉山市| 黄平县| 固阳县| 宜州市| 仙居县| 山东|