• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于模式注入的數(shù)據(jù)生成方法

    2018-02-25 02:39:06易忱
    電子技術(shù)與軟件工程 2018年7期
    關(guān)鍵詞:數(shù)據(jù)挖掘

    易忱

    摘要 對于規(guī)律未知數(shù)據(jù),利用數(shù)據(jù)挖掘算法對已擁有的少量真實數(shù)據(jù)進(jìn)行模式探索,采用模式注入的方法,將探索得到的數(shù)據(jù)模式以一定的規(guī)范語言描述出來,按數(shù)據(jù)模式產(chǎn)生的數(shù)據(jù)約束關(guān)系轉(zhuǎn)換為SDDL規(guī)范化語言,生成需要的數(shù)據(jù),為設(shè)備性能評估提供數(shù)據(jù)支持。工程實例說明了模式注入數(shù)據(jù)生成方法的正確性和可行性。

    【關(guān)鍵詞】模式注入 數(shù)據(jù)挖掘 數(shù)據(jù)生成

    很多設(shè)備的狀態(tài)監(jiān)控和性能評估,通常采用大數(shù)據(jù)和人工智能的方法,分析挖掘數(shù)據(jù)規(guī)律,對設(shè)備系統(tǒng)性能進(jìn)行科學(xué)、準(zhǔn)確的評價。但很多工況數(shù)據(jù)缺失,體量達(dá)不到大數(shù)據(jù)規(guī)模,大多是低價值密度的數(shù)據(jù),原因主要有:

    1)歷史數(shù)據(jù)積累少;

    2)樣本少;

    3)安全保密控制;

    4)數(shù)據(jù)無法利用。

    為了解決這一矛盾,根據(jù)數(shù)據(jù)特性和應(yīng)用目的的不同,結(jié)合工程實踐經(jīng)驗,嘗試從數(shù)據(jù)的特性入手,研究模式注入或特性繼承的數(shù)據(jù)挖掘方法,為性能評估提供數(shù)據(jù)支持。

    1 模式注入方法研究

    在具體應(yīng)用中,普遍面對的是根據(jù)已有知識,無法判斷數(shù)據(jù)對研究的意義,更不能明確數(shù)據(jù)蘊(yùn)含知識的數(shù)據(jù)集,我們將這類數(shù)據(jù)稱之為規(guī)律未知數(shù)據(jù)。通過少量歷史數(shù)據(jù),采用模式注入方法,生成這類數(shù)據(jù)。

    模式注入的數(shù)據(jù)生成基本思想是化規(guī)律未知為己知,然后通過規(guī)律己知數(shù)據(jù)類似的方式生成數(shù)據(jù)。在操作步驟上,首先利用數(shù)據(jù)挖掘算法對已擁有的少量真實數(shù)據(jù)進(jìn)行模式探索,然后將探索得到的數(shù)據(jù)模式以一定的規(guī)范語言描述出來,如PMML (Predictive ModelMarkup Language);然后將數(shù)據(jù)模式產(chǎn)生的數(shù)據(jù)約束關(guān)系轉(zhuǎn)換為數(shù)據(jù)生成工具的規(guī)范化語言描述, 如SDDL (Synthetic Data DefinitionLanguage),供數(shù)據(jù)生成工具使用。

    PMML是由數(shù)據(jù)挖掘協(xié)會(The DataMining Group,DMG)組織開發(fā)的,主要目的是形成一種通用標(biāo)準(zhǔn),允許應(yīng)用程序和聯(lián)機(jī)分析處理( OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨(dú)自開發(fā)數(shù)據(jù)挖掘模塊,為模型的跨平臺、跨系統(tǒng)共享提供一種快速且簡單的方式。同時,PMML還提供靈活的機(jī)制支持多個預(yù)言模型的選擇和平衡,非常適合于全部學(xué)習(xí),部分學(xué)習(xí),分布式學(xué)習(xí)等多種應(yīng)用場景。PMML基于XML格式,目前己發(fā)展到4 2版本,包括標(biāo)題( header)、數(shù)據(jù)字典(data dictionary)、數(shù)據(jù)流(dataflow)、挖掘模式(mining schema)、數(shù)據(jù)轉(zhuǎn)換( transformations)、預(yù)測模型、模型組合定義( ensembles of models)、異常處理規(guī)則(rules for exception handling)等內(nèi)容。數(shù)據(jù)生成主要用到兩個重要組成其一是數(shù)據(jù)字典,遵循一個或多個挖掘模型,包括name(描述數(shù)據(jù)集字段名),Optype(字段可操作類型),dataType attributes(重用W3C XML schemaatomic types中的名稱和語法)等元素,描述字段類型、操作方式、數(shù)據(jù)范圍等內(nèi)容,不依賴于具體的挖掘模型其二是挖掘模式( Miningschema),儲存字段的值分布規(guī)律等特殊信息,根據(jù)具體挖掘模型的不同存在區(qū)別。目前PMML標(biāo)準(zhǔn)支持決策樹、關(guān)聯(lián)規(guī)則、聚集、回歸、nalve貝葉斯、神經(jīng)網(wǎng)絡(luò)、規(guī)則集、序列、文本模型、支持向量機(jī)等挖掘模型。一個精簡了部分內(nèi)容及格式后的決策樹挖掘模式如圖2的XML所示。

    通過模式探索獲得PMML描述的數(shù)據(jù)模式后,經(jīng)過描述轉(zhuǎn)換形成能夠為數(shù)據(jù)生成工具直接使用的SDDL文檔。SDDL同樣基于XML文檔格式,能夠表達(dá)出最大/最小約束、分布約束、公式約束、字典約束、查詢數(shù)據(jù)約束、迭代/重復(fù)約束等。這些約束間還能夠通過組合形成比較復(fù)雜的約束,如迭代/重復(fù)約束可以和其它約束組合。圖3的XML為這種約束的一個典型的示例。

    數(shù)據(jù)生成工具按照SDDL表達(dá)的約束條件實現(xiàn)大量數(shù)據(jù)的生成。

    2 工程實例

    某設(shè)備管理綜合信息系統(tǒng)是一個涉及業(yè)務(wù)廣,功能十分復(fù)雜的大型信息系統(tǒng)。系統(tǒng)不僅管理設(shè)備終端自動采集數(shù)據(jù)、業(yè)務(wù)流轉(zhuǎn)數(shù)據(jù),還需要通過對這些數(shù)據(jù)的分析,為業(yè)務(wù)機(jī)關(guān)提供決策支持。在系統(tǒng)正式上線前,必須利用盡量真實的數(shù)據(jù)對系統(tǒng)進(jìn)行充分的測試。在該系統(tǒng)中采用模式注入的數(shù)據(jù)生成方法進(jìn)行了工程實踐,取得了很好的應(yīng)用效果。

    主要步驟如下:

    2.1 數(shù)據(jù)定義分析

    根據(jù)數(shù)據(jù)模型分析該系統(tǒng)數(shù)據(jù)定義,確定數(shù)據(jù)生成的表范圍。按照壽命周期等客觀屬性,該系統(tǒng)的數(shù)據(jù)表大致可分為基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、自動采集數(shù)據(jù)等大類。其中基礎(chǔ)數(shù)據(jù)主要包括單位、設(shè)備、器材等目錄代碼及一系列的枚舉型應(yīng)用字典,業(yè)務(wù)數(shù)據(jù)主要包括各類計劃、業(yè)務(wù)流轉(zhuǎn)過程數(shù)據(jù)等,自動采集數(shù)據(jù)主要包括設(shè)備、器材自動化測試、環(huán)境監(jiān)控等終端采集的數(shù)據(jù)。該系統(tǒng)數(shù)據(jù)劃分及部分表示例如圖4所示。

    2.2 準(zhǔn)備真實歷史數(shù)據(jù)

    將能夠得到的真實數(shù)據(jù)經(jīng)預(yù)處理后加載到對應(yīng)的數(shù)據(jù)表中,作為必要的基礎(chǔ)。基礎(chǔ)數(shù)據(jù)變化慢,壽命周期長,有少量的真實數(shù)據(jù);業(yè)務(wù)流程數(shù)據(jù)變化快,歷史積累多,有較多真實數(shù)據(jù);自動采集數(shù)據(jù)同具體對象相關(guān),重點(diǎn)設(shè)備及配備量大的設(shè)備數(shù)據(jù)多,一般設(shè)備及配備量小的數(shù)據(jù)少。

    2.3 確定數(shù)據(jù)生成策略

    具體分析數(shù)據(jù)表,在總體上確定各表數(shù)據(jù)生成的順序(被引用父表必須在子表數(shù)據(jù)生成之前生成),確定單表數(shù)據(jù)生成方式,并通過規(guī)范化語言描述,供數(shù)據(jù)生成工具使用。

    2.4 按策略描述生成數(shù)據(jù)

    數(shù)據(jù)生成工具按照規(guī)范化語言描述策略生成數(shù)據(jù)。規(guī)律未知數(shù)據(jù)的代表如部分設(shè)備的測試數(shù)據(jù)。

    2.5 效果分析

    某型設(shè)備組成件的測試數(shù)據(jù)歷史積累少,難以支撐系統(tǒng)分析測試要求,我們采用了模式注入的方法進(jìn)行數(shù)據(jù)生成。該關(guān)鍵件測試數(shù)據(jù)分為4組22個,其中第一組為Po,第二組為P10~P16,第三組為P20—P26,第四組為P30-P36,表示例如表1所示。

    原始數(shù)據(jù)僅有168條,經(jīng)過特性繼承的方法生成得到798條。原始數(shù)據(jù)和生成數(shù)據(jù)在分類及統(tǒng)計特性上具有很好的相似性,如圖5所示。

    由對比分析可見,通過上述方法生成的設(shè)備數(shù)據(jù)同真實數(shù)據(jù)具有很大的統(tǒng)計相似性,為某設(shè)備管理綜合信息系統(tǒng)的用戶試用和質(zhì)量評測提供了很大幫助。

    3 結(jié)論

    本文理論方法和工程實踐都表明,模式注入的數(shù)據(jù)生成方法,是正確的和可行的。通過數(shù)據(jù)生成能夠較好的解決設(shè)備使用與保障研究中數(shù)據(jù)缺少的問題,在一定的場景下具備替換真實數(shù)據(jù)的能力。

    參考文獻(xiàn)

    [1]J. White,“American Data Set GenerationProgram: Creat ion,

    Applications, andSignicance” [D]. ComputerScience andComputer Engineering Dept., Univ. ofArkansas.2005.

    [2]黎方正,羅大庸,謝東.一種海量數(shù)據(jù)生成方法[J]小型微型計算機(jī)系統(tǒng),2009 (12): 2420-2423.

    [3]魏偉杰,張斌,王波等,一種用于數(shù)據(jù)挖掘算法的數(shù)據(jù)生成方法[J],東北大學(xué)學(xué)報(自然科學(xué)版),2008 (03): 328-331.

    猜你喜歡
    數(shù)據(jù)挖掘
    基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
    數(shù)據(jù)挖掘的分析與探索
    河南科技(2014年23期)2014-02-27 14:18:43
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
    务川| 南澳县| 蒙自县| 忻州市| 保定市| 苍溪县| 金寨县| 修武县| 重庆市| 深州市| 宁明县| 黔南| 五大连池市| 枝江市| 广宁县| 湘潭市| 开封县| 合肥市| 五指山市| 侯马市| 农安县| 安阳市| 余江县| 郴州市| 三明市| 平湖市| 文登市| 南安市| 建湖县| 长子县| 花莲市| 兰州市| 贵定县| 宝兴县| 尉氏县| 潮州市| 吴桥县| 和静县| 浦县| 军事| 庆阳市|