• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      最低生活保障系統(tǒng)中數(shù)據(jù)挖掘技術的實現(xiàn)

      2016-03-14 13:21:51趙新華張克柱
      甘肅科技縱橫 2016年4期
      關鍵詞:項集數(shù)據(jù)源決策樹

      趙新華,張克柱

      (1.蘭州職業(yè)技術學院 電子與信息工程系,甘肅 蘭州 730020;2.蘭州職業(yè)技術學院 現(xiàn)代服務系,甘肅 蘭州 730020)

      最低生活保障系統(tǒng)中數(shù)據(jù)挖掘技術的實現(xiàn)

      趙新華1,張克柱2

      (1.蘭州職業(yè)技術學院 電子與信息工程系,甘肅蘭州730020;2.蘭州職業(yè)技術學院 現(xiàn)代服務系,甘肅蘭州730020)

      本論述對低保數(shù)據(jù)的挖掘中,使用了兩種挖掘算法,另外配合SQL Server 2010提供的數(shù)據(jù)挖掘功能對低保數(shù)據(jù)進行了全面的分析,介紹了OLAP技術和數(shù)據(jù)挖掘在低保數(shù)據(jù)分析中的應用。主要內(nèi)容包括:分析了數(shù)據(jù)挖掘技術在低保數(shù)據(jù)分析中的應用意義;研究了關聯(lián)規(guī)則、決策樹算法、聚類分析在低保數(shù)據(jù)分析中的應用。這也是低保信息化工作今后重要的研究目標和發(fā)展方向。

      數(shù)據(jù)挖掘技術;數(shù)據(jù)分析;模型

      1 低保決策模型的建立

      使用SQL Server 2010中的Analysis Services(分析服務),對低保數(shù)據(jù)庫中的數(shù)據(jù)選擇Microsoft決策樹算法,最終建立了決策樹模型。下面對運行的結(jié)果中有指導意義的信息做如下解釋:

      (1)在決策樹建立時,選取了性別、年齡、文化程度、健康狀況、債務情況、家庭規(guī)模六個屬性,從最終得到的依賴關系圖中,可以發(fā)現(xiàn)對低保戶貧困狀態(tài)影響最大的屬性是年齡,然后是文化程度,緊跟著是性別,之后是債務情況。債務情況是最不具影響力的因素,因為在依賴關系圖中債務情況沒有顯示出來。

      (2)在決策樹結(jié)構中,首先從根節(jié)點根據(jù)文化程度將整個數(shù)據(jù)樣本劃分為5部分,在樹形結(jié)構的第二層中,文化程度中和高的這兩個節(jié)點沒有再進行分支,文化程度為低的節(jié)點按照年齡進行分支;在屬性結(jié)構的第三層中,年齡的中和高這兩個屬性按照性別分支形成了下一級節(jié)點,性別為男和女的分別按健康狀況分支。以下的各級節(jié)點都是按照人均收入分組的,債務情況在分支的建立過程中沒有體現(xiàn),也就是債務情況在低保金分配的影響因素中是很小的。

      2 低保數(shù)據(jù)分析結(jié)果

      本論述選取了低保數(shù)據(jù)庫中的樣本數(shù)據(jù)13 772條。為了比較城市和農(nóng)村地區(qū)低保人員的特征差異,在數(shù)據(jù)分析時將數(shù)據(jù)分成兩部分:城市和農(nóng)村,采用Apriori算法對低保數(shù)據(jù)進行關聯(lián)規(guī)則的分析,主要是對低保人員的特征分析,包括年齡、性別、文化程度、健康狀況等方面特征的分析。具體分析過程概括如下:(1)執(zhí)行后臺存儲,過程進行數(shù)據(jù)預處理;(2)Apriori算法實現(xiàn),找出所有頻繁項集及其支持度;(3)在頻繁集中產(chǎn)生關聯(lián)規(guī)則;(4)分析關聯(lián)規(guī)則,與實際結(jié)合,指導決策。

      2.1低保數(shù)據(jù)關聯(lián)規(guī)則項集的生成過程。

      本論述選取了低保人員的以下特征實現(xiàn)關聯(lián)分析:年齡、文化程度、性別,目的是為了得到對低保工作有指導意義的規(guī)則。為了應用Apriori算法,使用迭代的方法。下面簡要描述生成項集流程:input:事務數(shù)據(jù)庫D;output:D中的頻繁項集L。

      (1)在第一次掃描中,對D中的每一個數(shù)據(jù)項計算其支持度,確定出滿足最小支持度的一頻繁項集集合Ll:{年齡<60}、{性別=男}、{文化程度<=小學}、{范圍=城市}。

      (2)利用已經(jīng)生成的1項集L1進行自連接,得到候選2項集的集合L2:{年齡<60,性別=男}、{年齡<60,文化程度<=小學}、{年齡<60,范圍=城市}、{性別=男,文化程度<=小學}、{性別=男,范圍=城市}。

      (3)然后掃描數(shù)據(jù)庫,計算這些候選集的支持度。

      (4)因為對低保數(shù)據(jù)進行關聯(lián)分析的目的是得到低保人員在各個屬性中的分布,最終通過對比支持度來得出結(jié)論,所以不需要對L2進行剪枝處理。通過L2自身的連接,得到候選3項集,然后掃描數(shù)據(jù)庫,得到3項集的支持度。

      (5)對3項集L3進行自連接,得到4項集L4:{年齡<60,性別=男,文化程度<=小學,范圍=城市},掃描數(shù)據(jù)庫計算支持度。

      (6)對4項集L4進行自連接,得不到5項集,即L5為空,掃描結(jié)束。最終的頻繁項集就是L1到L4。

      對于城市低保人員信息抽取同樣數(shù)量的樣本信息,進行支持度計算,比較城市和農(nóng)村支持度分布狀態(tài),對城市和農(nóng)村的低保人員的特征和它們之間的差異有一個詳細的掌握,為城市和農(nóng)村采取不同的低保措施提供科學的依據(jù)。

      2.2低保數(shù)據(jù)的聚類分析

      要求每個模型都必須包含一個數(shù)值或文本列,用于唯一標識每個記錄,不允許復合鍵,且每個模型有一個或多個輸入列,這個輸入列關系到生成分類的值。輸入列的數(shù)目由每個列中值的數(shù)量來決定,添加額外的列會使定型模型的時間延長。

      聚類分析在構造模型時不需要可預測列,但是可以添加可預測列,而且預測列的數(shù)據(jù)類型幾乎沒有限制,將列的值作為對聚類分析模型的輸入,或者規(guī)定只用于預測。例如,如果需要通過對人口統(tǒng)計信息(如地區(qū)或年齡)進行分類來預測客戶的收入,則可將收入指定為PredictOnly,然后將所有其他列(如地區(qū)和年齡)添加為輸入。

      挖掘結(jié)構建立好后啟動調(diào)試,可以選擇Microsoft分類查看器瀏覽模型。查看聚類分析模型時,Analysis Services將在一個關系圖中顯示分類(該關系圖描繪了分類之間的關系),還提供了每個分類的詳細配置文件、將每個分類與其他分類區(qū)分開來的屬性列表以及整個定型數(shù)據(jù)集的特征。

      如果希望了解更多詳細信息,可在Microsoft一般內(nèi)容樹查看器中瀏覽該模型。該模型存儲的內(nèi)容包括每個節(jié)點中所有值的分布、每個分類的概率以及其他信息。

      本論述中的數(shù)據(jù)源是Excel表格,先利用SQL Server2008的導入導出工具將低保數(shù)據(jù)導入到數(shù)據(jù)庫“低保管理”中。為了讓SQL Server服務器能夠連接到需要進行挖掘的數(shù)據(jù),首先需要對數(shù)據(jù)源進行設置,具體步驟如下:

      步驟l:啟動SQL Server Business Intell igence Development Studio,在“文件”菜單中選擇新建“項目”,在出現(xiàn)的[新建項目]對話框中選擇類型[商業(yè)智能項目]。在本次數(shù)據(jù)挖掘中將項目命名為dibao。選擇現(xiàn)有的數(shù)據(jù)連接;

      步驟2:定義Analysis Services可以使用哪種Windows憑據(jù)來連接數(shù)據(jù)源,這里選擇“使用服務賬戶”選項。

      其次設置數(shù)據(jù)源視圖,步驟如下:

      步驟1:新建“數(shù)據(jù)源視圖”,打開“數(shù)據(jù)源視圖向?qū)А保瑔螕粝乱徊剑?/p>

      步驟2:選擇表和視圖,選擇“包含的對象”單擊下一步;

      步驟3:在名稱框中輸入名稱:低保數(shù)據(jù)視圖,單擊“完成”按鈕。

      最后建立數(shù)據(jù)挖掘結(jié)構,步驟如下:

      步驟1:新建“數(shù)據(jù)挖掘結(jié)構”,打開“數(shù)據(jù)挖掘向?qū)А?,選擇定義方法:“從現(xiàn)有關系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,此方法基于現(xiàn)有關系數(shù)據(jù)庫中的表和列定義挖掘結(jié)構;

      步驟2:選擇“Microsoft聚類分析”挖掘方法;

      步驟3:指定分析時要是使用的表的類型;

      步驟4:為挖掘模型結(jié)構指定鍵、輸入列和可預測列,指定列的內(nèi)容類型和數(shù)據(jù)類型;

      步驟6:挖掘結(jié)構命名“低保數(shù)據(jù)聚類分析”,挖掘結(jié)構創(chuàng)建完成。

      通過上面的聚類分析情況,可以得出這樣的結(jié)果:低保人群大部分是文化程度在小學以下(包括小學),而且大多數(shù)是年齡偏大。因此,在低保工作的過程中,應對這些人員更加重視,需要在政策等方面加大扶持力度,解決低保人群的根本性問題。

      3 結(jié)束語

      通過對低保數(shù)據(jù)采用幾種數(shù)據(jù)挖掘技術進行挖掘,筆者對數(shù)據(jù)挖掘的功能和實現(xiàn)方法有了比較深刻的理解。在對低保數(shù)據(jù)的挖掘中,筆者使用了兩種挖掘算法,另外配合SQL Server 2008的提供的數(shù)據(jù)挖掘功能對低保數(shù)據(jù)進行了全面的分析。

      介紹了OLAP技術和數(shù)據(jù)挖掘在低保數(shù)據(jù)分析中的應用,主要內(nèi)容包括:分析了數(shù)據(jù)挖掘技術在低保數(shù)據(jù)分析中的應用意義;研究了關聯(lián)規(guī)則、決策樹算法、聚類分析在低保數(shù)據(jù)分析中的應用。這也是低保信息化工作今后重要的研究目標和發(fā)展方向。隨著計算機技術與應用的發(fā)展,以及各種海量信息數(shù)據(jù)的不斷產(chǎn)生和保存,數(shù)據(jù)挖掘技術的研究與應用越來越具有基礎條件。

      [1] 楊光,張雷.OLAP技術及其發(fā)展[J].計算機應用研究,1999 (22):7-10.

      [2] 李慧,聞豪.基于數(shù)據(jù)倉庫的0LAP技術研究[J].電腦知識與技術,2005(2):77-81.

      [3] 印勇.決策支持分析新技術——數(shù)據(jù)挖掘[J].重慶郵電學院學報,2001增刊:70-74.

      [4] 姚家奕,等.多維數(shù)據(jù)分析原理與應用[M].北京:清華大學出版社,2004.

      [5] 張維明,等.數(shù)據(jù)倉庫原理與應用[M].北京:電子工業(yè)出版社,2002.

      [6] 陳京民.數(shù)據(jù)倉庫原理、設計與應用[M].北京:中國水利水電出版社,2004:21-35.

      TP311

      A

      10.3969/j.issn.1672-6375.2016.04.002

      2016-3-4

      趙新華(1980-),女,漢族,甘肅蘭州人,碩士研究生,講師,主要從事大數(shù)據(jù)研究工作。

      猜你喜歡
      項集數(shù)據(jù)源決策樹
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
      基于決策樹的出租車乘客出行目的識別
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      關聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      分布式異構數(shù)據(jù)源標準化查詢設計與實現(xiàn)
      中牟县| 新安县| 德庆县| 鄂伦春自治旗| 儋州市| 额尔古纳市| 芷江| 阿合奇县| 商丘市| 晋江市| 凤凰县| 拜泉县| 郧西县| 雅安市| 梁平县| 宿迁市| 青海省| 东乡族自治县| 山西省| 双辽市| 彰化市| 信阳市| 遂溪县| 苗栗县| 宁陵县| 平陆县| 济宁市| 嘉禾县| 沙坪坝区| 盐池县| 定边县| 巫溪县| 平顶山市| 兰州市| 灵丘县| 凭祥市| 纳雍县| 会昌县| 错那县| 道真| 兴安盟|