• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于REAHCOR特征選擇和GBDT的貧困等級評價模型①

      2020-05-22 04:47:38夏艷姣焦艷菲田月
      計算機系統(tǒng)應用 2020年5期
      關鍵詞:冗余度特征選擇子集

      夏艷姣,孫 詠,焦艷菲,高 岑,田月

      1(中國科學院大學,北京 100049)

      2(中國科學院 沈陽計算技術(shù)研究所,沈陽 110168)

      3(沈陽高精數(shù)控智能技術(shù)股份有限公司,沈陽 110168)

      我國扶貧開發(fā)工作最初起源于20世紀80年代中期,經(jīng)過近幾十年的不懈努力,取得了令人矚目的成就.經(jīng)濟社會快速發(fā)展,人們的生活水平不斷提高,但是,長期以來,貧困居民的底數(shù)不清,情況不明,扶貧的針對性不強等問題比較突出.國外BPS 使用CAPI 來進行貧困狀況調(diào)查,但是也只是針對少數(shù)地區(qū).在國內(nèi),對于當?shù)刎毨丝诘慕y(tǒng)計大多仍按照傳統(tǒng)方式進行貧困數(shù)據(jù)收集,近些年開始進行建檔立卡工作.對于進行貧困分類,國外專家提出K-均值聚類法評估貧困等級[1];Yu BL 等利用NPP-VIIRS 數(shù)據(jù)采用線性回歸模型討論了ALI 值和IPI 值的關系進而進行貧困分類[2];Jean N 等通過訓練卷積神經(jīng)網(wǎng)絡結(jié)合高分辨率衛(wèi)星圖像來實現(xiàn)貧困戶識別[3];李雪等提出了多層次模糊系統(tǒng)方法進行貧困分類[4];徐姝婧等提出了基于神經(jīng)網(wǎng)絡模型的方法實現(xiàn)貧困分類[5].對于上述專家提出的方案,K-均值聚類方法無法保證待歸類元素找到最佳分類;回歸分析法雖然考慮到了因素間的相互依賴和相互影響關系,但是實驗次數(shù)過于冗繁且NOAA/NGDC 發(fā)布的NPP-VIIRS 數(shù)據(jù)存在很多噪聲會影響實驗結(jié)果;模糊系統(tǒng)方法在指標集較大時,會出現(xiàn)超模糊現(xiàn)象,無法區(qū)分隸屬度;神經(jīng)網(wǎng)絡雖然具有高度自學和自適應能力,但是它黑匣子的性質(zhì)使得結(jié)果的可解釋性不強,不利于后續(xù)的扶貧分析.綜上所述,建立一個科學,多維,全面的評價系統(tǒng)尤為重要.本文以錄入的遼寧省某地區(qū)的家庭信息為依據(jù),提出了基于REAHCOR-GBDT的貧困等級評價模型,為當?shù)鼐珳史鲐毠ぷ黜樌_展提供了更有利的保障.

      1 貧困等級評價模型構(gòu)建過程算法介紹

      1.1 特征選擇算法REAHCOR

      隨著時代的發(fā)展,龐大的數(shù)據(jù)集應運而生,數(shù)據(jù)的維度和復雜性也在不斷增長,如何從大量繁瑣的信息中篩選有用的信息,構(gòu)造一個好的模型,提取關鍵特征顯得更為迫切.特征選擇是指從一堆與目標變量相關的,冗余的,無關的數(shù)據(jù)中選擇出分辨能力高的特征作為最優(yōu)特征子集,從而提高分類模型的準確度.丁雪梅等介紹了改進的ReliefF 算法進行無監(jiān)督特征選擇[6].李葉紫,張堯等提出了關于互信息的特征選擇來提高機器學習算法的準確率[7,8].李娜娜分析了影響貧困因素[9].本文采用的Filter 算法具有速度快的優(yōu)勢且獨立于后續(xù)學習算法,其中ReliefF 是公認效果不錯的一種過濾式算法[6],但是考慮到ReliefF 不能夠很好的去除冗余特征以及貧困信息分類獨有的特點,本文提出采用ReliefF 算法結(jié)合層次分析法和相關度分析法來完成特征選擇的方法,即REAHCOR 特征選擇算法.該方法包含以下3 個階段,分別如下:

      (1)ReliefF 算法會賦予每個特征不同的權(quán)重,依據(jù)是每個特征與類別標簽的相關性有大有小,當計算出的特征權(quán)重值大于某個闕值時,說明它對類別標簽的影響程度強,我們保留.反之,說明其影響程度弱,該特征會被刪除.權(quán)重的大小反映了該特征值區(qū)分同類近鄰樣本和不同類近鄰樣本的能力.ReliefF 算法的運算過程為從訓練集中隨機的選取一個樣本a,然后比較樣本a同類的b個近鄰樣本與不同類的另外b個近鄰樣本在某個特征的距離.通過規(guī)定次數(shù)的迭代,計算出所有特征的權(quán)重平均值.其權(quán)重更新公式如下:

      (2)在上一步得出相關特征之后,考慮到貧困信息的復雜性和多層次性,繼而引入認可度較高的層次分析賦權(quán)法繼續(xù)為特征定量權(quán)重.其中在進行一致性指標計算時公式如下:

      在進行一致性比率CR計算時公式如下:

      在計算總的層次排序時檢驗一致性公式如下:

      (3)采用特征間冗余度度量的相關性分析法進行特征選擇.該方法的主要思想是通過度量屬性之間的相關度來衡量它們之間的冗余性.相關度越大,冗余度也就越大.任江濤等介紹了基于相關性分析的選擇算法可以作為一種借鑒[10].在本研究中,連續(xù)型數(shù)值需進行離散化處理,然后采用信息論中的熵概念進行度量.信息熵的定義公式如下:

      已知隨機變量Y后X的信息熵定義公式如下:

      如果Y和X是相互獨立的,即H(X|Y)的結(jié)果值與H(X)的結(jié)果值相同,那它們的相關度為0;如果Y和X有相關性,那么X和Y之間的互信息值越大,它們的相關性就越強.由此信息增益值IG(X|Y)(也稱變量x,y之間的互信息)公式如下:

      另外,相關度關于變量x,y是對稱的,所以對信息增益進行歸一化處理,公式如下:

      本文提出的 REAHCOR 方法首先運行ReliefF 算法進行特征初篩,該算法通過計算得到每個特征的權(quán)重Wi,將Wi值大于過濾閾值的特征保留下來,放入到一個初始狀態(tài)為空的集合U中.然后將集合U中的特征采用層次加權(quán)法對貧困家庭指標進行定性與定量判斷并把得到的權(quán)重值放入到初始為空的集合S中.將集合U中的兩兩特征采用相關性分析法進行冗余度度量,將其結(jié)果集中冗余度大于冗余闕值的兩特征中在集合S里權(quán)值較小的特征刪除,選出最終需要的特征子集,這些被選出的特征都是和類別標簽相關性很強的一些特征.上述算法的優(yōu)點是:通過使用計算效率比較快而且對數(shù)據(jù)大小和類型沒有限制的過濾式ReliefF算法求出那些與目標屬性不相關的特征,然后與層次分析法和相關性分析法相結(jié)合共同解決問題.很好的規(guī)避了ReliefF 算法不能去除冗余特征的缺點,同時能夠依據(jù)貧困信息多維度多層次的特點,將人的主觀經(jīng)驗和客觀事實相結(jié)合,兼顧定性與定量分析,更加貼近事實的去解決問題,靈活性更強.該方法與單純使用ReliefF 或Wrapper 等算法相比,可靠性高并且冗余度少,不依賴后續(xù)學習方法,同時繼承了ReliefF 算法計算速度快的優(yōu)點,減少了盲目性和不確定性,能夠得出具有科學化且性能優(yōu)的特征參數(shù)子集.

      1.2 GBDT 算法

      在監(jiān)督學習的算法中,我們都希望訓練出的模型是一個各方面穩(wěn)定性都表現(xiàn)良好的模型,但是現(xiàn)實卻往往差強人意,得出的模型要么方差太大導致魯棒性不強,要么具有較高的偏置.而集成學習的思想就是讓一些弱學習器的方差或者偏置結(jié)合起來,從而獲得比單一學習器泛化性能更好的模型.目前集成學習的策略分為兩大類,一類是學習器與學習器之間相互獨立的Bagging 策略,一類是用下一個學習器擬合上一個學習器殘差的Boosting 策略[11].由于隨機森林的取樣策略具有方差較小,偏差較大的特點,所以它對于基學習器的準確度要求比較嚴格.而Boosting 策略則可以減小模型的偏差,通過逐步提升的方法使最終模型變得更加優(yōu)秀.因此本文模型的構(gòu)建采用基于梯度提升技巧的GBDT 算法.算法流程如算法1 所示.

      算法1.Lk-TreeBoost Fk0(x)=0,k=1,K For m=1 to M do:pk(x)=exp(Fk(x))/∑kl=1 exp(Fl(x)), k=1,K For k=1 to K do:yik=yik?pk(xi), i=1,N{Rklm}Ll=1=L?terminal node tree({yik,xi}Nl )rklm=k?1∑xi∈Rklmyik|), l=1,L Fkm(x)=Fk,m?1(x)+rklm(x∈Rklm)endFor endFor yik k ∑xi∈Rklm|yik|(1?|

      2 實驗分析

      本文提出的貧困等級評價模型分為4 個步驟實現(xiàn),如圖1所示.首先對采集到的數(shù)據(jù)進行預處理,主要包括空值數(shù)據(jù)的處理、噪聲數(shù)據(jù)的處理等數(shù)據(jù)規(guī)約,數(shù)據(jù)變換過程.接著將處理好的數(shù)據(jù)集采用本文提出的REAHCOR 特征選擇算法求出最優(yōu)特征子集,然后運用GBDT 算法進行貧困分類.最后對實驗結(jié)果進行比對分析,驗證本文研究方法的有效性.

      圖1 貧困等級評價模型構(gòu)建

      2.1 數(shù)據(jù)采集

      本文數(shù)據(jù)來源于實驗室項目“精準扶貧數(shù)據(jù)分析系統(tǒng)”,數(shù)據(jù)集中包含了遼寧省某地區(qū)近萬戶人口的家庭信息.

      2.2 數(shù)據(jù)預處理

      將非貧困,一般貧困,極度貧困這3 種貧困類別作為模型目標值,對家庭信息、當?shù)胤鲐氄吆彤數(shù)亟?jīng)濟發(fā)展狀況等信息進行篩選和歸納.將家庭收入、家庭消費、食品支出、水源污染、飲水方式、教育水平、失學狀況、參加合作醫(yī)療情況、生病是否能及時就醫(yī)、脆弱性、衛(wèi)生設施、居住環(huán)境、房屋數(shù)量等信息進行數(shù)據(jù)清洗、變換和整合,其中對缺失值用區(qū)間變量的平均值或中值填充,對于異常值和大量丟失的信息采用舍棄的方式來加快算法的執(zhí)行速度,對家庭收入,用電量等特征采用MIN-MAX 方法進行歸一化.

      2.3 特征選擇

      貧困信息數(shù)據(jù)具有龐大而復雜的特性,如果不加以處理,可能會出現(xiàn)維度災難.一個好的特征選擇算法,可以從原始特征子集中選取出利用性最優(yōu)的特征子集,能夠去除冗余性強的,選取對分類結(jié)果影響最大的特征.基于傳統(tǒng)的過濾式(Filter)特征選擇算法,本文提出的REAHCOR 算法繼承了過濾式(Filter)算法運行速度快,獨立于后續(xù)模型的優(yōu)點外,又將特征依據(jù)層次性和冗余度進行優(yōu)化選取,彌補了原先算法分類性能較差的不足.

      根據(jù)本文提出的REAHCOR 算法,在進行特征選取時計算出每個特征和類別的相關性估值.最后按照估值高低進行排序,選出最優(yōu)特征子集如下:家庭凈收入、家庭負債情況、家庭受資助情況、住房數(shù)量、是否參加醫(yī)療保險、成年人受教育年限、衛(wèi)生設施、適齡兒童是否在學、勞動力人數(shù)、身體是否患病、耐用消費品資產(chǎn)數(shù)量、生活用電量、取水方式、娛樂方式.

      2.4 模型預測

      本文模型預測的標簽分為非貧困,一般貧困,極度貧困3 類,根據(jù)有效的特征對模型結(jié)果進行分類.本文驗證模型的有效性從兩個方面進行切入:(1)驗證REAHCOR 算法的有效性;(2)驗證整體模型的有效性.

      (1)驗證REAHCOR 算法的有效性

      在實驗中選用ReliefF 和FCBF 算法與本文提出的REAHCOR 算法進行性能比對.在分類器的選擇上,使用Boosting 算法中的GBDT 算法,并分別結(jié)合以上3 種特征選擇算法進行分類預測,從而驗證REAHCOR算法的有效性.

      (2)驗證整體模型的有效性

      首先使用本文提出的REAHCOR 算法進行特征選取,然后將選出的特征子集分別用在GBDT 算法和隨機森林算法中進行分類預測.經(jīng)過對比,驗證GBDT 算法對本領域研究范圍的有效性.

      2.5 評價標準

      對于一個模型的好壞,除了評價實驗估計方法,還需要衡量這個模型的泛化能力,在分類任務中,可以用錯誤率與精度、查準率、查全率與F1、代價敏感錯誤率和代價曲線、ROC 與AUC 等進行性能度量.本實驗采用查全率、查準率和F1 值進行評判.

      其中,TP代表真正例(true positive),FP代表假正例(false positive),FN代表假反例(false negative).另外還有一個TN代表真反例(true negative),并且有TP+FP+TN+FN等于樣例總數(shù).F1 是基于查準率與查全率的調(diào)和平均.

      2.6 實驗分析

      (1)在特征選擇對比實驗中,ReliefF 算法通過迭代規(guī)定次數(shù)內(nèi)樣本與同類近鄰樣本和不同類近鄰樣本的距離,篩選權(quán)值高的特征作為特征子集,FCBF 算法采用后向順序搜索策略進行快速的選取最優(yōu)特征子集.表1中展示了貧困數(shù)據(jù)集按照以上3 種方法進行特征選擇,然后將得到的結(jié)果使用GBDT 算法進行分類,對結(jié)果采用交叉驗證的方法進行比較,篩選出的特征個數(shù)用Num表示.

      表1 基于不同特征選擇算法的貧困模型結(jié)果對比

      從表1和圖2可以得出,本文提出的REAHCOR特征選擇算法的分類精度可以達到94.86%,查全率為92.37%,F1 值為93.60%,分類效果優(yōu)于其他兩種,在特征數(shù)量較少時ReliefF 算法表現(xiàn)效果最差,隨著特征數(shù)量的增多其出現(xiàn)上漲趨勢,但是由于選出的特征冗余度大導致效果不理想,所以其在降維方面的性能比較低.FCBF 在降維方面表現(xiàn)稍好,在特征數(shù)量為13 時分類精度達到92.72%,但是不如REAHCOR 整體表現(xiàn)效果好.

      圖2 不同特征選擇算法效果對比

      (2)使用隨機森林和GBDT 算法對測試集進行分類結(jié)果的性能比較如表2所示.

      表2 GBDT 和隨機森林分類結(jié)果對比

      從表2可以得出,兩種分類器在同一特征子集中有不同的表現(xiàn),GBDT 在precision,recall和F1 值方面都優(yōu)于隨機森林算法.

      3 總結(jié)

      本文以農(nóng)村家庭信息數(shù)據(jù)為背景,提出了基于REAHCOR 的特征選擇算法,并應用到具有較高分類準確度的GBDT 分類器中,取得了分類效果較優(yōu)的評價模型.創(chuàng)新性提出的REAHCOR 算法既可以對龐大的數(shù)據(jù)特征集進行降維,也可以保證降維之后特征具有很強的分類能力,整體模型的評估效果也得到驗證,具有穩(wěn)定性好、靈活性強的優(yōu)勢.在實際應用方面,只要輸入相關的特征數(shù)據(jù),就可以得到家庭貧困等級程度的信息,對于精準識別貧困戶,幫助政府解決民生問題起到了積極的導向作用.

      猜你喜歡
      冗余度特征選擇子集
      一種航天測控冗余跟蹤弧段處理方法
      上海航天(2024年1期)2024-03-08 02:52:28
      由一道有關集合的子集個數(shù)題引發(fā)的思考
      拓撲空間中緊致子集的性質(zhì)研究
      關于奇數(shù)階二元子集的分離序列
      上海某基坑工程考慮冗余度的支撐體系設計
      山西建筑(2017年29期)2017-11-15 02:04:38
      橋梁設計的冗余度分析
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      橋梁設計的冗余度
      聯(lián)合互信息水下目標特征選擇算法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      甘孜县| 萍乡市| 治多县| 正宁县| 罗源县| 阿坝| 宁阳县| 伊金霍洛旗| 博野县| 项城市| 凤冈县| 右玉县| 宁远县| 阿坝县| 岗巴县| 和平区| 湖州市| 济源市| 台中市| 贡山| 新疆| 清流县| 赤壁市| 湘潭市| 汤原县| 孟州市| 开鲁县| 满洲里市| 武川县| 西盟| 博野县| 石台县| 江阴市| 达拉特旗| 潞城市| 兰坪| 那曲县| 营山县| 济南市| 兴安盟| 葵青区|