虎曉坪
[提要] 本文應(yīng)用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的方法對新疆農(nóng)村居民貧困特征進(jìn)行分析。結(jié)合新疆貧困人口的特點,利用關(guān)聯(lián)規(guī)則算法,探討影響新疆農(nóng)村居民貧困的部分因素;以2010年全國人口普查新疆地區(qū)數(shù)據(jù)為依據(jù),在新疆農(nóng)村居民特征之間影響關(guān)系的基礎(chǔ)上,將所挖掘的關(guān)聯(lián)規(guī)則作為標(biāo)準(zhǔn),提出一些政策建議。通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn)具有以下特征的農(nóng)村居民生活受貧困的影響較大:受教育程度低、年齡較高、生活在民族縣、生活在邊境縣等。
關(guān)鍵詞:住房貧困;關(guān)聯(lián)規(guī)則;2010人口普查
中圖分類號:F32 文獻(xiàn)標(biāo)識碼:A
原標(biāo)題:基于關(guān)聯(lián)規(guī)則的新疆農(nóng)村居民貧困影響因素分析
收錄日期:2016年11月30日
一、引言
目前,由于自然環(huán)境、經(jīng)濟、教育等方面的原因,新疆地區(qū)的貧困嚴(yán)重制約經(jīng)濟發(fā)展和社會和諧。因此,研究新疆貧困的影響因素具有極其重要的應(yīng)用價值和理論意義。本文選擇新疆農(nóng)村居民多維住房貧困作為研究對象。住房問題一直都是居民最主要的生活問題,也是當(dāng)前扶貧工作的重點內(nèi)容。新疆地處我國西北,冬季漫長,天氣嚴(yán)寒,地震頻發(fā),這就使得新疆居民對住房的要求較高。2013年,新疆農(nóng)村地區(qū)居民的住房支出在總支出的占比高出全國平均水平7.92個多百分點,新疆農(nóng)村地區(qū)居民住房支出和人均收入之比高出全國平均水平8.39個百分點;新疆地區(qū)的居民住房支出占比和住房支出比人均收入基本上和全國平均水平持平,同時住房支出是僅次于食品消費的第二大支出,因此從多維貧困的角度研究新疆農(nóng)村居民住房貧困現(xiàn)狀對了解新疆農(nóng)村居民的生活現(xiàn)狀以及解釋貧困原因有著重要意義。
二、貧困因素關(guān)聯(lián)規(guī)則挖掘技術(shù)原理
(一)貧困因素關(guān)聯(lián)規(guī)則的理論。是項的集合,每個i表示新疆農(nóng)村居民的一個特征。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是一個非空項集,使得T?哿I,將整個樣本集當(dāng)作事務(wù)數(shù)據(jù)庫D,每個樣本(即每個居民)看作一個事務(wù)T。每一個事務(wù)都有一個標(biāo)示符,稱為TID(即給每一個居民樣本都分配一個序號)。設(shè)A是一個項集,事務(wù)T包含A,當(dāng)且僅當(dāng)A?哿T。
關(guān)聯(lián)規(guī)則是形如A?圯B的蘊含式,A稱為關(guān)聯(lián)規(guī)則前項,B稱為關(guān)聯(lián)規(guī)則后項,其中A?奐I,B?奐I,A≠?準(zhǔn),B=?準(zhǔn),X∩Y=?準(zhǔn),A代表新疆農(nóng)村居民各個特征的一個組合,B代表住房貧困。規(guī)則A?圯B在事務(wù)集D中成立,具有支持度s,其中s是D中事務(wù)包含A∪B的百分比,可以看作是概率P(A∪B),表示了住房貧困和其他農(nóng)村居民特征同時出現(xiàn)的概率。規(guī)則A?圯B在事務(wù)集D中成立,具有置信度c,其中c是D中包含A的事務(wù)同時也包含B的事務(wù)的百分比,可以看作是條件概率P(B|A),表示對于一個居民在具有住房貧困特征的情況下,他(她)同時具有其他特征的概率。
同時,滿足最小支持度閾值和最小置信度的閾值的規(guī)則稱為強規(guī)則。然而規(guī)則A?圯B的置信度有一定的欺騙性。它并不度量A和B之間的相關(guān)和蘊含的實際強度(或缺乏強度)。尋求支持度-置信度框架的替代,對數(shù)據(jù)挖掘有趣的數(shù)據(jù)聯(lián)系可能是有用的。因此,本文中在挖掘新疆農(nóng)村居民貧困關(guān)聯(lián)規(guī)則的時候,在考慮支持度和置信度的時候,同時考慮了規(guī)則的提升度,提升度具有以下性質(zhì)。
(1)Lift=1,表明A和B是獨立的,它們之間沒有相關(guān)性;(2)Lift>1,表明A和B是正相關(guān)的,意味每一個出現(xiàn)都蘊含另一個的出現(xiàn);(3)Lift<1,表明A和B是負(fù)相關(guān)的,意味著每一個的出現(xiàn)導(dǎo)致另一個的不出現(xiàn)。
(二)關(guān)聯(lián)規(guī)則的Apriori算法。該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后,由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。
第一步:通過迭代,檢索出事物數(shù)據(jù)庫中的所有頻繁項集,即支持度不低于用戶設(shè)定的閾值的項集;第二步:利用頻繁項集構(gòu)造出滿足最小置信度的規(guī)則。
以一個包含A與B兩個項目的2-itemset為例,我們可以求得包含{A,B}項目組的支持度,若支持度大于等于所設(shè)定的最小支持度門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組,一般表示為Large k或Frequent k。算法并從Large k的項目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則。從高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小置信度的條件門檻下,若一規(guī)則所求得的置信度滿足最小置信度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項目組{A,B}所產(chǎn)生的規(guī)則AB,其置信度大于等于最小置信度,則稱AB為關(guān)聯(lián)規(guī)則。
三、貧困因素的關(guān)聯(lián)規(guī)則實證分析
下面運用Apriori算法對新疆貧困調(diào)查數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,找出一些不容易觀察到的隱藏信息,進(jìn)而探尋新疆農(nóng)村居民貧困的原因,為政府的決策提供依據(jù)。
(一)數(shù)據(jù)來源與變量描述。本文中的數(shù)據(jù)來源為2010年11月1日零時開始的第六次全國人口普查中新疆地區(qū)的數(shù)據(jù)。本文將刻畫新疆農(nóng)村居民的特征的變量分為兩個部分,即前項和后項。關(guān)聯(lián)規(guī)則前項是和農(nóng)村居民的民族、生活地區(qū)、年齡、教育等相關(guān)的變量。關(guān)聯(lián)規(guī)則后項是利用多維住房貧困來刻畫。
1、關(guān)聯(lián)規(guī)則前項描述。關(guān)聯(lián)規(guī)則前項變量包含了七個變量,有民族、行業(yè)、年齡、教育等,具體描述如表1所示。(表1)
2、關(guān)聯(lián)規(guī)則后項描述。本文分析的多維住房貧困指數(shù)包括了三個維度,分別是:住房規(guī)模緯度、住房安全緯度和住房生活標(biāo)準(zhǔn)緯度,共九個變量。其中,住房規(guī)模這一維度包括人均住房面積和住房擁擠度兩個變量;住房安全包括住房建造年代與房屋承重類型兩個變量;住房生活標(biāo)準(zhǔn)包括了飲用水安全、主要炊事燃料、廚房設(shè)施、廁所設(shè)施和洗澡設(shè)施等五個變量。其中各個變量的具體含義解釋如下(各個變量的定義參考人口普查的相關(guān)文件):
(1)人均住房面積。人均住房面積=本戶住房建筑面積/本戶常住人口數(shù)。
(2)擁擠度(人均住房數(shù))。擁擠度(人均住房數(shù))=本戶自然房間數(shù)/本戶常住人口數(shù)。
(3)房屋承重類型。房屋的承重類型是鑒定房屋結(jié)構(gòu)安全的重要指標(biāo),它有鋼及鋼筋混凝土結(jié)構(gòu)、混合結(jié)構(gòu)、磚木結(jié)構(gòu)和其他結(jié)構(gòu)這幾種類型,其中其他結(jié)構(gòu)屬于上述類型房屋的竹結(jié)構(gòu)、磚拱結(jié)構(gòu)、窯洞等。
(4)房屋建成年份。房屋的建成年代是按房屋實際竣工年份計算,拆除翻建的,按翻建竣工的年份計算;擴建的房屋,面積超原房屋面積的,按擴建竣工年份計算,未超過的按原房屋竣工年份填寫。
(5)飲用水安全問題。飲用水安全的衡量標(biāo)準(zhǔn)是是否有管道自來水,管道自來水是指經(jīng)過公用設(shè)施凈化處理的管道輸送水。
(6)主要炊事燃料。指本戶用于炊事的主要燃料,包括煤氣、電、煤炭、柴草和其他。
(7)是否有獨立的廚房。廚房是指專供做飯使用,有固定灶具的房間。
(8)住房內(nèi)有無廁所。廁所是指住房內(nèi)的正式廁所(可以是抽水式的,也可以是其他形式的),露天簡易廁所不算有廁所。
(9)住房內(nèi)有無洗澡設(shè)施。洗澡設(shè)施指住房內(nèi)有固定浴缸(浴盆)或淋浴龍頭等并能使用的洗浴設(shè)施。
(二)貧困線的確定。貧困線也被稱作貧困閥值,是衡量一個指標(biāo)(維度)是否貧困的標(biāo)準(zhǔn),對于每一個樣本個體,如果他的某個指標(biāo)的觀測值低于對應(yīng)指標(biāo)的貧困線,那么就認(rèn)為該個體在這個緯度上處于貧困狀態(tài)。常見的住房貧困線的劃分有兩種:絕對住房貧困線和相對住房貧困線。
最常見的相對貧困線劃分是將社會可支配中位收入(平均收入)的一定比例作為貧困線,如果某個家庭的可支配收入低于同等規(guī)模的所有家庭的可支配中位收入的一定比例,那么這個家庭就處于貧困風(fēng)險之中。
1、關(guān)聯(lián)后項中各指標(biāo)的貧困線。絕對貧困線是保證最基本的生活需要的標(biāo)準(zhǔn),所以將絕對住房貧困定義為無住房。而人口普查新疆地區(qū)數(shù)據(jù)中滿足這一要求的樣本(81戶)比例太少,僅占整個樣本的0.04%。所以本文采用相對住房貧困線。
對于連續(xù)的數(shù)值型指標(biāo),將貧困線定義為該變量的5%截尾平均數(shù)的50%,而對于二分類型指標(biāo),將回答為“否”的樣本定義為貧困,比如就“是否飲用自來水”該問題上回答“否”的樣本個體定義為貧困,對于有序的多分類指標(biāo),將劣于頻率最高的分類定義為貧困。比如說住房承重類型70.84%的家庭的住房為磚木架構(gòu),故我們將比磚木結(jié)構(gòu)更差的其他結(jié)構(gòu)(竹結(jié)構(gòu)、磚拱結(jié)等)等定義為貧困。而當(dāng)頻率最高的分類是有序變量中最差的分類,那么我們就定義處于該分類為貧困狀況。
2、關(guān)聯(lián)后項中各維度的貧困線。本文對于住房規(guī)模維度的兩個變量采用邏輯“并”的方法,只要第一個變量和第二個變量中有一個指標(biāo)是貧困,就認(rèn)為該個體貧困。因為兩個變量中只要其中一個變量被認(rèn)定為貧困,就會出現(xiàn)房屋擁擠,房屋規(guī)模太小的狀況。
對于住房安全維度,本文則依據(jù)國家房地產(chǎn)估價中的各種結(jié)構(gòu)房屋的耐用年限,用“使用年限”減去“建造年代”得到所剩使用年限,若所剩使用年限小于等于20年,則認(rèn)為該樣本在住房安全緯度處于貧困狀態(tài)。(表2)
對于住房生活標(biāo)準(zhǔn)緯度,本文利用“雙界線”方法,認(rèn)為某個個體的五個變量中有三個及三個以上的變量為貧困,則認(rèn)為該個體處于住房生活標(biāo)準(zhǔn)貧困。各緯度的變量設(shè)置如表3所示。(表3)
(三)關(guān)聯(lián)規(guī)則結(jié)果分析。本文通過分別以住房面積、住房安全、住房設(shè)施為關(guān)聯(lián)后項進(jìn)行關(guān)聯(lián)規(guī)則分析,分析結(jié)果如下。
1、住房面積貧困,關(guān)聯(lián)規(guī)則如表4所示。(表4)
規(guī)則1信息:生活在民族縣、年齡介于31~40歲之間,從事農(nóng)業(yè),處于住房面積貧困狀態(tài)的被調(diào)查者占調(diào)查總數(shù)的3.28%;且生活在民族縣、年齡介于31~40歲之間、從事農(nóng)業(yè)的被調(diào)查者有20.35%的概率處于住房面積貧困狀態(tài),該規(guī)則的提升度是1.2831;說明它們之間的關(guān)聯(lián)是正相關(guān)的。
規(guī)則2信息:生活在南疆縣、年齡介于31~40歲之間、從事農(nóng)業(yè)、處于住房面積貧困狀態(tài)的被調(diào)查者占調(diào)查總數(shù)的3.06%;且生活在南疆縣、年齡介于31~40歲之間、從事農(nóng)業(yè)的被調(diào)查者有21.14%的概率處于住房面積貧困狀態(tài),該規(guī)則的提升度是1.3329;說明它們之間的關(guān)聯(lián)是正相關(guān)的。
2、住房安全貧困,關(guān)聯(lián)規(guī)則如表5所示。(表5)
規(guī)則3信息:生活在北疆地區(qū)、處于住房安全貧困狀態(tài)的被調(diào)查者占調(diào)查總數(shù)的8.77%;且生活在北疆地區(qū)的被調(diào)查者有30.12%的人處于住房安全貧困,該規(guī)則的提升度為1.2410;說明它們之間的關(guān)聯(lián)是正相關(guān)的。
規(guī)則4信息:年齡在60歲以上、處于住房貧困狀態(tài)的被調(diào)查者占調(diào)查總數(shù)的5.64%;且年齡在60歲以上有29.74%的概率處于住房安全貧困狀態(tài);說明它們之間的關(guān)聯(lián)是正相關(guān)的。
3、住房設(shè)施貧困,關(guān)聯(lián)規(guī)則如表6所示。(表6)
規(guī)則5信息:生活在邊境縣、受教育程度為小學(xué)及以下、從事農(nóng)業(yè)生產(chǎn)、處于住房設(shè)施貧困狀態(tài)的被調(diào)查者占調(diào)查總數(shù)的6.22%;且生活在邊境縣、教育程度為小學(xué)及以下、從事農(nóng)業(yè)生產(chǎn)有73.92%的概率處于住房設(shè)施貧困狀態(tài);本規(guī)則的提升度為1.3412;說明它們之間的關(guān)聯(lián)是正相關(guān)的。
四、結(jié)論及建議
本文應(yīng)用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則對新疆貧困影響因素進(jìn)行了分析。通過對人口普查數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)從事農(nóng)業(yè)、年齡在31~40歲之間的、生活在南疆或民族縣的居民中有很大一部分的住房面積較小、住房擁擠,因此建議政府幫助南疆和民族縣的居民改善住房條件,同時加大對這一地區(qū)的農(nóng)業(yè)投入,使得當(dāng)?shù)鼐用袷杖朐黾?,能夠自己有能力改善住房;生活在北疆或者年齡在60歲以上的居民住房安全存在隱患,建議政府改善這些居民的住房安全;生活在邊境縣、受教育程度較低且從事農(nóng)業(yè)的居民的住房施舍較為落后,因此建議政府給這些居民提供有針對住房設(shè)施建設(shè)的幫助。
主要參考文獻(xiàn):
[1]陳立中.轉(zhuǎn)型時期我國多維度貧困測算及其分解[J].經(jīng)濟評論,2008.5.
[2]郭建宇.農(nóng)戶多維貧困程度與特征分析——基于山西農(nóng)村貧困監(jiān)測數(shù)據(jù)[J].農(nóng)村經(jīng)濟,2012.3.
[3]孫秀玲,田國英,潘云等.中國農(nóng)村居民貧困測度研究——基于山西的調(diào)查分析[J].經(jīng)濟問題,2012.4.
[4]王建軍,楊輝平.新疆區(qū)域多維貧困測度及評價[J].新疆農(nóng)墾經(jīng)濟,2014.12.
[5]王建軍,楊輝平.新疆縣域生態(tài)脆弱性與貧困的關(guān)系研究[J].新疆農(nóng)墾經(jīng)濟,2015.1.