楊 超,文 展,那晏禾,張宇杰
(成都信息工程大學(xué) 通信工程學(xué)院,四川 成都 610225)
國家的扶貧政策對幫助貧困人群有著重要意義,我國高度重視扶貧攻堅的問題。如何精準(zhǔn)識別出農(nóng)村貧困人口是進行精準(zhǔn)扶貧的基礎(chǔ)性工作, 決定著精準(zhǔn)扶貧在資金、措施、駐村幫扶和脫貧成效方面目標(biāo)精準(zhǔn)。然而,在實踐中還存在一些問題,如遭遇農(nóng)村熟人社會的關(guān)系網(wǎng)絡(luò)、不規(guī)則的鄉(xiāng)土社會,導(dǎo)致扶貧資源的冒領(lǐng),在一定程度上制約了扶貧工作的有效開展[1-2]。因此,有必要開發(fā)一款扶貧輔助測評系統(tǒng),幫助扶貧工作人員鑒別申請人所處的經(jīng)濟水平,判斷申請人是否有冒充貧困戶領(lǐng)取福利的嫌疑,更好地為扶貧戰(zhàn)略服務(wù)。
心理學(xué)家表示,貧富差距產(chǎn)生的原因可能是個體某種能力的缺失或者個性缺陷。具體來說,貧窮與富裕之間的差距除了財富之外,還有認知層面的差距。該系統(tǒng)將心理學(xué)領(lǐng)域的研究方法與機器學(xué)習(xí)算法進行結(jié)合,以心理學(xué)背景下可能造成個體經(jīng)濟水平差異的個體心理特征為背景,使用多種機器學(xué)習(xí)模型對不同經(jīng)濟水平個體的文本數(shù)據(jù)進行分類,得到個人經(jīng)濟水平分類最優(yōu)模型,通過文本識別經(jīng)濟水平。
首先,采集大量不同經(jīng)濟水平人群的文本。然后,對不同的經(jīng)濟階層進行分類,按照其關(guān)鍵詞頻率來建立不同經(jīng)濟水平人群的特征詞庫。接下來,通過研究機器學(xué)習(xí)算法并實現(xiàn),得到最優(yōu)個人經(jīng)濟水平模型。最后,開發(fā)軟件提供用戶接口。
根據(jù)設(shè)計思路,可以得到精準(zhǔn)扶貧輔助測評系統(tǒng)的設(shè)計方案,如圖1所示。
由圖1可知,本系統(tǒng)主要分為數(shù)據(jù)采集、數(shù)據(jù)處理、特征詞庫構(gòu)建、建立個人經(jīng)濟水平分類模型、手機APP開發(fā)這幾個步驟,下面分別進行闡述。
通過編寫爬蟲程序采集網(wǎng)絡(luò)上大量不同經(jīng)濟水平人群的文本數(shù)據(jù),并將爬取到的數(shù)據(jù)存入文本文件。本方案將經(jīng)濟水平人群分為3類:富裕人口、普通收入人口、貧困人口。其中,富裕人口主要采集對象為大V的微博數(shù)據(jù)、名人新聞、富人傳記、書籍。普通收入人群可以采集普通新聞、小說等文本。貧困人口主要采集扶貧網(wǎng)上的新聞、貧困戶訪談等。將這3類數(shù)據(jù)分類存入不同的文本文件。
將采集到的富裕、普通和貧窮3類經(jīng)濟水平的原始數(shù)據(jù)文本,通過中文分詞工具進行分詞。并設(shè)計高效實用的文本數(shù)據(jù)清洗算法,計算每一類經(jīng)濟水平文本的詞頻逆文本頻率指數(shù)( Term Frequency-Inverse Document Frequency,TFIDF),該指數(shù)值越大,則表明該詞匯在文本中的重要性越高,由此可以獲取對應(yīng)案例文本的關(guān)鍵詞[3]。
在關(guān)鍵詞基礎(chǔ)上,進行特征選擇、特征構(gòu)建和特征提取。特征選擇的過程需要由專家基于貧困人口的社會認知模式相關(guān)背景知識,篩選最有可能影響到個體社會認知的關(guān)鍵詞,并對篩選出的關(guān)鍵詞按照影響程度的大小進行優(yōu)先級排序。特征構(gòu)建與提取是將可能屬于同一類簇的關(guān)鍵詞進行整合,以免特征過多造成信息冗余。該過程可以利用TF-IDF值計算關(guān)鍵詞之間的相似度劃分類簇,也可以利用無監(jiān)督學(xué)習(xí)技術(shù)如主成分分析,K-means算法等進行關(guān)鍵詞降維和自動聚類[4]。上述步驟可以進一步提高特征的準(zhǔn)確性,確保特征的低冗余度,最終得到個人經(jīng)濟水平特征詞庫。
最后根據(jù)富裕、普通和貧困人口3種分類,給不同案例獲得的特征詞打上相應(yīng)標(biāo)簽,代表不同的個人經(jīng)濟水平,便于下一步進行有監(jiān)督的機器學(xué)習(xí)。
在有了不同經(jīng)濟水平人群的特征詞庫后,便可設(shè)計一種高效實用的文本數(shù)據(jù)分析算法,對申請人輸入的文本進行分析,與特征詞庫進行對比分析,利用多種機器學(xué)習(xí)模型,如邏輯回歸、支持向量機、最近鄰算法等,對不同經(jīng)濟水平個體的文本進行分類,根據(jù)精確性、實用性等關(guān)鍵指標(biāo),獲得針對此項目的分類準(zhǔn)確性最高、誤差值最小的模型。
開發(fā)手機APP提供界面,輸入貧困補助申請者的文本數(shù)據(jù)。通過個人經(jīng)濟水平模型,得到申請人所處的經(jīng)濟水平,并生成個人經(jīng)濟水平報告,供扶貧工作人員輔助進行扶貧對象識別。
本系統(tǒng)完成后,可以廣泛應(yīng)用到扶貧工作中,幫助扶貧工作人員對貧困補助申請人所處的經(jīng)濟水平進行判斷,助力精準(zhǔn)扶貧工作。
圖1 精準(zhǔn)扶貧輔助測評系統(tǒng)的設(shè)計方案
本文中提出一種結(jié)合心理學(xué)與機器學(xué)習(xí)算法設(shè)計的精準(zhǔn)扶貧輔助測評系統(tǒng)。該系統(tǒng)采用網(wǎng)絡(luò)爬蟲收集各個經(jīng)濟水平人群在網(wǎng)上的文本數(shù)據(jù),通過中文分詞、關(guān)鍵詞提取、文本向量化等方法進行文本處理,構(gòu)建特征詞庫,建立機器學(xué)習(xí)模型,最后開發(fā)手機APP提供輸入界面。當(dāng)輸入貧困人口相關(guān)文本數(shù)據(jù),本系統(tǒng)能得到該貧困戶對應(yīng)的經(jīng)濟水平分析報告,輔助扶貧工作人員核實扶貧對象的身份,更好地推進精準(zhǔn)扶貧工作。