張 成, 劉亞東, 謝彥紅, 李金娜, 張可意, 李 元
(1.沈陽化工大學(xué) 數(shù)理系, 遼寧 沈陽 110142; 2.大連理工大學(xué) 公共管理與法學(xué)院, 遼寧 大連 116024)
基于PCA與MLE方法的人群分類新方法研究
張 成1, 劉亞東1, 謝彥紅1, 李金娜1, 張可意2, 李 元1
(1.沈陽化工大學(xué) 數(shù)理系, 遼寧 沈陽 110142; 2.大連理工大學(xué) 公共管理與法學(xué)院, 遼寧 大連 116024)
針對人群分類管理問題,提出一種基于主元分析方法的新的單變量貢獻(xiàn)度方法.首先,研究各行為屬性對主元的貢獻(xiàn)率,確定人群關(guān)鍵行為屬性.然后,在確定關(guān)鍵屬性的基礎(chǔ)上,利用最大似然估計方法對人群進(jìn)行分類管理.應(yīng)用人群分類管理方法到警方偵破案件中,可大大減小案件的搜索范圍,達(dá)到提高警方辦案效率的目的.通過實(shí)例驗證了方法的有效性.
主元分析(PCA); 屬性分類; 最大似然估計(MLE)
近年來,我們國家物質(zhì)生活與精神文明的水平得到了較大的提高,社會更加穩(wěn)定與和諧.但由于我國人口基數(shù)較大,每天仍然有較多的違法犯罪行為發(fā)生.又因為警力有限,有時不得不根據(jù)案子的輕重來決定其偵破的優(yōu)先等級,因此,對于一些小型犯罪行為很難再付出較大警力進(jìn)行專門排查,一小撮犯罪分子或成漏網(wǎng)之魚.
目前,許多國家和城市都在研究犯罪行為分析系統(tǒng).國內(nèi)現(xiàn)有的犯罪行為分析方法大多是采用心理學(xué)的方法.這種方法在數(shù)據(jù)量不大的情況下是很有效的,但在海量數(shù)據(jù)下,就存在分析不夠全面的缺點(diǎn).科學(xué)的案件分析和預(yù)測機(jī)制,可以對犯罪模式進(jìn)行有效的識別,從而快速配置警力,發(fā)現(xiàn)和揭露犯罪行為.在實(shí)際工作中,必須在制度保證下完善刑警工作OA(Office Automation)機(jī)制,提高刑事案件信息的收集效率,增加刑事案件分析的數(shù)據(jù)來源,提高分析質(zhì)量[1].針對這一工作,黃建設(shè)[2]等利用數(shù)據(jù)挖掘技術(shù)對犯罪行為進(jìn)行分析.
為了能夠以最小的代價來偵破更多的案件,需要對大規(guī)模的人群進(jìn)行分析.在對大規(guī)模人口進(jìn)行多種行為屬性調(diào)查時,存在參考價值較低的行為屬性,因此,首先應(yīng)確定警方所需要的關(guān)鍵屬性.對某一地區(qū)人口進(jìn)行大規(guī)模屬性調(diào)查,根據(jù)各項屬性表現(xiàn)強(qiáng)弱,進(jìn)行量化處理.針對該問題的建??梢赞D(zhuǎn)化為多變量統(tǒng)計分析問題,利用主元分析PCA[3-5],研究各行為屬性對主元的貢獻(xiàn)率,確定人群關(guān)鍵行為屬性.
在獲得居民關(guān)鍵屬性的基礎(chǔ)上,利用最大似然估計MLE分類方法對人群進(jìn)行分類管理,減小案件的搜索范圍,達(dá)到提高警方辦案效率的目的.
大量數(shù)據(jù)分析中,將抽象的各種行為指標(biāo)量化,然后對其進(jìn)行PCA統(tǒng)計分析.量化后的數(shù)據(jù)矩陣為Xm×n,其中m為受訪人數(shù),n為普查統(tǒng)計的行為屬性個數(shù),如下所示:
(1)
基于協(xié)方差的PCA方法將X的每一列數(shù)據(jù)進(jìn)行減去相應(yīng)變量均值除以相應(yīng)變量標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)化操作以后,認(rèn)為所有變量自身數(shù)據(jù)分布為標(biāo)準(zhǔn)正態(tài)分布.定義標(biāo)準(zhǔn)化后的樣本X的協(xié)方差矩陣為:
(2)
對該矩陣進(jìn)行特征值分解,并且按照特征值的大小降序排列.PCA模型對X進(jìn)行如下分解:
(3)
T=XP
(4)
(5)
其中λ1≥λ2≥…≥λA表示S的前A個較大的特征值.
主元變量在代數(shù)學(xué)上是n個行為屬性x1,x2,…,xn的線性組合,而在幾何上這些線性組合代表選取了一個新的坐標(biāo)系,它是以原坐標(biāo)空間旋轉(zhuǎn)后得到的.考慮到主元變量為各行為屬性指標(biāo)的線性組合,從而得到:
(6)
在上式中第n個行為屬性對第A個主元變量的權(quán)重記為wAn,其絕對值表示該行為屬性指標(biāo)對該主元變量的貢獻(xiàn)值.由上式可以看出:對單主元的信息量,各原始變量x1,x2,…,xn所占的權(quán)重各不相同.
由此,提出使用PCA方法衡量各變量對數(shù)據(jù)主元信息貢獻(xiàn)的比重.將第j個行為屬性在主元空間中的貢獻(xiàn)度記為單個變量貢獻(xiàn)度SVC(Single Variable Contribution),如下式所示:
(7)
將SVC較大的幾個行為屬性作為關(guān)鍵行為屬性.同時假設(shè)不同犯罪分子在某些行為屬性上的確異于常人,反映到量化指標(biāo)上,是嚴(yán)重偏離正常分布中心范圍的;且假設(shè)參與信息統(tǒng)計的所有正常人群類個體嚴(yán)格不具備犯罪傾向.在以往大量歷史統(tǒng)計的數(shù)據(jù)中,選擇幾種不同的群類,分別求取該類的SVC.不同犯罪群類的SVC與正常人群類的SVC對比,求異去同,得出該犯罪群類的關(guān)鍵行為指標(biāo).
針對上述討論得到人群關(guān)鍵屬性信息Xm×n′,利用MLE方法將人群進(jìn)行分類,將居民分為K組[6-7].
P(xj|Ci)表示第j名居民屬于第Ci組的條件概率,Pi表示第i組居民所占的人口比例,每一組居民人數(shù)為Ni(i=1,…,k).
(8)
μi)∑-1(xj-μi)T)
(9)
居民xj屬于第i組的概率為:
(10)
在對P(xj|Ci)、Ni初始化后,每組居民關(guān)鍵屬性的特征參數(shù){μi,∑i}和后驗概率可以通過最大似然估計迭代算法估計得到.
E-step:
P(l)(Ci|xj)為在第l次迭代過程中樣本xj屬于第i個高斯分布的后驗概率.
M-step:
(11)
當(dāng)案件發(fā)生后,根據(jù)案件性質(zhì)對居民進(jìn)行分組,找出與罪犯行為屬性相似的人群并進(jìn)行調(diào)查,以便能快速找到犯罪嫌疑人,偵破案件.
從2013年遼寧省首屆研究生數(shù)學(xué)建模競賽試題A:提高案件偵破率問題中通過提取得到55名居民的20種行為屬性數(shù)據(jù),其中包含正常居民與4種不同犯罪分子各11名,20種行為屬性名稱如表1所示.
表1 行為屬性
將一些抽象的行為屬性量化(如健康程度等).首先按照各變量的程度等級不同,對其分別賦值量化.在實(shí)際生活中,特定的某類犯罪分子在特定的關(guān)鍵屬性中表現(xiàn)有所差異.在犯罪案件發(fā)生后,只需根據(jù)案件的性質(zhì),在關(guān)鍵屬性上查找相關(guān)對應(yīng)的人群,就可縮小搜索范圍.
首先,利用屬性建立PCA模型,累計方差貢獻(xiàn)率為85 %時,得到各行為屬性對主元的貢獻(xiàn)率,結(jié)果如圖1所示.
圖1 不同行為屬性貢獻(xiàn)率
由圖1可以看出:每一行為屬性對主元的貢獻(xiàn)率各不相同,經(jīng)線性轉(zhuǎn)換后主元能夠代表原始數(shù)據(jù)的最大變化信息;行為屬性對主元的貢獻(xiàn)率越大,在一定程度上說明不同人群的該行為屬性中表現(xiàn)的差異越大,所包含信息量越大,通過該行為屬性區(qū)分出不同罪犯的效果就明顯.
經(jīng)過算法仿真得出各行為屬性的主元貢獻(xiàn)率后,選取變化較大的行為屬性作為關(guān)鍵屬性,仿真中選擇11個作為關(guān)鍵屬性,選取的編號如表2所示.
表2 關(guān)鍵屬性
抽取關(guān)鍵屬性后,將一定范圍內(nèi)的504名居民通過利用PCA與MLE結(jié)合方法進(jìn)行分類.從圖2可以看出:將所有人根據(jù)4種不同犯罪行為分為4類人群.當(dāng)案件發(fā)生時,針對關(guān)鍵屬性在不同人群中查找與之相應(yīng)的居民,避免了案件調(diào)查的盲目性,為案件偵破提供了有效的切入點(diǎn).該方法減少了案件偵破的時間和人員搜索范圍,提高了診斷效率.
圖2 4種犯罪案件的潛在人口數(shù)
在對罪犯以及正常居民行為屬性進(jìn)行主元分析(PCA)的基礎(chǔ)上,深入挖掘行為屬性對主元的貢獻(xiàn)率,所提出的PCA確定關(guān)鍵屬性的方法在實(shí)例仿真中達(dá)到了獲得關(guān)鍵屬性的效果.在進(jìn)行案件偵破時,利用MLE方法實(shí)現(xiàn)對居民分類管理,對分類后最有嫌疑人群進(jìn)行詳細(xì)調(diào)查,節(jié)約了案件偵破時間,為案件的偵破提供了合理的切入點(diǎn).
[1] 丁世潔.刑事案件分析模型的研究與設(shè)計[J].武漢理工大學(xué)學(xué)報,2006,28(3):138-140.
[2] 黃建設(shè),姚奇富.數(shù)據(jù)挖掘技術(shù)在犯罪行為分析中的應(yīng)用[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報,2005,4(3):45-47.
[3] 周東華,李鋼,李元.數(shù)據(jù)驅(qū)動的工業(yè)過程故障診斷技術(shù)[M].北京:科學(xué)出版社,2011:57-100.
[4] Ge Z Q,Song Z H.Process Monitoring Based on Independent Component Analysis-principal Component Analysis(ICA-PCA) and Similarity Factors[J].Industrial & Engineering Chemistry Research,2007,46(7):2054-2063.
[5] Zhao C H,Wang F L,Lu N Y,et al.Stage-based Soft-transition Multiple PCA Modeling and on-line Monitoring Strategy for Batch Processes[J].Journal of Process Control,2007,17(9):728-741.
[6] 何正風(fēng).MATLAB概率與數(shù)理統(tǒng)計分析[M].2版.北京:機(jī)械工業(yè)出版社,2012:60-87.
[7] 許國根,賈瑛.模式識別與智能計算的MATLAB實(shí)現(xiàn)[M].北京:北京航空航天大學(xué)出版社,2012:90-125.
A Novel Method for Classification of Crowd Based on PCA and MLE Methods
ZHANG Cheng1, LIU Ya-dong1, XIE Yan-hong1, LI Jin-na1, ZHANG Ke-yi2, LI Yuan1
(1.Shenyang University of Chemical Technology, Shenyang 110142, China;2.Dalian University of Technology, Dalian 116024, China)
A novel classification of the crowd is investigated based on principal component analysis method in this paper.First,the contribution rates provided by each behavior attributes for principal component are studied to determine the key behavioral attributes.Then,based on the identification of key attributes,the residents are divided into several groups by the maximum likelihood estimator method.The presented classification method of the crowd not only narrows the search areas,but also improves the efficiency of the police investigations.Finally,a case is given to show the effectiveness of the proposed method.
principal component analysis(PCA); attribute classification; maximum likelihood estimation(MLE)
2014-03-24
國家自然科學(xué)基金資助項目(60774070,61174119);國家自然科學(xué)基金重點(diǎn)課題資助項目(61034006)
張成(1979-),男,遼寧錦州人,講師,博士,主要從事故障診斷的研究.
2095-2198(2015)02-0168-04
10.3969/j.issn.2095-2198.2015.02.016
C939
A