鄭麗紅
摘要:有許多預測因變量的模型存在,但是他們中大部分是破壞了因變量的原來的分布結(jié)構(gòu)的,或者這些模型比較適合因變量類別較少的情況。而比例預測模型剛好相反,它的預測結(jié)果保留因變量原來的分布結(jié)構(gòu)而且比較適合于因變量類別較多的情況。尤其在大數(shù)據(jù)的環(huán)境下,變量極其繁多,數(shù)據(jù)量也很大,比例預測模型有其重要的地位。事實上,用比例預測模型預測因變量類別的準確性可能并沒有一些模型的高(如:邏輯回歸模型,決策樹等)。所以,在這里提出對比例預測模型的改進,使得模型的預測正確率有所提高,同時又使得預測的因變量的分布情況接近于原始數(shù)據(jù)中因變量的分布。
關(guān)鍵詞:關(guān)聯(lián)矩陣;混淆矩陣;提升度;蒙特卡羅模擬抽樣;GK-
中圖分類號:O212 文獻識別碼:A 文章編號:1001-828X(2016)021-000-02
怎樣對比例預測模型進行改進:
1.提升度
這里,我們提出的提升度不是提升度[1]或者其他的提升度。這只是我在這里提出用來衡量當x=i引入時,對y=s的提升程度。其中x,y分別表示自變量和因變量,而i,s分別表示x的第i類和y的第s類別。下面我們用lifti,s來表示。
這里lifti,s≥0,當然提升度值越大越好,lifti,s越大,則表示x=i的引入對y=s的預測越有幫助。當表示x=i的引入對y=s的預測是有幫助的,相反如果lifti,s<1,則表示x=i的引入對y=s的預測幫助不大,我們認為這是小概率事件。所以我們在預測的時候可以充分提升度的性質(zhì)對模型進行改進。
這里,我們還發(fā)現(xiàn),如果對提升度的分子進行求和,即,這便是[2]中的計算公式。而且它也和[3]和[4]中GK-密切相關(guān)的。
2.對比例預測模型改進的步驟
(x-y 矩陣代表有自變量和因變量組成的列聯(lián)表來源于原始數(shù)據(jù))
根據(jù)比例預測模型的機理,我們可以通過蒙特卡羅模擬抽樣對因變量進行預測。這里我們不妨將提升度也考慮進去,即把哪些lifti,s<1 的小概率事件去掉,直到存在的可能的概率事件都是lifti,s≥1的。這里要注意的是,我們并沒有設(shè)法改變原始樣本數(shù)據(jù),只是改變p(y=s|x=i)的條件概率。因為原始的條件概率可能涉及小概率事件或者并沒有凸顯出較大概率事件。
總結(jié)出改進的步驟如下:
(1)在x-y列聯(lián)表和lifti,s兩個矩陣中,同時去掉lifti,s<1 的單元;
(2)用新的lifti,s矩陣的每個單元與新的x-y列聯(lián)表所對應(yīng)的單元相乘,這樣就得到新的x-y列聯(lián)表,再對新的x-y列聯(lián)表進行標準化,即用每一行的每個單元除以該行總數(shù),使得每一行加起來為1,即得到新的p(y=s|x=i)的條件概率;
(3)p(x=i|y=s)的概率是建立在原來的x-y列聯(lián)表上,但當x=i,預測y=s的條件概率p(y=s|x=i)變成2)中的新條件概率即,再運用蒙特卡羅抽樣實驗得到錯判矩陣,從而得到混淆矩陣。
3.實際的例子
數(shù)據(jù)是來自1996年加拿大的家庭支出的問卷調(diào)查統(tǒng)計的數(shù)據(jù)。它記錄了上百個變量,數(shù)據(jù)經(jīng)過整合之后有10417個樣本,現(xiàn)在我們選擇rooms,bedrooms分別作為自變量和因變量。
(2)表二:分別使用蒙特卡羅預測得到結(jié)果的因變量的分布情況的比較(這是我們分別進行5次蒙特卡羅模擬抽樣的平均結(jié)果):
上面表示的結(jié)果來自于新的模型,而中間行表示原始模型,最下面的是原始數(shù)據(jù)中因變量的分布情況,可以看出新模型與原始模型的差異很小。
(3)表三:混淆矩陣(從上面的蒙特卡羅模擬得到的混淆矩陣)
左邊的矩陣是代表運用新的比例預測模型在蒙特卡洛模擬下得到的,而右邊的則是用一般的比例預測模型得到的。每個單元表示的意思是,比如:左邊(i,j)單元,表示在新的模型下,因變量本來是y=i預測成y=j的概率,其他同理。
(4)圖一:關(guān)于混淆矩陣,近對角線和對角線上正確率的比較:
統(tǒng)計數(shù)據(jù)如表三。這里,y1代表在新的模型下,混淆矩陣的近對角線的正確率情況,即每行近對角的正確率之和的情況,而y2表示的是原始模型下的結(jié)果。z1代表的是在新的模型下,混淆矩陣對角線正確率情況,z2表示原始模型下的。通過這四個量的比較,可以看出改進的比例預測模型,確實比原始的模型,正確率有所提升,而且也保證了近對角預測的正確率。再結(jié)合表二,我們發(fā)現(xiàn)改進的比例預測模型并在近似原始因變量分布的前提下提高了預測正確率。這種提高的方法對高維或者其他的應(yīng)用還有待進一步研究。
參考文獻:
[1]Wenxue Huang, Yuanyi Pan, and Jianhong Wu. Supervised discretization with GK- .Procedia Computer Science, 17:114-120, 2013.
[2]Wenxue Huang, Yong Shi, and Xiaogang Wang. A nominal association matrix with feature selection for categorical data. arXiv preprint arXiv:1307.7841, 2013.
[3]Chris J Lloyd. Statistical analysis of categorical data. Number 519.535 L5.1999.
[4]Leo A Goodman and William H Kruskal. Measure of association for cross classifications.Pringer,1979.
[5]George Fishman. Monte Carlo:concepts,algorithms, and application. Springer Science & Business Media,2013.
現(xiàn)代經(jīng)濟信息2016年21期