卿楓 周林 王芋欽 劉玉婷
摘 要 特朗普和拜登兩個總統(tǒng)所做的決策大多數(shù)是來自于他們所在的兩個黨派,也就是民主黨和共和黨。根據(jù)相關(guān)渠道獲取兩個黨派分別在位時美國的數(shù)據(jù)集,利用python對其進(jìn)行數(shù)據(jù)分析,并且做了數(shù)據(jù)預(yù)處理,將數(shù)據(jù)集整理為一個新的數(shù)據(jù)集,然后對這個數(shù)據(jù)集進(jìn)行因子分析,得到了較強(qiáng)的幾個因子和他們的因子系數(shù),將這幾個數(shù)據(jù)集投入到SVR等模型中進(jìn)行預(yù)測,SVR得到的準(zhǔn)確率都在90%以上,得到的預(yù)測數(shù)據(jù)就可以看出接下來他們對美國經(jīng)濟(jì)所造成的影響最終可以認(rèn)為在拜登的領(lǐng)導(dǎo)下美國經(jīng)濟(jì)會平穩(wěn)上升,在特朗普的領(lǐng)導(dǎo)下會先上升后下降。
關(guān)鍵詞 相關(guān)性分析 SVR BP神經(jīng)網(wǎng)絡(luò) 經(jīng)濟(jì)預(yù)測
中圖分類號:F11 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-0745(2021)01-0059-06
1 問題背景和重述
1.1 問題背景
由于美國總統(tǒng)大選是每四年舉行一次。在2020年也會有美國大選,這次的美國大選候選人是特朗普和拜登,他們分別是共和黨和民主黨的代表人。兩人分別在金融貿(mào)易,經(jīng)濟(jì)金融治理還有一些其他的發(fā)展領(lǐng)域,例如對于新冠病毒的措施、基礎(chǔ)設(shè)施的建設(shè)、稅收、環(huán)境保護(hù)、醫(yī)療保險、就業(yè)、貿(mào)易、移民和教育等。他們在對這些方面的問題處理上都有著不同的立場,同時他們在處理這些問題也有不同的行政綱領(lǐng)和政治立場。無論是特朗普還是拜登當(dāng)選都會對美國的經(jīng)濟(jì)發(fā)展以及全球經(jīng)濟(jì)金融發(fā)展形成新的并且是不同的戰(zhàn)略格局。不同的候選人當(dāng)選會對美國有著不同的影響,那么到底會產(chǎn)生怎么樣的影響呢?而中國又應(yīng)該如何去應(yīng)對這些問題呢?
1.2 開放的問題
1.建立數(shù)學(xué)模型,利用相關(guān)數(shù)據(jù)定量分析不同候選人當(dāng)選對美國經(jīng)濟(jì)可能產(chǎn)生的影響。(您可以選擇一個或者多個字段分別回答此問題或給出一個全面的答案)
2.建立數(shù)學(xué)模型,利用相關(guān)數(shù)據(jù)定量分析不同候選人當(dāng)選對中國經(jīng)濟(jì)可能產(chǎn)生的影響。(您可以選擇一個或者多個字段分別回答此問題或給出一個全面的答案)
3.假設(shè)你是中國經(jīng)濟(jì)發(fā)展智庫的成員,結(jié)合問題1和問題2的數(shù)學(xué)模型,在這兩種情況下(哪一方獲勝),你會對中國在相關(guān)領(lǐng)域的經(jīng)濟(jì)對策和政策提出什么建議?請具體說明你的觀點(diǎn)。
2 問題分析
2.1 問題分析一
首先,問題一我們認(rèn)為拜登和特朗普的政策會取決于他們背后的兩個黨派的想法,而黨派會以之前的方法繼續(xù)施行,所以我們打算將之前兩個黨派分別執(zhí)政的時候美國的數(shù)據(jù)提取出來,分成兩個數(shù)據(jù)集,一個是共和黨執(zhí)政期間的數(shù)據(jù),一個是民主黨執(zhí)政期間的數(shù)據(jù)。例如基礎(chǔ)設(shè)施建設(shè),人均GDP,就業(yè)情況等幾十個數(shù)據(jù)集,經(jīng)過團(tuán)隊的考量與篩選得到了十個數(shù)據(jù)集,并且對這十個數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理之后得到的清洗后的數(shù)據(jù),再將這十個數(shù)據(jù)集放入到因子分析模型,得到落石圖,并且找到其中的拐點(diǎn),也就是那幾個主要影響美國經(jīng)濟(jì)的因子,得到這幾個因子過后,我們就可以將其放入我們寫好的幾個機(jī)器學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)模型,得到最后的預(yù)測數(shù)據(jù),取其中最優(yōu)的一個模型的預(yù)測值,并且分析這樣的預(yù)測值會對美國的經(jīng)濟(jì)產(chǎn)生什么樣的影響。[1]
2.2 問題分析二
對于問題二來說,我們將會獲取新的數(shù)據(jù)集,例如分別收集在共和黨和民主黨兩黨執(zhí)政期間的中美貿(mào)易量,中國出口貿(mào)易量,中國進(jìn)口貿(mào)易量,中國稅收等,并且清洗整理數(shù)據(jù)內(nèi)容,得到一份完整的數(shù)據(jù)集,將這份數(shù)據(jù)集放入到SVR中,得到新的預(yù)測值,再利用這個預(yù)測值預(yù)測兩個候選人分別會對中國的經(jīng)濟(jì)影響,而兩個黨派也就是分別代表了拜登與特朗普所會實(shí)行的政策。
2.3 問題分析三
對于問題三來說,我們會將之前所得到的影響美國經(jīng)濟(jì)幾個主要因子中最后的預(yù)測數(shù)據(jù)提取出來,并且這幾個數(shù)據(jù)分別乘以他們的因子系數(shù),而這個值就是我們最后所得到的解,因?yàn)槲覀兛梢酝ㄟ^這個值來判斷究竟兩個黨派也就是兩個候選人所做的事情誰會影響經(jīng)濟(jì)正發(fā)展的更多,或者誰會導(dǎo)致經(jīng)濟(jì)回退也就得到了兩黨后面會對美國造成的影響,并且選擇這個數(shù)據(jù)大的一位,還有一個問題是對中國的相關(guān)經(jīng)濟(jì)提出的問題,在我看來,我認(rèn)為中國的相關(guān)領(lǐng)域的經(jīng)濟(jì)對策是應(yīng)當(dāng)實(shí)行反制措施,將中國的教育和醫(yī)療水平,公共設(shè)施等數(shù)據(jù)與美國的人均GDP做一個分析,將其相關(guān)性為負(fù)相和相關(guān)性較小的因子提出來,中國則需要大量的提升這些方面的能力就可以了。[2]
3 模型假設(shè)
(1)假設(shè)從網(wǎng)上獲得的數(shù)據(jù)都是真實(shí)可實(shí)用的。
(2)假設(shè)主要因素是相互獨(dú)立的,并且不會互相影響。
(3)假設(shè)兩個黨派中仍然會堅持自己的政策方針。
(4)假設(shè)沒有其他特定的因素影響美國大選。
(5)假設(shè)其他候選人被選上的可能性遠(yuǎn)低于題中所給兩位候選人。
4 建立模型并且解決問題一
4.1 數(shù)據(jù)預(yù)處理
為了收集美國相關(guān)的數(shù)據(jù),我們在很多數(shù)據(jù)庫上進(jìn)行搜尋,得到了下列的一百多個數(shù)據(jù)集,為了滿足本題所要求的情況,我們將其數(shù)據(jù)按時間分成共和黨執(zhí)政和民主黨執(zhí)政期間進(jìn)行處理。
并且我們利用了python對其進(jìn)行數(shù)據(jù)預(yù)處理,包括在可以用每列的平均值的插入填補(bǔ)空值,重復(fù)值的刪除、異常值使用3σ原則,最終得到的干凈整潔的數(shù)據(jù)。
最終經(jīng)過我們的考慮與斟酌,我們留下了九列數(shù)據(jù)用于相關(guān)性分析。
4.2 相關(guān)性分析模型的建立
相關(guān)性分析python實(shí)現(xiàn)。將所有共和黨的數(shù)據(jù)代入python中的相關(guān)性分析模型得出其熱力圖。將所有民主黨的數(shù)據(jù)代入python中的因子分析模型得出其熱力圖。并且最終將其相關(guān)性提出。最終得出影響美國經(jīng)濟(jì)較大的幾個數(shù)據(jù)為進(jìn)出口貿(mào)易量、教育人口數(shù)、可替代核能和保險服務(wù)等。
4.3 BP神經(jīng)網(wǎng)絡(luò)模型的建立
4.3.1 BP神經(jīng)網(wǎng)絡(luò)的基本原理
BP神經(jīng)網(wǎng)絡(luò)即為BackproPagation的縮寫,即反向傳播的意思,正向傳播時,輸入樣本從輸入層傳入,經(jīng)過各個隱層逐層處理后,傳向輸出層。
4.3.2 BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖1所示。
4.3.3 BP神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)
容易看出,BP神經(jīng)算法中,權(quán)值的調(diào)整公式均由這幾個東西決定,即:學(xué)習(xí)率,本層輸出的誤差信號,本層輸入信號X(或Y)。
BP算法屬于學(xué)習(xí)規(guī)則類。學(xué)習(xí)規(guī)則可以看成是Widrow-Hoff(LMS)學(xué)習(xí)規(guī)則的一般化(Generalize)情況。神經(jīng)元的變換函數(shù)與LMS學(xué)習(xí)規(guī)則沒有什么關(guān)聯(lián),沒有必要對變換函數(shù)求導(dǎo),學(xué)習(xí)規(guī)則則并沒有此性質(zhì),要求變換函數(shù)可導(dǎo)。這就是為什么我們前面采用Sigmoid函數(shù)的原因。[3]
4.3.5 BP神經(jīng)網(wǎng)絡(luò)前向傳輸
我們需要將權(quán)重和偏置隨機(jī)初始化,并且對每一個權(quán)重取[-1,1]隨機(jī)的實(shí)數(shù),每一個偏置同樣也取[0,1]實(shí)數(shù),之后就可以前向傳輸?shù)倪\(yùn)作。
4.3.6 BP神經(jīng)網(wǎng)絡(luò)的python實(shí)現(xiàn)
本次的我們選擇python實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)是因?yàn)閜ython作為一門開源編程語言,在里面有比較友好的庫,例如pandas庫可以提供高性能的分析工具,而shuffle則可以隨機(jī)打亂工具,將原有序列打亂,返回一個全新的順序錯亂的值。
這次的bp神經(jīng)網(wǎng)絡(luò)的效果非常的差,因?yàn)閿?shù)據(jù)量過少,所以導(dǎo)致了過擬合的狀態(tài),但是所幸我們?nèi)匀贿€有其他的選擇,BP神經(jīng)網(wǎng)絡(luò)只是我們的一種選擇,接下來我們將會介紹我們其他的模型。
4.4 SVR模型的建立
4.4.1 SVR模型的支持向量回歸
其中為核函數(shù)。
4.4.2 利用SVR模型的支持向量回歸求解
最終得到的預(yù)測值如圖2,圖3所示:
最終我們得到使用SVR模型中的三種方法,線性、核、徑向得出了它的準(zhǔn)確率,最終線性的預(yù)測效果最高可以達(dá)到97.79%,分別為如圖4。
所以使用線性模型進(jìn)行預(yù)測得到的效果是不錯的。
4.5 決策樹,模型的建立
4.5.1 決策樹的原理
決策樹(Decision Tree)是一種基本的分類與回歸方法,分類樹是決策樹在分類時的稱呼,回歸樹是用于回歸時的稱呼。本文主要討論決策樹中的分類樹與回歸樹的一些基本理論,后續(xù)文章會繼續(xù)討論決策樹的Boosting和Bagging相關(guān)方法。[5]
4.5.2 利用決策樹解決預(yù)測問題
先假設(shè)給定的數(shù)據(jù)集為:
其中,為輸入實(shí)例,即特征向量,n為為特征個數(shù),i=1,2...,N,N為樣本容量,為類標(biāo)。
決策樹學(xué)習(xí)是由訓(xùn)練數(shù)據(jù)集估計條件概率模型?;谔卣骺臻g劃分的類的條件概率模型有無窮多個,所以我們就可以根據(jù)這個方案對我們的數(shù)據(jù)進(jìn)行預(yù)測。
決策樹學(xué)習(xí)算法包含特征選擇、決策樹的生成與決策樹的剪枝過程。
建立回歸樹的過程大致可以分為兩步:
(1)將預(yù)測變量空間(X1,X2,X3,...XP)的可能取值構(gòu)成的集合分割成J個互不重疊的區(qū)域{R1,R2,R3,...,Rj};
(2)對落入?yún)^(qū)域Rj的每個觀測值做同樣的預(yù)測,預(yù)測值等于Rj上訓(xùn)練集的各個樣本取值的算術(shù)平均數(shù)。
比如在第一步中得到兩個區(qū)域R1和R2,R1中訓(xùn)練集的各個樣本平均數(shù)為10,R2中訓(xùn)練集的各個樣本取值的算術(shù)平均數(shù)為20,則對給定的觀測值X=x,若x∈R1,給出的預(yù)測值為10,若x∈R2,則預(yù)測值為20。
類似于上述決策樹分類算法的第(10)步,關(guān)鍵在于如何構(gòu)建區(qū)域劃分{R1,R1,R1,...,Rj}。事實(shí)上,區(qū)域的形狀是可以為任意形狀的,但出于模型簡化和增強(qiáng)可解釋性的考慮,這里將預(yù)測變量空間劃分成高維矩形,我們稱這些區(qū)域?yàn)榉Q盒子。RSS的定義為:
其中,是第j個矩形區(qū)域中訓(xùn)練集中各個樣本取值的算術(shù)平均數(shù)。但是,要想考慮將特征空間劃分為j個矩形區(qū)域的所有可能性,在計算上是不可行的。因此一般采用一種自上而下的貪婪法:遞歸二又分裂。“自上而下”指的是它從樹頂端開始依次分裂預(yù)測變量空間,每個分裂點(diǎn)都產(chǎn)生兩個新的分支?!柏澙贰币庵冈诮涞拿恳徊街?,最優(yōu)分裂確定僅限于某一步進(jìn)程,而不是針對全局去選擇那些能夠在未來進(jìn)程中構(gòu)建出更好的樹的分裂點(diǎn)。
在執(zhí)行遞歸二又分裂時,先選擇預(yù)測變量Xj和分割點(diǎn)s,將預(yù)測變量空間分為兩個區(qū)域和,使RSS盡可能地減小。也就是說,考慮所有預(yù)測變量X1,X2,X3,...Xp和與每個預(yù)測變量對應(yīng)的s的取值,然后選擇預(yù)測變量和分割點(diǎn),使構(gòu)造出的樹具有最小的RSS。更詳細(xì)地,對j和s,定義一對半平面:
重復(fù)上述步驟,尋找繼續(xù)分割數(shù)據(jù)集的最優(yōu)預(yù)測變量和最優(yōu)分割點(diǎn),使隨之產(chǎn)生的區(qū)域中的RSS達(dá)到最小。此時被分割的不再是整個預(yù)測變量空間,而是之前確定的兩個區(qū)域之一。如此一來就能得到3個區(qū)域。接著進(jìn)一步分割3個區(qū)域之一以最小化RSS。這一過程不斷持續(xù),直到符合某個停止準(zhǔn)則,如我們在分類決策樹中討論到的前剪枝中的停止準(zhǔn)則。[6]
區(qū)域{R1,R1,R1,...,Rj}產(chǎn)生后,就可以確定某一給定的測試數(shù)據(jù)所屬的區(qū)域,并用這一區(qū)域訓(xùn)練集的各個樣本取值的算術(shù)平均數(shù)作為與測試進(jìn)行預(yù)測。
上述方法生成的回歸樹會在訓(xùn)練集中取得良好的預(yù)測效果,卻很有可能造成數(shù)據(jù)的過擬合,導(dǎo)致在測試集上效果不佳。原因在于這種方法產(chǎn)生的樹可能過于復(fù)雜。一棵分裂點(diǎn)更少、規(guī)模更?。▍^(qū)域{R1,R2,R3,...,Rj}的個數(shù)更少)的樹會有更小的方差和更好的可解釋性(以增加微小偏差為代價)。針對上述問題,一種可能的解決辦法是:僅當(dāng)分裂使殘差平方和RSS的減小量超過某閥值時,才分裂樹結(jié)點(diǎn)。這種策略能生成較小的樹,但可能產(chǎn)生過于短視的問題,一些起初看來不值得的分裂卻可能之后產(chǎn)生非常好的分裂。也就是說在下一步中,RSS會大幅減小。
因此,更好的策略是生成一棵很大的樹T0然后通過后剪枝得到子樹。
4.5.3 決策樹的回歸預(yù)測算法
1.利用遞歸二叉分裂在訓(xùn)練集中生成一額大樹,只有當(dāng)終端結(jié)點(diǎn)包含的觀測值個數(shù)低于某個最小值時才停止。
2.對大樹進(jìn)行代價復(fù)雜性剪枝,得到一系列最優(yōu)子樹,子樹是α的函數(shù)。
3.利用K折交叉驗(yàn)誕選擇α。具體做法是將訓(xùn)練集分為K折。對所有k=1,2,3,...,對訓(xùn)練集上所有不屬于第k折的數(shù)據(jù)重復(fù)第(1)步~第(2)步得到與α對應(yīng)的子樹,并求出上述子樹在第k折上的均方預(yù)測誤差。
4.每個α?xí)邢鄳?yīng)的K個均方預(yù)測誤差,對這K個值求平均,選出使平均誤差最小的α。
5.找出選定的α在第(2)步中對應(yīng)的子樹。
4.5.4 利用python實(shí)現(xiàn)決策樹算法
最終我們得到了決策樹對兩黨的預(yù)測準(zhǔn)確率分別為66%和59%,如圖5、圖6所示,所以這個模型也不是特別理想。
4.6 最終模型對本題的求解
最終通過比較三個模型我們選擇了SVR模型進(jìn)行預(yù)測,因?yàn)樗臏?zhǔn)確率達(dá)到了97.79%,并且我們將之前的數(shù)據(jù)輸入得到了兩黨分別在執(zhí)政后美國的經(jīng)濟(jì)增長情況。
5 模型的優(yōu)化
本次的bp神經(jīng)網(wǎng)絡(luò)最終得到的效果不是很好,若是數(shù)據(jù)能夠多一些,那么我們便能夠預(yù)測得到較為準(zhǔn)確的數(shù)據(jù)。
在后來我們仔細(xì)的思考了自己的模型,我們認(rèn)為這次的數(shù)據(jù)量其實(shí)可以使用機(jī)器學(xué)習(xí)中的隨機(jī)森林,再通過對每個模型的特點(diǎn)進(jìn)行基于AdaBoost的融合,生成一個融合模型,最終可以用融合模型去預(yù)測得到最后的數(shù)據(jù),這樣可以將準(zhǔn)確率再次向上提升幾個百分比。
參考文獻(xiàn):
[1] 韓文煜.基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究[J].科技創(chuàng)新與應(yīng)用,2020(04):157-158.
[2] 楊東紅,吳邦安,孫曉春.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)評論信息有用性預(yù)測模型研究[J].情報科學(xué),2019,37(12):34-39,77.
[3] 許彥.Python在財務(wù)數(shù)據(jù)挖掘和分析中的應(yīng)用[J].老字號品牌營銷,2020(11):45-46.
[4] 彭劉陽,孫元章,徐箭,廖思陽,楊麗.基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)不確定性經(jīng)濟(jì)調(diào)度[J].電力系統(tǒng)自動化,2020,44 (09):33-46.
[5] 姜疆.深度學(xué)習(xí):深度挖掘數(shù)據(jù)新經(jīng)濟(jì)[J].新經(jīng)濟(jì)導(dǎo)刊,2018(Z1):99-102.
[6] 孫美衛(wèi).一種基于機(jī)器學(xué)習(xí)的經(jīng)濟(jì)數(shù)據(jù)識別方法[J].佳木斯大學(xué)學(xué)報(自然科學(xué)版),2018,36(03):465-468.
(西華大學(xué) 電氣與電子信息學(xué)院,四川 成都 610039)