王 方
(重慶大學(xué) 體育學(xué)院,重慶 400044)
回顧歷史,不難發(fā)現(xiàn)各個國家奪得奧運獎牌的數(shù)目相去甚遠(yuǎn)。自1894年以來,美國共獲得1022枚金牌,2523枚獎牌,遙遙領(lǐng)先于其他國家。1984—2016年夏季奧運會各個參賽國家的總獎牌數(shù)分布情況:56%~68%的國家從來沒獲得過任何獎牌,18%~26%的國家僅獲得了1~5枚獎牌,獲得6~10枚、11~15枚、16~20枚和21~25枚獎牌的國家分別占3%~9%、1%~4%、1%~4%和0%~2%,獲得獎牌數(shù)目超過25枚的國家占4%~6%。在剛剛過去的里約奧運會上,獲得獎牌總數(shù)超過20枚的國家僅有11個,分別為美國(121)、中國(70)、英國(67)、俄羅斯(56)、德國(42)、法國(42)、日本(41)、澳大利亞(29)、意大利(28)、加拿大(22)、韓國(21),其中加拿大和韓國的獎牌總數(shù)未超過25枚,澳大利亞和意大利的獎牌總數(shù)在25~30枚之間,其余7個國家的獎牌總數(shù)都在40枚以上。這幾個國家的獎牌之和已經(jīng)超過了里約奧運會獎牌總數(shù)目974的55%,充分表現(xiàn)了獎牌數(shù)目分布的不均勻性。因此,大家不禁要問,一個國家的獎牌數(shù)目和哪些因素相關(guān)呢?進(jìn)一步地,如何預(yù)測2020年第32屆東京奧運會的各個國家的獎牌數(shù)目?
王國凡和唐學(xué)峰(2009)[1]對國內(nèi)外關(guān)于奧運會獎牌預(yù)測的文獻(xiàn)進(jìn)行了系統(tǒng)和詳細(xì)的綜述與分析,將奧運會成績的研究和預(yù)測方法分為時間序列模型[2,3]、基于社會學(xué)、經(jīng)濟(jì)學(xué)和地理學(xué)原理的經(jīng)驗?zāi)P蚚4-7]和神經(jīng)網(wǎng)絡(luò)模型。其中,基于社會學(xué)、經(jīng)濟(jì)學(xué)和地理學(xué)原理的經(jīng)驗?zāi)P妥钍芡瞥纭L貏e是2004年,Bernard和Busse(2004)[4]提出的柯布-道格拉斯生產(chǎn)函數(shù)受到廣泛關(guān)注和使用。該方法認(rèn)為一個國家獎牌數(shù)的分布依賴于以下社會和經(jīng)濟(jì)方面的因素:人口數(shù)量、人均GDP、東道主效應(yīng)等。本文采用的函數(shù)形式如下:
其中,Mi(t)表示國家i在t年奧運會上獲得獎牌數(shù)目與當(dāng)屆奧運會獎牌總數(shù)的比值。例如,t=2016年,國家i為美國的獎牌數(shù)目121,總獎牌數(shù)目為974,則對應(yīng)的M為121÷974=12.42%。Mi(t-4)表示4年前即上屆奧運會時對應(yīng)的比值。POP為當(dāng)屆奧運會參賽國家的總?cè)丝跀?shù)。PGDP為當(dāng)屆參賽國家的人均國內(nèi)生產(chǎn)總值。Home表示當(dāng)屆奧運會時,國家i是否為東道主:是東道主,則Home為1;否則為0。為該國家對應(yīng)的參數(shù),可以通過最小二乘法擬合得到。
當(dāng)然,獲得奧運會獎牌的影響因素是非常復(fù)雜的,有些學(xué)者[3,8]還選擇了其他可能的影響因素,例如:與東道主的空間距離、各個國家參賽的女性運動員的數(shù)目、各個國家的地理位置和生產(chǎn)要素等。有些研究[9,10]則采用結(jié)合上述柯布-道格拉斯生產(chǎn)函數(shù)和非線性綜合模型、智能化算法如模糊C均值聚類分析理論和基因算法等改進(jìn)預(yù)測精度。另外,張海波和趙煥成(2008)[9]則采用Poisson回歸的方法建立了奧運會主辦國金牌成績的預(yù)測模型,并根據(jù)中國軍團(tuán)2004年雅典奧運會的金牌成績預(yù)測了中國軍團(tuán)2008年北京奧運會的金牌成績。陳軍才等(2012)[10]根據(jù)歷屆奧運會金牌的數(shù)據(jù),選取有代表性的數(shù)據(jù),用回歸分析、平穩(wěn)序列模型進(jìn)行趨勢預(yù)測,對2012年倫敦奧運會中國隊金牌數(shù)和排名進(jìn)行了預(yù)測。
本文的目的是預(yù)測2020年東京奧運會上七個競技體育強國的獎牌情況。如果選擇更多影響因素進(jìn)行研究,則不僅需要搜集2016年以前的數(shù)據(jù),還需要預(yù)測這些影響因素未來的2016—2020年之間的數(shù)據(jù),所以選擇較簡單的公式(1)進(jìn)行研究和預(yù)測。預(yù)測模型即公式(1)采用Origin9.0工具擬合。
本文收集了1984年洛杉磯夏季奧運會至2016年里約夏季奧運會,以下七個競技體育強國:美國、中國、英國、俄羅斯、德國、法國、日本等的相關(guān)數(shù)據(jù)。其中獎牌數(shù)據(jù)來源于奧林匹克國際官方網(wǎng)站(https://www.olympic.org/)。聯(lián)合國貿(mào)易與發(fā)展組織UNCTAD數(shù)據(jù)庫(http://unctadstat.unctad.org/)可以查詢各個國家歷年(直至2050年)的人口數(shù)據(jù)。世界各個國家的人均國內(nèi)生產(chǎn)總值(PGDP)來自于UNCTAD數(shù)據(jù)庫、美國中央情報局的世界百科全書(http://data.worldbank.org/)和中華人民共和國統(tǒng)計局官方網(wǎng)站(http://www.stats.gov.cn/)等。本文采用的人均國內(nèi)生產(chǎn)總值是2005年不變價GDP,單位為美元。
由于所有數(shù)據(jù)庫都未提供2015年之后的GDP數(shù)據(jù),本文采用了神經(jīng)網(wǎng)絡(luò)方法對2015年之后的GDP數(shù)據(jù)進(jìn)行了預(yù)測。神經(jīng)網(wǎng)絡(luò)方法是一種具有高度靈活性的非線性擬合方法,理論上可以擬合任何函數(shù),并且達(dá)到非常高的擬合精度。神經(jīng)網(wǎng)絡(luò)函數(shù)有很多類型,本文采用前饋型神經(jīng)網(wǎng)絡(luò)。簡要地,以時間為輸入層,選擇一層隱藏層(隱藏層的神經(jīng)元數(shù)目可以調(diào)節(jié)),輸出層為各個國家的人均GDP,如下:
其中,J代表隱藏層的神經(jīng)元的個數(shù),與所研究的具體國家相關(guān);f代表隱藏層的轉(zhuǎn)換函數(shù),本文選用雙曲正切函數(shù),即f(x)=tanh(x)。其中的ω和b 為連接相應(yīng)層神經(jīng)元之間的參數(shù),通過非線性擬合得到。對任意國家的PGDP,擬合均方根誤差表示為:
神經(jīng)網(wǎng)絡(luò)的擬合過程就是不斷地優(yōu)化參數(shù)ω和b,使誤差RMSE減小到所需求的精度。使用方法為Levenberg-Marquardt算法,具有收斂速度快,執(zhí)行效率高,通用性好等特點。當(dāng)RMSE的下降速率小于給定的閾值,或者RMSE小于預(yù)先設(shè)定的標(biāo)準(zhǔn)時,神經(jīng)網(wǎng)絡(luò)函數(shù)就完成了一次擬合,即生成了一個神經(jīng)網(wǎng)絡(luò)模型。由于神經(jīng)網(wǎng)絡(luò)的擬合是一個尋找擬合誤差的局域最優(yōu)的過程,從不同的隨機值(即對參數(shù)ω和b隨機賦予初值)出發(fā),最后會得到不同的擬合模型。一般要進(jìn)行平行地多次擬合,最后取RMSE最小的一次或幾次擬合結(jié)果的平均值作為最終的模型。
為了避免出現(xiàn)過度擬合現(xiàn)象,將樣本分為訓(xùn)練集、測試集和驗證集,分別占90%、5%和5%。僅選擇那些三個集和的擬合精度接近的神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)擬合即公式(2)則采用Matlab中的神經(jīng)網(wǎng)絡(luò)工具包進(jìn)行非線性擬合。其他的數(shù)據(jù)統(tǒng)計和分析則通過Excel處理。
神經(jīng)網(wǎng)絡(luò)的輸入層為年份,輸出層為相應(yīng)年份的PGDP。確定好輸入與輸出后,Matlab中的神經(jīng)網(wǎng)絡(luò)工具包會對數(shù)據(jù)進(jìn)行預(yù)處理,以將其轉(zhuǎn)變?yōu)樯窠?jīng)網(wǎng)絡(luò)需要的標(biāo)準(zhǔn)化數(shù)據(jù),并隨機分配90%、5%和5%分別為訓(xùn)練集、測試集和驗證集。隱藏層選擇為1層,本文測試了不同神經(jīng)元數(shù)目(4、5和6)對擬合精度的影響。通過多次建模發(fā)現(xiàn),擬合一般在幾十步迭代后就達(dá)到收斂。
圖1比較了美國在1984—2014年間的實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值。經(jīng)過測試,最終選擇的隱藏層神經(jīng)元數(shù)目為5。擬合的均方根誤差為177美元,這相比于幾萬美元的人均GDP可以忽略。如圖1所示,擬合值與實際值符合得非常好。2015—2020年的人均GDP為預(yù)測值,即美國的人均GDP在未來幾年仍然會增長。預(yù)測的2016年的美國人均GDP為55655美元,與媒體近日的估測值接近。預(yù)測的2020年的美國人均GDP為58059美元。
相似地,圖2給出了中國1984—2014年間實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較。隱藏層神經(jīng)元數(shù)目為5,擬合的均方根誤差為55美元。如圖2所示,擬合值與實際值符合得非常好。2015—2020年的人均GDP為預(yù)測值,即中國的人均GDP在未來幾年仍然會增長,且保持較高速度增長。預(yù)測的2016年的中國人均GDP為8452美元,與媒體的估測值接近。預(yù)測的2020年的中國人均GDP為10204美元。
圖1美國實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
圖2中國實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
下頁圖3至圖7分別給出了英國、俄羅斯、德國、法國和日本的歷年的人均GDP和神經(jīng)網(wǎng)絡(luò)擬合值的比較。由于政治原因,俄羅斯僅有1992年后的人均GDP數(shù)據(jù),德國僅有1990后的人均GDP數(shù)據(jù)。美國和中國的人均GDP隨著年份增加而單調(diào)遞增,因此比較容易擬合和預(yù)測。而這5個國家的人均GDP都呈現(xiàn)出復(fù)雜的結(jié)構(gòu):隨著年份增加,呈現(xiàn)無規(guī)律的震蕩,這對于擬合是一個挑戰(zhàn)。經(jīng)過測試,所選擇的隱藏層的神經(jīng)元數(shù)目分別為5、5、5、3、5,擬合的均方根誤差分別為802、171、987、933、1942美元。對于法國人均GDP,采用了兩層隱藏層,每層神經(jīng)元數(shù)目為3。由于這些國家高度發(fā)達(dá),人均GDP較高,因此,如圖3至圖7所示,擬合值與實際值吻合,體現(xiàn)了神經(jīng)網(wǎng)絡(luò)方法的強大擬合和預(yù)測能力。
圖3 英國實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
圖4俄羅斯實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
圖5德國實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
圖6法國實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
圖7日本實際人均GDP與神經(jīng)網(wǎng)絡(luò)擬合值的比較
根據(jù)上述分析,利用1984—2016年間的相應(yīng)數(shù)據(jù),可以根據(jù)公式(1)對這7個競技體育強國進(jìn)行回歸分析,結(jié)果見表1。其中MAE指平均誤差,RMSE為均方根誤差。根據(jù)表1的結(jié)果,以及預(yù)測的2020年的人均GDP和人口數(shù)據(jù),可對2020年各個國家的獎牌數(shù)進(jìn)行預(yù)測,見表1最后一列。預(yù)計2020年東京奧運會上,美國將獲得111枚獎牌,比里約奧運會有所減少。一方面是由于4年后俄羅斯田徑項目的回歸,另一方面是由于主辦地在東京城市,遠(yuǎn)離美國。中國將獲得81枚獎牌,比2016年里約奧運會有所增加。這是由于今年羽毛球等傳統(tǒng)強項失利,而且主辦地在南美洲,造成了球員的不適應(yīng)性。另外,東京在地理位置上非常接近中國,因此氣候上的區(qū)別也可以忽略不計。日本將獲得45枚獎牌,與2016年基本持平。這是由于歷史上巴西有非常多的日本移民,使得日本在今年奧運會上獲得了突破性的獎牌數(shù)目,預(yù)計2020年東京奧運會上東道主效應(yīng)與2016年持平,還有部分獎牌被亞洲和歐洲的體育強國奪走。預(yù)測由于俄羅斯田徑等項目的強勢回歸,將獲得68枚獎牌。預(yù)測英國、德國、法國將分別獲得73、37和40枚獎牌。
表1 1984—2016年間歷屆奧運會獎牌回歸統(tǒng)計及2020年獎牌數(shù)目預(yù)測
如前所述,神經(jīng)網(wǎng)絡(luò)方法對于各個國家人均GDP具有強大的擬合能力,能夠非常好地重現(xiàn)GDP隨時間震蕩的情況。所以,神經(jīng)網(wǎng)絡(luò)方法可以被廣泛應(yīng)用于體育研究的許多方面。預(yù)測的2020年的人均GDP數(shù)值非常準(zhǔn)確,保證了后續(xù)對獎牌數(shù)預(yù)測的準(zhǔn)確性。本文預(yù)測的人均GDP也為今后的其它研究提供了可靠的數(shù)據(jù)來源。
在獎牌預(yù)測方面,本文采用了線性回歸的方法。這是由于樣本量非常少,僅有1984—2016年共9屆奧運會的數(shù)據(jù),而神經(jīng)網(wǎng)絡(luò)方法一般對較大樣本的問題具有更好的擬合和預(yù)測能力。另外,由于數(shù)據(jù)來源受限等問題,本文選擇的影響因素較少,使得預(yù)測模型不夠準(zhǔn)確。相信隨著樣本數(shù)目的增加以及有更多可靠的數(shù)據(jù)來源,未來對于奧運會獎牌成績的預(yù)測將會更加準(zhǔn)確。
另外,預(yù)測模型是一種數(shù)學(xué)工具,它可以根據(jù)過去的表現(xiàn)與可能的影響因素,對未來的表現(xiàn)進(jìn)行不含感情因素的預(yù)測。由于其影響因素復(fù)雜,且經(jīng)常伴有突發(fā)事件,因此難以準(zhǔn)確和定量的預(yù)測。2016年奧運會上,中國代表團(tuán)的諸多傳統(tǒng)強項如羽毛球失利。但是,也要看到如林丹老去、女單青黃不接、游泳冠軍寧澤濤的離隊等問題將嚴(yán)重影響四年之后的奧運會獎牌榜。因此,應(yīng)當(dāng)做好萬全準(zhǔn)備,積極迎接2020開在我們海上鄰國的東京奧運會。
本文采用神經(jīng)網(wǎng)絡(luò)非線性方法擬合得到了2015年后的人均GDP數(shù)據(jù),然后根據(jù)Bernard和Busse提出的柯布-道格拉斯生產(chǎn)函數(shù)對7個體育強國在2020年東京奧運會可能獲得的獎牌數(shù)目進(jìn)行了首次預(yù)測,并進(jìn)行了分析探討。神經(jīng)網(wǎng)絡(luò)方法的強大擬合和預(yù)測能力使得擬合精度非常高,擬合很好地重現(xiàn)了實際值,特別是當(dāng)實際值呈現(xiàn)無規(guī)律震蕩情況時。神經(jīng)網(wǎng)絡(luò)方法快速、有效、精確。應(yīng)當(dāng)注意,影響GDP和奧運會成績的影響因素非常復(fù)雜,任何模型都有其局限性。