馬國全,楊建文,張虎祥,田 宇
(蘭州理工大學(xué) 體育教學(xué)研究部,蘭州 730050)
?
大數(shù)據(jù)在體育科學(xué)中的應(yīng)用及思考
馬國全,楊建文,張虎祥,田 宇
(蘭州理工大學(xué) 體育教學(xué)研究部,蘭州 730050)
近年來,大數(shù)據(jù)成為經(jīng)濟界、政府以及學(xué)術(shù)界熱議的話題和研究熱點。目前大數(shù)據(jù)在體育領(lǐng)域的研究處于起步階段。采用文獻研究、案例分析等研究方法,首先闡述大數(shù)據(jù)科學(xué)理念的緣起及本質(zhì)特征,然后探討大數(shù)據(jù)在體育科學(xué)中反興奮劑、科學(xué)選材、賽績提升等方面的具體應(yīng)用實踐,分析和思考大數(shù)據(jù)在體育科學(xué)應(yīng)用中面臨的問題與挑戰(zhàn)。
大數(shù)據(jù);反興奮劑;科學(xué)選材;賽績提升
近年來,大數(shù)據(jù)引起了經(jīng)濟界、政府部門以及學(xué)術(shù)界人士的廣泛關(guān)注[1],大數(shù)據(jù)不僅在信息產(chǎn)業(yè)領(lǐng)域得到成功應(yīng)用,也日漸滲透于教育、醫(yī)療、商務(wù)、傳媒等各個領(lǐng)域,體育科學(xué)也不例外。筆者查閱文獻發(fā)現(xiàn),國內(nèi)外的研究大都側(cè)重于大數(shù)據(jù)的技術(shù)層面,針對體育科學(xué)具體應(yīng)用的文獻非常少。本文擬從厘清大數(shù)據(jù)的概念入手,繼而重點探討大數(shù)據(jù)在體育科學(xué)中的具體應(yīng)用及作為,并對大數(shù)據(jù)技術(shù)在體育科學(xué)應(yīng)用中存在的問題與挑戰(zhàn)進行初步分析和思考。
科技的發(fā)展,使得人、機、物三元世界高度融合,帶來了數(shù)據(jù)規(guī)模的爆炸式增長,世界已進入大數(shù)據(jù)時代[1-2]。現(xiàn)代科學(xué)研究面臨的一個巨大挑戰(zhàn)就是如何處理與日俱增的海量數(shù)據(jù)。近幾年,《Science》和《Nature》等國際頂級學(xué)術(shù)刊物相繼出版??接懘髷?shù)據(jù)的理論與實踐。2008年9月,《Nature》專門就此問題以特刊、社論及評議等文章形式進行了討論[3-5]。2011年,《Science》亦推出關(guān)于數(shù)據(jù)處理的專刊《Dealing with data》[6],討論了大數(shù)據(jù)對當前社會帶來的挑戰(zhàn)。美國政府認為大數(shù)據(jù)是“未來的新石油”,并于2012年3月宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”(Big Data Research and Development Initiative),至此將對大數(shù)據(jù)的研究上升為國家意志??梢钥闯龃髷?shù)據(jù)將對未來的科技、經(jīng)濟、生活及文化等諸多方面的發(fā)展帶來深遠的影響。
在我國,大數(shù)據(jù)的研究與應(yīng)用也得到高度重視。為了在大數(shù)據(jù)時代搶得先機,使科技、經(jīng)濟立于不敗之地[7],中國計算機學(xué)會于2012年6月成立了“大數(shù)據(jù)專家委員會”。 2013年12月,中國計算機學(xué)會大數(shù)據(jù)專家委會發(fā)布了《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2013)》,在一定程度上反映了我國大數(shù)據(jù)學(xué)術(shù)界和產(chǎn)業(yè)界的共識。目前,大數(shù)據(jù)正處于方興未艾、眾說紛紜的時刻,學(xué)術(shù)界對“大數(shù)據(jù)”這一新興的科學(xué)概念還沒有明確的定義。中國科學(xué)院李國杰院士認為[1,8]:一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合(定義1)。
世界著名咨詢機構(gòu)麥肯錫公司于2011年5月發(fā)布《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的技術(shù)報告,報告認為[9]:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集(定義2)。
定義1和定義2所處的角度有所不同,定義1主要立足于信息科學(xué),強調(diào)傳統(tǒng)軟硬件無法輕易處理的數(shù)據(jù)便為大數(shù)據(jù);定義2的視角則更加寬泛,凡是原有“典型的”數(shù)據(jù)處理模式無法勝任的數(shù)據(jù)集合都可以稱為“大數(shù)據(jù)”。
國際數(shù)據(jù)公司(IDC)站在信息科學(xué)的角度,將大數(shù)據(jù)的特征歸納為4 個V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)[10]。相比而言,被譽為“大數(shù)據(jù)時代預(yù)言家”的牛津大學(xué)教授舍恩伯格(Schonberger)等[11]則以不同的全局視野,歸納出大數(shù)據(jù)的三大特征,筆者認為其更符合體育科學(xué)領(lǐng)域的應(yīng)用范圍,即全體性、相關(guān)性和混雜性。這些特征也更切合麥肯錫所給出的大數(shù)據(jù)定義。
(1)全體性,即大數(shù)據(jù)旨在收集和分析與某事物相關(guān)的“所有”數(shù)據(jù),而非分析少量的抽樣數(shù)據(jù)。傳統(tǒng)的小數(shù)據(jù)時代的隨機采樣,其核心是以最少的數(shù)據(jù)(抽樣)推斷出最多的信息。小數(shù)據(jù)時代的成功主要依賴于采樣的絕對隨機性,其精確性也隨著采樣隨機性的增加而大幅提升。然而實現(xiàn)采樣分析的絕對隨機性是非常困難的,一旦采樣過程中存在有偏性(biased sampling),或者說存有偏見,那么分析得出的結(jié)果就可能大相徑庭。
(2)相關(guān)性,指兩個或兩個以上變量的取值之間存在某種規(guī)律性。在大數(shù)據(jù)時代,我們的研究思維要發(fā)生重要轉(zhuǎn)變,即大數(shù)據(jù)鼓勵我們更多地關(guān)注事物間的相關(guān)性(correlation),而非緊盯事物之間的因果關(guān)系(causal relation)。也就是說,在大數(shù)據(jù)時代,很多情況下,弄清楚“是什么(what)”比致力于找尋“為什么(why)”更為重要。
(3)混雜性,即大數(shù)據(jù)可接受數(shù)據(jù)的紛繁復(fù)雜,而不再單一地追求精確性。在小數(shù)據(jù)時代,人們總試圖收集一些非常干凈的、高質(zhì)量的數(shù)據(jù)。在數(shù)據(jù)采集時,由于噪音數(shù)據(jù)(noisy data)的存在,導(dǎo)致數(shù)據(jù)存在混雜性通常是不可避免的。如果這些噪音數(shù)據(jù)是偶然的,那么它會被更多的正確的大數(shù)據(jù)淹沒掉,達到“瑕不掩瑜”的效果;如果噪音數(shù)據(jù)存在規(guī)律性,足夠的大數(shù)據(jù)分析則可協(xié)助我們發(fā)現(xiàn)這個規(guī)律,從而進一步地把系統(tǒng)性的噪音數(shù)據(jù)過濾掉。因此,在大數(shù)據(jù)時代,容許人們不必追求嚴格的精確性,可傾向于滿足某種大方向的結(jié)論,而不是迷失于現(xiàn)象的點滴細節(jié)。這樣,適當忽略微觀層面上的精確度,可讓我們在宏觀層面擁有更好的洞察力。
目前,大數(shù)據(jù)應(yīng)用面臨著許多挑戰(zhàn),其研究尚處于初級階段,仍需挑戰(zhàn)更多的研究領(lǐng)域以解決數(shù)據(jù)儲存、數(shù)據(jù)挖掘及數(shù)據(jù)分析效率等方面的問題[12]。盡管大數(shù)據(jù)已成為信息產(chǎn)業(yè)炙手可熱的流行詞匯,在中國也已經(jīng)被上升至國家信息產(chǎn)業(yè)戰(zhàn)略層面,但大數(shù)據(jù)的實際應(yīng)用才剛剛開始,還沒有大量的實際應(yīng)用成果出現(xiàn)在現(xiàn)實生活中[13],在體育科學(xué)中亦如此。下面針對大數(shù)據(jù)的三個特性(全體性、相關(guān)性和混雜性),筆者將分別對大數(shù)據(jù)在反興奮劑、科學(xué)選材和賽績提升三個方面的應(yīng)用實踐實施案例進行分析,以拓展大數(shù)據(jù)在體育科學(xué)中的創(chuàng)新應(yīng)用。
2.1 大數(shù)據(jù)在反興奮劑中的應(yīng)用
2012年7月28日,我國游泳運動員葉詩文以4 min28 s43的成績奪得倫敦奧運會混合泳400 m的金牌,并打破了該項目的世界記錄。然而西方媒體甚至學(xué)術(shù)期刊卻紛紛發(fā)文質(zhì)疑葉詩文成績的有效性[14-16]。例如,2012年8月1日,世界頂級學(xué)術(shù)刊物《Nature》對此議題亦發(fā)表自己的看法。Ewen Callaway在《Nature》官方網(wǎng)站撰文《超凡奧運成績?yōu)楹螘l(fā)質(zhì)疑》[15],文中配發(fā)葉詩文奧運泳池比賽的照片,暗示葉詩文成績是“異常的(anomalous)”。該文刊出后,在世界范圍內(nèi)引起廣泛爭議。
該文[15]對葉詩文成績的有效性提出兩點質(zhì)疑:①葉詩文在混合泳400 m的最后50 m的成績(28.93 s)甚至比美國運動員羅徹特(Ryan Lochte)的男子400 m混合泳的最后50 m成績(29.10 s)還要快很多,這不符合常理。②葉詩文前后兩次大賽(即2011年游泳世錦賽和2012奧運會)的成績在短時間內(nèi)提升太快,居然獲得近7 s的成績提升,這也是不正常的。
如前文描述,在大數(shù)據(jù)時代,我們需要分析更多的數(shù)據(jù),有時甚至需要與某個現(xiàn)象相關(guān)的全部數(shù)據(jù),而不是依賴于數(shù)據(jù)的隨機采樣。事實上,該文所謂的“正?!睌?shù)據(jù)僅為除葉詩文之外的2012年倫敦奧運會男、女子400 m混合泳決賽的運動員,樣本總數(shù)也僅為15個[17],如此小的數(shù)據(jù)集合,難免是有偏的,而有偏的數(shù)據(jù)推出的結(jié)論也勢必存在誤導(dǎo)性。
其實,即使僅僅看混合泳最后50 m的沖刺表現(xiàn),也早有女子超過男子的案例。例如,2011年在上海舉行的上海游泳世錦賽800 m自由泳的比賽中,來自英國的女子運動員瑞貝卡·阿德靈頓(Rebecca Adlington)最后50 m的28 s91的成績,不僅超過葉詩文最后50 m的表現(xiàn)(28 s93),而且也超過羅徹特的表現(xiàn)(29 s10)。
相比而言,美國堪薩斯大學(xué)信息與通信技術(shù)中心Huan等[18]收集了2007—2012年游泳運動員的所有數(shù)據(jù)。在他們的大數(shù)據(jù)集里,包括超過2 600名運動員、500場不同的賽事、40 000個運動員不同賽段的成績數(shù)據(jù)。他們的研究表明,葉詩文倫敦奧運成績的提升在大數(shù)據(jù)視野下屬于正常,Callaway等人對葉詩文的評判有偏見之嫌。表1所示是的以12個月為時間窗口,400 m混合泳成績提升前32名的運動員。由表1可見,在一年內(nèi),成績提升排名第一的愛爾蘭女子運動員Grainne Murphy在成績上提升了19.97 s,哈薩克斯坦男子運動員Dmitriy Gordiyenko成績提升了14.13 s,澳大利亞女子運動員Stephanie Rice成績提升12.14 s,而葉詩文的成績提升(6.72 s)僅位列第16位。倘若將時間窗口拉長至24個月,Grainne Murphy成績提升了21.37 s,Dmitriy Gordiyenko成績提升了16.31 s,匈牙利女子運動員Katinka Hosszu成績提升15.88 s,葉詩文的成績提升(6.72 s)位列第19位。由此可見,在類似時間段內(nèi)成績提升較快的案例在年輕游泳運動員身上存在普遍性,葉詩文的成績提升不存在所謂的“異常”。
由以上案例分析可知,大數(shù)據(jù)會弱化抽樣的有偏性,能帶來更為正確的大視野,從而避免“小數(shù)據(jù)”的有偏性帶來的誤導(dǎo)性。因此,有理由相信,隨著大數(shù)據(jù)技術(shù)的日臻成熟,在未來反興奮劑斗爭中,大數(shù)據(jù)必將扮演重要角色。
2.2 大數(shù)據(jù)在科學(xué)選材中的應(yīng)用
運動員科學(xué)選材是體育強國獲得優(yōu)異成績的重要戰(zhàn)略保障,特別是在當前經(jīng)濟、科技高度發(fā)展,體育強國之間的運動水平日益接近,訓(xùn)練手段和方法、訓(xùn)練條件的差異逐漸縮小的背景下[19]。此外,競技體育競爭日益激烈的發(fā)展趨勢和成才率相對低下的客觀事實,使得科學(xué)地實施運動員選材的重要性更加突顯[20]?!斑x材的成功意味著訓(xùn)練成功的一半”?!哆\動員科學(xué)選材》將科學(xué)選材定義為:科學(xué)選材是根據(jù)不同運動項目的特點和要求,用現(xiàn)代科學(xué)的手段和方法,通過客觀指標的測試,全面綜合評價和預(yù)測,把先天條件優(yōu)越、適合從事某項運動的人才從小選拔出來,進行系統(tǒng)培養(yǎng),并且不斷地監(jiān)測其發(fā)展趨勢的一個過程[21]。
傳統(tǒng)意義上的運動員選材,多是依據(jù)運動員的靜態(tài)數(shù)據(jù)來選取“未來可用”之才,但是對于已成年且成熟的球員,傳統(tǒng)的選材方式就顯得“鞭長莫及”。譬如,目前一名優(yōu)秀運動員的轉(zhuǎn)會身價可能動輒幾百萬乃至幾千萬美元。在此背景下,為確保自己的球隊(運動隊)獲勝,一個教練或一個運動隊的管理層必須考慮的問題是,如何在有限的預(yù)算下選取最有(潛在)價值的球員,這對俱樂部來說至關(guān)重要。隨著信息技術(shù)的快速發(fā)展,基于大數(shù)據(jù)分析的運動員選材,就可成為傳統(tǒng)選材方式的有益補充。下面以棒球為例加以說明。
一直以來,棒球教練們選擇球員的慣例是依據(jù)球員的“擊球率”(Batting Average, AVG),其值等于安打數(shù)/打數(shù)。擊球率代表一位打者能擊出安打的機率,高者判定為該球員有潛力。邁克爾·劉易斯(Michael Lewis)在其著作《Moneyball: The Art of Winning an Unfair Game》中描述了一個真實的案例:美國職業(yè)棒球隊大聯(lián)盟奧克蘭“運動家球隊”的總經(jīng)理比利·比恩(Billy Beane)依據(jù)其獨特的運動員選材方式,以最經(jīng)濟的成本帶領(lǐng)自己的球隊贏得多次比賽[22]。
比利·比恩另辟新徑,采用“上壘率”(On-Base Percentage, OBP)來挑選球員,上壘率=(安打+四壞保送+觸身球)/(打數(shù)+四壞保送+觸身球+高飛犧牲打),它代表一個球員能夠上壘而不是出局的能力。這樣挑選球員的策略并非比恩憑空而來,而是十余年來他對數(shù)千場球賽的大數(shù)據(jù)分析的結(jié)果。他用統(tǒng)計學(xué)方法把人的因素及運氣成分剝離,將棒球場上每一個區(qū)塊用坐標表示,把每一球擊出去的力道、角度與落點加以分類,考慮每一球形成“安打”的概率后,換算成實際得分的預(yù)期值(expectation),進而套入每個選手實際比賽的歷史數(shù)據(jù),去換算成每位選手實際上所貢獻的得分值[23],該比分值最終可用贏球概率P(win)來表示,如表2所示。表2統(tǒng)計了1999—2004年美國棒球比賽數(shù)據(jù),對賽場上能對賽事結(jié)果產(chǎn)生重要影響的幾種典型的行為(如保送球、觸身球、一壘安打等)進行了一系列條件概率估算,得出各種賽場行為的贏球概率P(win)值。
由表2可見,四壞保送+觸身球的獲勝概率之和達到5.65%,其值已大于一壘安打(4.18%)的貢獻率了,因此教練值得重視。但是它們對整個比賽的全局影響看起來遠沒有打擊率直觀。通過精細的數(shù)學(xué)模型分析,比恩發(fā)現(xiàn)高“上壘率”與比賽的勝負有某種關(guān)聯(lián)(correlation),據(jù)此他提出了自己的獨到見解,即一個球員怎樣上壘并不重要,不管他是地滾球還是三跑壘,只要結(jié)果是上壘就夠了。雖然偷壘會讓棒球比賽看起來更精彩,但對比賽的結(jié)果卻沒有太大影響,教練不應(yīng)太多關(guān)注這類華而不實的技能,贏得比賽最為重要。在廣泛的批評和質(zhì)疑聲中,比恩通過自己的大數(shù)據(jù)分析,創(chuàng)立了“賽伯計量學(xué)”(Sabermerrics)[11]。據(jù)此理論,比恩依據(jù)“高上壘率”選取了自己所需的球員,帶領(lǐng)自己的球隊在2002年的美國聯(lián)盟西部賽事中奪得冠軍,并取得了20場連勝的戰(zhàn)績。
從比恩對棒球運動員的選材可以看出,基于證據(jù)(Evidence-Based)的決策比基于經(jīng)驗(Experience-based)的慣性思維來得更加理性且更加有效[24]。體育教練或上層管理者應(yīng)從依靠自身經(jīng)驗做判斷過渡到依靠數(shù)據(jù)做決策,這一重要轉(zhuǎn)變是體育大數(shù)據(jù)做出的最大貢獻之一。如前文所述,大數(shù)據(jù)更看重事物間的相關(guān)性,而其背后的因果關(guān)系則容許在后期進行研究。通過大數(shù)據(jù)分析,比恩發(fā)現(xiàn)了“上壘率”與賽事的勝負存在關(guān)聯(lián),因此在運動員選材上,他并沒有拘泥于其背后的因果關(guān)系。也就是說,大數(shù)據(jù)強調(diào)的是“是什么”,而非“為什么”,前者表明客觀事實才是我們生活、思維的基礎(chǔ),這一思維的轉(zhuǎn)變,是大數(shù)據(jù)的重要精髓之一。
顯然,依據(jù)大數(shù)據(jù)技術(shù)實施運動員科學(xué)選材,大大拓展了體育選材的視野,提升了選材的可靠性,為教練員評估運動員的當前性能和未來潛能提供了另外一種強有力的策略。
表2 部分賽場行為的棒球取勝概率
注:表2中出現(xiàn)的負值概率,是指出現(xiàn)了某項賽場行為導(dǎo)致比賽失敗的概率,即P(win)的相反面。數(shù)據(jù)來源:Stats Inc。
2.3 大數(shù)據(jù)在賽績提升中的應(yīng)用
對于精英運動員來說,他們的賽場性能基本達到了其收益遞減(diminishing return)的臨界點,即提高運動員的賽場表現(xiàn)已經(jīng)非常困難,再進一步地增大訓(xùn)練負荷可能適得其反。因此,對于運動員或教練員來說,安排合理的比賽戰(zhàn)術(shù)顯得非常重要。但是,這種情況下,不能單憑運動員或教練員自己的感覺和經(jīng)驗來說話,來自體育大數(shù)據(jù)的深度挖掘與分析,并以分析結(jié)果作為競技賽場上的戰(zhàn)術(shù)指導(dǎo)依據(jù),已逐漸成為未來體育賽事競爭的趨勢所在。下面以網(wǎng)球為例加以論述。
判斷運動員競技水平高低的一個重要標準就是看他/她能否成功地贏得比賽。但是一場比賽的影響因素很多,譬如在網(wǎng)球比賽中有雙誤、ACE球、一發(fā)成功率、挽救破發(fā)點、接發(fā)球得分率及成功破發(fā)率等12項技術(shù)指標。有關(guān)網(wǎng)球致勝的技術(shù)因素,很多研究人員從不同的角度出發(fā)進行了研討,呈現(xiàn)出不同的結(jié)論。有的研究者認為是失誤率低,有的研究者認為發(fā)球成功率高,還有研究者認為是接發(fā)球能力強,甚至還有研究人員認為一個回合中ACE個數(shù)是取勝的關(guān)鍵。在眾多“混雜”因素中,如何抓住主要獲勝因素至關(guān)重要。
自2005年以來,IBM通過Slam Tracker應(yīng)用軟件追蹤了網(wǎng)球四大滿貫賽事的8 000多場比賽,每場比賽收集了4 100萬個數(shù)據(jù)點,包括5 500多個分析模型。在 IBM 的 Slam Tracker 中,大數(shù)據(jù)分析的精華主要體現(xiàn)在“制勝關(guān)鍵指標”(Keys to the Match)里,它在每場比賽中為對陣雙方的選手找到了三個獲勝的關(guān)鍵指標,且為每一個指標設(shè)定一個量化達標線。
澳大利亞網(wǎng)球教練、體育大數(shù)據(jù)專家Craig O’Shannessy認為[25],在競技賽場上,一個教練不僅要有專業(yè)的技能,還要有賽場數(shù)據(jù)的統(tǒng)計分析能力,讓大數(shù)據(jù)發(fā)出自己的聲音,才能安排更合理的比賽戰(zhàn)術(shù),最終贏得比賽。
譬如,莎拉波娃(Maria Sharapova)和小威廉姆斯(Serena Williams)在網(wǎng)球賽場上是宿敵。莎拉波娃對陣小威廉姆斯常是輸多贏少,如何擊敗小威廉姆斯,對于莎拉波娃和她的教練來說是個難題。對此,O’Shannessy使用IBM的數(shù)據(jù)分析軟件,對數(shù)以千計的網(wǎng)球比賽的各項數(shù)據(jù)實施了深度分析,發(fā)現(xiàn)了影響比賽成敗的關(guān)鍵因素所在,而且找到了真正有效并且非常重要的比賽模式和指標?;趯π⊥匪官悎龅拇髷?shù)據(jù)分析,O’Shannessy對莎拉波娃提出了自己獨到的建議[26]:
(1)在小威廉姆斯的發(fā)球局中,在右側(cè)平分區(qū)發(fā)球時,她的一發(fā)幾乎全部發(fā)向外角,即莎拉波娃的正手;而二發(fā)則更多地發(fā)向場地中間的T點,也就是莎拉波娃的反手。據(jù)此,O’Shannessy給出建議,莎拉波娃可調(diào)整自己在接發(fā)球的站位,來獲得更佳的接發(fā)球效果。
(2)在雙方的多拍回合中,莎拉波娃認為自己的大角度進攻容易得分;而數(shù)據(jù)顯示的恰恰相反,莎拉波娃因此失分更多。其原因是小威廉姆斯不僅能及時趕到,而且在擊球角度上有更多的選擇。據(jù)此,O’Shannessy建議,莎拉波娃應(yīng)該放棄“自以為是”的戰(zhàn)術(shù),如果能夠讓小威廉姆斯在跑動中停下腳步、再次啟動并重新組織擊球線路,這樣莎拉波娃就會有更多的機會。
一些有意義的結(jié)論并不是常規(guī)方法分析能夠顯現(xiàn)的,而通過賽場大數(shù)據(jù)的分析,才可發(fā)現(xiàn)包括網(wǎng)球在內(nèi)的很多競技運動,不是簡單的移動和對策。大數(shù)據(jù)分析的介入,讓運動員和教練們可以從另一個維度解析他們所從事的運動,從而獲得有見地的洞察,而這些洞察有助于運動員和教練制定有針對性的訓(xùn)練計劃,調(diào)整比賽策略。由此可預(yù)見,大數(shù)據(jù)技術(shù)在未來日趨激烈的比賽中,將發(fā)揮越來越大的作用。
大數(shù)據(jù)在體育科學(xué)中的應(yīng)用與發(fā)展越來越廣泛,譬如,大數(shù)據(jù)在體育產(chǎn)業(yè)、體育傳播等相關(guān)領(lǐng)域均有廣泛的應(yīng)用前景[12,27]。正如Google的首席經(jīng)濟學(xué)家Hal Varian所指出的[28],數(shù)據(jù)是廣泛可用的,而我們所缺乏的就是從中提取出有用知識的能力。正是由于大數(shù)據(jù)的廣泛存在,才使得大數(shù)據(jù)問題的解決很具挑戰(zhàn)性。而它的廣泛應(yīng)用則促使越來越多的研究人員開始關(guān)注和研究大數(shù)據(jù)問題。
隨著大數(shù)據(jù)時代的到來,包括體育科學(xué)在內(nèi)的各個領(lǐng)域,都需要同步“革新”我們的基本生活、工作和思維方式[11]。目前,越來越多的行業(yè)、領(lǐng)域已開始在數(shù)據(jù)爆炸性增長的時代尋找機遇。為了能讓體育科學(xué)在大數(shù)據(jù)時代煥發(fā)新的生機、爭得一席之地,如下幾個方面值得思考:
(1)體育科學(xué)研究的思維范式需要發(fā)生根本性變革。在大數(shù)據(jù)時代,大數(shù)據(jù)所代表的不僅是一種技術(shù)手段的創(chuàng)新,同時也意味著所有人的思維方式都將發(fā)生巨大變革。而在體育科學(xué)中,長期以來,基于“小數(shù)據(jù)”的隨機樣本、精確性、因果關(guān)系等已成為一種極為普遍的思維范式。基本上,幾乎所有的探索與研究都是為了解答一個問題——“為什么?”,而這恰恰與“大數(shù)據(jù)思維”截然相反。正如舍恩伯格等[11]所強調(diào)的,目前最重要的是人們可在很大程度上從對因果關(guān)系的追求中解脫出來,轉(zhuǎn)而將關(guān)注力放在相關(guān)關(guān)系的發(fā)現(xiàn)和應(yīng)用上。
(2)目前體育科學(xué)領(lǐng)域中數(shù)據(jù)的“流動性”和“可獲取性”亟需改進。當前大數(shù)據(jù)發(fā)展的最大障礙在于數(shù)據(jù)的“流動性”和“可獲取性”[29]。早在2009年,美國政府就創(chuàng)建了專門的數(shù)據(jù)獲取網(wǎng)站(http://www.data.gov),公眾能夠通過這個網(wǎng)站獲得各種包括體育在內(nèi)的政府數(shù)據(jù)。IBM很早亦確立了其體育大數(shù)據(jù)的發(fā)展方向。早在2000年悉尼奧運會上,IBM已幫助搭建了奧運會所需的賽事IT系統(tǒng),并從此開始了體育賽事的大數(shù)據(jù)挖掘[30]。開放的、流通的數(shù)據(jù)是時代趨勢的要求,我國要趕上這樣一場大數(shù)據(jù)變革,首先體育管理機構(gòu)應(yīng)公開各項數(shù)據(jù),其次是相關(guān)的體育俱樂部等體育企業(yè),最后是運動員和教練員等以自愿的原則公開個人性能數(shù)據(jù)。
(3)與體育相關(guān)的大數(shù)據(jù)收集和提取的合法性需要得到保障。體育運動的主體是人,而與人相關(guān)的數(shù)據(jù)勢必涉及個人隱私及各種行為細節(jié)的記錄。因此,我們需要在數(shù)據(jù)隱私保護和數(shù)據(jù)隱私應(yīng)用之間進行權(quán)衡。任何體育俱樂部或體育管理部門從運動員群體中提取私人數(shù)據(jù),運動員都應(yīng)有必要的知情權(quán),將運動員的隱私數(shù)據(jù)用于商業(yè)開發(fā)時,都需要得到運動員的認可。數(shù)據(jù)源頭的采集受限可能會大大限制大數(shù)據(jù)的商業(yè)應(yīng)用與開發(fā)[31]。因此,如何做到既深入挖掘大數(shù)據(jù)給體育科學(xué)帶來利益的智慧部分,又充分保護運動員隱私不被濫用,在大數(shù)據(jù)的利用中找到運動員信息開放和保護的平衡點,是體育大數(shù)據(jù)提出的又一巨大難題。
(4)體育大數(shù)據(jù)結(jié)論的解讀和應(yīng)用有待加強。體育大數(shù)據(jù)可從某些賽事數(shù)據(jù)分析上揭示各個變量(如棒球運動員的上壘率、長打率、獲勝率等)之間可能的關(guān)聯(lián)。但是,數(shù)據(jù)層面上的關(guān)聯(lián)如何具體應(yīng)用到體育科學(xué)實踐中?如何制定可執(zhí)行方案從而合理應(yīng)用體育大數(shù)據(jù)的結(jié)論?這些問題要求執(zhí)行者(如教練、體育管理部門等)不但能夠解讀大數(shù)據(jù),同時還需深諳體育發(fā)展各個要素之間的關(guān)聯(lián)。這一環(huán)節(jié)基于大數(shù)據(jù)技術(shù)的發(fā)展又涉及到管理和執(zhí)行等各方面因素。
(5)體育大數(shù)據(jù)人才缺乏的現(xiàn)狀亟待改變。人的因素是體育大數(shù)據(jù)戰(zhàn)略的制勝關(guān)鍵。從技術(shù)角度,執(zhí)行人需要理解大數(shù)據(jù)技術(shù),能夠解讀大數(shù)據(jù)分析的結(jié)論;從管理的角度,執(zhí)行人需要制定出可執(zhí)行的解決問題的方案,并且確保在利用體育大數(shù)據(jù)解決問題的同時,沒有制造出新的問題。這些需求,要求執(zhí)行人掌握體育科學(xué)的大數(shù)據(jù)技術(shù),有系統(tǒng)論的思維,能夠從復(fù)雜系統(tǒng)的角度關(guān)聯(lián)地看待大數(shù)據(jù)與體育行業(yè)的關(guān)系。此類人才的稀缺性將制約體育大數(shù)據(jù)的發(fā)展,故此迫切需要培養(yǎng)善用大數(shù)據(jù)的人才。
大數(shù)據(jù)時代已經(jīng)到來,世界各國將在這一新的科學(xué)領(lǐng)域展開新一輪的競爭。“大數(shù)據(jù)”雖然已成為包括體育科學(xué)在內(nèi)的眾多研究領(lǐng)域的熱點議題,但目前對大數(shù)據(jù)的研究仍處于起步階段,還有很多基礎(chǔ)性的問題有待解決,如大數(shù)據(jù)的科學(xué)定義、大數(shù)據(jù)的形式化表述、大數(shù)據(jù)的結(jié)構(gòu)模型等[12]。
在目前條件下,中國開展體育大數(shù)據(jù)研究與應(yīng)用是有困難的,最需迫切解決的就是賽務(wù)、紀錄等信息系統(tǒng)均未完全建立,導(dǎo)致歷史數(shù)據(jù)要么丟棄,要么難以公開獲取。數(shù)據(jù)量不足、數(shù)據(jù)難以獲取,致使從這些數(shù)據(jù)中獲取有意義的信息難度很大。譬如,運動員選材,即使教練員有再好的經(jīng)驗和分析策略,但倘若沒有數(shù)據(jù)作為支撐,也難免會陷于“巧婦難為無米之炊”的困境。一個新生事物的出現(xiàn)必將導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命,要解決體育科學(xué)中各類大數(shù)據(jù)問題仍有很長的路要走。
[1] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.
[2] LOHR S.The Age of Big Data[N].New York Times,2012-02-12(Sunday Review).
[3] LYNCH C. Big data: How do your data grow[J].Nature,2008,455(7209):28-29.
[4] HOWE D,COSTANZO M, FEY P,et al. Big data: The future of biocuration[J]. Nature, 2008, 455(7209): 47-50.
[5] WALDROP M. Big data: wikiomics[J]. Nature, 2008,455(7209): 22-25.[6] LENNARD P R.Dealing with data[J]. Nature, 2011, 347(6288): 104-106.
[7] 李健,王麗萍,劉瑞.美國的大數(shù)據(jù)研發(fā)計劃及對我國的啟示[J].中國科技資源導(dǎo)刊,2013,45(1): 17-23.
[8] 李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計算機學(xué)會通訊,2012,8(9):8-15.
[9] McKinsey Global Institute. Big data: The next frontier for innovation, competition, and productivity[R].2011.
[10] Gantz J,Reinsel D.Extracting value from chaos[R].IDC iview,2011:1-12.
[11] 維托克·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代:生活、工作和思維的變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[12] 張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013(S2):216-233.
[13] 江和平,田洪.試論大數(shù)據(jù)在體育頻道中的應(yīng)用[J].電視研究,2014(4):10-12.
[14] BULL A.Ye Shiwe’s world record Olympic swim ‘disturbing’, says top US coach[EB/OL].(2012-07-31)[2014-12-10].http://english.caixin.com/2012-07-31/100417674.html.
[15] CALLAWAY E. Why great Olympic feats raise suspicions—‘Performance profiling’ could help to dispel doubts[EB/OL].(2012-08-01)[2014-08-09]. http://www.nature.com/news/why-great-olympic-feats-raise-suspicions-1.11109.
[16] LONGMAN J.China pool prodigy churns wave of speculation[N]. The New York Times, 2012-07-31(Sports).
[17] 馬國全,張虎祥.運動員性能剖析法研究——從“葉詩文事件”談起[J].中國體育科技,2013,49(1): 110-116.
[18] HUAN J, LUO B. Big Data Analysis of Swimming Athletes’ Performance Records[EB/OL].(2012-08-26)[2014-08-09].http://www.ittc.ku.edu/huanlab/swimData.
[19] 張春甫.對新世紀運動員科學(xué)選材發(fā)展趨勢的探討[J].首都體育學(xué)院學(xué)報,2003,15(3):23-25.
[20] 鄭曉鴻,吳鐵橋.對運動員科學(xué)選材若干問題的思考[J].首都體育學(xué)院學(xué)報,2003,15(3):21-22.
[21] 余竹生,沈勛章,朱學(xué)雷.運動員科學(xué)選材[M].上海:中醫(yī)藥大學(xué)出版社,2006.
[22] MACLENNAN T. Moneyball: The Art of Winning an Unfair Game[J]. The Journal of Popular Culture, 2005,38(4): 780-781.
[23] HAKES J K, SAUER R D. An economic evaluation of the Moneyball hypothesis[J]. The Journal of Economic Perspectives, 2006, 20(3):173-185.
[24] CULLEN F T, MYER A J, LATESSA E J. Eight lessons from Moneyball: The high cost of ignoring evidence-based corrections[J].Victims and Offenders, 2009, 4(2): 197-213.
[25] TSCHORN A. Why the tennis world’s Yoda is also a data Jedi[EB/OL].(2013-10-13) [2014-08-10].http://techpageone.dell.com/technology/tennis-worlds-yoda-also-data-jedi.
[26] WERTHEIM J. How can Sharapova beat Williams Analytics man may have solution[EB/OL].(2013-05-29) [2014-8-10]. http://sportsillustrated.cnn.com/tennis/news/20130529/french-open-serena-williams-maria-sharapova-analytics.
[27] 張江南.大數(shù)據(jù)時代對體育傳播的影響[J].武漢體育學(xué)院學(xué)報,2014,48(7):16-20.
[28] VARIAN H R. Big Data: New Tricks for Econometrics[EB/OL].(2013-08-31) [2014-12-10].http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf.
[29] 田溯寧.中國更應(yīng)推進“數(shù)據(jù)公開”[EB/OL]. (2012-10-10)[2014-12-10]. http://www.china-cloud.com/yunhudong/yunrenwu/renwuxinwen/2012/1010/15427.html.
[30] 趙楠.IBM:體育賽事背后的大數(shù)據(jù)機遇[N].第一財經(jīng)日報,2013-09-26(C02).
[31] 周錦昌,孟昭莉.誰來引領(lǐng)中國大數(shù)據(jù)的發(fā)展?[EB/OL].(2013-09-12)[2014-08-12].http://www.1000plan.org/qrjh/article/41038.
Applications and Thoughts of Big Data in Sport Science
MA Guo-quan, YANG Jian-wen, ZHANG Hu-xiang, TIAN Yu
(Department of P.E.Teaching and Research, Lanzhou University of Technology, Lanzhou 730050, China)
In recent years, big data has become a hot issue and research topic in business, government and the academic field. However, its research in the field of sports is at an initial stage. Based on the methods of literature research and case analysis, at first the origin and substantive characteristics of big data is introduced in this paper. Then innovative applications of big data in sports science, including anti-doping, scientific selection of athletes and improvement of athletes’ performance are explored. Finally, the potential problems and challenges of big data, which may occur in the development of sports in the future are deeply analyzed and discussed.
big data; anti-doping; scientific selection of athletes; improvement of athletes’ performance
2014-10-21
甘肅省體育社會科學(xué)研究項目(GST201450);蘭州理工大學(xué)科研發(fā)展基金項目
馬國全(1978-),男,河南羅山人,講師,碩士,研究方向為競技體育理論與方法。
G80-058
A
1008-3596(2015)02-0011-06