高巖 汪正焰 王志玲
(江蘇信息職業(yè)技術(shù)學(xué)院基礎(chǔ)部體育部 江蘇 無錫 214153)
信息技術(shù)革命衍生出的大數(shù)據(jù)時(shí)代讓世界上的每個(gè)角落通過互聯(lián)網(wǎng)絡(luò)聯(lián)系到一起,信息爆炸時(shí)代產(chǎn)生了海量數(shù)據(jù),應(yīng)運(yùn)而生的數(shù)據(jù)挖掘技術(shù)能夠在浩瀚無垠的信息海洋中去粗取精、去偽存真地將浩如煙海的數(shù)據(jù)轉(zhuǎn)換成知識(shí)。
近年來,體育領(lǐng)域中不乏數(shù)據(jù)挖掘的身影,主要應(yīng)用在競技體育訓(xùn)練比賽、體質(zhì)健康監(jiān)測、體育教學(xué)、體育新聞報(bào)道和體育產(chǎn)業(yè)等領(lǐng)域之中。本文通過Weka軟件對(duì)學(xué)生體質(zhì)健康測試的相關(guān)數(shù)據(jù)進(jìn)行分析,探究數(shù)據(jù)挖掘在學(xué)生體質(zhì)健康分析中的應(yīng)用。
通過登錄CNKI中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、CNKI中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫、維普中文期刊數(shù)據(jù)庫、萬方學(xué)術(shù)期刊、萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)和高校圖書館聯(lián)盟文獻(xiàn)共享服務(wù)平臺(tái)獲得國內(nèi)外足球運(yùn)動(dòng)訓(xùn)練負(fù)荷研究的最新文獻(xiàn)。
數(shù)據(jù)挖掘是一種信息提取活動(dòng),它是要用自動(dòng)化的方法對(duì)大量數(shù)據(jù)進(jìn)行系統(tǒng)分析,目標(biāo)是發(fā)現(xiàn)在數(shù)據(jù)庫中有用的隱藏因素。基于這些發(fā)現(xiàn),信息工作者能夠更好地做出決策和解決問題。數(shù)據(jù)挖掘是一門綜合性的學(xué)科,它的主要分析思想和方法來源于統(tǒng)計(jì)學(xué)、模式識(shí)別、公式發(fā)現(xiàn)、仿生物技術(shù)、人工智能、模糊數(shù)學(xué)等學(xué)科。
本文使用Weka,一種使用java語言編寫的數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)軟件,主要應(yīng)用于科研、教育和應(yīng)用領(lǐng)域,是目前掀起的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的熱潮中,較為友善的一款軟件,其代碼開源,可以免費(fèi)下載使用,且操作界面友好。
本文以某高校大一、大二、大三、大四的體質(zhì)健康測試數(shù)據(jù)研究對(duì)象,對(duì)學(xué)生體質(zhì)健康數(shù)據(jù)挖掘進(jìn)行分析。
原數(shù)據(jù)格式為.xsl,通過Excel轉(zhuǎn)成.csv格式進(jìn)行數(shù)據(jù)挖掘,男生數(shù)據(jù)556條,女生數(shù)據(jù)577條,8個(gè)屬性值,分別為身高體重分?jǐn)?shù)H-Wr、 肺活量體重分?jǐn)?shù)F-Wr、50m跑50mr、1000m/800m1000/800r、坐位體前屈ZWTQQr、立定跳遠(yuǎn)LDTYr、仰臥起坐/引體向上Y/Yr、總分成績ZFDJ,除身高體重分?jǐn)?shù)H-Wr屬性的值分為low Weight、normal、overWeight和obesity外,其他屬性的值均分別為fail、quality、good和excellent。
在數(shù)據(jù)存取過程中由于人工失誤或機(jī)器故障可能導(dǎo)致數(shù)據(jù)出現(xiàn)噪聲、不完整和不規(guī)則。噪聲在這里特指的是數(shù)據(jù)背離有效區(qū)間而出現(xiàn)的錯(cuò)誤,比方說,坐位體前屈的測試數(shù)據(jù)會(huì)出現(xiàn)負(fù)值,但年齡、跳遠(yuǎn)等是不可能出現(xiàn)負(fù)數(shù)的;不完整是指缺乏要分析的屬性值,比如,要分析成績,某個(gè)學(xué)生被錄進(jìn)系統(tǒng)中,有相關(guān)信息卻沒有錄入成績,或因病缺席等因素導(dǎo)致個(gè)別測試項(xiàng)目沒有測,某幾項(xiàng)數(shù)據(jù)出現(xiàn)空白;不規(guī)則也叫不一致,在不同的存儲(chǔ)單元儲(chǔ)存的某些相同的體質(zhì)測試數(shù)據(jù)可能存在名稱或格式上的差異。數(shù)據(jù)的這幾個(gè)性質(zhì)都給數(shù)據(jù)挖掘帶來難度,為了方便快捷的分析學(xué)生體質(zhì)建康,我們需要預(yù)先對(duì)數(shù)據(jù)進(jìn)行處理,以便分析??梢圆捎靡韵绿幚矸椒▽?duì)有噪聲、不完善、不規(guī)則的數(shù)據(jù)進(jìn)行處理:
(1)數(shù)據(jù)轉(zhuǎn)換。
由于Weka數(shù)據(jù)處理的常用文件格式為.arff和.csv兩種,需要對(duì)數(shù)據(jù)進(jìn)行格式的轉(zhuǎn)換可通過Excel和Ultra-Edit進(jìn)行處理。
(2)數(shù)據(jù)清理。
數(shù)據(jù)因?yàn)闇y試機(jī)器或是人工原因?qū)е聰?shù)據(jù)出現(xiàn)的缺失、有噪音和非法數(shù)據(jù)可通過手動(dòng)補(bǔ)全遺漏數(shù)據(jù)、算法(FP-Growth算法等)過濾對(duì)數(shù)據(jù)進(jìn)行篩查和處理。
(3)數(shù)據(jù)規(guī)約。
對(duì)于一些大型的數(shù)據(jù)分析公司或單位來講,即使對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行了冗余和沖突處理后,其數(shù)據(jù)的體量依然龐大。這些海量的數(shù)據(jù)直接進(jìn)行數(shù)據(jù)挖掘處理是不可行的,這會(huì)導(dǎo)致分析運(yùn)行的時(shí)間出現(xiàn)較常的延時(shí)情況,效率就大打折扣了。此時(shí),可以通過對(duì)數(shù)據(jù)進(jìn)行規(guī)約處理,從而壓縮數(shù)據(jù)的實(shí)際數(shù)量。規(guī)約處理存在兩個(gè)必須滿足的條件:一是規(guī)約后的數(shù)據(jù)量應(yīng)該比原數(shù)據(jù)量少;二是規(guī)約后的數(shù)據(jù)應(yīng)該保持原數(shù)據(jù)的完整性。只有這樣,兩個(gè)數(shù)據(jù)集對(duì)于同一個(gè)分析算法才會(huì)生成相同或相近的分析結(jié)果。
本文對(duì)學(xué)生體質(zhì)健康數(shù)據(jù)采用離散化,把一個(gè)線性空間中的數(shù)據(jù)劃分為多個(gè)線性子空間,對(duì)每個(gè)子空間的數(shù)據(jù)可用一個(gè)值來替代,以實(shí)現(xiàn)數(shù)據(jù)壓縮。
經(jīng)過以上幾步的數(shù)據(jù)處理,得到如下圖的數(shù)據(jù)集(部分)。
圖2 Weka中的數(shù)據(jù)集視圖(部分)
對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行了預(yù)處理后可以開始進(jìn)行數(shù)據(jù)的挖掘工作。此次實(shí)驗(yàn)數(shù)據(jù)來源于某高校體質(zhì)測試數(shù)據(jù),利用數(shù)據(jù)庫技術(shù)將多個(gè)數(shù)據(jù)源中的可能對(duì)體質(zhì)測試總成績造成影響的項(xiàng)目進(jìn)行整合,合并成一個(gè)用于分析學(xué)生體質(zhì)測試成績的數(shù)據(jù)表。運(yùn)用Weka軟件,挖掘出學(xué)生身高體重分?jǐn)?shù)、肺活量體重分?jǐn)?shù)、50m跑、1000m/800m、坐位體前屈、立定跳遠(yuǎn)、仰臥起坐/引體向上這幾項(xiàng)測試成績與體質(zhì)測試成績之間潛在的關(guān)系。
(1)分類分析。
分類是數(shù)據(jù)挖掘中一個(gè)極其重要的技術(shù),應(yīng)用范圍非常廣泛。通過對(duì)學(xué)生體質(zhì)測試數(shù)據(jù)進(jìn)行分類分析,找出測試數(shù)據(jù)所反映的各項(xiàng)身體素質(zhì)之間的共性特征和各項(xiàng)身體素質(zhì)之間的水平差異性。此外由于分類器的構(gòu)造方法主要來源機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法等等,因此分類也可以用于預(yù)測。
常用分類算法有:①?zèng)Q策樹算法:決策樹也稱為判定樹,它是以數(shù)據(jù)實(shí)例為基礎(chǔ)的機(jī)器學(xué)習(xí)方法。它從無序和無規(guī)則的訓(xùn)練元組中推導(dǎo)出以分枝樹為表示形式的分類規(guī)則。未知數(shù)據(jù)可以從樹根節(jié)點(diǎn)沿唯一一條路徑到達(dá)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)就是一個(gè)具體的分類。生成決策樹構(gòu)造算法有ID3算法、C4.5算法、CART、SLIQ算法、SPRINT算法等;②貝葉斯分類算法:貝葉斯分類屬于統(tǒng)計(jì)學(xué)方法和參數(shù)判別方法,是一種應(yīng)用數(shù)學(xué)概率統(tǒng)計(jì)知識(shí)來進(jìn)行分類的算法。由于其算法簡單,分類精度高,常應(yīng)用于大型數(shù)據(jù)庫系統(tǒng);③神經(jīng)網(wǎng)絡(luò)分類:其分類模型的建立,是在訓(xùn)練階段通過調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中每個(gè)連接的權(quán)值,使之預(yù)測出輸入樣本的正確類別。這種方法有時(shí)又稱為連接者學(xué)習(xí)。目前應(yīng)用最廣的神經(jīng)網(wǎng)絡(luò)算法是20世紀(jì)80年代提出的BP算法。此外還有關(guān)聯(lián)規(guī)則、支持向量機(jī)、惰性學(xué)習(xí)法等分類算法。
本文采用決策樹中的J48算法分別對(duì)男生和女生的數(shù)據(jù)進(jìn)行分類分析,采用cross-validation交叉驗(yàn)證為測試模式,默認(rèn)十折交叉驗(yàn)證進(jìn)行分析,分類器輸出結(jié)果如圖3和圖4所示,正確率為87.4101%和84.5754%。產(chǎn)生的決策樹如圖5和圖6所示。
圖3 J48算法產(chǎn)生的決策樹的正確預(yù)測率圖(男)
圖4 J48算法產(chǎn)生的決策的正確預(yù)測圖(女)
圖5 J48算法產(chǎn)生的決策樹圖(男)
圖6 J48算法產(chǎn)生的決策樹圖(女)
結(jié)合《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)(2014)》(以下簡稱《標(biāo)準(zhǔn)》)從建立的決策樹模型中推測影響該校女生體質(zhì)測試成績的主要因素為50m和800m成績,影響男生體質(zhì)測試成績的主要因素為1000m成績,其次為50m和坐位體前屈的成績。在《標(biāo)準(zhǔn)》中50m跑、長跑(800m、1000m)各占比20%,其次為體重指數(shù)、肺活量各占15%,剩余3項(xiàng)內(nèi)容各占10%。
通過決策樹模型可以看出,該校大學(xué)生女生的測試成績,只要50m和800m成績能夠及格,其測試總分基本上能夠及格,說明這兩項(xiàng)成績對(duì)于女生體質(zhì)測試成績影響較為大。女生在爆發(fā)力上與男生來說相對(duì)薄弱一些,如果能在50m上及格,也能比較容易通過測試。對(duì)于該校男生來說除了1000m的長跑外,50m、坐位體前屈也是影響其體質(zhì)測試成績能否合格的因素。對(duì)于該校所有學(xué)生來說,長跑項(xiàng)目(800m和1000m)是較為薄弱的,說明學(xué)生的有氧耐力相對(duì)于其他身體素質(zhì)較為欠缺,在爆發(fā)力項(xiàng)目上男生成績比女生好,而在柔韌性上,女生的成績優(yōu)于男生。
該校學(xué)生有氧耐力和爆發(fā)力有待進(jìn)一步的訓(xùn)練提升,除此之外,該校男生與女生相比,在柔韌性方面相對(duì)薄弱,在體育課和課余體育鍛煉中,男生應(yīng)當(dāng)適量增加柔韌性的針對(duì)性練習(xí)。
(2)關(guān)聯(lián)規(guī)則分析。
通過關(guān)聯(lián)規(guī)則挖掘算法,去描述測試所得的各項(xiàng)學(xué)生體質(zhì)測試數(shù)據(jù)中各項(xiàng)身體素質(zhì)數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,例如,在力量素質(zhì)中立定跳遠(yuǎn)中出現(xiàn)的規(guī)律出現(xiàn)可能在力量素質(zhì)中引體向上中也會(huì)出現(xiàn),即找出隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。典型的算法有Apriori算法,其側(cè)重于找出數(shù)據(jù)庫中某些特定事件一起發(fā)生的情況,以發(fā)現(xiàn)那些可信的并且具有代表性的規(guī)則。此算法的基本思想是首先通過迭代挖掘所有頻繁項(xiàng)集,然后利用頻繁項(xiàng)集構(gòu)造滿足用戶最小置信度規(guī)則。
圖7為采用Apriori算法得到男生體質(zhì)測試的五條關(guān)聯(lián)規(guī)則。對(duì)5條關(guān)聯(lián)規(guī)則進(jìn)行解讀:規(guī)則1:1000m成績及格、立定跳遠(yuǎn)及格、引體向上不及格的人,體測總分能夠及格;規(guī)則2:體型正常、1000m及格、引體向上不及格的人,體測總分能夠及格;規(guī)則3:1000m不及格的人,引體向上可能不及格;規(guī)則4:體型正常、50m及格、1000m及格的人,體測總分能夠及格;規(guī)則5:1000m及格、引體向上及格的人,體測總分能夠及格。
圖7 男生體質(zhì)測試關(guān)聯(lián)規(guī)則
圖8為采用Apriori算法得到女生體質(zhì)測試的五條關(guān)聯(lián)規(guī)則。5條關(guān)聯(lián)規(guī)則進(jìn)行解讀:規(guī)則1:體型正常、體測總分及格的人,50m成績是及格的;規(guī)則2:仰臥起坐及格的人體型屬于正常一類;規(guī)則3:體測總分及格的人,50m能夠及格;規(guī)則4:肺活量能夠及格的人,體型一般正常;規(guī)則5:肺活量及格、50m及格的人,體型正常。
圖8 女生體質(zhì)測試關(guān)聯(lián)規(guī)則
對(duì)男生而言,引體向上雖然是最頭疼的測試項(xiàng)目,然而其單項(xiàng)成績能否及格對(duì)體質(zhì)測試總分是否及格的影響并不大,1000m與體測總分能否及格的關(guān)聯(lián)性較大。與男生相比較而言,體型對(duì)女生體質(zhì)測試總分的影響要更大一些,且體型與各項(xiàng)身體素質(zhì)的關(guān)聯(lián)度較男生更高。
本文使用 Weka平臺(tái)數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生體質(zhì)健康測試成績進(jìn)行分析,可以提高測試數(shù)據(jù)的利用水平,獲得測試數(shù)據(jù)之間潛在的規(guī)律和趨勢。數(shù)據(jù)挖掘技術(shù)在學(xué)生體質(zhì)健康分析中的應(yīng)用中具有以下幾個(gè)特點(diǎn):
通過本文對(duì)數(shù)據(jù)進(jìn)行挖掘的過程和檢索過的文獻(xiàn)發(fā)現(xiàn),基于數(shù)據(jù)挖掘領(lǐng)域的關(guān)聯(lián)規(guī)則可應(yīng)用在體質(zhì)監(jiān)測領(lǐng)域,通過對(duì)數(shù)據(jù)的篩選經(jīng)過算法的處理從而得到數(shù)據(jù)背后隱藏的關(guān)系;關(guān)聯(lián)規(guī)則反映了該校學(xué)生體質(zhì)指標(biāo)間的潛在規(guī)律,分析該校學(xué)生在運(yùn)動(dòng)鍛煉和身體素質(zhì)方面存在的共性和薄弱點(diǎn);可用于體質(zhì)監(jiān)測工作的改進(jìn),有助于進(jìn)一步指導(dǎo)學(xué)生進(jìn)行體育鍛煉和運(yùn)動(dòng)。
每年我國學(xué)生都要進(jìn)行體質(zhì)健康測試,覆蓋到每位學(xué)生,其背后是海量的數(shù)據(jù),通過挖掘技術(shù)處理并分析這些體質(zhì)數(shù)據(jù)背后潛在的有用信息,通過運(yùn)用體育領(lǐng)域知識(shí),為體質(zhì)數(shù)據(jù)分析和體質(zhì)健康實(shí)際工作提供科學(xué)的決策依據(jù)。
通過對(duì)不同指標(biāo)之間的數(shù)據(jù)挖掘,發(fā)現(xiàn)其規(guī)律,分析原因,掌握規(guī)律,更深層次地去了解學(xué)生各項(xiàng)體質(zhì)測試數(shù)據(jù)之間的關(guān)聯(lián),更好地為體質(zhì)測試的后續(xù)工作提供,這些規(guī)則的發(fā)現(xiàn)一定程度地證明了關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用的有效性;數(shù)據(jù)挖掘作為可作為體質(zhì)測試數(shù)據(jù)分析的工具,進(jìn)一步為體質(zhì)科研服務(wù)提供助力。
可以針對(duì)性地挖掘不同項(xiàng)目和體質(zhì)健康之間的關(guān)聯(lián),為校園體育服務(wù)提供幫助;挖掘不同特征學(xué)生的體質(zhì)健康水平,為學(xué)生健康管理服務(wù)和不同人群的體育運(yùn)動(dòng)負(fù)荷安排提供建議和指導(dǎo);挖掘?qū)W生體質(zhì)規(guī)律,為學(xué)生體質(zhì)健康促進(jìn)提供指導(dǎo)等。
通過實(shí)際操作,不難發(fā)現(xiàn)數(shù)據(jù)挖掘存在的局限性。像關(guān)聯(lián)規(guī)則挖掘技術(shù)作為一種工具,無法實(shí)現(xiàn)對(duì)結(jié)果的最終解析,需專業(yè)人員結(jié)合相關(guān)領(lǐng)域的知識(shí)對(duì)數(shù)據(jù)結(jié)果進(jìn)行解釋、翻譯和表達(dá)。對(duì)于數(shù)據(jù)挖掘結(jié)果的利用與開發(fā),需要體育專業(yè)人員和數(shù)據(jù)挖掘?qū)I(yè)人員共同努力。數(shù)據(jù)挖掘結(jié)果的落地和對(duì)學(xué)生體質(zhì)測試后續(xù)服務(wù)問題,仍然需要體育工作者結(jié)合數(shù)據(jù)分析,根據(jù)學(xué)生的實(shí)際情況制定相關(guān)鍛煉計(jì)劃并實(shí)施。