趙 蕾
(西安翻譯學院 體育部,陜西 西安 710105)
體育[1]是一門綜合性很強的學科,包含了人文體育科學、體育社會科學等。隨著計算機、信息技術飛速發(fā)展[2-4],特別是人工智能理論和數(shù)據挖掘技術的發(fā)展,為科學訓練與先進的訓練方法應用提供了良好的理論基礎[5]。
統(tǒng)計分析是國內外常用的科學分析運動訓練數(shù)據的方法[6]。王華滿[7]結合數(shù)據挖掘技術,研究了一種改進的體育訓練模式決策支持評估系統(tǒng)。容博尚[8]對大數(shù)據在體能訓練中應用的可行性進行了研究。劉錦偉[9]基于數(shù)據挖掘技術開發(fā)了一套訓練質量監(jiān)控和臨場戰(zhàn)術統(tǒng)計系統(tǒng),可為教練制定和調整訓練計劃起輔助決策作用。郝歡等[10]開發(fā)了一套體能訓練管理系統(tǒng),能夠實現(xiàn)學員訓練的數(shù)據的管理和分析,從而提高學員的體育訓練水平。這些方法突破了以往教練員憑經驗指導訓練的現(xiàn)狀,為科學訓練提供了參考價值。
隨著訓練數(shù)據不斷積累,常規(guī)的統(tǒng)計分析技術在訓練數(shù)據的分析上可能存在不足,很難找到一個合適的模式來描述這些數(shù)據之間的相關性。數(shù)據挖掘的出現(xiàn)為在大量復雜的訓練數(shù)據中發(fā)現(xiàn)科學規(guī)律和相關性提供了優(yōu)化方法[11]。數(shù)據挖掘技術綜合了統(tǒng)計學、人工智能、決策樹、數(shù)據倉庫和信息論等多學科技術,對運動訓練指標進行綜合分析。
為此,本文提出將數(shù)據挖掘技術應用于運動訓練指標分析。根據數(shù)據集的特點,確定指標參數(shù)的分類,引入數(shù)據挖掘技術建立體育訓練分析機制,構建分析模型。通過對數(shù)據準備、數(shù)據挖掘和結果解釋三個過程的分析,得出訓練指標的數(shù)據挖掘結果,完成數(shù)據分析。
一般情況下,數(shù)據挖掘過程可描述如下[12]:給定一組訓練數(shù)據T,其中元素記錄由多個屬性描述,所有屬性中只有一個屬性作為類屬性。令X=(X1,X2,…,Xn)為類屬性集合,其中Xi(1≤i≤n)表示非類別屬性并且可以具有不同的范圍,當屬性的值范圍為連續(xù)時,稱為連續(xù)屬性;否則,稱為離散屬性。令C={C1,C2,…,Ck}表示具有k個不同類別屬性集,則分類任務可描述為由數(shù)據集T確定從向量X到C的映射函數(shù),即
進一步,可利用數(shù)據挖掘技術來表達隱函數(shù)H,有
其中:H為隱函數(shù),H0表示函數(shù)的初始狀態(tài);p表示函數(shù)的定義屬性;a表示元素記錄的范圍;n表示條件的范圍;e表示運動指數(shù)的范圍;f表示運動指數(shù)的離散指數(shù)。
訓練過程主要包括5 個環(huán)節(jié),包括學生狀態(tài)診斷、訓練目標、訓練計劃、訓練方案、目標完成評估,如圖1所示。其中,訓練分析是體育訓練的關鍵環(huán)節(jié)。
圖1 訓練實施過程Fig.1 Training implementation process
粗糙集算法主要是在現(xiàn)有知識庫的基礎上,對知識的近似描述進行評估,消除數(shù)據處理資源中的冗余數(shù)據,獲得更準確、更可靠的決策結果[13]。傳統(tǒng)的粗糙集只能對分類資源數(shù)據進行評估和處理,而對數(shù)據的進一步處理需要離散化,這將導致信息和數(shù)據的缺失。本文采用鄰域粗糙集方法對體育訓練指標進行屬性約簡,并以環(huán)境因素為輸入參數(shù),對體育訓練質量進行評價。本文規(guī)定決策集Dnt可定義為一個三元組,即
其中:U={x1,x2,…,xn}為數(shù)據集;D為體育訓練的分類等級;A為屬性集合。
基于此,將簡約后的初始集設為空集,計算出該體育訓練指標中剩余屬性的顯著性參數(shù),如果這些顯著性參數(shù)均不為0,則優(yōu)先選擇進入約簡集中。該過程可總結如下:
步驟1?α∈A,計算各個屬性的臨近關系矩陣Nα;
步驟2初始化屬性粗糙集RED為空,且令φ→RED;
步驟3遍歷屬性A中所有RED未包含的屬性,并計算各屬性參數(shù)的重要性,即?α∈A-RED,
步驟4選擇具有最大重要性的屬性αk,即
步驟5若αk>0,則將其添加入RED,且;否則跳轉至步驟3,直到滿足循環(huán)終止條件。
數(shù)據挖掘處理分析分為三個步驟:數(shù)據選擇、數(shù)據處理和數(shù)據轉換。數(shù)據選擇主要是從數(shù)據庫中提取數(shù)據,形成目標數(shù)據。預處理是對提取的數(shù)據進行處理,使其符合要求。數(shù)據轉換是減少數(shù)據的維數(shù)。初始特征函數(shù)的表達式為
其中:m為數(shù)據特征變量;I為數(shù)據可變性;N為目標數(shù)據;v為計算量;θ為拼寫記錄,l為挖掘范圍;E為數(shù)據挖掘,E1為初始條件挖掘,E2為工作狀態(tài)挖掘;i為第i級數(shù)據。
決策樹模型因其易于理解、可解釋強等優(yōu)點廣泛應用于數(shù)據挖掘中[14]。決策樹以樹形結構表示最終的分類結果,表達式可描述為
式中:E0為理論表達式函數(shù);n為計算長度;a為元素記錄范圍;f為離散指標;e為指標范圍。
決策樹可通過一系列規(guī)則對數(shù)據進行分類,可從一組不規(guī)則元素中推斷出決策樹表示的分類規(guī)則。一般情況下,決策樹采用自頂向下的遞歸方法比較內部節(jié)點的屬性值,并根據不同的屬性值向下分支,其中葉節(jié)點是要劃分的類。因此,從根節(jié)點到葉節(jié)點的路徑即對應一個分類規(guī)則。圖2 所示為一典型決策樹構成,主要由決策節(jié)點、分支節(jié)點和葉節(jié)點三個部分組成。每個節(jié)點對應于一個非類別屬性,每個分支對應于該屬性的每個可能值,樹的每個葉節(jié)點表示一個類別。樹的中間節(jié)點通常用矩形表示,而葉節(jié)點用橢圓表示。然而,傳統(tǒng)決策樹容易受噪聲和異常數(shù)據干擾造成冗余分支問題。
圖2 典型的決策樹構成Fig.2 Typical decision tree composition
為解決上述問題,圖3 所示為本文改進的決策樹算法。算法可分為學習和測試兩個階段。學習階段采用自頂向下的遞歸方法訓練參數(shù);之后,將模型及參數(shù)帶入測試階段進行驗證并對模型進行優(yōu)化。該算法主要包括兩個過程:其一是生成樹;其二是對樹進行剪枝,去除一些可能存在噪聲或異常的數(shù)據。去除噪聲和異常數(shù)據的公式為
圖3 改進的決策樹生成過程Fig.3 Improved decision tree generation process
式中:Ln表示噪聲去除函數(shù);x表示數(shù)據集合,xi為決策樹的第i層結果,同理xj為決策樹的第j層結果;n表示搜索條件的范圍。
仿真環(huán)境為:windows10 操作系統(tǒng)下,i7 處理器,顯卡GeForce GTX 1080,內存6 GB,并在python環(huán)境下編譯程序。實驗數(shù)據由本學院提供,包括2016-2020 年部分大學生體質測試項目(包括田徑、球類、游泳、武術等)。剔除無用記錄后,實驗數(shù)據量為9860。
數(shù)據質量有很多評價因素,其中最重要的三個因素是準確性、完整性和一致性。但在實驗所用數(shù)據集中,存在著不正確、不完整、不一致的數(shù)據,因此需要對數(shù)據進行預處理,從而提高數(shù)據質量,進而提高數(shù)據挖掘結果的質量。此外,不同運動的指標包含不同屬性,如田徑類以時間屬性為標準,球類以得分、命中率、時間等屬性為標準。為有效進行數(shù)據挖掘,可將每個屬性的不同值映射到一系列整數(shù),并使用整數(shù)替換該類別屬性的值。如果存在(q×10)個屬性類值,則每個原始值將唯一分配給區(qū)間[0,q] 中的整數(shù)?;诖植诩臄?shù)據預處理后的數(shù)據及相關參數(shù)見表1。
表1 仿真數(shù)據及相關參數(shù)Tab.1 Simulation data and related parameters
利用本文改進的決策樹分析方法對體育訓練指標進行分析,并與傳統(tǒng)的聚類指標分析方法和神經網絡方法進行對比,結果如圖4 所示。從圖4 的比較可以看出,改進決策樹較其他兩種方法訓練成績預測準確率更高。然而由于訓練器材精度或記錄誤差等因素,本文所使用的樣本數(shù)據具有一定程度噪聲。因此,三種方法預測結果呈波動,且隨著數(shù)據樣本個數(shù)增多,整體預測準確率不斷下降,這符合實際情況。此外,聚類方法在數(shù)據采樣個數(shù)大于170 后,準確率急劇下降。分析其原因,一方面由于系統(tǒng)誤差使得模型效果有所降低;另一方面數(shù)據中部分體育訓練類型指標類似(如球類和射擊,指標都包含得分、命中率),給聚類算法帶來一定干擾。
圖4 不同方法模型預測準確率Fig.4 Prediction accuracy of different models
體育訓練過程積累了許多訓練數(shù)據,常規(guī)的統(tǒng)計分析技術很難找到一個合適的模型來描述這些數(shù)據之間的相關性。數(shù)據挖掘的出現(xiàn)為在大量復雜的訓練數(shù)據中發(fā)現(xiàn)科學規(guī)律和相關性提供了優(yōu)化方法。為此,本文對數(shù)據挖掘、粗糙集、決策樹模型進行分析,提出了數(shù)據挖掘技術應用于體育訓練指標分析,為提高體育訓練質量提供參考。