基于數(shù)據挖掘技術的體育訓練模式研究

2022-03-18 08:11:04趙蕾

內蒙古師范大學學報(自然科學漢文版) 2022年2期

趙蕾

（西安翻譯學院體育部，陜西西安 710105）

體育［1］是一門綜合性很強的學科，包含了人文體育科學、體育社會科學等。隨著計算機、信息技術飛速發(fā)展［2-4］，特別是人工智能理論和數(shù)據挖掘技術的發(fā)展，為科學訓練與先進的訓練方法應用提供了良好的理論基礎［5］。

統(tǒng)計分析是國內外常用的科學分析運動訓練數(shù)據的方法［6］。王華滿［7］結合數(shù)據挖掘技術，研究了一種改進的體育訓練模式決策支持評估系統(tǒng)。容博尚［8］對大數(shù)據在體能訓練中應用的可行性進行了研究。劉錦偉［9］基于數(shù)據挖掘技術開發(fā)了一套訓練質量監(jiān)控和臨場戰(zhàn)術統(tǒng)計系統(tǒng)，可為教練制定和調整訓練計劃起輔助決策作用。郝歡等［10］開發(fā)了一套體能訓練管理系統(tǒng)，能夠實現(xiàn)學員訓練的數(shù)據的管理和分析，從而提高學員的體育訓練水平。這些方法突破了以往教練員憑經驗指導訓練的現(xiàn)狀，為科學訓練提供了參考價值。

隨著訓練數(shù)據不斷積累，常規(guī)的統(tǒng)計分析技術在訓練數(shù)據的分析上可能存在不足，很難找到一個合適的模式來描述這些數(shù)據之間的相關性。數(shù)據挖掘的出現(xiàn)為在大量復雜的訓練數(shù)據中發(fā)現(xiàn)科學規(guī)律和相關性提供了優(yōu)化方法［11］。數(shù)據挖掘技術綜合了統(tǒng)計學、人工智能、決策樹、數(shù)據倉庫和信息論等多學科技術，對運動訓練指標進行綜合分析。

為此，本文提出將數(shù)據挖掘技術應用于運動訓練指標分析。根據數(shù)據集的特點，確定指標參數(shù)的分類，引入數(shù)據挖掘技術建立體育訓練分析機制，構建分析模型。通過對數(shù)據準備、數(shù)據挖掘和結果解釋三個過程的分析，得出訓練指標的數(shù)據挖掘結果，完成數(shù)據分析。

1 相關概念

1.1 數(shù)據挖掘

一般情況下，數(shù)據挖掘過程可描述如下［12］：給定一組訓練數(shù)據T，其中元素記錄由多個屬性描述，所有屬性中只有一個屬性作為類屬性。令X=(X1，X2，…，Xn)為類屬性集合，其中Xi（1≤i≤n）表示非類別屬性并且可以具有不同的范圍，當屬性的值范圍為連續(xù)時，稱為連續(xù)屬性；否則，稱為離散屬性。令C={C1，C2，…，Ck}表示具有k個不同類別屬性集，則分類任務可描述為由數(shù)據集T確定從向量X到C的映射函數(shù)，即

進一步，可利用數(shù)據挖掘技術來表達隱函數(shù)H，有

其中：H為隱函數(shù)，H0表示函數(shù)的初始狀態(tài)；p表示函數(shù)的定義屬性；a表示元素記錄的范圍；n表示條件的范圍；e表示運動指數(shù)的范圍；f表示運動指數(shù)的離散指數(shù)。

1.2 訓練過程分析

訓練過程主要包括5 個環(huán)節(jié)，包括學生狀態(tài)診斷、訓練目標、訓練計劃、訓練方案、目標完成評估，如圖1所示。其中，訓練分析是體育訓練的關鍵環(huán)節(jié)。

圖1 訓練實施過程Fig.1 Training implementation process

2 運動訓練指標分析模型

2.1 基于粗糙集的數(shù)據預處理

粗糙集算法主要是在現(xiàn)有知識庫的基礎上，對知識的近似描述進行評估，消除數(shù)據處理資源中的冗余數(shù)據，獲得更準確、更可靠的決策結果［13］。傳統(tǒng)的粗糙集只能對分類資源數(shù)據進行評估和處理，而對數(shù)據的進一步處理需要離散化，這將導致信息和數(shù)據的缺失。本文采用鄰域粗糙集方法對體育訓練指標進行屬性約簡，并以環(huán)境因素為輸入參數(shù)，對體育訓練質量進行評價。本文規(guī)定決策集Dnt可定義為一個三元組，即

其中：U={x1，x2，…，xn}為數(shù)據集；D為體育訓練的分類等級；A為屬性集合。

基于此，將簡約后的初始集設為空集，計算出該體育訓練指標中剩余屬性的顯著性參數(shù)，如果這些顯著性參數(shù)均不為0，則優(yōu)先選擇進入約簡集中。該過程可總結如下：

步驟1?α∈A，計算各個屬性的臨近關系矩陣Nα；

步驟2初始化屬性粗糙集RED為空，且令φ→RED；

步驟3遍歷屬性A中所有RED未包含的屬性，并計算各屬性參數(shù)的重要性，即?α∈A-RED，

步驟4選擇具有最大重要性的屬性αk，即

步驟5若αk＞0，則將其添加入RED，且；否則跳轉至步驟3，直到滿足循環(huán)終止條件。

2.2 數(shù)據挖掘處理分析

數(shù)據挖掘處理分析分為三個步驟：數(shù)據選擇、數(shù)據處理和數(shù)據轉換。數(shù)據選擇主要是從數(shù)據庫中提取數(shù)據，形成目標數(shù)據。預處理是對提取的數(shù)據進行處理，使其符合要求。數(shù)據轉換是減少數(shù)據的維數(shù)。初始特征函數(shù)的表達式為

其中：m為數(shù)據特征變量；I為數(shù)據可變性；N為目標數(shù)據；v為計算量；θ為拼寫記錄，l為挖掘范圍；E為數(shù)據挖掘，E1為初始條件挖掘，E2為工作狀態(tài)挖掘；i為第i級數(shù)據。

2.3 基于決策樹的數(shù)據挖掘模型

決策樹模型因其易于理解、可解釋強等優(yōu)點廣泛應用于數(shù)據挖掘中［14］。決策樹以樹形結構表示最終的分類結果，表達式可描述為

式中：E0為理論表達式函數(shù)；n為計算長度；a為元素記錄范圍；f為離散指標；e為指標范圍。

決策樹可通過一系列規(guī)則對數(shù)據進行分類，可從一組不規(guī)則元素中推斷出決策樹表示的分類規(guī)則。一般情況下，決策樹采用自頂向下的遞歸方法比較內部節(jié)點的屬性值，并根據不同的屬性值向下分支，其中葉節(jié)點是要劃分的類。因此，從根節(jié)點到葉節(jié)點的路徑即對應一個分類規(guī)則。圖2 所示為一典型決策樹構成，主要由決策節(jié)點、分支節(jié)點和葉節(jié)點三個部分組成。每個節(jié)點對應于一個非類別屬性，每個分支對應于該屬性的每個可能值，樹的每個葉節(jié)點表示一個類別。樹的中間節(jié)點通常用矩形表示，而葉節(jié)點用橢圓表示。然而，傳統(tǒng)決策樹容易受噪聲和異常數(shù)據干擾造成冗余分支問題。

圖2 典型的決策樹構成Fig.2 Typical decision tree composition

為解決上述問題，圖3 所示為本文改進的決策樹算法。算法可分為學習和測試兩個階段。學習階段采用自頂向下的遞歸方法訓練參數(shù)；之后，將模型及參數(shù)帶入測試階段進行驗證并對模型進行優(yōu)化。該算法主要包括兩個過程：其一是生成樹；其二是對樹進行剪枝，去除一些可能存在噪聲或異常的數(shù)據。去除噪聲和異常數(shù)據的公式為

圖3 改進的決策樹生成過程Fig.3 Improved decision tree generation process

式中：Ln表示噪聲去除函數(shù)；x表示數(shù)據集合，xi為決策樹的第i層結果，同理xj為決策樹的第j層結果；n表示搜索條件的范圍。

3 仿真分析

3.1 仿真環(huán)境與數(shù)據準備

仿真環(huán)境為：windows10 操作系統(tǒng)下，i7 處理器，顯卡GeForce GTX 1080，內存6 GB，并在python環(huán)境下編譯程序。實驗數(shù)據由本學院提供，包括2016-2020 年部分大學生體質測試項目（包括田徑、球類、游泳、武術等）。剔除無用記錄后，實驗數(shù)據量為9860。

3.2 數(shù)據預處理

數(shù)據質量有很多評價因素，其中最重要的三個因素是準確性、完整性和一致性。但在實驗所用數(shù)據集中，存在著不正確、不完整、不一致的數(shù)據，因此需要對數(shù)據進行預處理，從而提高數(shù)據質量，進而提高數(shù)據挖掘結果的質量。此外，不同運動的指標包含不同屬性，如田徑類以時間屬性為標準，球類以得分、命中率、時間等屬性為標準。為有效進行數(shù)據挖掘，可將每個屬性的不同值映射到一系列整數(shù)，并使用整數(shù)替換該類別屬性的值。如果存在（q×10）個屬性類值，則每個原始值將唯一分配給區(qū)間[0，q] 中的整數(shù)?；诖植诩臄?shù)據預處理后的數(shù)據及相關參數(shù)見表1。

表1 仿真數(shù)據及相關參數(shù)Tab.1 Simulation data and related parameters

3.3 數(shù)據挖掘結果

利用本文改進的決策樹分析方法對體育訓練指標進行分析，并與傳統(tǒng)的聚類指標分析方法和神經網絡方法進行對比，結果如圖4 所示。從圖4 的比較可以看出，改進決策樹較其他兩種方法訓練成績預測準確率更高。然而由于訓練器材精度或記錄誤差等因素，本文所使用的樣本數(shù)據具有一定程度噪聲。因此，三種方法預測結果呈波動，且隨著數(shù)據樣本個數(shù)增多，整體預測準確率不斷下降，這符合實際情況。此外，聚類方法在數(shù)據采樣個數(shù)大于170 后，準確率急劇下降。分析其原因，一方面由于系統(tǒng)誤差使得模型效果有所降低；另一方面數(shù)據中部分體育訓練類型指標類似（如球類和射擊，指標都包含得分、命中率），給聚類算法帶來一定干擾。

圖4 不同方法模型預測準確率Fig.4 Prediction accuracy of different models

4 結論

體育訓練過程積累了許多訓練數(shù)據，常規(guī)的統(tǒng)計分析技術很難找到一個合適的模型來描述這些數(shù)據之間的相關性。數(shù)據挖掘的出現(xiàn)為在大量復雜的訓練數(shù)據中發(fā)現(xiàn)科學規(guī)律和相關性提供了優(yōu)化方法。為此，本文對數(shù)據挖掘、粗糙集、決策樹模型進行分析，提出了數(shù)據挖掘技術應用于體育訓練指標分析，為提高體育訓練質量提供參考。