陳興 馬致明
摘要:針對現(xiàn)存的大學(xué)生綜合體質(zhì)評價(jià)模型在不均衡數(shù)據(jù)集下泛化能力受限問題,提出了一種基于三層數(shù)據(jù)挖掘和遺傳算法的體質(zhì)評價(jià)模型。從身體形態(tài)、身體素質(zhì)和身體機(jī)能三個(gè)方面出發(fā),構(gòu)建了包含八個(gè)測量指標(biāo)的學(xué)生體質(zhì)評價(jià)指標(biāo)體系。依照評價(jià)指標(biāo)采集相關(guān)數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)中的K-means、Apriori和ACI構(gòu)建三層數(shù)據(jù)挖掘結(jié)構(gòu),基于遺傳算法優(yōu)化過程對指標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,輸出學(xué)生體質(zhì)評價(jià)結(jié)果。與近年來在體質(zhì)預(yù)測研究中相對優(yōu)異的3個(gè)模型作為基準(zhǔn)模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明,該模型能夠有效地提高泛化能力,宏F1、準(zhǔn)確率分別達(dá)到81.73%、89.47%,均優(yōu)于基準(zhǔn)模型。
關(guān)鍵詞:大學(xué)生體質(zhì)預(yù)測;不均衡數(shù)據(jù)集;三層數(shù)據(jù)挖掘;ACI算法;遺傳算法
中圖分類號:TP311;G804.49 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)05-0017-03
1 引言
目前,我國學(xué)生體質(zhì)健康面臨著不斷下滑的嚴(yán)峻形勢,黨和國家高度重視學(xué)生體質(zhì)健康,利用簡單的測量指標(biāo)判斷學(xué)生體質(zhì)狀況,有助于進(jìn)一步調(diào)整干預(yù)措施[1],改善學(xué)生體質(zhì)狀況,達(dá)到體質(zhì)監(jiān)測的目的。因此,構(gòu)建精度高、穩(wěn)定性強(qiáng)的學(xué)生體質(zhì)評價(jià)模型具有十分重要的意義。
數(shù)據(jù)挖掘技術(shù)能夠在海量的、含噪的、缺失的數(shù)據(jù)集中發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)律[2],且遺傳算法作為一種高效的全局搜索方法,在組合優(yōu)化方面表現(xiàn)出色[3],可有效解決普遍使用單一數(shù)據(jù)挖掘技術(shù)在不均衡數(shù)據(jù)集下模型泛化能力受到限制的問題[4-6]?;诖耍疚奶岢隽嘶谌龑訑?shù)據(jù)挖掘和遺傳算法的體質(zhì)評價(jià)模型,為大學(xué)生體質(zhì)預(yù)測提供了新的思路和方法。
2 基于數(shù)據(jù)挖掘和遺傳算法的體質(zhì)評價(jià)模型構(gòu)建
2.1 相關(guān)術(shù)語
設(shè)數(shù)據(jù)集的屬性集合A={ ai | i=1,2,3,…,n},ai∈{ vij | j=1,2,3,…,m},其中vij是屬性ai的值。
項(xiàng):由屬性和屬性值構(gòu)成,用“ai = vij”表示。
項(xiàng)集:由兩個(gè)及以上個(gè)項(xiàng)組成的集合,如 a1 = v13 ∧ a2 = v21 ∧ a3 = v32。
關(guān)聯(lián)規(guī)則:由兩部分組成,左部和右部均是項(xiàng)或項(xiàng)集,且左部與右部相對應(yīng)的屬性集合互斥,如a1 = v13 ∧ a2 = v21 ∧ a3 = v32 → a4 = v41 ∧ a5 = v51。
關(guān)聯(lián)分類規(guī)則:一種特殊的關(guān)聯(lián)規(guī)則,左部為不包含標(biāo)簽屬性的項(xiàng)或項(xiàng)集,右部為包含標(biāo)簽屬性的項(xiàng),如a1 = v13 ∧ a2 = v21 → a3 = v32,其中a3為標(biāo)簽屬性。
覆蓋[7]:如果一個(gè)實(shí)例d滿足關(guān)聯(lián)規(guī)則r的限制,即規(guī)則r中的屬性集合是實(shí)例d的屬性集合的子集,且規(guī)則r屬性的取值與實(shí)例d屬性的取值一致,則稱規(guī)則r覆蓋實(shí)例d。
2.2 建立評價(jià)指標(biāo)體系
為了全面地、高精度地對學(xué)生體質(zhì)進(jìn)行評價(jià),采用《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》[8](以下簡稱《標(biāo)準(zhǔn)》)要求的評價(jià)指標(biāo),構(gòu)建由身體形態(tài)、身體素質(zhì)和身體機(jī)能三個(gè)方面的學(xué)生體質(zhì)評價(jià)指標(biāo)體系,如圖1所示。
身體形態(tài)反映生長發(fā)育狀況和體質(zhì)水平的重要方面,身高和體重是最直觀的指標(biāo)。身體素質(zhì)是指人體機(jī)能通過肌肉活動(dòng)所表現(xiàn)出來的基本活動(dòng)能力,是評價(jià)人體運(yùn)動(dòng)能力和健康狀況的重要指標(biāo),衡量指標(biāo)有50米跑、坐位體前屈、立定跳遠(yuǎn)、800米跑和仰臥起坐。身體機(jī)能是人體在新陳代謝作用下,各器官系統(tǒng)工作的能力,衡量指標(biāo)為肺活量[9]。
綜合評價(jià)分?jǐn)?shù)采用100分制形式,不低于90分為優(yōu)秀,80.0~89.9分為良好,60.0~79.9分為及格,59.9分及以下為不及格。女生體測數(shù)據(jù)(部分)如表1所示。
2.3 三層數(shù)據(jù)挖掘結(jié)構(gòu)
大學(xué)生體質(zhì)測試各項(xiàng)指標(biāo)成績均為非連續(xù)型數(shù)據(jù)點(diǎn),首先需要將各類指標(biāo)進(jìn)行離散化。考慮到按照《標(biāo)準(zhǔn)》規(guī)定的各指標(biāo)區(qū)間劃分是人為劃定,較難體現(xiàn)數(shù)據(jù)本身的分布特性以及影響挖掘出有效的關(guān)聯(lián)規(guī)則,因此采用無監(jiān)督學(xué)習(xí)中的K-Means均值聚類算法對源樣本進(jìn)行預(yù)處理,分好對應(yīng)的簇后,按照指定的規(guī)則對各簇中的樣本進(jìn)行編碼,聚類和自編碼后得到樣本庫,完成第一層數(shù)據(jù)挖掘。
然后,利用Apriori關(guān)聯(lián)規(guī)則算法從樣本庫中找到滿足支持度和置信度預(yù)設(shè)條件的強(qiáng)關(guān)聯(lián)分類規(guī)則,完成第二層數(shù)據(jù)挖掘。本文規(guī)則的生成與傳統(tǒng)的Apriori算法有所不同,在生成關(guān)聯(lián)規(guī)則時(shí),進(jìn)行篩選,若關(guān)聯(lián)規(guī)則是關(guān)聯(lián)分類規(guī)則,則保存;否則,忽略掉。
最后,使用ACI算法[10]構(gòu)建體質(zhì)評價(jià)模型,完成第三層數(shù)據(jù)挖掘。將生成的規(guī)則根據(jù)支持度、置信度按升序進(jìn)行排序之后, ACI根據(jù)每個(gè)類預(yù)先設(shè)定的規(guī)則覆蓋數(shù)閾值,對每條規(guī)則r進(jìn)行遍歷和選擇:遍歷訓(xùn)練集的每個(gè)實(shí)例d,當(dāng)規(guī)則r覆蓋實(shí)例d,規(guī)則r的覆蓋數(shù)加1。若規(guī)則r的覆蓋數(shù)為0,則刪除規(guī)則r;否則,當(dāng)覆蓋實(shí)例d的規(guī)則數(shù)超過其對應(yīng)類的閾值,則刪除實(shí)例d。
2.4 遺傳算法優(yōu)化模型
遺傳算法應(yīng)用十分廣泛,使用遺傳算法優(yōu)化得到結(jié)果不依賴于初始條件,且為全局最優(yōu)解,具有較強(qiáng)的魯棒性。因此,本文使用遺傳算法對三層數(shù)據(jù)挖掘結(jié)構(gòu)中的參數(shù)進(jìn)行優(yōu)化,得到體質(zhì)評價(jià)模型,如圖2所示。
遺傳算法在體質(zhì)評價(jià)模型中優(yōu)化的過程為:首先對初始化參數(shù)進(jìn)行編碼,然后通過選擇、交叉、變異操作產(chǎn)生適應(yīng)度高的個(gè)體,接著進(jìn)行迭代,直至達(dá)到預(yù)定的效果。
1)個(gè)體編碼是遺傳算法解決三層數(shù)據(jù)挖掘結(jié)構(gòu)優(yōu)化問題的第一步,需要根據(jù)參數(shù)特點(diǎn)進(jìn)行設(shè)計(jì),本文采用十進(jìn)制編碼方式,個(gè)體代表一組最優(yōu)參數(shù)。
2)初始種群生成,本文采用遺傳算法隨機(jī)方式產(chǎn)生初始種群,即三層數(shù)據(jù)挖掘結(jié)構(gòu)優(yōu)化方案的可行解集合,這樣的種群保證了多樣性,有利于獲得模型最優(yōu)的參數(shù)。
3)建立適應(yīng)度函數(shù),適應(yīng)度函數(shù)決定著種群的進(jìn)化方向,通常使用錯(cuò)誤率作為適應(yīng)度函數(shù),由于研究的對象是不均衡數(shù)據(jù)集,因此本文在常規(guī)的錯(cuò)誤率計(jì)算中添加了代價(jià)系數(shù),具體如式(1)所示。
[f=1ni=1nωjIyi=j#] ? ? ? ? ? ? ? ? ? ? ? ?(1)
其中:
[Ix=0, ?x=true1, ?x=false]
式(1)中,n為樣本數(shù),yi表示預(yù)測結(jié)果,j表示真實(shí)標(biāo)簽,ωj表示標(biāo)簽j預(yù)測錯(cuò)誤的代價(jià)系數(shù)。
4)選擇策略的確定,輪盤賭策略在遺傳算法中常表現(xiàn)出非常好的收斂效果,穩(wěn)定性好,因此本文采用輪盤賭策略選擇部分優(yōu)秀個(gè)體直接進(jìn)入下一代種群。
5)交叉和變異操作的確定,根據(jù)三層數(shù)據(jù)挖掘結(jié)構(gòu)優(yōu)化問題的特點(diǎn),本文采用均勻分布交叉方式和均勻變異方式。
3 仿真測試的結(jié)果與分析
3.1 數(shù)據(jù)集
本文收集了河南某所大學(xué)2019年和2020年在校女大學(xué)生體測成績,共33220條記錄,其中綜合成績?yōu)閮?yōu)秀有452條記錄,良好有11021條記錄,及格有20785條記錄,不及格有962條記錄。由于實(shí)驗(yàn)數(shù)據(jù)集是不均衡的,用一般隨機(jī)取樣法可能選不出少數(shù)類樣本,因此本文分別從各類的樣本中隨機(jī)選出80%作為訓(xùn)練集,20%作為測試集。
《標(biāo)準(zhǔn)》中未單獨(dú)對體重和身高給出評分,需計(jì)算BMI從而得到體重和身高的評分。實(shí)驗(yàn)中將BIM、肺活量、50米跑耗時(shí)、立定跳遠(yuǎn)、坐位體前屈、800米跑耗時(shí)、一分鐘仰臥起坐均以K-Means聚類算法分為4簇,如表2所示。
3.2 評估準(zhǔn)則
對于不均衡數(shù)據(jù)集訓(xùn)練出來的模型在訓(xùn)練中可能會將少數(shù)類樣本作為噪音,僅使用準(zhǔn)確率作為評估準(zhǔn)則,會表現(xiàn)出假的高性能,且本實(shí)驗(yàn)研究的是多分類任務(wù),因此采用宏F1(macro-F1)和準(zhǔn)確率(Accuracy)來度量模型的性能,相關(guān)公式如式(2)、式(3)。
[macro-F1=1ni=1nF1i#] ? ? ? ? ? ? ?(2)
[Accuracy=i=1nTPii=1nTPi+FPi#] ? ? ? ? ? ? ? ? ? ? ?(3)
其中,F(xiàn)1i表示第i類的F1值,TPi表示第i類將正例預(yù)測為正例的個(gè)數(shù),F(xiàn)Ni表示第i類將負(fù)例預(yù)測為正例的個(gè)數(shù)。
3.3 實(shí)驗(yàn)參數(shù)
為產(chǎn)生高質(zhì)量的關(guān)聯(lián)分類規(guī)則候選集,增加收斂速度,提高模型的泛化性能,實(shí)驗(yàn)設(shè)置最小支持度為0.1%,最小置信度為0.6,遺傳算法的種群為30,最大進(jìn)化代數(shù)為50,交叉概率為0.7,變異概率為0.2,收斂趨勢如圖3所示。
分析圖3得到,本文模型在進(jìn)化到12代時(shí),適應(yīng)度不再發(fā)生變化,遺傳算法完成了模型優(yōu)化。
3.4 實(shí)驗(yàn)分析
為了驗(yàn)證本文模型的有效性,選用近年來在體質(zhì)預(yù)測研究中相對優(yōu)異的3個(gè)基準(zhǔn)模型,模型如下:
1)樸素貝葉斯(Bayes):由文獻(xiàn)[4]提出的基于樸素貝葉斯分類算法的預(yù)測模型。
2)GA-BP:為提升BPNN模型的性能,文獻(xiàn)[6]提出了基于遺傳算法優(yōu)化的BPNN模型。
3)GABP-AdaBoost:考慮到集成學(xué)習(xí)的AdaBoost算法對訓(xùn)練集中分類錯(cuò)誤的實(shí)例增加權(quán)重,從而提高模型預(yù)測效果,將GA-BP神經(jīng)網(wǎng)絡(luò)作為基分類器,構(gòu)建GABP-AdaBoost 預(yù)測模型。
經(jīng)過實(shí)驗(yàn),得到了各個(gè)模型的預(yù)測結(jié)果,如圖4所示。
分析圖4能夠得到,本文所提的模型的F1值和準(zhǔn)確率相較于Bayes模型分別提高24.13%和13.57%,明顯優(yōu)于Bayes模型。Bayes模型假設(shè)體質(zhì)評價(jià)指標(biāo)之間是相互獨(dú)立的,忽略了評價(jià)指標(biāo)隱藏的聯(lián)系,而本文提出的模型中K-means聚類和Apriori規(guī)則算法均挖掘出有效的隱藏聯(lián)系,從而使得模型性能顯著提高。
與GABP模型相比,本文所提的模型的F1值和準(zhǔn)確率分別提高24.78%和5.62%,優(yōu)于GABP模型。GABP模型雖擁有強(qiáng)大的擬合能力,但對于不均衡的數(shù)據(jù)集,在訓(xùn)練過程中往往將少數(shù)類的樣本視為噪音處理,使得模型性能降低,ACI算法針對的是不均衡數(shù)據(jù)集問題,因而本文所提的模型性能高。
與GABP-AdaBoost模型相比,本文所提的模型較優(yōu),F(xiàn)1值和準(zhǔn)確率分別提高7.3%和2.53%。GABP-AdaBoost模型優(yōu)化了GAPB的不足之處,但不能分辨出噪音數(shù)據(jù),使得噪音數(shù)據(jù)的訓(xùn)練權(quán)重也會加大,致使模型性能下降,本文所提的模型中的三層數(shù)據(jù)挖掘結(jié)構(gòu)能夠分離出噪音數(shù)據(jù),加之使用遺傳算法優(yōu)化,更是進(jìn)一步提高了模型性能。
4 結(jié)束語
本文提出一種基于三層數(shù)據(jù)挖掘和遺傳算法的體質(zhì)評價(jià)模型,利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)學(xué)生體測數(shù)據(jù)中隱藏的規(guī)律,使用遺傳算法優(yōu)化模型參數(shù),構(gòu)建了體質(zhì)評價(jià)模型,仿真實(shí)驗(yàn)中表現(xiàn)出較高的性能,為大學(xué)生綜合體質(zhì)預(yù)測提供了新的思路和方法。
參考文獻(xiàn):
[1] 王蛟.基于神經(jīng)網(wǎng)絡(luò)對大學(xué)生體質(zhì)評價(jià)的應(yīng)用研究[C]//陜西省體育科學(xué)學(xué)會.第一屆陜西省體育科學(xué)論文報(bào)告會優(yōu)秀論文集.陜西省體育科學(xué)學(xué)會:陜西省體育科學(xué)學(xué)會,2021:11.
[2] 袁陽春,劉森.基于數(shù)據(jù)挖掘技術(shù)的虛擬企業(yè)審計(jì)風(fēng)險(xiǎn)評估模型[J].微型電腦應(yīng)用,2021,37(9):103-106.
[3] 劉濤,黃學(xué)功,馬偉佳.基于遺傳算法的MRE隔振器動(dòng)力學(xué)模型識別[J].噪聲與振動(dòng)控制,2021,41(5):50-57,97.
[4] 杜云梅,劉東.樸素貝葉斯分類算法在大學(xué)生體質(zhì)分析中的應(yīng)用[J].體育學(xué)刊,2018,25(1):117-121.
[5] 王乃博,黃國梅,吳磊,等.基于BP神經(jīng)網(wǎng)絡(luò)模型的大學(xué)生體質(zhì)綜合測評[J].南昌大學(xué)學(xué)報(bào)(理科版),2016,40(5):506-510.
[6] 許珊珊,曹冶,崔洪珊.GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測大學(xué)生體質(zhì)的模型構(gòu)建研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2018,32(7):162-168.
[7] Witten I H,F(xiàn)rank E,Hall M A.Embedded machine learning[M]//Data Mining:Practical Machine Learning Tools and Techniques.Amsterdam:Elsevier,2011:531-538.
[8] 教育部關(guān)于印發(fā)《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)(2014年修訂)》的通知[EB/OL].[2021-07-20]. http://www.moe.gov.cn/s78/A17/twys_left/moe_938/moe_792/s3273/201407/t20140708_171692.html.
[9] 王曉峰,王祥全.大學(xué)生人口身體素質(zhì)變動(dòng)及其問題成因分析[J].人口學(xué)刊,2018,40(2):86-95.
[10] 崔巍,賈曉琳,樊帥帥,等.一種新的不均衡關(guān)聯(lián)分類算法[J].計(jì)算機(jī)科學(xué),2020,47(S1):488-493.
【通聯(lián)編輯:謝媛媛】
收稿日期:2021-11-08
作者簡介:陳興(1994—),男,河南焦作人,碩士,研究方向?yàn)橛?jì)算機(jī)軟件開發(fā)與應(yīng)用;馬致明(1964—),男,教授,碩士,研究方向計(jì)算機(jī)輔助教育、軟件開發(fā)與應(yīng)用。