◆馮愛(ài)平
數(shù)據(jù)挖掘技術(shù)在中職學(xué)生信息系統(tǒng)中的研究與實(shí)踐
◆馮愛(ài)平
(甘肅省定西市渭源縣職業(yè)中等專業(yè)學(xué)校 甘肅 748200)
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)的發(fā)展,都較好地適應(yīng)了人們數(shù)據(jù)采集的客觀需求。海量數(shù)據(jù)中的知識(shí)、規(guī)律等,成為了指導(dǎo)生產(chǎn)生活的重要潛在資源,推動(dòng)了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生。數(shù)據(jù)挖掘技術(shù)與中職學(xué)生信息系統(tǒng)的結(jié)合,成為學(xué)校爭(zhēng)取高質(zhì)量生源、維護(hù)學(xué)校發(fā)展的重要手段,為教育主管部門(mén)制定決策的重要參考依據(jù)。本文主要分析了數(shù)據(jù)挖掘概況、中職學(xué)生特點(diǎn)、挖掘?qū)W生信息的積極作用、數(shù)據(jù)挖掘?qū)W生信息方法,希望能夠?yàn)橄嚓P(guān)工作提供借鑒。
數(shù)據(jù)挖掘技術(shù);中職學(xué)生;信息系統(tǒng);研究;實(shí)踐
數(shù)據(jù)挖掘,是集中人工智能、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等學(xué)科的專業(yè)優(yōu)勢(shì)后,發(fā)展成的新型技術(shù),數(shù)據(jù)采掘、數(shù)據(jù)發(fā)掘都代表了相同的技術(shù);同時(shí)存在數(shù)據(jù)分析、模式分析、決策支持、知識(shí)抽取等相近術(shù)語(yǔ)。數(shù)據(jù)挖掘,是以數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)、各類信息庫(kù)為基礎(chǔ),充分挖掘大量數(shù)據(jù)中的有趣知識(shí)的這一具體過(guò)程。數(shù)據(jù)挖掘從狹義上,只代表了KDD中的基本步驟;而廣義上,數(shù)據(jù)挖掘即揭示數(shù)據(jù)庫(kù)信息全過(guò)程,隱含的、未知的、潛在的信息內(nèi)容都包含在內(nèi)。
數(shù)據(jù)挖掘具體分為確定對(duì)象和目的、準(zhǔn)備數(shù)據(jù)、挖掘數(shù)據(jù)、分析結(jié)果四個(gè)環(huán)節(jié),其中數(shù)據(jù)挖掘的對(duì)象、目的是關(guān)鍵性環(huán)節(jié),盡管存在挖掘結(jié)果的未知性,但是需要首先明確挖掘?qū)ο蠛湍康?。?zhǔn)備數(shù)據(jù)包含三大過(guò)程,數(shù)據(jù)選擇、預(yù)處理、轉(zhuǎn)換。數(shù)據(jù)選擇,是篩選挖掘?qū)ο笾械臄?shù)據(jù)信息,從中找出關(guān)系到挖掘目標(biāo)的數(shù)據(jù)集。數(shù)據(jù)預(yù)處理,就是篩查數(shù)據(jù)挖掘的全過(guò)程。數(shù)據(jù)轉(zhuǎn)換,是針對(duì)數(shù)據(jù)集處理后的數(shù)據(jù)集,經(jīng)過(guò)挖掘算法轉(zhuǎn)換后,出現(xiàn)的可識(shí)別數(shù)據(jù)格式。數(shù)據(jù)挖掘,是以挖掘算法為對(duì)象,深入剖析已有數(shù)據(jù),任務(wù)類型確定、選定算法、數(shù)據(jù)運(yùn)算屬于基本環(huán)節(jié)。結(jié)果分析,即分析、詮釋數(shù)據(jù)挖掘結(jié)果,以適應(yīng)用戶的理解、應(yīng)用需求。
決策樹(shù)、遺傳算法、人工神經(jīng)網(wǎng)絡(luò),都是數(shù)據(jù)挖掘技術(shù)現(xiàn)階段的主要類別。一是決策樹(shù),即具備判定作用的算法構(gòu)成的樹(shù)形結(jié)構(gòu),ID3、C4.5、CART屬于幾種常用算法。
一般情況下,樹(shù)的生成、剪枝是決策樹(shù)的兩個(gè)具體表現(xiàn)。決策樹(shù)的生成,是“if…then”分類規(guī)則、歸納循環(huán)兩種方法的應(yīng)用過(guò)程,通過(guò)劃分內(nèi)部節(jié)點(diǎn)屬性,在左子樹(shù)中依次體現(xiàn)屬性值,其中左子樹(shù)歸納有需要屬性,右子樹(shù)為其他。決策樹(shù)以根結(jié)點(diǎn)為基礎(chǔ)循環(huán),以左子樹(shù)不再增加葉結(jié)點(diǎn)而結(jié)束;而剪枝就是減除噪聲數(shù)據(jù)。
遺傳算法基于達(dá)爾文進(jìn)化論,以交叉、變異、復(fù)制為手段,對(duì)求解算法進(jìn)行優(yōu)化,具有強(qiáng)大搜索力、最優(yōu)解能力,問(wèn)題最優(yōu)解已經(jīng)無(wú)關(guān)于初始條件。
人工神經(jīng)網(wǎng)絡(luò),基于生物神經(jīng)元特點(diǎn),以人類思維為參照,在分析、歸納、推理過(guò)程中,構(gòu)建并行處理網(wǎng)絡(luò)。數(shù)據(jù)處理,是以內(nèi)部神經(jīng)元為基礎(chǔ),完成計(jì)算和調(diào)整。人工神經(jīng)網(wǎng)絡(luò),在容錯(cuò)、分布存儲(chǔ)、自學(xué)習(xí)、并行處理方面具有一定的獨(dú)立性。
C4.5算法是以信息增益率為標(biāo)準(zhǔn)確定分支屬性,需要以屬性增益率的計(jì)算結(jié)果為基礎(chǔ)來(lái)比較分析,其中的最大屬性,成為分支決策屬性,通過(guò)合理取值來(lái)構(gòu)建節(jié)點(diǎn)。信息增益率,是有分支下有用信息的實(shí)際占比,在增益率值增大時(shí),表示分支中包含更多的有用信息。信息增益率優(yōu)于信息增益,已經(jīng)得到實(shí)踐證明,能夠在ID3算法應(yīng)用過(guò)程中,測(cè)試屬性即其中的值多屬性。
C4.5算法屬于遞歸過(guò)程,以新節(jié)點(diǎn)不再出現(xiàn)為結(jié)束,能夠較好地處理連接數(shù)值屬性,也能夠分裂定性屬性,在定量屬性發(fā)生多次分裂后,如果發(fā)生數(shù)據(jù)缺失問(wèn)題,缺失值產(chǎn)生。而節(jié)點(diǎn)測(cè)試,需要對(duì)節(jié)點(diǎn)中所含多余參數(shù)提前刪減。C4.5算法具有明顯的簡(jiǎn)單、高效、可靠性優(yōu)勢(shì)。
中職學(xué)生的實(shí)際狀況直接關(guān)系到教育效果。中職學(xué)生的成長(zhǎng)過(guò)程易受到以下因素的影響。一是家庭結(jié)構(gòu)的健全程度,直接關(guān)系到學(xué)生身心健康狀況,單親家庭下子女缺失父愛(ài)或母愛(ài),易形成孤僻、暴躁的性格,渴望建立良好的同學(xué)、師生、朋友關(guān)系,但又懷有懷疑的態(tài)度。二是家庭教育。留守兒童處于隔代教育之下,教育效果遠(yuǎn)不及父母教育,存在明顯缺失。三是家庭經(jīng)濟(jì)條件,會(huì)直接影響到學(xué)生自信心,貧困學(xué)生很難建立起較強(qiáng)的自信息,容易自卑、敏感、情緒低落。四是家長(zhǎng)文化,決定了家長(zhǎng)的教育方式,能夠在知識(shí)認(rèn)知方面直接影響到孩子。文化程度低、家庭富裕子女,易產(chǎn)生知識(shí)無(wú)用論,過(guò)分看重社會(huì)關(guān)系。五是性格因素。性格開(kāi)朗時(shí),朋友多、善于溝通;性格內(nèi)向時(shí),好靜、自覺(jué)性強(qiáng)、不善溝通、易被忽視。六是學(xué)校教育。基于中職學(xué)生中等偏下的初中學(xué)歷,很難達(dá)到重點(diǎn)高中錄取線,初中階段的學(xué)習(xí)過(guò)程往往不受重視,受教育程度偏低。七是社會(huì)偏見(jiàn)。中職生只能擔(dān)任簡(jiǎn)單、復(fù)雜工種的普遍認(rèn)知,導(dǎo)致親戚朋友、周邊的人輕視職業(yè)學(xué)校,嚴(yán)重影響到學(xué)生自信心的建立和積極生活態(tài)度的養(yǎng)成。八是學(xué)生的心理健康狀態(tài),與他們對(duì)周邊人和事所有的態(tài)度息息相關(guān),進(jìn)而影響到學(xué)生的受歡迎度和價(jià)值觀念的形成。
影響中職生成長(zhǎng)的因素,會(huì)產(chǎn)生不同程度的作用,必須經(jīng)過(guò)綜合分析。心理健康、性格屬于固態(tài)因素,可在青少年階段進(jìn)行塑造,能夠以發(fā)展的觀念作為數(shù)據(jù)分析學(xué)生現(xiàn)狀的基本原則,體現(xiàn)出教育決策過(guò)程中的前瞻性與實(shí)時(shí)性。綜合分析,可以教育效果的相關(guān)聯(lián)系,確定數(shù)據(jù)挖掘變量因子,例如性格、家長(zhǎng)文化程度、家庭教育等。
海量學(xué)生數(shù)據(jù),必然蘊(yùn)含大量的學(xué)生教育信息,數(shù)據(jù)挖掘技術(shù)能夠從中提取有用信息,同時(shí)結(jié)合教育學(xué)、心理學(xué),合理制定相應(yīng)的教育策略,以便于采取合理的海量數(shù)據(jù)處理方法,多維度、多角度地分析數(shù)據(jù)關(guān)系和內(nèi)在規(guī)律,全面提升大量信息的有效利用率,以此轉(zhuǎn)化海量數(shù)據(jù)為信息資源,以便于在決策過(guò)程中提供數(shù)據(jù)支撐。
中職學(xué)生的現(xiàn)狀分析,要求以收集新生入學(xué)信息為首要環(huán)節(jié),信息登記表、性格測(cè)試表等都可作為重要參考資源;以數(shù)據(jù)挖掘目標(biāo)為基礎(chǔ),篩選、變換原始數(shù)據(jù),根據(jù)其與教育效果的關(guān)聯(lián)性,合力構(gòu)建學(xué)生現(xiàn)狀分析數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)分析過(guò)程,需要以數(shù)據(jù)挖掘軟件為工具;最后以分析結(jié)果為基礎(chǔ),確定中職學(xué)生的特點(diǎn)、規(guī)律,以此采取相應(yīng)的教育策略。
本次以2018年重慶市輕工業(yè)學(xué)校1000名新生入學(xué)時(shí)的登記表作為數(shù)據(jù)挖掘?qū)ο?,?jīng)過(guò)SPSS數(shù)據(jù)挖掘軟件后,聚類分析學(xué)生信息。
聚類分析,是“物以類聚,人以群分”理念應(yīng)用于數(shù)據(jù)挖掘的一種方法,是在相似性原則之下,得出樣本的具體間距。如果間距數(shù)值較小,可以直接歸于同類,或是一簇。劃分算法,屬于聚類分析,需要首先完成k個(gè)劃分的創(chuàng)建,k表示劃分個(gè)數(shù);循環(huán)定位技術(shù),是一個(gè)劃分向另一劃分轉(zhuǎn)移過(guò)程中,可借助的質(zhì)量劃分改善方法;質(zhì)量或準(zhǔn)則函數(shù),能夠在求解優(yōu)劣方面發(fā)揮作用。準(zhǔn)則函數(shù)的應(yīng)用,能夠在聚類結(jié)果中獲取最優(yōu)解。
平方誤差較為常用,可用于質(zhì)點(diǎn)距離的平方和計(jì)算。
解的較多數(shù)量,可能會(huì)有組合爆炸的產(chǎn)生,能夠借助簡(jiǎn)單方法檢驗(yàn)含k個(gè)簇的所有集合,S(n,k)次檢驗(yàn)后得出結(jié)果;
在n各對(duì)象、元組數(shù)據(jù)庫(kù)確定后,需要通過(guò)劃分算法,得出數(shù)據(jù)劃分的具體數(shù)值k,以簇表示每一個(gè)劃分,k≤k。
挖掘工具能夠在相似性原則之下劃分1000名新生的現(xiàn)狀為四類,如表1。
依據(jù)挖掘結(jié)果,可以得出第一類學(xué)生的占比數(shù)為54.7%,即超過(guò)半數(shù)的學(xué)生住在偏遠(yuǎn)地區(qū)、父母文化程度低且外出打工,以留守子女狀態(tài)形成內(nèi)向的性格,但心理健康、缺失家庭教育,是教育決策的重點(diǎn)考慮對(duì)象。第二類學(xué)生的占比數(shù)為15.3%,以家庭結(jié)構(gòu)完整、條件良好、近郊居住、父母文化程度高且嚴(yán)格要求子女的基本情況,形成學(xué)生開(kāi)朗的性格,心理健康。第三類學(xué)生的占比數(shù)為10.2%,是在不佳的家庭環(huán)境、父母一般的文化程度和嚴(yán)格教育下,形成開(kāi)朗的性格。第四類學(xué)生以20%的較大比重,近郊區(qū)縣、父母離異且外出打工,導(dǎo)致學(xué)生的安全感喪失,容易自卑,需要教育工作者重點(diǎn)關(guān)注。總之,偏遠(yuǎn)地區(qū)的打工子女占到所有中職生的大部分,父母離異數(shù)量較高,普遍存在隔代教育,文化程度低,家庭貧困,家庭教育相對(duì)缺失。這種情況下,中職生不能建立起自信心,內(nèi)向安靜。
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代科技進(jìn)步的大環(huán)境下出現(xiàn)的新興技術(shù),具有一定的應(yīng)用條件,適應(yīng)了大數(shù)據(jù)時(shí)代海量信息的應(yīng)用、分析和管理。而中職學(xué)生信息系統(tǒng)與數(shù)據(jù)挖掘的結(jié)合,能夠以分析對(duì)象、合理算法為基礎(chǔ),依據(jù)影響中職生教育效果的具體因素,將數(shù)據(jù)挖掘得出的數(shù)據(jù)結(jié)果應(yīng)用于教育領(lǐng)域發(fā)揮,以其明顯的功能優(yōu)勢(shì),順應(yīng)了現(xiàn)階段的客觀形勢(shì),以便在中職學(xué)校教育決策過(guò)程中提供重要的信息數(shù)據(jù),提高每一項(xiàng)決策內(nèi)容的科學(xué)、合理性。
[1]王軍,何旭.基于數(shù)據(jù)挖掘的高職學(xué)生行為分析模型構(gòu)建與研究[J].現(xiàn)代信息科技,2020,4(18):119-121.
[2]鄧連瑾.基于數(shù)據(jù)挖掘技術(shù)的高職信息資源獲取研究[J].天津職業(yè)院校聯(lián)合學(xué)報(bào),2019,18(4):99-105.
[3]陸濤.數(shù)據(jù)挖掘技術(shù)在高職學(xué)生信息系統(tǒng)中的研究與實(shí)踐[J].信息系統(tǒng)工程,2018(5):149.
[4]陳燕純.數(shù)據(jù)挖掘技術(shù)在高職院校就業(yè)信息分析的應(yīng)用研究[J].科技展望,2017(11):24-25.
[5]李亞?wèn)|.數(shù)據(jù)挖掘技術(shù)在高職院校學(xué)生就業(yè)指導(dǎo)中的應(yīng)用研究[J].創(chuàng)新創(chuàng)業(yè)理論研究與實(shí)踐,2019,2(17):149-150.
[6]張佳.探析關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在學(xué)生信息管理中的應(yīng)用[J].電腦編程技巧與維護(hù),2018(8):89-90,102.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年5期