耿嶠峙 徐菲 淦亞婷 安心然 張湑行
摘要:文章以天津商業(yè)大學(xué)理學(xué)院數(shù)學(xué)系學(xué)生為研究對象,提出了一種主要依據(jù)學(xué)生社交網(wǎng)絡(luò)平臺數(shù)據(jù)的社會適應(yīng)力預(yù)測模型:基于因子分析一灰色關(guān)聯(lián)法的隨機森林模型,分類準(zhǔn)確率達(dá)到78.43%。結(jié)果顯示學(xué)生的學(xué)習(xí)行為以及線上發(fā)布與評論行為具有較強的類型識別度,為高校開展就業(yè)創(chuàng)業(yè)教育工作、實現(xiàn)高等教育“依數(shù)治理”提供參考依據(jù)。
關(guān)鍵詞:高校學(xué)生;社會適應(yīng)力;因子分析;灰色關(guān)聯(lián)分析;隨機森林
中圖分類號:TP183;G449.5? ? 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:2096-4706(2020)06-0021-04
0? 引? 言
20世紀(jì)80年代到20世紀(jì)末,數(shù)據(jù)挖掘技術(shù)開始應(yīng)用到教育領(lǐng)域[1],起初運用的研究方法比較簡單,研究成果較少。而本世紀(jì)初至今,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,教育研究技術(shù)得到了進一步發(fā)展,采用的數(shù)據(jù)挖掘技術(shù)也變得更豐富。
如今大學(xué)生畢業(yè)率逐年上漲,根據(jù)人力資源和社會保障部數(shù)據(jù),2019年我國高校畢業(yè)生總數(shù)為843萬,相較于上一年增長23萬。因此對于學(xué)生來說,建立清晰的自我認(rèn)知,逐步提高社會適應(yīng)力以面對日益嚴(yán)峻的就業(yè)形勢也就尤為重要;對于高校來說,如何獲取并合理評估學(xué)生的多方面信息,并據(jù)此對學(xué)生進入社會進行干預(yù)引導(dǎo),仍需要探索有效路徑。
1? 相關(guān)研究綜述
社會適應(yīng)力是根據(jù)生活或職業(yè)角色變化而助推個體發(fā)展的能力,是個體交互的結(jié)果[2]。本文是指高校學(xué)生從學(xué)校進入社會所需要具備的融入社會的能力。
在相關(guān)研究上,崔秋月[3]從體育運動入手,通過文獻(xiàn)資料法、訪談法、問卷調(diào)查法研究高校學(xué)生社會適應(yīng)力,得出學(xué)生參與體育項目有利于提升學(xué)生的社會適應(yīng)力,且在各類運動中,集體性運動效果更好。胡志偉[4]通過文獻(xiàn)研究法、辯證分析法、問卷調(diào)查法、個案分析法研究高校學(xué)生網(wǎng)絡(luò)人際關(guān)系來探究高校學(xué)生的社會適應(yīng)力,得出好的網(wǎng)絡(luò)人際關(guān)系有利于提升學(xué)生的社會適應(yīng)力。
綜上所述,以往對學(xué)生社會適應(yīng)力的研究大多從心理學(xué)、經(jīng)濟學(xué)、教育學(xué)等角度出發(fā),在方法上常使用問卷調(diào)查法、文獻(xiàn)研究法,較少關(guān)注學(xué)生的客觀行為數(shù)據(jù),尤其是在互聯(lián)網(wǎng)平臺留下的信息。因此,本文立足于學(xué)生的社交網(wǎng)絡(luò)平臺數(shù)據(jù),運用機器學(xué)習(xí)算法對學(xué)生個性化的社會適應(yīng)特征進行預(yù)判。研究結(jié)果對高校學(xué)生畢業(yè)后職業(yè)發(fā)展以及高校制定培養(yǎng)方案具有重要意義。
2? 數(shù)據(jù)來源及預(yù)處理
本文以本校2017級數(shù)學(xué)系學(xué)生為研究對象,在征得學(xué)生本人的同意下利用Python爬蟲技術(shù)獲取102名學(xué)生的社交網(wǎng)絡(luò)平臺(騰訊QQ)記錄;同時,在學(xué)生教務(wù)管理平臺以及發(fā)放的問卷中獲取學(xué)生的成績數(shù)據(jù)、行為數(shù)據(jù)等;以教育部編制的《中國大學(xué)生適應(yīng)量表》[5]的部分題項為基礎(chǔ),對學(xué)生的社會適應(yīng)力進行測量并打分。
對采集的數(shù)據(jù)進行初步處理,首先刪除重復(fù)值和異常值,其次運用平均值法填補缺失數(shù)據(jù),各部分字段以學(xué)號作為主鍵連接,進一步提取學(xué)生屬性以及篩選有效變量。
3? 研究過程
建立基于因子分析-灰色關(guān)聯(lián)法的隨機森林分類器:首先運用因子分析對經(jīng)過預(yù)處理的數(shù)據(jù)進行屬性提取,然后在各屬性內(nèi)運用灰色關(guān)聯(lián)分析篩選有效變量以降低維度,最后建立隨機森林模型并對其預(yù)測性能進行評價。
3.1? 學(xué)生屬性提取
為去除原始變量存在的復(fù)雜內(nèi)部關(guān)系,首先進行因子分析,提取出幾個公共因子用于后續(xù)的模型建立。其中KMO值大于0.5,且Bartlett檢驗顯著,保留特征值大于1的公因子,如表1所示。
根據(jù)因子旋轉(zhuǎn)后的成分矩陣,提取出6個屬性,對其分別命名為:線上發(fā)布屬性、線上評論屬性、學(xué)習(xí)行為屬性、消費屬性、校內(nèi)表現(xiàn)屬性、線下社交屬性,之后我們將在這6個屬性下對高校學(xué)生社會適應(yīng)力進行研究。
3.2? 有效變量篩選
對提取的6個屬性中的19個指標(biāo),進一步作降維處理。鑒于學(xué)生的行為數(shù)據(jù)與社會適應(yīng)力并非簡單的線性相關(guān)關(guān)系,故采用灰色關(guān)聯(lián)分析法。我們通過計算社會適應(yīng)序列和行為特征序列之間的關(guān)聯(lián)系數(shù)和關(guān)聯(lián)度,實現(xiàn)對有效變量的篩選。同時為保證后續(xù)模型中對學(xué)生刻畫的完整性和多樣性,我們只在相同屬性中排序比較關(guān)聯(lián)度,具體如下:
(1)參考序列:社會適應(yīng)力得分{x01,x02,…,x0n}
比較序列:各屬性的指標(biāo) (k=1,2,…,6)
(2)對于非時間序列數(shù)據(jù)的處理,區(qū)間值化:
(3)計算關(guān)聯(lián)系數(shù):
(4)計算關(guān)聯(lián)度:
經(jīng)查閱文獻(xiàn),灰度關(guān)聯(lián)分析的ρ值為分辨系數(shù),一般取值為0.5,因此本文ρ取值為0.5,計算得出各指標(biāo)與社會適應(yīng)力的關(guān)聯(lián)度并進行排序,結(jié)果如表2~表4所示。
分別選取6個屬性中排序在前兩位的變量,并且依據(jù)屬性內(nèi)關(guān)聯(lián)度的接近程度進行適當(dāng)?shù)奶砑?、去除,最終有10個變量作為輸入變量進入后續(xù)模型,分別為:評論回復(fù)比例、不同設(shè)備數(shù)、圖片數(shù)、總說說數(shù)、表情數(shù)、課堂專心時長、每周自習(xí)時長、每月餐飲消費、第二學(xué)年加權(quán)成績、每周兼職時長。
3.3? 隨機森林模型建立
3.3.1? 模型建立
本研究選用隨機森林(Random Forest)算法構(gòu)建學(xué)生社會適應(yīng)力分類模型,這是一種基于決策樹的集成學(xué)習(xí)分類算法。算法流程如下:
Step1.對訓(xùn)練集采用自助法抽取n個訓(xùn)練樣本子集,建立ntree=n棵決策樹。
Step2.在訓(xùn)練一棵決策樹的過程中,考慮一個分裂節(jié)點,隨機在全部m個變量中選擇mtry=m個變量作為候選分裂變量。
Step3.對生成的n棵決策樹分類結(jié)果進行投票,輸出最終預(yù)測類別。
讀取全體數(shù)據(jù)集,首先以社會適應(yīng)力得分(score)的下側(cè)0.4分位數(shù)為界,構(gòu)建二分類變量,如式(1),對學(xué)生的社會適應(yīng)力類型進行標(biāo)記。然后按照1:1進行隨機抽樣,劃分訓(xùn)練集與測試集,抽取的兩樣本中分別有37.25%、43.14%被標(biāo)記為1,代表社會適應(yīng)力相對較弱的學(xué)生群體。
其中q0.4為score的下側(cè)0.4分位數(shù)。
根據(jù)篩選后的10個有效變量,用R軟件對訓(xùn)練集D建立隨機森林模型。該模型需要調(diào)整兩個參數(shù):決策樹個數(shù)(ntree)、分裂點選擇變量個數(shù)[6](mtry)。采用網(wǎng)格搜索選取最優(yōu)參數(shù)為:ntree=10 000,mtry=6。
3.3.2? 模型評價與檢驗
(1)查全率、查準(zhǔn)率與F1指標(biāo)。運用上述模型對測試集中51名學(xué)生的社會適應(yīng)力類型進行識別,得到混淆矩陣如表5所示。
表5? 測試集混淆矩陣
模型的整體正確率為78.43%,進一步由式(2)~式(4)計算得到其他準(zhǔn)確性度量指標(biāo),查全率、查準(zhǔn)率與F1值分別為:77.27%,73.91%,75.56%。
(2)ROC曲線與PR曲線??紤]到模型在兩類學(xué)生預(yù)測準(zhǔn)確率上的差異性,以及我們更關(guān)注對正例(即社會適應(yīng)力較弱)學(xué)生的識別能力,故引入ROC曲線與PR曲線對模型性能進行可視化的綜合評價,如圖1所示。
ROC曲線靠近圖形的左上角區(qū)域,同時曲線下方面積即AUC指標(biāo)值為0.855 799,接近完美分類器的理想值1;PR曲線在平衡點時模型的查全率與查準(zhǔn)率相等,且位于0.7上方,可認(rèn)為模型能夠在誤報率處于低水平時盡可能多的將正例識別出來。綜上,模型在測試集中表現(xiàn)的性能良好。
(3)十折交叉驗證。本文采用十折交叉驗證對模型進行檢驗,該方法在訓(xùn)練時用到了大部分的原始數(shù)據(jù):將全部學(xué)生數(shù)據(jù)平均劃分為10折,在前9折擬合模型,用第10折測試,重復(fù)此步驟10次并求得平均正確率為76.67%,表明模型在未知數(shù)據(jù)中具有一定的泛化能力。
3.4? 模型結(jié)果
進一步分析變量對學(xué)生社會適應(yīng)力的影響程度,以影響最大的變量為基準(zhǔn)計算各變量相對重要性如圖2所示。由圖可得到位于前五的變量,其中,每周自習(xí)時長和第二學(xué)年加權(quán)成績隸屬于學(xué)習(xí)行為屬性和校內(nèi)表現(xiàn)屬性,處于第一梯隊,是關(guān)鍵分類因素;其次,總說說數(shù)與圖片數(shù)、評論回復(fù)比例隸屬于線上發(fā)布屬性與評論屬性,作為補充因素。可以推斷,不同社會適應(yīng)水平的學(xué)生群體,可能在社交平臺中表現(xiàn)出不同的行為特點。
4? 結(jié)? 論
社交網(wǎng)絡(luò)平臺中記錄了豐富的學(xué)生數(shù)據(jù),這些數(shù)據(jù)建立在學(xué)生本人與平臺以及他人的交互過程之上,區(qū)別于傳統(tǒng)的數(shù)據(jù)風(fēng)格。本文運用爬蟲技術(shù)采集這類數(shù)據(jù),并結(jié)合其他行為數(shù)據(jù),嘗試挖掘其中潛藏的規(guī)律,將其作為預(yù)測變量放入模型。研究結(jié)果顯示學(xué)生的學(xué)習(xí)行為、校內(nèi)表現(xiàn)屬性以及線上發(fā)布、評論屬性具有較強的類型識別度,表明這類行為特征與學(xué)生的社會適應(yīng)力存在一定程度的關(guān)聯(lián)性。
根據(jù)本文的研究思路,我們可以將學(xué)生的評價結(jié)論反饋至學(xué)生與高校雙方,進一步應(yīng)用到高校就業(yè)創(chuàng)業(yè)教育決策中,促進個性化、信息化的教學(xué)發(fā)展,完善教育體系。并且,在今后的研究中,可以考慮獲得更多源的學(xué)生數(shù)據(jù),如家庭背景數(shù)據(jù)、圖書館借閱數(shù)據(jù)、微博點贊數(shù)據(jù)等;或者對比選擇不同的機器學(xué)習(xí)算法,優(yōu)化模型性能。
參考文獻(xiàn):
[1] 周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進展綜述 [J].軟件學(xué)報,2015,26(11):3026-3042.
[2] 孫麗璐,曾飛揚,汪韶源.大學(xué)生社會適應(yīng)力模型研究——以“95后”大學(xué)生為例 [J].四川理工學(xué)院學(xué)報(社會科學(xué)版),2016,31(1):20-29.
[3] 崔秋月.體育運動對大學(xué)生社會適應(yīng)能力影響的研究 [D].蘇州:蘇州大學(xué),2013.
[4] 胡志偉.大學(xué)生網(wǎng)絡(luò)人際關(guān)系對其社會適應(yīng)力影響研究 [D].哈爾濱:哈爾濱理工大學(xué),2017.
[5] 教育部《大學(xué)生心理健康測評系統(tǒng)》課題組,方曉義,沃建中,等.《中國大學(xué)生適應(yīng)量表》的編制 [J].心理與行為研究,2005(2):95-101.
[6] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述 [J].統(tǒng)計與信息論壇,2011,26(3):32-38.
作者簡介:耿嶠峙(1983-),男,漢族,河南新鄉(xiāng)人,講師,博士研究生,研究方向:大數(shù)據(jù)分析,教育大數(shù)據(jù);徐菲(1998-),女,漢族,山西大同人,本科在讀,研究方向:應(yīng)用統(tǒng)計;淦亞婷(1997-),女,漢族,江西九江人,本科在讀,研究方向:統(tǒng)計學(xué);安心然(1998-),女,漢族,河南焦作人,本科在讀,研究方向:數(shù)學(xué)與應(yīng)用數(shù)學(xué);張湑行(1999-),男,漢族,河南鄭州人,本科在讀,研究方向:信息與計算科學(xué)。