• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)驅(qū)動下高校學(xué)生社會適應(yīng)力研究

    2020-07-27 16:25:36耿嶠峙徐菲淦亞婷安心然張湑行
    現(xiàn)代信息科技 2020年6期
    關(guān)鍵詞:隨機森林灰色關(guān)聯(lián)分析因子分析

    耿嶠峙 徐菲 淦亞婷 安心然 張湑行

    摘要:文章以天津商業(yè)大學(xué)理學(xué)院數(shù)學(xué)系學(xué)生為研究對象,提出了一種主要依據(jù)學(xué)生社交網(wǎng)絡(luò)平臺數(shù)據(jù)的社會適應(yīng)力預(yù)測模型:基于因子分析一灰色關(guān)聯(lián)法的隨機森林模型,分類準(zhǔn)確率達(dá)到78.43%。結(jié)果顯示學(xué)生的學(xué)習(xí)行為以及線上發(fā)布與評論行為具有較強的類型識別度,為高校開展就業(yè)創(chuàng)業(yè)教育工作、實現(xiàn)高等教育“依數(shù)治理”提供參考依據(jù)。

    關(guān)鍵詞:高校學(xué)生;社會適應(yīng)力;因子分析;灰色關(guān)聯(lián)分析;隨機森林

    中圖分類號:TP183;G449.5? ? 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:2096-4706(2020)06-0021-04

    0? 引? 言

    20世紀(jì)80年代到20世紀(jì)末,數(shù)據(jù)挖掘技術(shù)開始應(yīng)用到教育領(lǐng)域[1],起初運用的研究方法比較簡單,研究成果較少。而本世紀(jì)初至今,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,教育研究技術(shù)得到了進一步發(fā)展,采用的數(shù)據(jù)挖掘技術(shù)也變得更豐富。

    如今大學(xué)生畢業(yè)率逐年上漲,根據(jù)人力資源和社會保障部數(shù)據(jù),2019年我國高校畢業(yè)生總數(shù)為843萬,相較于上一年增長23萬。因此對于學(xué)生來說,建立清晰的自我認(rèn)知,逐步提高社會適應(yīng)力以面對日益嚴(yán)峻的就業(yè)形勢也就尤為重要;對于高校來說,如何獲取并合理評估學(xué)生的多方面信息,并據(jù)此對學(xué)生進入社會進行干預(yù)引導(dǎo),仍需要探索有效路徑。

    1? 相關(guān)研究綜述

    社會適應(yīng)力是根據(jù)生活或職業(yè)角色變化而助推個體發(fā)展的能力,是個體交互的結(jié)果[2]。本文是指高校學(xué)生從學(xué)校進入社會所需要具備的融入社會的能力。

    在相關(guān)研究上,崔秋月[3]從體育運動入手,通過文獻(xiàn)資料法、訪談法、問卷調(diào)查法研究高校學(xué)生社會適應(yīng)力,得出學(xué)生參與體育項目有利于提升學(xué)生的社會適應(yīng)力,且在各類運動中,集體性運動效果更好。胡志偉[4]通過文獻(xiàn)研究法、辯證分析法、問卷調(diào)查法、個案分析法研究高校學(xué)生網(wǎng)絡(luò)人際關(guān)系來探究高校學(xué)生的社會適應(yīng)力,得出好的網(wǎng)絡(luò)人際關(guān)系有利于提升學(xué)生的社會適應(yīng)力。

    綜上所述,以往對學(xué)生社會適應(yīng)力的研究大多從心理學(xué)、經(jīng)濟學(xué)、教育學(xué)等角度出發(fā),在方法上常使用問卷調(diào)查法、文獻(xiàn)研究法,較少關(guān)注學(xué)生的客觀行為數(shù)據(jù),尤其是在互聯(lián)網(wǎng)平臺留下的信息。因此,本文立足于學(xué)生的社交網(wǎng)絡(luò)平臺數(shù)據(jù),運用機器學(xué)習(xí)算法對學(xué)生個性化的社會適應(yīng)特征進行預(yù)判。研究結(jié)果對高校學(xué)生畢業(yè)后職業(yè)發(fā)展以及高校制定培養(yǎng)方案具有重要意義。

    2? 數(shù)據(jù)來源及預(yù)處理

    本文以本校2017級數(shù)學(xué)系學(xué)生為研究對象,在征得學(xué)生本人的同意下利用Python爬蟲技術(shù)獲取102名學(xué)生的社交網(wǎng)絡(luò)平臺(騰訊QQ)記錄;同時,在學(xué)生教務(wù)管理平臺以及發(fā)放的問卷中獲取學(xué)生的成績數(shù)據(jù)、行為數(shù)據(jù)等;以教育部編制的《中國大學(xué)生適應(yīng)量表》[5]的部分題項為基礎(chǔ),對學(xué)生的社會適應(yīng)力進行測量并打分。

    對采集的數(shù)據(jù)進行初步處理,首先刪除重復(fù)值和異常值,其次運用平均值法填補缺失數(shù)據(jù),各部分字段以學(xué)號作為主鍵連接,進一步提取學(xué)生屬性以及篩選有效變量。

    3? 研究過程

    建立基于因子分析-灰色關(guān)聯(lián)法的隨機森林分類器:首先運用因子分析對經(jīng)過預(yù)處理的數(shù)據(jù)進行屬性提取,然后在各屬性內(nèi)運用灰色關(guān)聯(lián)分析篩選有效變量以降低維度,最后建立隨機森林模型并對其預(yù)測性能進行評價。

    3.1? 學(xué)生屬性提取

    為去除原始變量存在的復(fù)雜內(nèi)部關(guān)系,首先進行因子分析,提取出幾個公共因子用于后續(xù)的模型建立。其中KMO值大于0.5,且Bartlett檢驗顯著,保留特征值大于1的公因子,如表1所示。

    根據(jù)因子旋轉(zhuǎn)后的成分矩陣,提取出6個屬性,對其分別命名為:線上發(fā)布屬性、線上評論屬性、學(xué)習(xí)行為屬性、消費屬性、校內(nèi)表現(xiàn)屬性、線下社交屬性,之后我們將在這6個屬性下對高校學(xué)生社會適應(yīng)力進行研究。

    3.2? 有效變量篩選

    對提取的6個屬性中的19個指標(biāo),進一步作降維處理。鑒于學(xué)生的行為數(shù)據(jù)與社會適應(yīng)力并非簡單的線性相關(guān)關(guān)系,故采用灰色關(guān)聯(lián)分析法。我們通過計算社會適應(yīng)序列和行為特征序列之間的關(guān)聯(lián)系數(shù)和關(guān)聯(lián)度,實現(xiàn)對有效變量的篩選。同時為保證后續(xù)模型中對學(xué)生刻畫的完整性和多樣性,我們只在相同屬性中排序比較關(guān)聯(lián)度,具體如下:

    (1)參考序列:社會適應(yīng)力得分{x01,x02,…,x0n}

    比較序列:各屬性的指標(biāo) (k=1,2,…,6)

    (2)對于非時間序列數(shù)據(jù)的處理,區(qū)間值化:

    (3)計算關(guān)聯(lián)系數(shù):

    (4)計算關(guān)聯(lián)度:

    經(jīng)查閱文獻(xiàn),灰度關(guān)聯(lián)分析的ρ值為分辨系數(shù),一般取值為0.5,因此本文ρ取值為0.5,計算得出各指標(biāo)與社會適應(yīng)力的關(guān)聯(lián)度并進行排序,結(jié)果如表2~表4所示。

    分別選取6個屬性中排序在前兩位的變量,并且依據(jù)屬性內(nèi)關(guān)聯(lián)度的接近程度進行適當(dāng)?shù)奶砑?、去除,最終有10個變量作為輸入變量進入后續(xù)模型,分別為:評論回復(fù)比例、不同設(shè)備數(shù)、圖片數(shù)、總說說數(shù)、表情數(shù)、課堂專心時長、每周自習(xí)時長、每月餐飲消費、第二學(xué)年加權(quán)成績、每周兼職時長。

    3.3? 隨機森林模型建立

    3.3.1? 模型建立

    本研究選用隨機森林(Random Forest)算法構(gòu)建學(xué)生社會適應(yīng)力分類模型,這是一種基于決策樹的集成學(xué)習(xí)分類算法。算法流程如下:

    Step1.對訓(xùn)練集采用自助法抽取n個訓(xùn)練樣本子集,建立ntree=n棵決策樹。

    Step2.在訓(xùn)練一棵決策樹的過程中,考慮一個分裂節(jié)點,隨機在全部m個變量中選擇mtry=m個變量作為候選分裂變量。

    Step3.對生成的n棵決策樹分類結(jié)果進行投票,輸出最終預(yù)測類別。

    讀取全體數(shù)據(jù)集,首先以社會適應(yīng)力得分(score)的下側(cè)0.4分位數(shù)為界,構(gòu)建二分類變量,如式(1),對學(xué)生的社會適應(yīng)力類型進行標(biāo)記。然后按照1:1進行隨機抽樣,劃分訓(xùn)練集與測試集,抽取的兩樣本中分別有37.25%、43.14%被標(biāo)記為1,代表社會適應(yīng)力相對較弱的學(xué)生群體。

    其中q0.4為score的下側(cè)0.4分位數(shù)。

    根據(jù)篩選后的10個有效變量,用R軟件對訓(xùn)練集D建立隨機森林模型。該模型需要調(diào)整兩個參數(shù):決策樹個數(shù)(ntree)、分裂點選擇變量個數(shù)[6](mtry)。采用網(wǎng)格搜索選取最優(yōu)參數(shù)為:ntree=10 000,mtry=6。

    3.3.2? 模型評價與檢驗

    (1)查全率、查準(zhǔn)率與F1指標(biāo)。運用上述模型對測試集中51名學(xué)生的社會適應(yīng)力類型進行識別,得到混淆矩陣如表5所示。

    表5? 測試集混淆矩陣

    模型的整體正確率為78.43%,進一步由式(2)~式(4)計算得到其他準(zhǔn)確性度量指標(biāo),查全率、查準(zhǔn)率與F1值分別為:77.27%,73.91%,75.56%。

    (2)ROC曲線與PR曲線??紤]到模型在兩類學(xué)生預(yù)測準(zhǔn)確率上的差異性,以及我們更關(guān)注對正例(即社會適應(yīng)力較弱)學(xué)生的識別能力,故引入ROC曲線與PR曲線對模型性能進行可視化的綜合評價,如圖1所示。

    ROC曲線靠近圖形的左上角區(qū)域,同時曲線下方面積即AUC指標(biāo)值為0.855 799,接近完美分類器的理想值1;PR曲線在平衡點時模型的查全率與查準(zhǔn)率相等,且位于0.7上方,可認(rèn)為模型能夠在誤報率處于低水平時盡可能多的將正例識別出來。綜上,模型在測試集中表現(xiàn)的性能良好。

    (3)十折交叉驗證。本文采用十折交叉驗證對模型進行檢驗,該方法在訓(xùn)練時用到了大部分的原始數(shù)據(jù):將全部學(xué)生數(shù)據(jù)平均劃分為10折,在前9折擬合模型,用第10折測試,重復(fù)此步驟10次并求得平均正確率為76.67%,表明模型在未知數(shù)據(jù)中具有一定的泛化能力。

    3.4? 模型結(jié)果

    進一步分析變量對學(xué)生社會適應(yīng)力的影響程度,以影響最大的變量為基準(zhǔn)計算各變量相對重要性如圖2所示。由圖可得到位于前五的變量,其中,每周自習(xí)時長和第二學(xué)年加權(quán)成績隸屬于學(xué)習(xí)行為屬性和校內(nèi)表現(xiàn)屬性,處于第一梯隊,是關(guān)鍵分類因素;其次,總說說數(shù)與圖片數(shù)、評論回復(fù)比例隸屬于線上發(fā)布屬性與評論屬性,作為補充因素。可以推斷,不同社會適應(yīng)水平的學(xué)生群體,可能在社交平臺中表現(xiàn)出不同的行為特點。

    4? 結(jié)? 論

    社交網(wǎng)絡(luò)平臺中記錄了豐富的學(xué)生數(shù)據(jù),這些數(shù)據(jù)建立在學(xué)生本人與平臺以及他人的交互過程之上,區(qū)別于傳統(tǒng)的數(shù)據(jù)風(fēng)格。本文運用爬蟲技術(shù)采集這類數(shù)據(jù),并結(jié)合其他行為數(shù)據(jù),嘗試挖掘其中潛藏的規(guī)律,將其作為預(yù)測變量放入模型。研究結(jié)果顯示學(xué)生的學(xué)習(xí)行為、校內(nèi)表現(xiàn)屬性以及線上發(fā)布、評論屬性具有較強的類型識別度,表明這類行為特征與學(xué)生的社會適應(yīng)力存在一定程度的關(guān)聯(lián)性。

    根據(jù)本文的研究思路,我們可以將學(xué)生的評價結(jié)論反饋至學(xué)生與高校雙方,進一步應(yīng)用到高校就業(yè)創(chuàng)業(yè)教育決策中,促進個性化、信息化的教學(xué)發(fā)展,完善教育體系。并且,在今后的研究中,可以考慮獲得更多源的學(xué)生數(shù)據(jù),如家庭背景數(shù)據(jù)、圖書館借閱數(shù)據(jù)、微博點贊數(shù)據(jù)等;或者對比選擇不同的機器學(xué)習(xí)算法,優(yōu)化模型性能。

    參考文獻(xiàn):

    [1] 周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進展綜述 [J].軟件學(xué)報,2015,26(11):3026-3042.

    [2] 孫麗璐,曾飛揚,汪韶源.大學(xué)生社會適應(yīng)力模型研究——以“95后”大學(xué)生為例 [J].四川理工學(xué)院學(xué)報(社會科學(xué)版),2016,31(1):20-29.

    [3] 崔秋月.體育運動對大學(xué)生社會適應(yīng)能力影響的研究 [D].蘇州:蘇州大學(xué),2013.

    [4] 胡志偉.大學(xué)生網(wǎng)絡(luò)人際關(guān)系對其社會適應(yīng)力影響研究 [D].哈爾濱:哈爾濱理工大學(xué),2017.

    [5] 教育部《大學(xué)生心理健康測評系統(tǒng)》課題組,方曉義,沃建中,等.《中國大學(xué)生適應(yīng)量表》的編制 [J].心理與行為研究,2005(2):95-101.

    [6] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述 [J].統(tǒng)計與信息論壇,2011,26(3):32-38.

    作者簡介:耿嶠峙(1983-),男,漢族,河南新鄉(xiāng)人,講師,博士研究生,研究方向:大數(shù)據(jù)分析,教育大數(shù)據(jù);徐菲(1998-),女,漢族,山西大同人,本科在讀,研究方向:應(yīng)用統(tǒng)計;淦亞婷(1997-),女,漢族,江西九江人,本科在讀,研究方向:統(tǒng)計學(xué);安心然(1998-),女,漢族,河南焦作人,本科在讀,研究方向:數(shù)學(xué)與應(yīng)用數(shù)學(xué);張湑行(1999-),男,漢族,河南鄭州人,本科在讀,研究方向:信息與計算科學(xué)。

    猜你喜歡
    隨機森林灰色關(guān)聯(lián)分析因子分析
    隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
    基于二次隨機森林的不平衡數(shù)據(jù)分類算法
    軟件(2016年7期)2017-02-07 15:54:01
    拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
    基于灰色關(guān)聯(lián)的河南省旅游收入影響因素研究
    科技與管理(2016年3期)2016-12-20 10:35:11
    基于灰色關(guān)聯(lián)分析的制造企業(yè)跨國并購財務(wù)決策
    秸稈資源化對吉林省經(jīng)濟結(jié)構(gòu)的影響研究
    中國能源消費與經(jīng)濟增長關(guān)系研究
    時代金融(2016年30期)2016-12-05 19:01:53
    基于主導(dǎo)產(chǎn)業(yè)視角的戰(zhàn)略性新興產(chǎn)業(yè)識別以及實證研究
    基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
    基于省會城市經(jīng)濟發(fā)展程度的實證分析
    中國市場(2016年33期)2016-10-18 12:16:58
    红河县| 福州市| 义马市| 徐闻县| 定边县| 壶关县| 庆城县| 聂拉木县| 民勤县| 东乌| 罗城| 中宁县| 三江| 山东| 拉萨市| 延安市| 紫阳县| 巩义市| 南昌县| 望江县| 南宫市| 炉霍县| 大厂| 宿松县| 攀枝花市| 平昌县| 固始县| 西丰县| 甘洛县| 济南市| 墨江| 中山市| 游戏| 宜都市| 翁牛特旗| 山东省| 宜阳县| 佛教| 龙游县| 谷城县| 靖边县|