• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于邏輯回歸分類算法的大學(xué)生就業(yè)去向模型研究

      2023-03-22 07:41:12譚英王闖
      關(guān)鍵詞:線性畢業(yè)生分類

      譚英,王闖

      (江漢大學(xué)生命科學(xué)學(xué)院,湖北武漢 430056)

      隨著每年應(yīng)屆大學(xué)畢業(yè)生數(shù)量的增長(zhǎng),又適逢我國(guó)經(jīng)濟(jì)發(fā)展的轉(zhuǎn)型時(shí)期,對(duì)大學(xué)生就業(yè)指導(dǎo)工作的要求也逐年增高[1]。2022 屆高校畢業(yè)生規(guī)模達(dá)1 076 萬(wàn)人,同比增加167 萬(wàn),規(guī)模和增量均創(chuàng)歷史新高[2],迫切需要對(duì)大學(xué)生的就業(yè)選擇進(jìn)行科學(xué)有效的引導(dǎo)。

      高校畢業(yè)生存在職業(yè)生涯決策困難、就業(yè)意向的實(shí)現(xiàn)率較低等問(wèn)題[3],傳統(tǒng)的大學(xué)生幫扶主要采取談心談話的方式,具有一定程度的主觀性。2021 屆全國(guó)普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)工作網(wǎng)絡(luò)視頻會(huì)議提出,要更好地發(fā)揮就業(yè)反饋?zhàn)饔?,力促質(zhì)量提升[4]。對(duì)已經(jīng)畢業(yè)的大學(xué)畢業(yè)生信息進(jìn)行深入分析,挖掘掩藏在數(shù)據(jù)背后的特征和規(guī)律,將有助于準(zhǔn)確發(fā)現(xiàn)影響大學(xué)生就業(yè)去向的主要因素。對(duì)畢業(yè)大學(xué)生進(jìn)行信息分析首先依賴于大學(xué)生基礎(chǔ)數(shù)據(jù)的把握,然而大學(xué)生的各類信息是復(fù)雜、多維度的,需要整合多方面的資源并采用可靠的技術(shù)方法。

      近年來(lái),人工智能技術(shù)取得了突飛猛進(jìn)的發(fā)展,其中機(jī)器學(xué)習(xí)理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問(wèn)題。機(jī)器學(xué)習(xí)包括無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等類型。由于畢業(yè)生的就業(yè)去向大多數(shù)是確定的,可以采用監(jiān)督學(xué)習(xí)的方法構(gòu)建學(xué)生就業(yè)去向的模型,為來(lái)年畢業(yè)生就業(yè)去向的選擇提供參考。綜上,應(yīng)用機(jī)器學(xué)習(xí)理論可以作為大學(xué)生就業(yè)指導(dǎo)工作的新方法,它可以預(yù)測(cè)學(xué)生選擇某種就業(yè)去向的成功率,幫助學(xué)生縮短就業(yè)迷茫期,減少慢就業(yè)學(xué)生比例。

      1 研究綜述

      監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最常用也是最成功的機(jī)器學(xué)習(xí)類型之一,解決的問(wèn)題主要有兩種,分別叫作分類與回歸,對(duì)大學(xué)生就業(yè)選擇的模型構(gòu)建屬于分類問(wèn)題。監(jiān)督學(xué)習(xí)算法包括K 鄰近、線性模型、樸素貝葉斯分類器、決策樹(shù)、決策樹(shù)集成等。K 臨近是一種簡(jiǎn)單的機(jī)器學(xué)習(xí)算法,但是預(yù)測(cè)速度慢且不能處理具有很多特征的數(shù)據(jù)集,因此在實(shí)踐中往往不會(huì)用到。決策樹(shù)易出現(xiàn)過(guò)擬合、泛化性能很差的情況,在實(shí)際的使用過(guò)程中,大多數(shù)會(huì)采取決策樹(shù)集成的方法。

      線性模型是在實(shí)踐中廣泛使用的一類模型,幾十年來(lái)被廣泛研究,它既可以應(yīng)用于回歸問(wèn)題,也可以用于分類問(wèn)題,最常見(jiàn)的兩種線性分類算法是Logistic回歸(logistic regression)和線性支持向量機(jī)(linear support vector machine,線性SVM),線性模型的訓(xùn)練速度非常快,預(yù)測(cè)速度也很快。這種模型可以推廣到非常大的數(shù)據(jù)集,對(duì)稀疏數(shù)據(jù)也很有效。

      樸素貝葉斯分類器是與線性模型非常相似的一種分類器,它通過(guò)單獨(dú)查看每個(gè)特征來(lái)學(xué)習(xí)參數(shù),并從每個(gè)特征中收集簡(jiǎn)單的類別統(tǒng)計(jì)數(shù)據(jù),它的訓(xùn)練速度往往更快,但泛化能力要比線性分類器稍差。

      隨機(jī)森林是解決決策樹(shù)過(guò)擬合問(wèn)題的一種方法,它本質(zhì)上是許多決策樹(shù)的集合,其中每棵樹(shù)都和其他樹(shù)略有不同,可以對(duì)每棵樹(shù)的結(jié)果取平均值來(lái)降低過(guò)擬合,但對(duì)于維度非常高的稀疏數(shù)據(jù),隨機(jī)森林的表現(xiàn)往往不是很好[5]。

      1.1 國(guó)外研究現(xiàn)狀

      國(guó)外對(duì)于大學(xué)生就業(yè)選擇方面的研究文獻(xiàn)較少,在方法上以回歸分析為主。STONER,J.C.通過(guò)對(duì)四年制中西部研究機(jī)構(gòu)的住院助理進(jìn)行調(diào)查,利用定性數(shù)據(jù)分析方法評(píng)估了研究變量(情緒衰竭、自我感喪失、個(gè)人成就感)在不同性別、工作年限、是否繼續(xù)雇傭中群體之間的差異,并探討了它們之間的關(guān)系[6]。Peter A Bamberger 等人研究了學(xué)生飲酒行為對(duì)就業(yè)的影響,采用邏輯回歸分析方法,假設(shè)正常數(shù)量和頻率的飲酒,以及酗酒(HED)對(duì)畢業(yè)后的就業(yè)概率產(chǎn)生不利影響,收集了來(lái)自美國(guó)4 所不同地理位置大學(xué)的827 名畢業(yè)生的數(shù)據(jù),發(fā)現(xiàn)正常飲酒對(duì)畢業(yè)后就業(yè)的可能性沒(méi)有負(fù)面影響,但酗酒對(duì)求職有顯著的負(fù)面影響[7]。Dernat等人報(bào)告了一項(xiàng)關(guān)于農(nóng)村獸醫(yī)學(xué)生在教育過(guò)程中職業(yè)選擇的研究結(jié)果。根據(jù)社會(huì)表象理論,研究了學(xué)生在課程中構(gòu)建的代表性項(xiàng)目是如何受到其生涯的社會(huì)空間因素(包括童年和工作地點(diǎn))的影響[8]。Arranz N 等人以安達(dá)盧西亞大學(xué)1 053 名本科生為樣本,研究大學(xué)生的創(chuàng)業(yè)意向以及大學(xué)生在創(chuàng)業(yè)過(guò)程中所感受到的障礙。該研究采用回歸分析的方法,發(fā)現(xiàn)經(jīng)濟(jì)障礙、缺乏經(jīng)驗(yàn)和培訓(xùn)是學(xué)生創(chuàng)業(yè)的主要障礙[9]。

      Mohammed 研究影響學(xué)生就業(yè)選擇的不同就業(yè)因素的相對(duì)重要性,探討了影響就業(yè)選擇的因素。這項(xiàng)研究是在大學(xué)的會(huì)計(jì)專業(yè)本科生中進(jìn)行的,采用主成分分析法,發(fā)現(xiàn)起薪、獨(dú)立工作能力和未來(lái)前景是影響大學(xué)生就業(yè)選擇的最主要變量[10],該方法是機(jī)器學(xué)習(xí)中無(wú)監(jiān)督學(xué)習(xí)的經(jīng)典方法。

      1.2 國(guó)內(nèi)研究現(xiàn)狀

      國(guó)內(nèi)對(duì)大學(xué)生就業(yè)去向的研究主要包括兩個(gè)方面的內(nèi)容,一是大學(xué)生就業(yè)意愿的研究,一是實(shí)際的大學(xué)生就業(yè)去向數(shù)據(jù)。在方法的使用上,對(duì)于就業(yè)意愿的研究多以傳統(tǒng)的回歸分析方法為主,周駿宇用二分變量邏輯回歸的方式對(duì)影響大學(xué)生是否愿意“先就業(yè)后擇業(yè)”的因素進(jìn)行了分析[11],朱生玉、周曉蕾基于我國(guó)中西部地區(qū)10 個(gè)省份的數(shù)據(jù),并運(yùn)用回歸分析方法,對(duì)影響我國(guó)大學(xué)生就業(yè)期望的因素進(jìn)行分析[12],在指標(biāo)的選擇上二者都包括了個(gè)體、家庭背景和學(xué)科背景。

      機(jī)器學(xué)習(xí)理論被更多地運(yùn)用于實(shí)際的大學(xué)生就業(yè)去向的模型構(gòu)建中,劉哲、趙志剛利用決策樹(shù),對(duì)遼寧省內(nèi)部分高校的畢業(yè)生信息進(jìn)行了分析,通過(guò)分類規(guī)則尋找影響畢業(yè)生就業(yè)單位性質(zhì)的主要因素,在指標(biāo)的選擇上考慮了學(xué)生成績(jī)和學(xué)生基礎(chǔ)信息,但未考慮學(xué)生個(gè)人興趣等指標(biāo)[13]。李冬梅、路春艷、張雅惠以哈爾濱商業(yè)大學(xué)經(jīng)濟(jì)學(xué)院2017 級(jí)畢業(yè)生信息為基礎(chǔ),根據(jù)其數(shù)據(jù)特征模擬數(shù)據(jù)庫(kù),分析非學(xué)生的實(shí)際就業(yè)信息,準(zhǔn)確率達(dá)到62.3%[14]。夏朋斌基于校園大數(shù)據(jù)(如:一卡通信息、成績(jī)信息、就業(yè)信息等),對(duì)學(xué)生在校行為進(jìn)行分析和計(jì)算,最后利用隨機(jī)森林算法建立大學(xué)生就業(yè)預(yù)測(cè)模型,構(gòu)建的預(yù)測(cè)模型準(zhǔn)確率達(dá)70.8%[15]。李路瑤以層次聚類策略為技術(shù)支撐,架構(gòu)出一種就業(yè)去向短期預(yù)測(cè)系統(tǒng),該方法是無(wú)監(jiān)督學(xué)習(xí)的經(jīng)典方法[16]。孫怡帆等使用機(jī)器學(xué)習(xí)領(lǐng)域的Lasso-logistic 算法,構(gòu)建了精準(zhǔn)度高達(dá)70%以上的畢業(yè)生去向的預(yù)測(cè)模型[17]。

      2 數(shù)據(jù)的來(lái)源與處理

      2.1 數(shù)據(jù)的來(lái)源

      本研究選擇了來(lái)自武漢某省屬高校某學(xué)院2014-2017 級(jí)(即2018-2021 屆畢業(yè)生)的相關(guān)數(shù)據(jù),數(shù)據(jù)來(lái)源于學(xué)院學(xué)生工作辦公室、學(xué)校教務(wù)系統(tǒng)、學(xué)校就業(yè)管理系統(tǒng)和問(wèn)卷調(diào)查。由圖1可以看出2018年-2021年,學(xué)院大學(xué)畢業(yè)生人數(shù)呈逐年上漲趨勢(shì),大學(xué)生的主要就業(yè)去向仍然是升學(xué)或者就業(yè)。不同年份中的大學(xué)生去向有細(xì)微的變化,反映在2018年、2019年有少部分學(xué)生畢業(yè)選擇創(chuàng)業(yè)而近兩年選擇創(chuàng)業(yè)學(xué)生減少,與之相反,近兩年選擇自由職業(yè)的學(xué)生增多,由于非升學(xué)和協(xié)議就業(yè)的學(xué)生人數(shù)較少,很難進(jìn)行統(tǒng)計(jì)分析,所以不在本研究范圍內(nèi),僅選取協(xié)議就業(yè)和升學(xué)作為研究對(duì)象。由于很難對(duì)已經(jīng)畢業(yè)的學(xué)生做問(wèn)卷調(diào)查,本研究選取2021 屆畢業(yè)學(xué)生進(jìn)行研究分析。

      圖1 從2018-2021 屆畢業(yè)生就業(yè)去向柱形圖,不同顏色代表不同就業(yè)去向人數(shù)

      2.2 分類指標(biāo)的選取和數(shù)據(jù)處理

      大學(xué)生的就業(yè)去向受性別、家庭經(jīng)濟(jì)背景、學(xué)科背景、城鄉(xiāng)背景等多種因素影響[12],也有學(xué)者從個(gè)體屬性特征、家庭環(huán)境、學(xué)習(xí)背景和學(xué)生人力資本因素四方面來(lái)考查大學(xué)生就業(yè)期望的內(nèi)在影響關(guān)系[18],本研究在已有的研究成果上,從個(gè)體屬性、家庭環(huán)境、學(xué)習(xí)背景、在校表現(xiàn)這四個(gè)方面選取了10 個(gè)指標(biāo),構(gòu)建了學(xué)生就業(yè)去向模型構(gòu)建的指標(biāo)體系(見(jiàn)表1),其中6 個(gè)指標(biāo)為定性指標(biāo),4 個(gè)指標(biāo)為定量指標(biāo)。

      表1 學(xué)生就業(yè)去向模型構(gòu)建指標(biāo)

      根據(jù)學(xué)生工作辦公室已有的數(shù)據(jù)和問(wèn)卷調(diào)查數(shù)據(jù),確定定性指標(biāo)的分類,其中性格的測(cè)定采用霍蘭德職業(yè)性格測(cè)試的方法,選用北森生涯職業(yè)測(cè)評(píng)問(wèn)卷,根據(jù)性格測(cè)試分?jǐn)?shù),將學(xué)生的主要性格分為研究型(I)、藝術(shù)型(A)、社會(huì)型(S)、企業(yè)型(E)、傳統(tǒng)型(C)、現(xiàn)實(shí)型(R)六個(gè)維度(表2)。

      表2 定性指標(biāo)分類

      學(xué)生的助學(xué)金等級(jí)、平均學(xué)分績(jī)點(diǎn)、獲得社會(huì)獎(jiǎng)勵(lì)和綜合獎(jiǎng)勵(lì)為定量指標(biāo),其中畢業(yè)后的平均學(xué)分績(jī)點(diǎn)經(jīng)過(guò)教務(wù)系統(tǒng)查詢獲得,其余的指標(biāo)計(jì)算方式按照學(xué)生大學(xué)四年獲得相應(yīng)獎(jiǎng)勵(lì)或者助學(xué)金等級(jí)進(jìn)行計(jì)算。在對(duì)各項(xiàng)綜合獎(jiǎng)勵(lì)和社會(huì)實(shí)踐獎(jiǎng)勵(lì)的賦值中,對(duì)學(xué)生在校期間的獲獎(jiǎng)難度進(jìn)行賦值,后進(jìn)行累加。對(duì)助學(xué)金等級(jí)的賦值中,對(duì)不同等級(jí)的助學(xué)金進(jìn)行不同分?jǐn)?shù)賦值,然后將各年度的助學(xué)金分?jǐn)?shù)取平均數(shù)。通過(guò)以上方式,在一定程度上能夠更加科學(xué)地衡量學(xué)生的定量指標(biāo)(見(jiàn)表3)。

      表3 定量指標(biāo)計(jì)算方法

      在指標(biāo)的選擇過(guò)程中,有一個(gè)需要注意的問(wèn)題是各指標(biāo)不應(yīng)有顯著相關(guān)性,為了避免上述問(wèn)題,將學(xué)生獲得綜合獎(jiǎng)勵(lì)和平均學(xué)分績(jī)點(diǎn)進(jìn)行了相關(guān)性分析,通過(guò)Pearson 相關(guān)性分析得知,學(xué)生獲得綜合獎(jiǎng)勵(lì)和平均學(xué)分績(jī)點(diǎn)的相關(guān)系數(shù)為0.40,屬于弱相關(guān),這是由于本校在獎(jiǎng)學(xué)金評(píng)定時(shí)按照綜合測(cè)評(píng)成績(jī)進(jìn)行評(píng)定,學(xué)習(xí)成績(jī)占綜合測(cè)評(píng)成績(jī)的70%,且體測(cè)成績(jī)不達(dá)標(biāo)的學(xué)生無(wú)法獲得高等級(jí)的獎(jiǎng)學(xué)金或者無(wú)法獲得獎(jiǎng)學(xué)金,故學(xué)生的平均學(xué)分績(jī)和獲得綜合獎(jiǎng)勵(lì)可以同時(shí)作為分類指標(biāo)。

      2.3 各項(xiàng)指標(biāo)的單因素分析結(jié)果

      為了初步了解各單個(gè)因素對(duì)學(xué)生就業(yè)選擇的影響,分別對(duì)各分類指標(biāo)和定量指標(biāo)進(jìn)行了卡方檢驗(yàn)和T 檢驗(yàn)。對(duì)各項(xiàng)分類指標(biāo)進(jìn)行的卡方檢驗(yàn)顯示,不同性格類別和學(xué)生是否入黨對(duì)學(xué)生最終是否考研有較大的相關(guān)性(見(jiàn)表4),入黨的學(xué)生和研究型性格的學(xué)生更傾向于考研。

      表4 不同定性指標(biāo)對(duì)于大學(xué)生就業(yè)選擇影響的卡方檢驗(yàn)結(jié)果

      通過(guò)對(duì)各個(gè)定量指標(biāo)的T 檢驗(yàn)可以看到,學(xué)生獲得綜合獎(jiǎng)勵(lì)和平均學(xué)分績(jī)點(diǎn)對(duì)于學(xué)生進(jìn)一步深造有著非常重要的影響,而學(xué)生是否在社會(huì)實(shí)踐活動(dòng)中獲得獎(jiǎng)勵(lì)則對(duì)就業(yè)去向沒(méi)有影響(見(jiàn)表5)。

      表5 不同定量指標(biāo)對(duì)于大學(xué)生就業(yè)去向影響的學(xué)生T 檢驗(yàn)結(jié)果

      為了更加直觀地觀察各定量指標(biāo)對(duì)學(xué)生就業(yè)選擇的影響,本研究繪制了箱線圖,平均學(xué)分績(jī)點(diǎn)高、獲得綜合獎(jiǎng)勵(lì)多的學(xué)生更多地考取了研究生(見(jiàn)圖2),值得注意的是家庭困難情況在統(tǒng)計(jì)上雖然對(duì)學(xué)生沒(méi)有顯著的影響,但是在實(shí)際的工作中仍然能夠看到家庭困難情況對(duì)學(xué)生有一定程度的影響。

      圖2 不同定量指標(biāo)下的就業(yè)去向箱線圖:a)基于平均學(xué)分績(jī)點(diǎn),b)基于綜合獎(jiǎng)勵(lì),c) 基于助學(xué)金等級(jí),d) 基于社會(huì)實(shí)踐獎(jiǎng)勵(lì)

      通過(guò)對(duì)四個(gè)定量指標(biāo)做熱力圖并聚類,可以看到不同就業(yè)去向的學(xué)生的家庭困難情況、獲得綜合獎(jiǎng)勵(lì)、獲得社會(huì)實(shí)踐獎(jiǎng)勵(lì)和平均學(xué)分績(jī)點(diǎn)情況(見(jiàn)圖3)。通過(guò)圖3可以看到,2021年選擇協(xié)議就業(yè)的學(xué)生中獲得綜合獎(jiǎng)勵(lì)的學(xué)生有一半獲得過(guò)助學(xué)金,而往年家庭困難的學(xué)生的升學(xué)率比非困難的學(xué)生升學(xué)率更高,這在一定程度上說(shuō)明了家庭困難情況對(duì)學(xué)生就業(yè)選擇的影響是隨時(shí)間變化的。因此,本研究認(rèn)為,對(duì)學(xué)生就業(yè)去向的建模應(yīng)該基于同一年度的數(shù)據(jù),而不應(yīng)該橫跨多個(gè)年份。

      圖3 不同年度基于不同就業(yè)去向的定量指標(biāo)熱力圖:a)2021,b)2020年,c) 2019年

      3 模型的構(gòu)建

      3.1 邏輯回歸(Logistic Regression)和線性支持向量機(jī)(SVM)模型

      本研究調(diào)用Python 語(yǔ)言的scikit-learn 項(xiàng)目完成,Logistic 回歸在linear_model.LogisticRegression 中實(shí)現(xiàn),線性支持向量機(jī)在 svm.LinearSVC(SVC 代表支持向量分類器)中實(shí)現(xiàn)。

      3.2 隨機(jī)森林(Random Forest)和樸素貝葉斯 (Naive Bayes) 模型

      隨機(jī)森林是機(jī)器學(xué)習(xí)算法的經(jīng)典代表,采用RandomForestClassifier,首先對(duì)數(shù)據(jù)進(jìn)行自助采集,然后選擇特征個(gè)數(shù),確保隨機(jī)森林的每棵樹(shù)不同。

      scikit-learn 中實(shí)現(xiàn)了三種樸素貝葉斯分類器:GaussianNB、BernoulliNB 和MultinomialNB,本研究采用GaussianNB 進(jìn)行。

      4 模型的評(píng)價(jià)、對(duì)比和檢驗(yàn)

      4.1 模型的評(píng)價(jià)

      本研究采取了邏輯回歸(Logistic Regression)分類算法對(duì)大學(xué)生的就業(yè)去向進(jìn)行了識(shí)別,將樣本分為10組,其中9 組作為訓(xùn)練集,構(gòu)建大學(xué)生就業(yè)去向識(shí)別模型,剩余一組作為測(cè)試集,運(yùn)用混淆矩陣方法測(cè)試所構(gòu)建模型的精準(zhǔn)度和誤差率,通過(guò)計(jì)算得知,在對(duì)125 個(gè)畢業(yè)生的就業(yè)去向識(shí)別過(guò)程中,有4 個(gè)學(xué)生預(yù)測(cè)為升學(xué)但實(shí)際選擇了就業(yè),還有15 名學(xué)生預(yù)測(cè)為就業(yè)但實(shí)際上選擇了升學(xué)(見(jiàn)表6)。

      表6 邏輯回歸(Logistic Regression)混淆矩陣

      4.2 模型的對(duì)比

      為了對(duì)邏輯回歸(Logistic Regression)構(gòu)建的模型進(jìn)行橫向?qū)Ρ?,本研究還采取了線性支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)和樸素貝葉斯 (Naive Bayes)這三種分類算法,對(duì)大學(xué)生的就業(yè)去向進(jìn)行了識(shí)別,并應(yīng)用以下指標(biāo)對(duì)各個(gè)模型進(jìn)行評(píng)價(jià)。

      AUC:Area Under the Curve,ROC 曲線(受試者工作特征曲線)與橫坐標(biāo)之間的面積。

      準(zhǔn)確率(accuracy):正確預(yù)測(cè)的正反例數(shù)/總數(shù)(分母為定數(shù))。

      精確率(precision):也稱查準(zhǔn)率,正確預(yù)測(cè)的正例數(shù)/預(yù)測(cè)正例總數(shù)。

      召回率(recall):也稱查全率,正確預(yù)測(cè)的正例數(shù) /實(shí)際正例總數(shù)(分母為定數(shù))。

      F_1 值(F_1 score):是精確率與召回率的調(diào)和平均值。

      通過(guò)分析,邏輯回歸(Logistic Regression)分類算法較其他三種算法有較好的表現(xiàn),精準(zhǔn)率和召回率均在85%以上,表明基于邏輯回歸分類算法的模型具有更好的分類效果(見(jiàn)表7)。

      表7 各個(gè)模型識(shí)別效果評(píng)價(jià)

      4.3 邏輯回歸(Logistic Regression)模型的合理性檢驗(yàn)

      從均勻分布的角度來(lái)看,AUC 的一致性作為聚合分類效果的衡量辦法是被證實(shí)的,因此就四種模型AUC 的一致性進(jìn)行了計(jì)算(見(jiàn)表8),表8顯示了行中模型的得分高于列中模型得分的概率,較小的數(shù)字表示差異可以忽略不計(jì)的可能性。通過(guò)計(jì)算可以看到,采用邏輯回歸(Logistic Regression)和線性支持向量機(jī)(SVM)的方法預(yù)測(cè)的結(jié)果具有較高的相似性,達(dá)到了82.8%,也進(jìn)一步證實(shí)可以優(yōu)先選擇邏輯回歸分類算法(Logistic Regression)構(gòu)建大學(xué)生就業(yè)選擇的模型。

      表8 各個(gè)模型的AUC 一致性比較

      5 討論

      5.1 整合多方面資源,構(gòu)建就業(yè)去向評(píng)估體系

      對(duì)大學(xué)畢業(yè)生就業(yè)去向的模型構(gòu)建依賴對(duì)學(xué)生大學(xué)四年詳細(xì)的數(shù)據(jù),目前很多高校雖然已經(jīng)建立了學(xué)生信息化管理平臺(tái),但在具體的使用過(guò)程中,各管理部門(mén)與學(xué)院之間未能實(shí)現(xiàn)數(shù)據(jù)共享,導(dǎo)致院系工作層面缺乏統(tǒng)一的工作平臺(tái)[19]。與此同時(shí),高校也缺乏對(duì)大學(xué)生數(shù)據(jù)的深入分析,很多隱藏的高價(jià)值信息未能得到發(fā)掘與利用,少數(shù)研究者采用較為簡(jiǎn)單的規(guī)則運(yùn)算或者較少的指標(biāo)進(jìn)行了分析[15,20],總體而言,目前高校對(duì)于大學(xué)生數(shù)據(jù)的利用率不理想。

      本研究整合了學(xué)校、學(xué)院各個(gè)平臺(tái)的學(xué)生數(shù)據(jù),并結(jié)合問(wèn)卷調(diào)查對(duì)學(xué)生職業(yè)性格進(jìn)行了調(diào)查,但是由于條件的限制,對(duì)學(xué)生各方面的數(shù)據(jù)還掌握得不夠全面,如在學(xué)生個(gè)人屬性中沒(méi)有考慮價(jià)值觀和興趣,在家庭背景中沒(méi)有考慮城鄉(xiāng)差異,在學(xué)生在校表現(xiàn)中主要依賴獲獎(jiǎng)情況,缺乏對(duì)學(xué)生在校行為的分析和計(jì)算,也沒(méi)有對(duì)學(xué)生受處分情況予以考慮。

      5.2 線性模型對(duì)大學(xué)生就業(yè)去向有更好的預(yù)測(cè)能力

      本研究通過(guò)和另外幾個(gè)機(jī)器學(xué)習(xí)算法的比較,發(fā)現(xiàn)邏輯回歸分類算法(Logistic Regression)和線性支持向量機(jī)(SVM)相較其他的分類算法準(zhǔn)確度更高,可靠性也較強(qiáng),且二者預(yù)測(cè)的一致性也較高。究其原因,可能是因?yàn)檫@兩個(gè)算法均屬于線性模型,線性模型更加適合于變量和結(jié)果之間可能存在線性關(guān)系的情況。通過(guò)查閱文獻(xiàn)發(fā)現(xiàn),在對(duì)腫瘤的判斷、就業(yè)去向預(yù)測(cè)等領(lǐng)域中,線性模型相比隨機(jī)森林更具優(yōu)勢(shì)[17,21]。

      比較邏輯回歸分類算法(Logistic Regression)和線性支持向量機(jī)(SVM),從目標(biāo)函數(shù)來(lái)看,區(qū)別在于邏輯回歸采用的是logistical loss,SVM 采用的是hinge loss。這兩個(gè)損失函數(shù)的目的都是增加對(duì)分類影響較大的數(shù)據(jù)點(diǎn)的權(quán)重,減少與分類關(guān)系較小的數(shù)據(jù)點(diǎn)的權(quán)重。在本研究中,由于特征變量相對(duì)于樣本量來(lái)說(shuō)比較大,采用邏輯回歸,相較于線性支持向量更具有優(yōu)勢(shì)[22]。

      5.3 模型僅適用于本學(xué)院的就業(yè)去向預(yù)測(cè)

      由于影響大學(xué)生就業(yè)去向的因素非常復(fù)雜,模型是否合理,將直接影響給予的擇業(yè)建議的準(zhǔn)確性。本研究的數(shù)據(jù)是根據(jù)本學(xué)院大學(xué)生的數(shù)據(jù)分解生成的,適用于本學(xué)院近1-2年學(xué)生就業(yè)去向的預(yù)測(cè)。由于不同學(xué)校層次、專業(yè)、地理位置的差異,本模型不適用于其他學(xué)?;蛘邔W(xué)院學(xué)生就業(yè)去向的預(yù)測(cè),但其他高校在模型構(gòu)建的方法上可以采用邏輯回歸分類等線性模型。

      在實(shí)際的就業(yè)指導(dǎo)工作中,教師應(yīng)在深入了解大學(xué)生實(shí)際情況的基礎(chǔ)上進(jìn)行就業(yè)指導(dǎo)。另外,畢業(yè)生的就業(yè)選擇是一個(gè)不斷變化的過(guò)程,需要不斷的試錯(cuò),調(diào)整自己的職業(yè)期望,找到屬于自己的發(fā)展路徑。隨著經(jīng)濟(jì)和社會(huì)的發(fā)展,大學(xué)生就業(yè)選擇將發(fā)生變化,指標(biāo)也會(huì)發(fā)生相應(yīng)改變,分類方法和手段也會(huì)日益豐富,尤其是高校信息技術(shù)的運(yùn)用,可獲得的學(xué)生指標(biāo)將會(huì)更加精細(xì),分類結(jié)果將會(huì)更加精準(zhǔn)。

      6 結(jié)語(yǔ)

      本研究構(gòu)建了大學(xué)生就業(yè)去向模型,并將其應(yīng)用于所在學(xué)院的就業(yè)指導(dǎo)工作中,具體結(jié)論如下。

      6.1 整合多個(gè)部門(mén)的數(shù)據(jù)是就業(yè)去向模型構(gòu)建的基礎(chǔ)

      模型構(gòu)建的基礎(chǔ)是數(shù)據(jù),在數(shù)據(jù)的采集工作中,需要整合方方面面的學(xué)生數(shù)據(jù),盡可能地用數(shù)據(jù)對(duì)每一個(gè)大學(xué)畢業(yè)生進(jìn)行翔實(shí)的“畫(huà)像”。本研究中大學(xué)生就業(yè)去向信息數(shù)據(jù)庫(kù)依據(jù)本校招就處、教務(wù)系統(tǒng)、學(xué)生工作辦公室以及問(wèn)卷調(diào)查的數(shù)據(jù)建立。

      6.2 確定就業(yè)去向評(píng)估體系是建立就業(yè)去向模型的重要工作

      大學(xué)生就業(yè)去向的評(píng)估需要選取合適的參數(shù),本研究從個(gè)體屬性、家庭環(huán)境、學(xué)習(xí)背景、在校表現(xiàn)四個(gè)方面建立了基于大學(xué)生就業(yè)去向的指標(biāo)體系,實(shí)際的工作中還可以考慮學(xué)生興趣、價(jià)值觀、學(xué)生行為分析等多方面因素。

      6.3 邏輯回歸算法具有較好的大學(xué)生就業(yè)去向預(yù)測(cè)能力

      本研究采用邏輯回歸(LR)分類算法構(gòu)建了大學(xué)生就業(yè)去向模型,同時(shí)用線性支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)和樸素貝葉斯 (Naive Bayes)做對(duì)比,驗(yàn)證幾種模型的優(yōu)劣。相比于線性支持向量機(jī)、隨機(jī)森林和樸素貝葉斯,邏輯回歸分類方法具有更高的訓(xùn)練精度,評(píng)價(jià)結(jié)果最為理想,能有效地應(yīng)用于學(xué)生就業(yè)去向模型的建構(gòu)中,為大學(xué)生就業(yè)去向的指導(dǎo)提供技術(shù)參考。

      猜你喜歡
      線性畢業(yè)生分類
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      分類算一算
      線性回歸方程的求解與應(yīng)用
      你根本不知道,這屆畢業(yè)生有多難
      意林(2020年15期)2020-08-28 11:10:24
      一個(gè)沒(méi)什么才能的北大畢業(yè)生
      分類討論求坐標(biāo)
      二階線性微分方程的解法
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      最“叛逆”的畢業(yè)生
      禄丰县| 尚志市| 衡东县| 和静县| 绥德县| 云南省| 普兰县| 佛坪县| 花莲市| 美姑县| 三穗县| 西吉县| 太康县| 山东| 登封市| 滨海县| 永善县| 肇东市| 平定县| 临湘市| 平果县| 咸阳市| 彭山县| 宁化县| 辽中县| 和硕县| 扶余县| 大关县| 龙游县| 环江| 南川市| 奉化市| 双柏县| 玛多县| 荣成市| 苏尼特左旗| 察哈| 淅川县| 四子王旗| 九龙县| 封开县|