黃敏菁,練佳熠,宋偉奇
(柳州城市職業(yè)學(xué)院,廣西柳州 545036)
2020 年,在新冠肺炎疫情的影響下,國內(nèi)經(jīng)濟(jì)增長速度放緩,就業(yè)市場(chǎng)面臨嚴(yán)峻的挑戰(zhàn)。雖然2021年GDP增長帶來了新的就業(yè)機(jī)會(huì),在一定程度上緩解就業(yè)壓力,但據(jù)教育部公示數(shù)據(jù)2021年高校畢業(yè)生高達(dá)909萬人,創(chuàng)歷史新高。另一方面,國外經(jīng)濟(jì)形勢(shì)持續(xù)下滑,留學(xué)生回流,導(dǎo)致2021年就業(yè)形勢(shì)也不容樂觀。2021年習(xí)近平總書記對(duì)職業(yè)教育工作做出指示,職業(yè)教育前途廣闊、大有可為。作為高職院校,本就是以就業(yè)為導(dǎo)向,為各個(gè)崗位輸送人才。因此,對(duì)畢業(yè)生就業(yè)情況進(jìn)行研究,探究影響就業(yè)因素并且對(duì)就業(yè)率進(jìn)行建模和預(yù)測(cè),為高職院校招生就業(yè)指導(dǎo)提供參考依據(jù)顯得尤為重要。
對(duì)于高職院校就業(yè)率問題,有許多學(xué)者進(jìn)行了研究,針對(duì)就業(yè)率的預(yù)測(cè)提出了一些可行的方法。第一種是采用專家系統(tǒng),通過領(lǐng)域內(nèi)一些專家對(duì)職業(yè)院校學(xué)生就業(yè)特點(diǎn)進(jìn)行分析,建立職業(yè)院校就業(yè)率預(yù)測(cè)的知識(shí)專家?guī)?,?duì)未來某時(shí)刻職業(yè)院校學(xué)生的就業(yè)率進(jìn)行估計(jì)和預(yù)測(cè),但這種方法工作過程復(fù)雜,對(duì)專家?guī)斓囊蕾囆愿?,有很?qiáng)的主觀性[1]。第二種是時(shí)間序列進(jìn)行預(yù)測(cè),將就業(yè)率看成一個(gè)灰色系統(tǒng),不需要了解影響系統(tǒng)的因素就可以對(duì)就業(yè)率的變化進(jìn)行預(yù)測(cè),但就業(yè)率并非持續(xù)增長而是會(huì)有波動(dòng),單一的灰色系統(tǒng)只可對(duì)增長趨勢(shì)的模型進(jìn)行預(yù)測(cè),且只單一預(yù)測(cè)出就業(yè)率,無法理解具體的影響因素對(duì)高校就業(yè)指導(dǎo)的作用不大。第三種是利用主成分分析法等模型選出影響就業(yè)率的主要因素,將影響因子作為輸入,就業(yè)率作為輸出進(jìn)行預(yù)測(cè)[2]。第四種是神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入影響因子,預(yù)測(cè)出較為精確的數(shù)據(jù),但神經(jīng)網(wǎng)絡(luò)往往需要大量數(shù)據(jù)訓(xùn)練才能達(dá)到效果,樣本量較少會(huì)影響神經(jīng)網(wǎng)絡(luò)輸出的穩(wěn)定性。
基于現(xiàn)實(shí)情況,往往不能提供大量的就業(yè)率數(shù)據(jù),所以選用第三種方法,運(yùn)用主成分分析的方法對(duì)就業(yè)率進(jìn)行預(yù)測(cè)。但就業(yè)率影響因素很多,且存在一定的隨機(jī)性和非線性,為了增加模型預(yù)測(cè)的準(zhǔn)確性,利用馬爾可夫鏈模型適用于隨機(jī)波動(dòng)大的特點(diǎn),本文將兩種模型對(duì)高職就業(yè)率進(jìn)行預(yù)測(cè)。利用主成分分析建模找出影響就業(yè)率的主要因子并進(jìn)行消除共線性、降維等處理,提高就業(yè)率數(shù)據(jù)預(yù)測(cè)的效率。在主成分回歸模型預(yù)測(cè)就業(yè)率的基礎(chǔ)上利用馬爾可夫鏈對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行修正,建立主成分-馬爾可夫鏈預(yù)測(cè)模型,提高預(yù)測(cè)數(shù)據(jù)的準(zhǔn)確率。
主成分回歸模型是利用了降維的思想,將在線性回歸模型中存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系的一組解釋變量,在只損失少量信息的前提下,通過正交旋轉(zhuǎn)變換為一組線性不相關(guān)的變量,正交變換后的這組變量就叫作主成分。由此可知,每一個(gè)主成分都是由原始變量的線性組合,并且各個(gè)主成分之間互不相關(guān)。因此通過主成分分析,除了可以降低研究因素的維度,在研究復(fù)雜多因素問題時(shí)還可以不用考慮變量之間是否相互獨(dú)立的問題,并且可以通過構(gòu)造主成分的線性組合探究各個(gè)因素間的內(nèi)部關(guān)系。用主成分分析后構(gòu)造出的主成分作為新的自變量代替原有的因素做回歸分析,可提高模型的計(jì)算效率,增加模型的可解釋性。
主成分回歸分析模型構(gòu)造理論如下:
首先進(jìn)行主成分構(gòu)造。設(shè)選出可能影響某事物變化的因素有p 個(gè),分別用X1,X2,…,Xp表示,這p 個(gè)因素構(gòu)成p 維的隨機(jī)向量X=(X1,X2,…,Xp)',其中隨機(jī)向量X的均值為μ,協(xié)方差矩陣為Σ。可對(duì)向量X進(jìn)行線性變換,得到新的p維隨機(jī)向量Y,即滿足下式:
若要進(jìn)行的線性變換正好為正交變換,即各Yi之間相互獨(dú)立且變換后的Yi=μ'iX方差盡可能大。并且線性變換要滿足以下條件:
(1)μ'iμi=1,即=1(i=1,2,…,p)。
(2)Yi與Yj不相關(guān)(i≠j;i,j=1,2,…,p),即cov(Yi,Yj)=μ'iΣμj=0,i≠j。
至此,經(jīng)過正交線性變換后的p維因素可稱為p個(gè)主成分,并且消除各因素間的共線性,實(shí)現(xiàn)互不相關(guān)。若要實(shí)現(xiàn)降維,選出理想的主成分就要保留變換后方差最大的主成分,而舍棄方差較小的主成分。即在滿足正交線性變換條件(1)的情況下,Y1是所有X1,X2,…,Xp線性組合中的方差最大者;Y2是與Y1不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者;……;Yp是與Y1,Y2,…,Yp-1都不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者??蛇x出前q個(gè)主成分作為回歸模型的自變量,實(shí)現(xiàn)降維的要求[3]。
其次,將選出的q個(gè)主成分作為自變量,建立回歸模型,進(jìn)行回歸分析。可根據(jù)投入模型的主成分個(gè)數(shù)選擇一元回歸或多元回歸分析,并且可根據(jù)因變量和自變量的變化趨勢(shì)選擇線性回歸或者非線性回歸分析。
馬爾可夫鏈?zhǔn)歉鶕?jù)現(xiàn)有的狀態(tài)轉(zhuǎn)移規(guī)律,預(yù)測(cè)未來可能出現(xiàn)的狀態(tài)模型。在事情發(fā)展的過程中,若每次狀態(tài)的轉(zhuǎn)移都只和前一時(shí)刻的狀態(tài)相關(guān),與過去的狀態(tài)無關(guān),具有這樣屬性的隨機(jī)過程稱為馬爾可夫鏈。原理如下:
設(shè){Xn}={Xn|n=0,1,…}的狀態(tài)空間是I,并且用i,j,l,i0,i1,…等表示I中的狀態(tài)。如果對(duì)任何正整數(shù)n 和I中的i,j,l,i0,i1,…,in-1隨機(jī)序列{Xn}滿足:
P(Xn+1=j|Xn=i,Xn-1=in-1,…,X0=i0)=P(Xn+1=j|Xn=i)=P(X1=j|X0=i)
則稱{Xn}為時(shí)齊的馬爾可夫鏈,簡稱“馬氏鏈”。這時(shí)稱Pij=P(X1=j|X0=i),i,j∈I為馬氏鏈{Xn}的轉(zhuǎn)移概率,稱矩陣P=(pij)=為馬氏鏈{Xn}的一步轉(zhuǎn)移矩陣,簡稱為轉(zhuǎn)移矩陣。且轉(zhuǎn)移矩陣P的各行之和等于1,即:
若從隨機(jī)序列{Xn}中狀態(tài)i經(jīng)過一步轉(zhuǎn)移達(dá)到狀態(tài)j的頻數(shù)為fij,i,j∈I,即有轉(zhuǎn)移概率pij=。將轉(zhuǎn)移矩陣的第j列之和除以各行各列綜合所得的值稱為邊際概率,記為p·j,即滿足:
χ2統(tǒng)計(jì)量滿足:
并且服從自由度為(n-1)2的χ2分布。若給定置信度為α,如χ2>,則拒絕零假設(shè),認(rèn)為序列{Xn}具有馬爾可夫性(即馬氏性),反之,則這個(gè)序列不能作為馬爾可夫鏈處理[5]。
對(duì)于主成分回歸模型的預(yù)測(cè)結(jié)果,得到的殘差具有隨機(jī)性??山?jīng)檢驗(yàn)具有馬氏性后,運(yùn)用馬爾可夫鏈模型對(duì)殘差結(jié)果進(jìn)行修正。設(shè)殘差序列為e=(e1,e2,e3,…),其中ei=為預(yù)測(cè)值,yi為實(shí)際值。將殘差序列劃分為k個(gè)狀態(tài)區(qū)間,設(shè)第i個(gè)狀態(tài)區(qū)間為Ei,i∈(0,k]。后計(jì)算殘差序列的一步轉(zhuǎn)移矩陣Pk×k=。當(dāng)殘差的預(yù)測(cè)值落在區(qū)間Ei時(shí),記[Eil,Eiu]為區(qū)間的范圍,取區(qū)間的均值=(Eiu-Eil)/2 作為該區(qū)間的中殘差的預(yù)測(cè)值。并且修正后的預(yù)測(cè)值為:
本文數(shù)據(jù)來源于選取某高校2015~2020 年共6 年,6 個(gè)系部,36個(gè)專業(yè)的就業(yè)率數(shù)據(jù)。由于高職畢業(yè)生的就業(yè)范圍多是服務(wù)本地產(chǎn)業(yè),所以選取的影響因素需要多是從區(qū)域范圍選取。現(xiàn)從區(qū)域經(jīng)濟(jì)、區(qū)域社會(huì)情況和高校三個(gè)方面選取影響就業(yè)率的相關(guān)因素。由于區(qū)域經(jīng)濟(jì)和社會(huì)情況數(shù)據(jù)獲得具有一定的滯后性,所以區(qū)域經(jīng)濟(jì)選取2014~2019年區(qū)域生產(chǎn)總值、各個(gè)產(chǎn)業(yè)總值及占比、固定投資增速、相關(guān)產(chǎn)業(yè)固定投資增速作為模型影響因子。區(qū)域社會(huì)因素選取2014~2019年從業(yè)人員單位數(shù)、就業(yè)人數(shù),相關(guān)行業(yè)單位數(shù)、相關(guān)行業(yè)從業(yè)人員數(shù)作為模型影響因子。高校因素方面選取2015~2020年教職工數(shù)量、招生人數(shù)作為模型影響因子[7]。
圖1 影響就業(yè)率因素
本文采用主成分回歸分析模型,根據(jù)上述選擇的影響就業(yè)率因素,共有15 個(gè)影響因子輸入模型。由于各個(gè)因子的量綱不同,如果直接使用原始數(shù)據(jù)會(huì)使得量級(jí)較大的字段放大對(duì)整體的影響,例如生產(chǎn)總值都是億萬級(jí)別的數(shù)據(jù),若直接投入模型會(huì)直接影響主成分的權(quán)值。因此,需要對(duì)輸入模型的數(shù)據(jù)利用式(3)Z-score標(biāo)準(zhǔn)化處理。
其中,X為原始數(shù)據(jù),μ為各輸入字段對(duì)應(yīng)的均值,σ為個(gè)輸入字段對(duì)應(yīng)的標(biāo)準(zhǔn)差,Z為標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。標(biāo)準(zhǔn)化后的數(shù)據(jù)輸入主成分回歸模型默認(rèn)各個(gè)因子之間權(quán)重相等,不用考慮因子之間的差異和相互影響。
第一步,將標(biāo)準(zhǔn)化后的輸入數(shù)據(jù)分為兩部分,取近兩年的作為測(cè)試集,其他數(shù)據(jù)作為訓(xùn)練集。
第二步,輸入主成分模型做降維處理。利用Python進(jìn)行主成分分析。15個(gè)影響因子,由于部分因子存在相關(guān)性的原因,經(jīng)運(yùn)算共有5個(gè)特征根。其中有三個(gè)成分的累計(jì)貢獻(xiàn)率較大,可作為主成分。表1 為提取主成分的總方差解釋表??傻们叭齻€(gè)成分的累計(jì)方差百分比已經(jīng)達(dá)到93.67%,方差貢獻(xiàn)率高,表示前三個(gè)因素所包含的信息量已經(jīng)占了93.67%,可選前三個(gè)作為主成分。分別求出三個(gè)主成分的成分矩陣和各因子的特征值。得到由各因子組成的主成分表達(dá)式:
表1 主成分方差總解釋表
由以上表達(dá)式可見,第一個(gè)主成分受經(jīng)濟(jì)因素影響比較大,第二個(gè)和第三個(gè)主成分受相關(guān)行業(yè)社會(huì)因素影響比較大。
第三步,將原數(shù)據(jù)經(jīng)過式(2) 的計(jì)算得到降維后訓(xùn)練集?,F(xiàn)在用Y對(duì)訓(xùn)練集前三個(gè)主成分做回歸分析,得到主成分回歸方程。并且計(jì)算決定系數(shù),發(fā)現(xiàn)模型的擬合效果較好,但個(gè)別的樣本點(diǎn)預(yù)測(cè)結(jié)果仍有較大誤差。
第四步,檢驗(yàn)主成分回歸后的殘差序列{Ye}是否具有馬爾可夫性。由上述步驟可計(jì)算得到殘差Ye的區(qū)間范圍[-0.0682,0.0772],并且殘差值圍繞0上下波動(dòng),偏離超過5%以上的較少。因此根據(jù)實(shí)際情況,可將馬爾可夫鏈的狀態(tài)區(qū)間劃分為5個(gè)區(qū)間,得到馬爾可夫狀態(tài)集為:E1=[-0.07,-0.04),E2=[-0.04,-0.01),E3=[-0.01,0.02),E4=[0.02,0.05),E5=[0.05,0.08]。計(jì)算殘差落在各個(gè)區(qū)間的轉(zhuǎn)移頻數(shù),并計(jì)算轉(zhuǎn)移概率,得到一步轉(zhuǎn)移矩陣為:
并且經(jīng)過式(2)計(jì)算χ2統(tǒng)計(jì)量為44.057,在置信度α為0.05且自由度為16 的情況下=26.296<44.057。故可以判斷殘差序列{Ye}具有馬氏性,可對(duì)就業(yè)率預(yù)測(cè)值的殘差使用馬爾可夫修正。
第五步,對(duì)主成分回歸的預(yù)測(cè)結(jié)果進(jìn)行修正。利用式(3)對(duì)預(yù)測(cè)的就業(yè)率數(shù)據(jù)進(jìn)行馬爾可夫修正。以某專業(yè)2019~2020年就業(yè)率預(yù)測(cè)為例,得到的結(jié)果如表2:
表2 某專業(yè)就業(yè)率主成分—馬爾可夫鏈模型預(yù)測(cè)結(jié)果比對(duì)表
可由表2知,單一的主成分回歸模型在對(duì)某專業(yè)預(yù)測(cè)的平均絕對(duì)誤差為4.275%,對(duì)全部專業(yè)就業(yè)率預(yù)測(cè)的平均絕對(duì)誤差為2.467%;經(jīng)過馬爾可夫修正后的某專業(yè)就業(yè)率預(yù)測(cè)的平均絕對(duì)誤差為2.82%,對(duì)全部專業(yè)就業(yè)率預(yù)測(cè)的平均絕對(duì)誤差為1.333%。由此可知,馬爾可夫修正主成分回歸模型大大提高了預(yù)測(cè)的準(zhǔn)確率,使得修正值更接近實(shí)際值[8]。
本文以某高校2015~2020 年各專業(yè)就業(yè)情況為例,結(jié)合主成分回歸模型和主成分——馬爾可夫鏈模型,將區(qū)域經(jīng)濟(jì)情況、行業(yè)情況和高校情況作為輸入指標(biāo),對(duì)就業(yè)率進(jìn)行預(yù)測(cè)。針對(duì)兩種預(yù)測(cè)模型的比較,經(jīng)過馬爾可夫鏈修正后的主成分回歸模型預(yù)測(cè)就業(yè)率的精度更高,能有效減小預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的差距,可為學(xué)校對(duì)未來招生就業(yè)政策的制定提供可靠的依據(jù)。并且由主成分回歸模型可得知影響高職就業(yè)率的主要因素是經(jīng)濟(jì)因素和行業(yè)情況。
高職院校的就業(yè)率受各方面因素影響,除了學(xué)校方面需要努力外,總體來說,受區(qū)域經(jīng)濟(jì)和行業(yè)發(fā)展情況影響更大。在此情形下,學(xué)校若想提高就業(yè)率還得回歸職業(yè)教育的初心,以就業(yè)為導(dǎo)向,把握行業(yè)發(fā)展的脈搏。專業(yè)的設(shè)置應(yīng)該符合現(xiàn)在社會(huì)的發(fā)展和需要,對(duì)于專業(yè)的設(shè)置不能一成不變。并且學(xué)校的人才培養(yǎng)方向要根據(jù)區(qū)域發(fā)展的需要,為區(qū)域企業(yè)輸送人才,同時(shí)也為學(xué)生創(chuàng)業(yè)提供孵化條件,扶植區(qū)域企業(yè)的發(fā)展,達(dá)到互利共贏。
同時(shí),在教學(xué)過程中的專業(yè)技術(shù)應(yīng)該與時(shí)俱進(jìn),加強(qiáng)產(chǎn)教融合、校企合作,深入企業(yè)了解行業(yè)的前沿技術(shù)和發(fā)展動(dòng)向,教學(xué)內(nèi)容應(yīng)該及時(shí)根據(jù)市場(chǎng)崗位所需技能的主要方向而調(diào)整。以此提升學(xué)生的質(zhì)量和在就業(yè)市場(chǎng)上的競(jìng)爭(zhēng)力。