基于Apriori算法的高職院校畢業(yè)生就業(yè)情況分析

2021-04-11 14:25:44羅明全

中阿科技論壇(中英文) 2021年3期

羅明全

（瀘州職業(yè)技術(shù)學(xué)院,四川瀘州 646000）

1 引言

目前，隨著信息化建設(shè)的不斷深入，各高職院校存儲了大量、復(fù)雜的畢業(yè)生成績和就業(yè)信息數(shù)據(jù)，如何從中挖掘出有價值的信息，成為高職院校的重要研究課題。本文對瀘州職業(yè)技術(shù)學(xué)院信息工程學(xué)院近5屆畢業(yè)生在校成績和就業(yè)相關(guān)數(shù)據(jù)進行挖掘分析，獲得一批可以為人才培養(yǎng)方案修訂和就業(yè)指導(dǎo)工作開展提供決策依據(jù)的有價值信息。

2 數(shù)據(jù)挖掘及關(guān)聯(lián)規(guī)則的基本概念

從海量數(shù)據(jù)中挖掘出潛在、有用知識的過程被稱為知識發(fā)現(xiàn)（KDD），在這個過程中，數(shù)據(jù)挖掘(Data Mining)是至關(guān)重要的一環(huán)。數(shù)據(jù)挖掘是利用特定算法，自動或半自動地發(fā)現(xiàn)有意義的數(shù)據(jù)模式。

關(guān)聯(lián)規(guī)則（Association Rule）是數(shù)據(jù)挖掘的一個重要技術(shù)，其目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)項集之間的關(guān)聯(lián)關(guān)系或相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析，通過分析“購物籃”哪些商品頻繁地被顧客同時購買，發(fā)現(xiàn)不同商品之間的關(guān)聯(lián)，得出顧客的購物習(xí)慣，從而幫助零售商調(diào)整商品貨架布局以及開發(fā)更好的營銷策略[1]。

關(guān)聯(lián)規(guī)則是形如X Y的蘊涵式，其中X為關(guān)聯(lián)規(guī)則的先導(dǎo)，Y為關(guān)聯(lián)規(guī)則的后繼，以下為關(guān)聯(lián)規(guī)則的幾個重要概念。

（1）事務(wù)

一個數(shù)據(jù)實例表視為一個數(shù)據(jù)集，每一條記錄為一個事務(wù)，使用D表示數(shù)據(jù)集，|D|表示數(shù)據(jù)集中事務(wù)數(shù)。

（2）項集與頻繁項集

一個數(shù)據(jù)表中，每個屬性字段具有一個或多個不同的值，每個取值稱為項，這些項的集合稱為項集，k-項集指包含k個項的項集，記為Lk。

（3）關(guān)聯(lián)規(guī)則支持度與置信度

（4）強關(guān)聯(lián)規(guī)則

在數(shù)據(jù)挖掘中，為衡量關(guān)聯(lián)規(guī)則在整個數(shù)據(jù)集中的統(tǒng)計重要性和關(guān)聯(lián)規(guī)則的可信程度，需要設(shè)置最小支持度閾值min_sup和最小置信度閾值min_conf。

3 Apriori算法實現(xiàn)

Apriori算法是一種常用于挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法，使用該算法可篩選出滿足強關(guān)聯(lián)規(guī)則的頻繁項集，Apriori算法主要由兩個階段構(gòu)成：提取頻項集和產(chǎn)生強關(guān)聯(lián)規(guī)則。

（1）Apriori算法流程

以高職院校畢業(yè)生在校表現(xiàn)及就業(yè)信息數(shù)據(jù)挖掘為例，Apriori算法流程如下。

輸入：畢業(yè)生在校成績及就業(yè)信息數(shù)據(jù)集D、最小支持度min_sup、最小置信度min_conf。

輸出：畢業(yè)生在校成績與就業(yè)的關(guān)聯(lián)規(guī)則。

Step1：掃描數(shù)據(jù)集，統(tǒng)計k=1項集及其支持度support(X)，比較support(X)與min_sup,若support(X)≥min_sup，則X為頻繁1-項集L1。

Step2：判斷頻繁k-項集Lk是否為空，為空則轉(zhuǎn)到Step6，否則轉(zhuǎn)到Step3。

Step3：將頻繁k-項集連接，產(chǎn)生候選（k+1）-項集Ck+1。

Step4：掃描原始數(shù)據(jù)集，計算出每個候選項集c的支持度support（c），若support（c）≥min_sup,則c屬于頻繁（k+1）-項集，否則為不滿足條件的候選項應(yīng)刪除，產(chǎn)生頻繁（k+1）-項集Lk+1。

Step5：k=k+1,返回Step2。

Step6：計算頻繁項集L=∪kLk。

Step7：比較頻繁項集L中的頻繁項與min_conf，得出畢業(yè)生在校表現(xiàn)與就業(yè)之間的強關(guān)聯(lián)規(guī)則。

（2）Apriori算法程序?qū)崿F(xiàn)

本文使用PHP作為程序開發(fā)語言，Apriori類成員如下：

4 基于Apriori算法的數(shù)據(jù)挖掘應(yīng)用

本文所使用的數(shù)據(jù)是瀘州職業(yè)技術(shù)學(xué)院信息工程學(xué)院近5屆畢業(yè)生在校期間課程成績和就業(yè)信息數(shù)據(jù)，課程成績包括畢業(yè)生在校期間每學(xué)期各科目成績和綜合素質(zhì)測評成績，就業(yè)信息數(shù)據(jù)包括畢業(yè)去向、單位性質(zhì)、工作職位類別等[2]。

4.1 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)挖掘之前，對數(shù)據(jù)進行預(yù)處理，主要包括以下內(nèi)容。

（1）數(shù)據(jù)變換與集成：由于不同專業(yè)課程存在差別，通過屬性與屬性的連接構(gòu)造新屬性用于后續(xù)的數(shù)據(jù)挖掘計算，畢業(yè)生各學(xué)期英語、高數(shù)成績的算術(shù)平均值構(gòu)造為“文化課程”新屬性，專業(yè)課程成績的算術(shù)平均值構(gòu)造為“專業(yè)課程”新屬性，各學(xué)期的綜合素質(zhì)測評成績的算術(shù)平均值構(gòu)造為“綜合素質(zhì)”新屬性。以學(xué)號為唯一字段，將教務(wù)系統(tǒng)和就業(yè)管理系統(tǒng)的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲。

（2）冗余數(shù)據(jù)和缺失的處理：數(shù)據(jù)集成后，不避免出現(xiàn)冗余數(shù)據(jù)，如學(xué)號、年級、性別等，所有冗余數(shù)據(jù)全部刪除，可節(jié)約內(nèi)存并提高運算效率。個別畢業(yè)生畢業(yè)時未就業(yè)或未填報就業(yè)數(shù)據(jù)，致使畢業(yè)去向、單位性質(zhì)、工作職位類別等數(shù)據(jù)項缺失，處理方式為一律舍棄。

（3）數(shù)值數(shù)據(jù)離散化處理：畢業(yè)生的成績數(shù)據(jù)均為數(shù)量屬性，我們將各成績屬性離散化處理，對文化課程、專業(yè)課程、綜合素質(zhì)成績采用統(tǒng)一的量化標(biāo)準(zhǔn)，分為良好和一般兩個等級，85分及以上為良好，值使用1表示，低于85分為一般，值使用0表示。

4.2 關(guān)聯(lián)規(guī)則挖掘

將經(jīng)數(shù)據(jù)預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)庫中，使用Apriori算法的挖掘程序，我們設(shè)置min_sup=5%，min_conf=60%，搜素數(shù)據(jù)庫，得到強關(guān)聯(lián)規(guī)則如下所示。

（1）專業(yè)成績(良好)→就業(yè)行業(yè)（信息傳輸、計算機服務(wù)和軟件業(yè)），support=41.2%，confidence=80.5%。

（2）專業(yè)成績（一般）∩綜合素質(zhì)（良好）→職位類別（商業(yè)和服務(wù)業(yè)）,support=6.3%，confidence=71.4%。

（3）文化成績（良好）→就業(yè)方向(專升本)，support=5.2%，confidence=63.1%，同時就業(yè)方向(專升本) →文化成績（良好）,confidence=87.4%。

4.3 關(guān)聯(lián)規(guī)則分析

規(guī)則1表明，在校期間專業(yè)成績好的畢業(yè)生就業(yè)行業(yè)為IT行業(yè)，一定程度上表明，現(xiàn)開設(shè)的專業(yè)課程較為合理。

規(guī)則2表明，專業(yè)成績一般但綜合素質(zhì)較強的畢業(yè)生偏好從事商業(yè)和服務(wù)業(yè)工作。

規(guī)則3表明，文化成績達到良好的畢業(yè)生偏好專升本，同時，大多數(shù)專升本成功的畢業(yè)生在校期間文化成績達到良好水平。

5 結(jié)語

本文利用關(guān)聯(lián)規(guī)則及Apriori算法對畢業(yè)生在校期間各項成績和就業(yè)數(shù)據(jù)進行了挖掘和分析，分析得出：高職學(xué)生的畢業(yè)去向與在校期間的學(xué)習(xí)和表現(xiàn)存在較大的關(guān)聯(lián)性。在就業(yè)指導(dǎo)中，根據(jù)學(xué)生在校表現(xiàn)情況，指導(dǎo)學(xué)生正確自我認知，確定合適的就業(yè)目標(biāo)，同時向招聘單位進行精準(zhǔn)的人才推薦，進一步提高就業(yè)率，促進優(yōu)質(zhì)就業(yè)。