• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Apriori算法在高職院校公共選修課關(guān)聯(lián)性分析中的應(yīng)用

    2022-07-20 08:03:20王善勤王立輝
    關(guān)鍵詞:項(xiàng)集置信度事務(wù)

    王善勤,王立輝

    (1.東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096;2.滁州職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,安徽 滁州 239000)

    公共選修課在高校人才培養(yǎng)中承擔(dān)的任務(wù)日趨重要,已成為高校拓寬學(xué)生知識(shí)面、優(yōu)化學(xué)生知識(shí)結(jié)構(gòu)的重要抓手,也是提高學(xué)生綜合素質(zhì)的重要載體.[1]實(shí)現(xiàn)高職院校公共選修課管理的數(shù)字化轉(zhuǎn)型,是教務(wù)管理人員當(dāng)前所面臨的重要且急迫的挑戰(zhàn).數(shù)據(jù)挖掘技術(shù)[2-3]對(duì)于尋找選修課隱含的關(guān)聯(lián)規(guī)則提供了全新思路和有效手段.[4]Apriori算法是關(guān)聯(lián)規(guī)則的經(jīng)典算法[5],通過(guò)從海量原始數(shù)據(jù)中找出頻繁項(xiàng)集, 進(jìn)而產(chǎn)生數(shù)據(jù)間隱含的強(qiáng)關(guān)聯(lián)規(guī)則.馮楚生[6]等提出利用數(shù)據(jù)挖掘技術(shù)構(gòu)建學(xué)生個(gè)性化的選課推薦系統(tǒng),結(jié)合學(xué)生興趣、需求、性格、特長(zhǎng)等方面因素,根據(jù)Apriori算法對(duì)課程信息進(jìn)行關(guān)聯(lián)分析.齊欽[7]將關(guān)聯(lián)規(guī)則算法運(yùn)用到學(xué)生成績(jī)數(shù)據(jù)分析中,得出了強(qiáng)關(guān)聯(lián)規(guī)則,通過(guò)分析驗(yàn)證了課程間相關(guān)性和作用性結(jié)論.李志亮[8]等設(shè)計(jì)了一種基于壓縮矩陣的Apriori改進(jìn)算法,對(duì)學(xué)生部分課程成績(jī)及選修課數(shù)據(jù)進(jìn)行挖掘,分析出學(xué)生可能感興趣的選修課.本文將Apriori算法引入到高職院校公共選修課選修管理中,探索從公共課選修集中找出頻繁項(xiàng)集的方式,提出根據(jù)1項(xiàng)集預(yù)選、支持度平均值來(lái)確立關(guān)聯(lián)規(guī)則最小支持度閾值并將其應(yīng)用到公共選修課管理中.

    1 數(shù)據(jù)來(lái)源及處理

    以滁州職業(yè)技術(shù)學(xué)院2018級(jí)三年公共選修課選修數(shù)據(jù)為樣本,對(duì)其進(jìn)行預(yù)處理和數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,根據(jù)需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換.

    1.1 數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換

    數(shù)據(jù)清洗對(duì)象為:因參軍入伍、請(qǐng)病假等原因休學(xué)或退學(xué)的、公共選修課選修信息采集不完整的、開(kāi)設(shè)的公共選修課因不同教師導(dǎo)致教務(wù)系統(tǒng)中同課頭不同名稱的,這些因素導(dǎo)致部分記錄變成了噪聲數(shù)據(jù).不完整數(shù)據(jù)樣本較少,采用直接刪除策略直接將其丟棄.噪聲數(shù)據(jù)樣本在整個(gè)樣本的比例相對(duì)較大,采用聚類、泛化方法進(jìn)行處理.經(jīng)過(guò)對(duì)數(shù)據(jù)集進(jìn)行清理后,得到優(yōu)良記錄共計(jì)3 276條.

    將噪聲數(shù)據(jù)運(yùn)用聚類方法進(jìn)行處理.由于部分學(xué)生選修同一門(mén)選修課多次,此類數(shù)據(jù)采用數(shù)據(jù)泛化處理.

    1.2 選擇數(shù)據(jù)的屬性及預(yù)處理

    在運(yùn)用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析過(guò)程中,通過(guò)選定的樣本集,設(shè)計(jì)高職院校公共選修課選修數(shù)據(jù)表:學(xué)號(hào)(xh),姓名(xm),課程1(kc1),課程2(kc2),課程3(kc3),課程4(kc3),課程5(kc5),課程6(kc6).對(duì)公共選修課選修數(shù)據(jù)進(jìn)行操作,將各公共選修課課程名稱用字母、數(shù)字編碼字符串代替,并統(tǒng)計(jì)出樣本數(shù),撰寫(xiě)數(shù)據(jù)字典,如表1所示.

    表1 公共選修課課程映射字典信息表

    根據(jù)Apriori算法規(guī)范數(shù)據(jù),經(jīng)過(guò)預(yù)處理后得到3 276條樣本記錄.

    2 公共選修課關(guān)聯(lián)規(guī)則構(gòu)建

    2.1 改進(jìn)Apriori算法最小支持度閾值的設(shè)定

    關(guān)聯(lián)規(guī)則挖掘技術(shù)就是挖掘支持度和置信度滿足設(shè)定的最小支持度、置信度閾值的期望規(guī)則.[9-10]最小支持度、置信度閾值的設(shè)定在很大程度上影響著關(guān)聯(lián)規(guī)則算法挖掘效率,將最小支持度閾值設(shè)定過(guò)高或過(guò)低都會(huì)影響數(shù)據(jù)挖掘的效果.為了解決經(jīng)典算法這個(gè)固有的缺陷,蔡紅[11]等提出了一種最小支持度閾值調(diào)整優(yōu)化的統(tǒng)計(jì)規(guī)律性算法,主要采取低則下調(diào)、高則上調(diào)的最小支持度調(diào)整辦法.針對(duì)公共選修課關(guān)聯(lián)性分析的實(shí)際應(yīng)用場(chǎng)景,對(duì)其進(jìn)行進(jìn)一步改進(jìn),給出計(jì)算最小支持閾值的計(jì)算方法.針對(duì)樣本項(xiàng)集I={i1,i2, …,im}中項(xiàng)較多,項(xiàng)集預(yù)選率偏低的實(shí)際應(yīng)用場(chǎng)景,采用對(duì)樣本1-項(xiàng)集進(jìn)行分析統(tǒng)計(jì),計(jì)算1-項(xiàng)集的支持度平均值及其預(yù)選平均值的積,支持度閾值選取通過(guò)對(duì)其向上“取整”法確立(向上“取整”指對(duì)得到值從前往后第二位不為零的數(shù)).最小支持度閾值可如式(1)所示.

    (1)

    式(1)中,N表示樣本集中樣本個(gè)數(shù),k表示樣本項(xiàng)集中項(xiàng)的個(gè)數(shù),P(xi)表示項(xiàng)xi在樣本中出現(xiàn)的次數(shù),Thminsup表示計(jì)算的最小支持度閾值.

    運(yùn)用提出最小支持度閾值計(jì)算方法,對(duì)本文數(shù)據(jù)進(jìn)行計(jì)算操作.從強(qiáng)關(guān)聯(lián)規(guī)則獲取數(shù)的角度進(jìn)行觀測(cè),計(jì)算出最小支持度閾值.根據(jù)該類場(chǎng)景實(shí)際情況,當(dāng)最小置信度閾值為0.4,0.5,0.6的情況下,最小支持度閾值為[0.00092,0.002]區(qū)間內(nèi).實(shí)驗(yàn)結(jié)果顯示,該最小支持度閾值計(jì)算方法值為0.000 97,正好處在強(qiáng)關(guān)聯(lián)規(guī)則隨最小支持度閾值變化曲線圖中較理想的位置,最小支持度閾值計(jì)算方法是有效的.

    2.2 基于Apriori算法的公共選修課關(guān)聯(lián)規(guī)則模型構(gòu)建

    確立Apriori算法的最小支持度、置信度閾值,根據(jù)頻繁項(xiàng)集和最小置信度閾值建立公共選修課間的強(qiáng)關(guān)聯(lián)規(guī)則.每一條選課記錄稱為一個(gè)事務(wù),給定一個(gè)事務(wù)集合T,設(shè)Ck是候選項(xiàng)集,Lk是頻繁項(xiàng)集.

    對(duì)清洗后的事務(wù)集合進(jìn)行遍歷,得到候選1項(xiàng)集C1及其支持度.計(jì)算出候選C1項(xiàng)集即事務(wù)集合T中的所有項(xiàng)集,計(jì)算每一門(mén)公共選修課在事務(wù)集合T中所占百分比.如果某門(mén)公共選修課選修支持度小于最小支持度閾值,則通過(guò)剪枝刪掉.遍歷完所有數(shù)據(jù)并保留下來(lái)的公共選修課集合即是頻繁1項(xiàng)集L1.

    將得到的頻繁1項(xiàng)集L1進(jìn)行自連接,得到候選2項(xiàng)集C2及其支持度.計(jì)算得出C2中每項(xiàng)支持度,計(jì)算事務(wù)集合T中相應(yīng)兩門(mén)公共選修課的項(xiàng)集在事務(wù)集合T總項(xiàng)集數(shù)中所占的百分比.如果其支持度小于最小支持度閾值,則通過(guò)剪枝刪掉.遍歷完所有數(shù)據(jù)并保留下來(lái)每?jī)砷T(mén)公共選修課集合,即得到頻繁2項(xiàng)集L2.

    將得到的頻繁k-1項(xiàng)集Lk-1進(jìn)行連接并剪枝刪除非頻繁項(xiàng)集.得到候選k項(xiàng)集Ck及其支持度.計(jì)算出Ck中每項(xiàng)支持度,計(jì)算事務(wù)集合T中相應(yīng)k門(mén)公共選修課的項(xiàng)集數(shù)占事務(wù)集合T中總項(xiàng)集數(shù)的百分比.如果其支持度小于最小支持度閾值,則通過(guò)剪枝刪掉,得到頻繁k項(xiàng)集Lk.

    找出最大的6項(xiàng)頻繁集,因?yàn)樵谑聞?wù)集合T中選修公共選修課門(mén)數(shù)最多的樣本記錄就是6門(mén)課.滿足最小置信度的頻繁項(xiàng)集即為建立的強(qiáng)關(guān)聯(lián)規(guī)則.結(jié)束算法得到強(qiáng)關(guān)聯(lián)規(guī)則.

    3 編程實(shí)現(xiàn)分析

    引用數(shù)據(jù)分析庫(kù)numpy,pandas,運(yùn)用python語(yǔ)言編碼實(shí)現(xiàn)Apriori算法,對(duì)清洗處理后數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,挖掘出公共選修課間隱藏的關(guān)聯(lián)規(guī)則.將清洗后的事務(wù)集放到數(shù)據(jù)庫(kù)中,編程導(dǎo)入數(shù)據(jù),通過(guò)Apriori算法分析課程間關(guān)聯(lián)規(guī)則,并通過(guò)編程方式將分析得到關(guān)聯(lián)規(guī)則保存到數(shù)據(jù)庫(kù)中.

    3.1 最小支持度、置信度閾值的設(shè)定

    對(duì)樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,根據(jù)本文提出的最小支持度閾值的運(yùn)算方法進(jìn)行計(jì)算,1項(xiàng)集支持度的平均值為0.022 377 875,1項(xiàng)集平均預(yù)選的值為0.043 345 543,二者乘積為0.000 969 981,由此確立用于Apriori算法分析的支持度閾值為0.000 97.考慮對(duì)頻繁項(xiàng)進(jìn)行更加全面分析,確立最小置信度閾值為0.3.

    3.2 Apriori算法關(guān)鍵核心代碼

    def search_rule(d,support,confidence,ms = '--'):

    result=pd.DataFrame(index=['support', 'confidence'])

    support_series=1.0*d.sum()/len(d)

    col=list(support_series[support_series>support].index)

    k=0

    while len(col)>1:

    k=k+1

    col=connect_string(col,ms)

    sf=lambda i:d[i].prod(axis=1,numeric_only=True)

    d_2=pd.DataFrame(list(map(sf,col)),index=[ms.join(i)for i in col]).T

    support_series_2=1.0*d_2[[ms.join(i)for i in col]].sum()/len(d)

    col=list(support_series_2[support_series_2>support].index)

    support_series=support_series.append(support_series_2)

    col2=[]

    for i in col:

    i=i.split(ms)

    for j in range(len(i)):

    col2.append(i[:j]+i[j+1:]+i[j:j+1])

    cofidence_series=pd.Series(index=[ms.join(i)for i in col2])

    for i in col2:

    cofidence_series[ms.join(i)]=support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]

    for i in cofidence_series[cofidence_series > confidence].index:

    result[i]=0.0

    result[i]['confidence']=cofidence_series[i]

    result[i]['support']=support_series[ms.join(sorted(i.split(ms)))]

    result=result.T.sort_values(['confidence','support'],ascending=False)

    return result

    3.3 關(guān)聯(lián)規(guī)則挖掘與分析

    設(shè)定最小支持度閾值為0.000 97,最小置信度閾值為0.3,運(yùn)用Apriori算法進(jìn)行挖掘分析,其中滿足最小支持度、置信度的強(qiáng)關(guān)聯(lián)規(guī)則如表2所示.

    例如,對(duì)照公共選修課課程映射字典信息表,從表2中第一條規(guī)則“C126-C52-C29 0.001 832 1.000 000”可以得出,選修了“現(xiàn)代舞蹈基礎(chǔ)訓(xùn)練”“形體舞蹈教學(xué)”的學(xué)生,有100%機(jī)率選修“民族民間舞蹈教學(xué)”課程;從表2中第三條規(guī)則“C107-C88-C31 0.001 221 0.800 000”可以得出,選修“食品安全與日常飲食”“創(chuàng)新創(chuàng)業(yè)執(zhí)行力”的學(xué)生,有80%機(jī)率選修“ISO9000質(zhì)量管理標(biāo)準(zhǔn)”課程.

    表2 同時(shí)滿足支持度和置信度的強(qiáng)關(guān)聯(lián)規(guī)則表

    4 結(jié)語(yǔ)

    提出一種基于Apriori算法的公共選修課間關(guān)聯(lián)性分析方法.采用Apriori算法對(duì)公共選修課選課歷史記錄數(shù)據(jù)進(jìn)行挖掘分析,將構(gòu)建的模型應(yīng)用到公共課管理中,可以節(jié)約教學(xué)資源,提升教務(wù)管理、服務(wù)質(zhì)量,提高公共選修課數(shù)字化智能管理水平.應(yīng)用結(jié)果表明,運(yùn)用Apriori算法進(jìn)行公共選修課管理對(duì)公共選修課選修效率、公共選修課管理水平的提高有明顯的促進(jìn)作用.公共選修課選課效率得到很大提升,誤選、棄選、失選率均大大縮減,為高職院校公共選修課數(shù)字化智能管理邁出堅(jiān)實(shí)一步.

    猜你喜歡
    項(xiàng)集置信度事務(wù)
    “事物”與“事務(wù)”
    基于分布式事務(wù)的門(mén)架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
    河湖事務(wù)
    正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
    置信度條件下軸承壽命的可靠度分析
    軸承(2015年2期)2015-07-25 03:51:04
    關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
    卷宗(2014年5期)2014-07-15 07:47:08
    一種頻繁核心項(xiàng)集的快速挖掘算法
    SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
    多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
    雅安市| 怀仁县| 宁陕县| 广水市| 南康市| 偏关县| 镇沅| 盐山县| 右玉县| 洛扎县| 城市| 大悟县| 海阳市| 区。| 昌乐县| 建阳市| 富宁县| 平乐县| 囊谦县| 延川县| 砀山县| 天长市| 青川县| 房产| 吴川市| 新巴尔虎右旗| 左权县| 兰溪市| 东海县| 阿瓦提县| 宜章县| 扎鲁特旗| 祁阳县| 莫力| 齐齐哈尔市| 旌德县| 阳东县| 寿阳县| 南平市| 长泰县| 西盟|