• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Bert模型的文本多分類應(yīng)用研究

    2023-03-24 01:25:59昌磊王依倫陳艷平
    電腦知識(shí)與技術(shù) 2023年4期
    關(guān)鍵詞:文本分類遷移學(xué)習(xí)

    昌磊 王依倫 陳艷平

    關(guān)鍵詞:BERT;文本分類;遷移學(xué)習(xí)

    1 概述

    隨著互聯(lián)網(wǎng)的發(fā)展越來越發(fā)達(dá),教育領(lǐng)域也因教育信息化而發(fā)生了巨大變革,通過搜索引擎和在線答題平臺(tái)咨詢學(xué)習(xí)問題已逐漸成為學(xué)生及老師學(xué)習(xí)的一種方式[1]。在咨詢過程中,問答系統(tǒng)會(huì)對(duì)用戶提出問題的類別進(jìn)行準(zhǔn)確區(qū)分,如題目的學(xué)科或題目考查的知識(shí)點(diǎn)。知識(shí)點(diǎn)在教育教學(xué)過程中起著重要的作用,可對(duì)題庫根據(jù)知識(shí)點(diǎn)進(jìn)行分類,然后根據(jù)學(xué)生的學(xué)習(xí)情況,有針對(duì)地將習(xí)題推薦給學(xué)生,老師也能根據(jù)學(xué)生的做題情況有針對(duì)地進(jìn)行拔高訓(xùn)練,為學(xué)生設(shè)計(jì)階段性學(xué)習(xí)方案,學(xué)生能更快速地掌握知識(shí)點(diǎn),學(xué)習(xí)效率能得到快速提升。

    傳統(tǒng)上,教師或教研人員需要人工判斷習(xí)題的題型,浪費(fèi)時(shí)間和精力,而且過程十分消耗耐心。在設(shè)計(jì)建立試題庫,問答系統(tǒng)等場景下,就可以利用文本分類的方法對(duì)題目進(jìn)行試題分類,即機(jī)器代替人工實(shí)現(xiàn)題型分類提高了教師的工作效率。同時(shí)也能使得試題和試卷的管理更高效而便捷,大大節(jié)省了教師的工作時(shí)間,便于教師有更多時(shí)間和精力致力于教學(xué)方法的研究,畢竟合理的教學(xué)方法也同樣影響著學(xué)生的成績。

    題型分類屬于自然語言處理短文本分類任務(wù),需要對(duì)相關(guān)文本進(jìn)行處理,得到文本的向量化表示。近年來,深度學(xué)習(xí)方法漸漸興起,目前主要是采用詞嵌入的方式獲得文本的特征表示,如利用word2vec 模型學(xué)習(xí)文本中詞向量的表示,也可以用預(yù)訓(xùn)練模型BERT得到文本的語義表示完成文本分類[2]。

    基于轉(zhuǎn)換器的雙向編碼表征BERT是2018年由Google 推出的,在多項(xiàng)NLP 任務(wù)中取得了卓越的效果[3]。使用預(yù)訓(xùn)練模型BERT,能夠解決一詞多義問題,而且對(duì)中文文本語義的獲取BERT 預(yù)訓(xùn)練模型有更好的效果。對(duì)于不同的下游任務(wù),BERT的結(jié)構(gòu)可能會(huì)有不同的輕微變化。

    2 相關(guān)研究

    2.1Bert 模型

    BERT模型是基于Transformer模型的一種雙向多頭自注意力編碼器組成的深層預(yù)訓(xùn)練模型。雙向的意思是該模型能通過某些數(shù)據(jù)便可以獲取這個(gè)句子在上下文語義的功能[4]。BERT模型示意圖如圖1所示,可以很清楚地看到BERT采用了Transformer En? coder block進(jìn)行連接,但舍棄了Decoder模塊, 這樣最終使其擁有了雙向編碼能力和強(qiáng)大的特征提取能力。

    2.2 Transformer 和Attention 機(jī)制

    多層Transformer 組裝成了Bert模型。而Atten? tion 機(jī)制又是Transformer中最關(guān)鍵的部分,它表示了各個(gè)詞語之間的聯(lián)系程度。Self-Attention就是一種可以考慮全局信息的機(jī)制。Multi-head Self-Attention 獲取輸入文本中每個(gè)不同的字基于不同題型的語義向量,然后進(jìn)行線性組合,最終得到的特征向量和輸入向量長度相同,利用的就是不同的注意力機(jī)制。在Multi Head Self-Attention基礎(chǔ)上添加殘差連接和層歸一化及線性轉(zhuǎn)換。而Bert 模型就是由多個(gè)Trans?former Encoer堆疊起來得到的[5]。

    3 基于BERT-CNN 的K12 教育題庫的題型分類模型

    本文是基于K12教育題庫的題型多分類問題,采用基于樣本的遷移學(xué)習(xí)方法,其分類模型如圖3所示。

    3.1 算法流程

    本文提出一種基于BERT-CNN的K12教育題庫的題型分類模型,其具體的算法流程如下。

    4 實(shí)驗(yàn)結(jié)果及分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)集

    本文數(shù)據(jù)集采用K12教育題庫長文本20000個(gè)題目,根據(jù)對(duì)應(yīng)的不同知識(shí)點(diǎn),一共將文本分為6個(gè)類別,分別是:二次函數(shù)與反比例、三角函數(shù)、生理與健康、科學(xué)、設(shè)計(jì)及生物。每個(gè)題目的平均文本字符長度為20~30,訓(xùn)練集、驗(yàn)證集、測試集的比例為:8:1:1。

    4.2 實(shí)驗(yàn)環(huán)境

    本次實(shí)驗(yàn)編程軟件使用的是Pycharm 社區(qū)版,操作系統(tǒng)為Windows10,GPU 為NVIDIA RTX3060?;赑ython3.8,使用Anaconda 編程平臺(tái),選擇Pytorch 作為深度學(xué)習(xí)框架。

    4.3 參數(shù)設(shè)置

    預(yù)訓(xùn)練模型采用Google 發(fā)布的中文BERT-Base,基于64 個(gè)多頭自注意力機(jī)制和12層雙向Transfomer 編碼器對(duì)K12教育數(shù)據(jù)短文本進(jìn)行動(dòng)態(tài)字向量訓(xùn)練。并根據(jù)數(shù)據(jù)集的特點(diǎn)微調(diào)BERT,以提升BERT 的下游任務(wù)的效果[7]。由于電腦顯存限制, batch _size設(shè)置為64,Epoch 設(shè)置為3, learning_rate 設(shè)置為3e-5,num_classes 表示類別總數(shù)設(shè)置為6。

    4.4 實(shí)驗(yàn)結(jié)果

    本實(shí)驗(yàn)使用“提前停止”技術(shù),這可以更好地避免過擬合問題。對(duì)于文本分類的效果采用精確率(Preci? sion) 、召回率(Recall) 和F1值3個(gè)指標(biāo)進(jìn)行評(píng)價(jià)[8],實(shí)驗(yàn)結(jié)果如表1所示。

    5 結(jié)論

    從表1可看出識(shí)別的標(biāo)簽不同,評(píng)價(jià)體系得分也不同,所有標(biāo)簽平均得分為0.95. 準(zhǔn)確率也是0.95。

    從實(shí)驗(yàn)結(jié)果可以看出,該模型實(shí)現(xiàn)了K12教育題庫類中文文本的多分類,并且Bert- cnn在各項(xiàng)評(píng)測指標(biāo)中的表現(xiàn)也令人滿意。但由于習(xí)題科目及知識(shí)點(diǎn)種類繁多,關(guān)系復(fù)雜,所以數(shù)據(jù)集的構(gòu)造還需要煩瑣的工作,想要繼續(xù)提升準(zhǔn)確性,還需要優(yōu)化數(shù)據(jù)集并優(yōu)化各種模型及參數(shù)。

    猜你喜歡
    文本分類遷移學(xué)習(xí)
    遷移學(xué)習(xí)研究綜述
    從認(rèn)知角度探討大學(xué)英語網(wǎng)絡(luò)教學(xué)模式
    基于多特征融合的跨域情感分類模型研究
    奇異值分解與移移學(xué)習(xí)在電機(jī)故障診斷中的應(yīng)用
    基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
    基于貝葉斯分類器的中文文本分類
    基于蟻群智能算法的研究文本分類
    基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
    基于K—means算法的文本分類技術(shù)研究
    文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
    科技視界(2016年24期)2016-10-11 09:36:57
    伊宁县| 始兴县| 张家界市| 新郑市| 新泰市| 明水县| 谢通门县| 陈巴尔虎旗| 凤庆县| 福安市| 平安县| 蓬溪县| 阜宁县| 腾冲县| 云霄县| 永靖县| 东阿县| 普洱| 萍乡市| 淳化县| 微山县| 湄潭县| 双辽市| 筠连县| 长治县| 黄梅县| 工布江达县| 加查县| 岫岩| 调兵山市| 淮阳县| 余庆县| 高州市| 盈江县| 高平市| 墨脱县| 会宁县| 邯郸县| 文水县| 滦南县| 新晃|