• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的教材德目分類方法

    2021-09-15 02:36:22郭書武陳軍華
    關(guān)鍵詞:向量分類文本

    郭書武,陳軍華

    (上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 201418)

    0 引 言

    所謂德目教育,就是將德目作為主要內(nèi)容進(jìn)行的道德教育。一個(gè)健康、穩(wěn)定的社會(huì)必然要求有一套被時(shí)代所公認(rèn)的核心價(jià)值體系,并被公民所內(nèi)化[1]。隨著時(shí)代的發(fā)展,我國(guó)德目指標(biāo)也在不斷的發(fā)展,比如“仁、義、禮、智、信”就是傳統(tǒng)意義上的德目指標(biāo),而“愛國(guó)守法、明禮誠(chéng)信、團(tuán)結(jié)友愛、勤儉自強(qiáng)、敬業(yè)奉獻(xiàn)”就是現(xiàn)代意義的德目指標(biāo)。對(duì)學(xué)生的德目教育是學(xué)校的重要職責(zé),而教材是進(jìn)行德目教育的重要途徑和載體,所以教材德目指標(biāo)也就成為學(xué)校選取教材的重要標(biāo)準(zhǔn)之一,從而達(dá)到傳遞社會(huì)的核心價(jià)值體系的教學(xué)目標(biāo)。

    本文的研究源于教育部哲學(xué)社會(huì)科學(xué)重大課題攻關(guān)項(xiàng)目(立項(xiàng)號(hào):13JZD046)——大中小德育課程一體化建設(shè)研究,實(shí)驗(yàn)數(shù)據(jù)集來源于上海市中小學(xué)教材。

    教材為教育教學(xué)提供基本遵循,教材的內(nèi)容選取對(duì)學(xué)生的價(jià)值觀養(yǎng)成起到了關(guān)鍵作用,同時(shí),中小學(xué)教材存在內(nèi)容簡(jiǎn)單重復(fù)的結(jié)構(gòu)性問題。所以,為了能夠更好地對(duì)教材內(nèi)容進(jìn)行德目評(píng)定,項(xiàng)目組專家根據(jù)當(dāng)今我國(guó)社會(huì)主義核心價(jià)值體系的要求,制定了相應(yīng)的德目指標(biāo),其中包含4個(gè)一級(jí)德目指標(biāo),分別是:政治認(rèn)同(A)、國(guó)家意識(shí)(B)、文化自信(C)、公民人格(D)。為了更加細(xì)致嚴(yán)謹(jǐn)?shù)脑u(píng)價(jià)教材的德目指標(biāo),又將每個(gè)一級(jí)德目指標(biāo)細(xì)分為4種二級(jí)德目指標(biāo),分別是:黨的領(lǐng)導(dǎo)(A1)、科學(xué)理論(A2)、政治制度(A3)、發(fā)展道路(A4)、國(guó)家利益(B1)、國(guó)情觀念(B2)、民族團(tuán)結(jié)(B3)、國(guó)際視野(B4)、國(guó)家語言(C1)、歷史文化(C2)、革命傳統(tǒng)(C3)、時(shí)代精神(C4)、健康身心(D1)、守法平等(D2)、誠(chéng)信盡責(zé)(D3)和自強(qiáng)合作(D4)。本文針對(duì)二級(jí)德目指標(biāo)的自動(dòng)分類進(jìn)行研究。

    1 相關(guān)工作

    文本分類是自然語言處理領(lǐng)域中重要的應(yīng)用,諸多的傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用到了各種文本分類任務(wù)中。文獻(xiàn)[2]通過結(jié)合改良后的K-modes算法,改良了KNN算法,提高了KNN算法在面對(duì)大樣本數(shù)據(jù)集時(shí)的執(zhí)行效率。文獻(xiàn)[3]提出了一種基于模擬退火(SA)優(yōu)化SVM的文本分類方法,有效地解決了優(yōu)化SVM參數(shù)難題。LDA[4]經(jīng)常被用來做文檔主題聚類的分析,所以文獻(xiàn)[5]將LDA和卡方統(tǒng)計(jì)相結(jié)合,然后利用SVM進(jìn)行文本分類,實(shí)驗(yàn)結(jié)果表明,把卡方統(tǒng)計(jì)和主題模型相結(jié)合的方法可以有效提升模型的泛化能力。Spark可以基于map reduce算法進(jìn)行分布式計(jì)算,文獻(xiàn)[6]將Spark框架和KNN相結(jié)合,實(shí)現(xiàn)了對(duì)大數(shù)據(jù)量數(shù)據(jù)集的文本分類。盡管傳統(tǒng)方法在一些文本分類任務(wù)中已經(jīng)取得了非常不錯(cuò)的效果,但是其單純通過詞頻來衡量詞的重要性不夠全面,無法利用詞的位置信息,且不能夠表示這些詞語之間的聯(lián)系。

    如何有效地利用詞之間的聯(lián)系及其位置信息,成為了文本分類任務(wù)中需要解決的問題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[7]是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),可以處理時(shí)間序列中間隔很長(zhǎng)的事件,文獻(xiàn)[8]結(jié)合協(xié)同訓(xùn)練的方法對(duì)LSTM進(jìn)行擴(kuò)展,并實(shí)現(xiàn)了對(duì)中文命名實(shí)體的識(shí)別。文獻(xiàn)[9]結(jié)合CNN和LSTM,并對(duì)其進(jìn)行了改進(jìn)和優(yōu)化,在聯(lián)合預(yù)測(cè)模型上添加修正模型,完成了電網(wǎng)電量缺失數(shù)據(jù)的預(yù)測(cè)任務(wù)。文獻(xiàn)[10]結(jié)合了CNN和GRU[11],并采用條件隨機(jī)場(chǎng)模型作為分類器,實(shí)驗(yàn)結(jié)果表明能夠?qū)崿F(xiàn)較高準(zhǔn)確率的情感類別的分類。Kim[12]提出了TextCNN,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了文本分類當(dāng)中,TextCNN具有多個(gè)不同大小的卷積核,可以更好地捕捉到句子中的關(guān)鍵信息,其通過融合各個(gè)卷積層的輸出,然后輸入到Softmax層得到分類結(jié)果。

    使用傳統(tǒng)的文本分類算法對(duì)教材文本進(jìn)行深度學(xué)習(xí)時(shí),存在特征矩陣稀疏、特征維數(shù)高的問題,并且不能有效地利用詞之間的聯(lián)系及位置信息,且上海市中小學(xué)教材數(shù)據(jù)集存在樣本分布不均衡的問題,各指標(biāo)下的教材文本條數(shù)差異較大,模型在數(shù)據(jù)量較少的類別上不能有效地獲取特征信息。針對(duì)上述問題,本文提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)TextCNN和注意力機(jī)制的文本分類模型,將其稱為IoMET_A(Indicators of Moral Education Target based Attention),并提出一種新的數(shù)據(jù)增強(qiáng)技術(shù)來得到一個(gè)均衡的數(shù)據(jù)集。

    2 IoMET_A建模

    2.1 數(shù)據(jù)增強(qiáng)

    深度學(xué)習(xí)中數(shù)據(jù)集的質(zhì)量對(duì)模型的性能有很大的影響,一個(gè)極端不均衡的數(shù)據(jù)集會(huì)對(duì)模型的訓(xùn)練造成困擾,有可能導(dǎo)致過擬合的發(fā)生。如圖1所示,上海市中小學(xué)教材文本數(shù)據(jù)存在數(shù)據(jù)不均衡的問題,各類別的數(shù)量差異較大。所以,本文需要采用數(shù)據(jù)增強(qiáng)的技術(shù)來得到一個(gè)較為均衡的數(shù)據(jù)集。

    圖1 數(shù)據(jù)增強(qiáng)前各類別分布情況

    數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)樣本規(guī)模的一種有效方法,常用的方法有過采樣、欠采樣、回譯、打亂句內(nèi)詞語順序以及句子順序等。其中,過采樣是在數(shù)據(jù)不足的類別上,通過重復(fù)、自主抽樣或合成少數(shù)類過采樣技術(shù)SMOTE來平衡數(shù)據(jù)集,SMOTE是通過構(gòu)建相鄰實(shí)例的凸組合來創(chuàng)建少數(shù)類別的新實(shí)例,沒有使用重復(fù)樣例,不會(huì)過多地過擬合。同時(shí),Wei等人[13]提出了一種簡(jiǎn)單通用的NLP數(shù)據(jù)增強(qiáng)技術(shù)EDA,其包含4種簡(jiǎn)單的操作來進(jìn)行數(shù)據(jù)增強(qiáng),其中包括同義詞替換(Synonyms Repalce, SR)、隨機(jī)插入(Rand-omly Insert, RI)、隨機(jī)交換(Randomly Swap, RS)和隨機(jī)刪除(Randomly Delete, RD),EDA使用NLTK做英文的同義詞查詢,對(duì)數(shù)據(jù)集中的實(shí)例生成相同數(shù)量的新文本,在規(guī)模較小的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),EDA取得了十分突出的表現(xiàn),顯著提高了模型的性能。

    因此,針對(duì)上海市中小學(xué)教材文本數(shù)據(jù)集不均衡的問題,本文結(jié)合SMOTE和EDA的思想提出一種新的數(shù)據(jù)增強(qiáng)方法,即使用自建停用詞表和同義詞詞林做同義詞查詢,實(shí)現(xiàn)了在德目指標(biāo)較少類別上的過采樣,并隨機(jī)打亂句內(nèi)詞語的順序以及樣本順序。如圖2所示,數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集已經(jīng)基本滿足需求,有效地防止了過擬合的發(fā)生,并提高了模型的泛化能力。

    圖2 數(shù)據(jù)增強(qiáng)后各類別分布情況

    2.2 注意力機(jī)制

    Attention機(jī)制最開始被Google Mind團(tuán)隊(duì)[14]結(jié)合RNN模型用在了圖像分類任務(wù)中。而后Bahdanau等人[15]使用類似的注意力機(jī)制來完成機(jī)器翻譯的任務(wù),使得模型能夠?qū)崿F(xiàn)翻譯和對(duì)齊同時(shí)進(jìn)行,這是Attention機(jī)制在NLP中的首次應(yīng)用。此后,Attention機(jī)制開始被廣泛地應(yīng)用到各種場(chǎng)景任務(wù)中,Google機(jī)器翻譯團(tuán)隊(duì)[16]提出了Transformer的概念,其整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全由注意力機(jī)制組成,不再利用CNN或者RNN來構(gòu)造分類模型,在WMT2014語料中的英德、英法翻譯任務(wù)中表現(xiàn)十分突出,且其訓(xùn)練速度也優(yōu)于傳統(tǒng)的CCN、RNN模型。傳統(tǒng)的CNN在進(jìn)行文本分類任務(wù)時(shí),每個(gè)通道對(duì)應(yīng)一個(gè)句子,獲得句子的特征表示后,再輸入到分類器中,沒有考慮將文本的特征表示輸入到分類器之前句對(duì)之間的聯(lián)系,而Yin等人[17]提出了3種在卷積神經(jīng)網(wǎng)絡(luò)中使用Attention機(jī)制的方法,通過把Attention機(jī)制和CNN相結(jié)合,從而把不同的CNN通道的句對(duì)聯(lián)系起來。

    一個(gè)注意力函數(shù)實(shí)質(zhì)上可以認(rèn)為是一個(gè)查詢(Query)到一個(gè)鍵值對(duì)(set of Key-Value pairs)的映射,其中的Query、Key、Value和輸出都是用向量來表示,如圖3所示。其中Source可以看作是存儲(chǔ)器內(nèi)存儲(chǔ)的內(nèi)容,其中的元素由地址Key和值Value組成,假設(shè)當(dāng)前有 L_x 個(gè)查詢,最終要獲取到存儲(chǔ)器中對(duì)應(yīng)的Value值,即Attention的數(shù)值。其中,L_x=‖Source‖ ,代表輸入的文本序列的長(zhǎng)度。

    圖3 查詢到鍵值對(duì)映射

    常被用來計(jì)算Query和Key相似性的函數(shù)有內(nèi)積公式、余弦相似度公式和感知器網(wǎng)絡(luò)公式,分別為:

    (Sim(Query,Keyi)=Query·Keyi

    (1)

    (2)

    (Sim(Query,Keyi)=MLP(Query,Keyi)

    (3)

    然后對(duì)相似性計(jì)算結(jié)果使用Softmax 進(jìn)行歸一化處理,從而得到其概率分布,其中ai表示第i個(gè)查詢的相似性概率分布,公式為:

    (4)

    最后根據(jù)權(quán)重系數(shù)對(duì)Value 進(jìn)行加權(quán)求和:

    (5)

    Attention機(jī)制的實(shí)質(zhì)其實(shí)就是一個(gè)尋址的過程,通過計(jì)算與Key的注意力分布并附加在Value上,從而計(jì)算Attention Value,這個(gè)過程也是Attention機(jī)制降低神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度的表現(xiàn),通過將視角聚焦于與當(dāng)前任務(wù)關(guān)聯(lián)度更高的信息,降低甚至無視其他無關(guān)的信息,可以有效地解決神經(jīng)網(wǎng)絡(luò)模型信息過載的問題,同時(shí)能夠提高模型的計(jì)算效率和泛化能力。

    2.3 IoMET_A模型

    如圖4所示,IoMET_A的建模流程分為文本預(yù)處理、數(shù)據(jù)增強(qiáng)、特征提取和訓(xùn)練。

    圖4 IoMET_A的建模流程

    1)文本預(yù)處理。文本預(yù)處理的目標(biāo)就是將文本變?yōu)榭煞治?、可預(yù)測(cè)的形式,而上海市中小學(xué)教材數(shù)據(jù)集中存在大量的特殊符號(hào)、語氣助詞等與分類無關(guān)的信息,而這些噪音會(huì)增加模型計(jì)算的開銷,因此要盡可能地去除噪音,所以本文利用jieba[18]分詞工具和自建停用詞表對(duì)教材文本進(jìn)行噪音去除。

    2)數(shù)據(jù)增強(qiáng)。一個(gè)均衡的數(shù)據(jù)集對(duì)模型的分類性能有著十分重要的影響,鑒于上海市教材數(shù)據(jù)集的嚴(yán)重不平衡性,本文結(jié)合SMOTE和EDA的思想實(shí)現(xiàn)少數(shù)類別的過采樣,并以一定概率隨機(jī)打亂句子以及句內(nèi)詞語的順序,從而得到了一個(gè)平衡的新數(shù)據(jù)集。

    3)特征提取。本文利用Word2vec[19-20]中的負(fù)采樣模型Skip-Gram生成詞向量,將預(yù)處理后的詞語映射到低維向量中。

    (4)訓(xùn)練。IoMET_A的模型結(jié)構(gòu)如圖5所示,與普通的TextCNN結(jié)構(gòu)不同的是,在輸入層和卷積層之間引入了attention層,引入attention層是為了給每個(gè)詞語創(chuàng)建上下文向量,然后將上下文向量和詞語原本預(yù)訓(xùn)練進(jìn)行拼接,作為詞語新的表示,輸入到卷積層,然后經(jīng)過池化層、全連接層,從而得到文本的類別。

    圖5 IoMET_A模型結(jié)構(gòu)圖

    本文目標(biāo)函數(shù)采用收斂速度較快的交叉熵?fù)p失函數(shù)。損失函數(shù)為:

    (6)

    則每一個(gè)Batch的損失為:

    (7)

    用gi表示圖中上下文向量,注意力機(jī)制是另外的MLP(多層感知機(jī)網(wǎng)絡(luò)結(jié)構(gòu)),當(dāng)預(yù)測(cè)句子時(shí),該機(jī)制確定哪些詞語應(yīng)該受到更多的關(guān)注,即:

    (8)

    其中,αi,j稱為attention權(quán)重,要求α≥0且∑jαi,j·xj=1,這里可以通過softmax規(guī)范化來實(shí)現(xiàn):

    (9)

    (10)

    其中,score值由上面提到的MLP來計(jì)算。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)準(zhǔn)備

    本文數(shù)據(jù)集來自于上海市中小學(xué)教材文本,共計(jì)33360條數(shù)據(jù),包含16個(gè)類別,23083個(gè)詞匯。經(jīng)數(shù)據(jù)增強(qiáng)后,均衡數(shù)據(jù)集共包含110665條數(shù)據(jù),16個(gè)類別,28966個(gè)詞匯。從均衡數(shù)據(jù)集中隨機(jī)選取8:2的數(shù)據(jù)作為訓(xùn)練集和測(cè)試集。樣本數(shù)據(jù)示例如表1所示。

    表1 部分樣本數(shù)據(jù)示例

    實(shí)驗(yàn)需要回答以下研究問題:

    Q1:IoMET_A 模型的數(shù)據(jù)增強(qiáng)方法是否有效?

    Q2:IoMET_A 模型的參數(shù)選取是否合理?

    Q3:結(jié)合注意力機(jī)制的IoMET_A是否有更好的表現(xiàn)?

    3.2 實(shí)驗(yàn)設(shè)置

    本文實(shí)驗(yàn)環(huán)境基于Python3.6,利用Keras深度學(xué)習(xí)框架完成對(duì)IoMET_A及參照模型的搭建,實(shí)驗(yàn)環(huán)境如表2所示。

    表2 實(shí)驗(yàn)環(huán)境

    3.3 詞向量預(yù)訓(xùn)練

    本文利用Google開源的負(fù)采樣模型(Skip-Gram with Negative Sampling)來生成預(yù)訓(xùn)練詞向量,Skip-Gram模型的訓(xùn)練窗口大小設(shè)置為15(當(dāng)前詞與預(yù)測(cè)詞的最遠(yuǎn)距離),模型的學(xué)習(xí)速率設(shè)為0.05,negative值設(shè)為5,min_count設(shè)為1(表示不會(huì)有詞語被拋棄),迭代次數(shù)設(shè)為10次。預(yù)訓(xùn)練詞向量參數(shù)設(shè)置如表3所示。預(yù)訓(xùn)練詞向量詞語相似性示例如表4所示。

    表3 預(yù)訓(xùn)練詞向量參數(shù)

    表4 預(yù)訓(xùn)練詞向量相似度示例

    3.4 實(shí)驗(yàn)設(shè)計(jì)

    實(shí)驗(yàn)1 驗(yàn)證IoMET_A模型所提出的數(shù)據(jù)增強(qiáng)方法的有效性。

    實(shí)驗(yàn)2 驗(yàn)證IoMET_A的參數(shù)選取是否合理。

    實(shí)驗(yàn)3 驗(yàn)證本文所提出的IoMET_A模型的有效性,同時(shí)與Bi-LSTM[7]、Bi-GRU[9]、GRNN[21]和IoMET以及Google提供的BERT-Base[22]作為參照模型進(jìn)行分類性能對(duì)比。各模型的超參數(shù)設(shè)置如表5和表6所示。

    表5 模型超參數(shù)設(shè)置

    表6 BERT模型訓(xùn)練參數(shù)設(shè)置

    3.5 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

    精確率(Precision, P)表示發(fā)現(xiàn)的項(xiàng)目中有多少是相關(guān)的比例。召回率(Recall, R)表示相關(guān)的項(xiàng)目中發(fā)現(xiàn)了多少的比例。F1-度量值(F1-Measure, F1)是精確率和召回率組合成的一個(gè)得分,被定義為精確率和召回率的調(diào)和平均數(shù)。計(jì)算公式分別為:

    (11)

    (12)

    (13)

    其中,TP(True Positive)表示是相關(guān)項(xiàng)目中正確識(shí)別為相關(guān)的,F(xiàn)P(False Positive)是不相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為相關(guān)的,F(xiàn)N(False Negative)是相關(guān)項(xiàng)目中錯(cuò)誤識(shí)別為不相關(guān)的。

    3.6 結(jié)果分析

    實(shí)驗(yàn)1為了驗(yàn)證IoMET_A模型所用數(shù)據(jù)增強(qiáng)方法的有效性,將進(jìn)行數(shù)據(jù)增強(qiáng)后的教材文本和原始文本分別輸入到TextCNN文本分類器中,并通過F1-度量值進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如圖6所示。

    圖6 各個(gè)類別的F1-度量值曲線對(duì)比

    實(shí)驗(yàn)2因?yàn)椴煌某瑓?shù)設(shè)置會(huì)對(duì)模型有不同的影響,需要對(duì)參數(shù)進(jìn)行優(yōu)化處理。

    不同的詞向量維度生成的詞向量矩陣各不相同,表達(dá)的文本特征信息也有所不同,為了尋找在上海市教材文本數(shù)據(jù)集下的最優(yōu)詞向量維度,設(shè)置多組對(duì)照實(shí)驗(yàn),使用F1-度量值作為模型性能評(píng)價(jià)指標(biāo)。IoMET_A在不同的維度下的表現(xiàn)如圖7所示。

    圖7 詞向量維度對(duì)模型性能的影響

    模型過擬合是模型訓(xùn)練過程中經(jīng)常會(huì)出現(xiàn)的情況,由于過擬合的模型在測(cè)試集和訓(xùn)練集的損失函數(shù)差異很大,所以過擬合的模型是不能用在實(shí)際應(yīng)用中的。Krizhevsky等人[23]提出可以在訓(xùn)練模型的過程中,每一個(gè)訓(xùn)練批次都忽略一些隱藏層節(jié)點(diǎn),減少這些隱藏層節(jié)點(diǎn)的相互作用,從而減少過擬合的發(fā)生。所以本文在(0,1)區(qū)間內(nèi)做多組對(duì)照實(shí)驗(yàn),觀察模型在不同的Dropout取值下IoMET_A的分類性能。IoMET_A在不同的Dropout取值下的表現(xiàn)如圖8所示。

    圖8 不同Dropout取值對(duì)模型性能的影響

    實(shí)驗(yàn)3為了驗(yàn)證IoMET_A對(duì)教材德目指標(biāo)分類任務(wù)的有效性,設(shè)置了多組對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

    表7 不同分類模型的分類結(jié)果

    對(duì)于Q1,從圖6中可以看出,經(jīng)過數(shù)據(jù)增強(qiáng)后的教材文本的各類別的F1-度量值均高于原始文本,驗(yàn)證了本文所使用的數(shù)據(jù)增強(qiáng)方法的有效性,可以有效地解決文本數(shù)據(jù)集不均衡的問題。

    對(duì)于Q2,從圖7中可以看出,IoMET_A在詞向量維度100維~150維之間的分類性能最好,可能是由于詞向量維數(shù)設(shè)置過高時(shí),由語料庫預(yù)訓(xùn)練出的詞向量質(zhì)量下降導(dǎo)致的。從圖8可以看出,IoMET_A在Dropout取值處于(0,0.5)時(shí)沒有特別明顯的變化,并在Dropout=0.3時(shí)模型的分類性能最佳。

    對(duì)于Q3,從表7中可以看出,在對(duì)上海市中小學(xué)教材德目指標(biāo)的分類任務(wù)中,本文提出的IoMET_A在詞向量維度是150維、Dropout=0.3時(shí),取得最高77.51%的F1-度量值,參照模型分別取得61.28%(IoMET)、75.62%(Bi_LSTM)、74.82%(Bi_GRU)、75.19%(GRNN)、78.35%(BERT)的F1-度量值,BERT比IoMET_A的F1-度量值提升了不到1個(gè)百分點(diǎn),但是,因?yàn)槠湫枰?xùn)練的參數(shù)量龐大,導(dǎo)致其收斂速度也比本文提出的IoMET_A要慢很多,所以針對(duì)本文特定的教材德目指標(biāo)分類任務(wù)來說,IoMET_A依然是一個(gè)不錯(cuò)的選擇。

    原始的IoMET模型不能很好地利用詞之間的聯(lián)系和位置信息,所以當(dāng)輸入的語句過長(zhǎng)時(shí),就可能會(huì)丟失一些重要的語義信息。本文提出的結(jié)合注意力機(jī)制的IoMET_A文本分類模型,為每一個(gè)詞都生成一個(gè)上下文向量,然后結(jié)合預(yù)訓(xùn)練的詞向量輸入到卷積神經(jīng)網(wǎng)絡(luò)中去,有效地提高了模型的泛化能力,在上海市中小學(xué)教材德目指標(biāo)的分類任務(wù)中取得了更好的表現(xiàn)。

    4 結(jié)束語

    本文以上海市中小學(xué)教材德目指標(biāo)研究作為實(shí)驗(yàn)背景,提出了IoMET_A文本分類模型,實(shí)現(xiàn)了較高準(zhǔn)確率的德目指標(biāo)預(yù)測(cè),可以為德目指標(biāo)的研究工作提供有效的參考依據(jù),替代部分人工工作。結(jié)合了注意力機(jī)制的IoMET_A使得輸入的序列向量具有了更強(qiáng)的語義特征信息,能夠有效地保留文本序列的語義關(guān)系信息,且針對(duì)樣本數(shù)量不均衡的問題,IoMET_A結(jié)合了SMOTE和EDA的思想,使用自建停用詞表和同義詞詞林做同義詞查詢實(shí)現(xiàn)了少數(shù)類別過采樣,并隨機(jī)打亂句子順序以及句內(nèi)詞語順序來建立一個(gè)均衡的數(shù)據(jù)集。從實(shí)驗(yàn)結(jié)果也可以看出,IoMET_A所用的數(shù)據(jù)增強(qiáng)方法可以有效地提高模型的性能,使得模型的F1-度量值得到較高提升,并且結(jié)合了注意力機(jī)制的IoMET_A模型相比未結(jié)合注意力機(jī)制的IoMET,擁有更好的模型泛化能力,同時(shí)與其他設(shè)置的參照模型相比也有明顯優(yōu)勢(shì)。

    接下來的研究方向是改進(jìn)文本的預(yù)處理方法,優(yōu)化模型結(jié)構(gòu),使得IoMET_A模型的性能得到進(jìn)一步提高。

    猜你喜歡
    向量分類文本
    向量的分解
    分類算一算
    聚焦“向量與三角”創(chuàng)新題
    在808DA上文本顯示的改善
    分類討論求坐標(biāo)
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    向量垂直在解析幾何中的應(yīng)用
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    鸡泽县| 高唐县| 阳春市| 上栗县| 襄汾县| 繁昌县| 德钦县| 通榆县| 和田市| 札达县| 成都市| 张家川| 澄江县| 岳阳市| 抚远县| 西乡县| 南宫市| 揭西县| 新丰县| 铜鼓县| 阿合奇县| 五大连池市| 祁连县| 文成县| 浦县| 晋宁县| 伊金霍洛旗| 澄城县| 孙吴县| 霞浦县| 子洲县| 昌图县| 天气| 嫩江县| 武宁县| 泰顺县| 稷山县| 闵行区| 休宁县| 长岭县| 香港|