• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    詞干單元和卷積神經(jīng)網(wǎng)絡(luò)的哈薩克短文本分類

    2020-09-07 01:49:42沙爾旦爾帕爾哈提米吉提阿不里米提艾斯卡爾艾木都拉
    小型微型計算機系統(tǒng) 2020年8期
    關(guān)鍵詞:詞干哈薩克語詞素

    沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉

    (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)E-mail:sardar312@126.com

    1 引 言

    近年來,文本分類問題在許多實際應(yīng)用中得到了廣泛的研究和解決.尤其是隨著自然語言處理(NLP)和文本挖掘方面的技術(shù)突破,越來越多的研究人員開始對開發(fā)依賴于文本分類方法的應(yīng)用程序感興趣.文本分類是NLP領(lǐng)域的一個重要應(yīng)用.自動文本分類是根據(jù)文本的內(nèi)容或主題為文本自動分配一個或多個適當類別的方法[1-3].自動文本分類在情感分析[4],實時事件檢測[5],查找熱門話題[6]等信息檢索領(lǐng)域被廣泛應(yīng)用.文本分類中的一個關(guān)鍵問題是如何在計算機上有效地表示文本中的特征.

    哈薩克語是一種派生類語言.哈薩克語的句子由自然分開的詞組成.詞是由后綴所附的詞干構(gòu)成,因此,哈薩克語中構(gòu)詞和詞性變化較復(fù)雜,詞匯量巨大.其中,詞干是具有實際意義的詞匯單元,詞綴提供語義和語法功能,因此,通過對哈薩克文本的詞素切分以及詞干提取等預(yù)處理操作來我們可以保留有意義的和有效的文本特征,并能夠有效地降低特征的反復(fù)率和維數(shù).因此,詞干提取是哈薩克文本分類任務(wù)中重要的基礎(chǔ)性工作,如以下例子所示:

    (原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

    (詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

    以上句子中文意思是:在比賽中取得比賽的[比賽]終局分數(shù),勝利地通過了選賽.在中文中大括號[]里的‘比賽’這個詞一般不會出現(xiàn)的,但在以上哈薩克句子中對應(yīng)于這個詞的第四個詞jares是必不可少的.

    以上哈薩克句子中有10個詞,其中四個詞的詞干(被加粗部分)都是/jares/(比賽),將以上句子經(jīng)過詞素切分和詞干提取后,四個詞的主要意思能夠由一個詞干來表示,并且可以獲取四個詞特征,因此大幅降低特征的維數(shù),如表1所示.

    表1 哈薩克詞語變體

    哈薩克語形態(tài)結(jié)構(gòu)上的多種變化以及缺乏的語言資源是哈薩克語NLP中的主要問題之一,從互聯(lián)網(wǎng)上搜集的文本數(shù)據(jù)具有帶噪聲的拼寫以及不確定的編碼等特點,因此,對帶噪聲的哈薩克短文本可靠地進行提取和分類變得一種富有挑戰(zhàn)的任務(wù).然而,帶噪聲短文本數(shù)據(jù)的提取與分類是哈薩克語NLP必然的重要一環(huán).

    目前,部分學(xué)者提出了一些哈薩克文本詞干提取[7,8]和分類方法[7,8,10-12].文獻[7]用詞干和附加成分表對訓(xùn)練文本的詞語進行分割,并結(jié)合哈薩克語詞法規(guī)則來提取詞干.文獻[8]用詞法分析和雙向全切分相結(jié)合的方法對哈薩克文本進行詞綴切分和詞干提取,并與預(yù)先準備好的詞干表進行匹配,來試圖提高詞干提取的效率.以往的這些哈薩克文本詞干提取有關(guān)的研究大多基于簡單的詞法分析和一些人工收集的規(guī)則,因此存在歧義,尤其是對于短文本而言.哈薩克語詞干提取任務(wù)中一個特殊的問題是語音的和諧與不和諧,這個問題導(dǎo)致詞形的變化,這需要句子層面的語境分析來解決.我們提出的基于句子或較長上下文的詞素切分和詞干提取方法[9]能夠為整個哈薩克句子提供形態(tài)分析功能,能夠準確地預(yù)測到帶噪聲的哈薩克文本中的詞干與詞條,并且可以有效地降低文本中的歧義.

    文獻[11]用SVM分類器在包括五個類別的460篇哈薩克文本的語料庫上進行文本分類實驗,并得到87.6%的分類準確率,文中沒有提到被用到的文本表示和特征選擇方法.文獻[7]對詞頻和語言信息進行簡單的統(tǒng)計來選擇特征,在包括五個類別的296篇哈薩克文本的語料庫上進行文本分類實驗,該實驗把KNN選作為分類器,并得到84.98%的平均分類準確率.文獻[10]用向量空間文本表示模型提取哈薩克文本的特征,用文本頻率比值法(DFR-Document Frequency Ratio)進行特征選擇,以SVM和改進的KNN為分類器,在包括五個類別的200篇哈薩克文本的語料庫上進行文本分類實驗,并得到82.2%的分類準確率.文獻[12]用專屬于維吾爾語或者哈薩克語文字的特殊字符、維吾爾語和哈薩克語字母組合方式和詞綴的差異以及這兩種語言發(fā)音習(xí)慣的不同而產(chǎn)生的字母上的差異等啟發(fā)式特征對單詞數(shù)不超過14的維吾爾語和哈薩克語短文本進行文本語種分類實驗,并得到95.1%的精確率,該文沒有對語料庫文本內(nèi)容所屬的類別進行分類.文獻[8]用DFR方法對原始特征空間進行降維,把SVM和KNN分類器相結(jié)合,先用SVM確定每個類別的支持向量,然后用歐氏距離計算測試樣本和支持向量之間的距離,以此在包括八個類別的1400篇哈薩克文本的語料庫上進行文本分類實驗,并得到77.8%的平均分類精度,文中沒有提到文本特征表示所用的方法.在哈薩克文本分類中被使用的這些方法對詞的頻率進行簡單的統(tǒng)計,用傳統(tǒng)的特征表示方法(其中部分研究中用到的文本表示方法是未知的)來表示哈薩克文本特征以及對傳統(tǒng)的分類器做一些簡單的結(jié)合來實現(xiàn)分類器的改進.

    上述哈薩克文本分類方法是淺層的機器學(xué)習(xí),其中文本的語義含義不明確,忽略了文本較長的上下文信息,不能夠有效的捕獲詞語之間的語義關(guān)系,特征提取和選擇需要人工完成,分類準確率低.因此,哈薩克文本分類任務(wù)迫切需要一種有效特征提取和選擇的方法來提高其分類的效率.

    本文提出了基于詞干單元和word2vec_TFIDF以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的哈薩克短文本分類方法.通過對齊的詞-詞素平行訓(xùn)練語料庫來訓(xùn)練統(tǒng)計模型,并從互聯(lián)網(wǎng)上收集的哈薩克短文本中高效地提取其詞干,用word2vec算法對詞干進行向量化,并使用詞頻-逆文檔頻率(TFIDF)算法對詞干向量進行加權(quán)處理,以此提取包含文本上下文之間語義關(guān)系的有效文本特征后,利用CNN作為特征選擇和文本分類算法,進行文本分類實驗.

    2 哈薩克文本表示和分類方法

    隨著神經(jīng)網(wǎng)絡(luò)的興起,許多適合自然語言的神經(jīng)網(wǎng)絡(luò)模型被提出[13,14].Bengio等人[13]2003年提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型構(gòu)建方法.在此基礎(chǔ)上,Miklov等人[14]2013年提出了word2vec算法,并通過文本上下文信息來描述一個單詞的表示,得到了可以表示單詞之間的語義關(guān)系的低維的密集向量.

    2.1 哈薩克文本處理

    由廣泛的跨語言和跨文化交流所引起的書寫形式上的不確定性在給哈薩克文本帶來噪聲的同時,也導(dǎo)致新詞、新概念和新表達的持續(xù)出現(xiàn).這些新詞大多是借用新進的外來詞(OOV)或詞干,以及由于拼寫習(xí)慣的不同和方言的變形而引起的噪音整合而成.哈薩克語書寫系統(tǒng)在歷史上的變化是引起不確定的書寫形式的另外一個重要原因之一.現(xiàn)代社會的哈薩克語書寫形式也被這些書寫系統(tǒng)所影響,雖然在官方媒體出現(xiàn)的可能性不大,但是廣泛地在網(wǎng)上論壇和聊天工具中存在.

    我們實驗室開發(fā)的多語言詞素切分和詞干提取工具[16,17]將哈薩克語單詞分割成詞干和詞綴等詞匯單元.該工具根據(jù)哈薩克語的詞素與語音規(guī)則,從對齊的哈薩克詞-詞素平行句子中能夠自動地學(xué)習(xí)哈薩克語詞語的各種表面形式與聲學(xué)變化.哈薩克語具有詞素邊界上的音素根據(jù)語音和諧規(guī)則改變其表面形式的特點.在正確地表達詞語的發(fā)音時,文本中可以明顯地觀察到語音和諧.一個候選詞送入給該詞素切分器[16,17]的搜索模塊之后,通過根據(jù)哈薩克語的詞素規(guī)則準備的詞干和詞綴列表以及語音和諧與不和諧等語音規(guī)則來迭代地運用匹配方法對候選詞進行切分,該候選詞被逐漸切分,分別與詞干、詞綴列表以及詞的各種表面形式匹配,并導(dǎo)出所有可能的詞素切分形式.然后,這些切分結(jié)果送入給統(tǒng)計模塊,并計算所有切分結(jié)果的概率之后,從前N個最好的切分結(jié)果中選擇最佳詞素.該工具為有效地提取哈薩克語文本中的詞干提供了可靠的依據(jù),有效地改進了哈薩克短文本分類任務(wù),詞素切分流程如圖1所示.

    圖1 詞素切分流程

    本文中用該詞素切分工具[16,17]在5000個哈薩克詞-詞素平行訓(xùn)練句子上訓(xùn)練統(tǒng)計模型(其中80%的部分用于訓(xùn)練,剩余部分用于測試),并進行詞素切分與詞干提取實驗,最終得到95.87%的詞干提取準確率,如圖2所示.這是通過切分工具所得到的與人工切分的詞素完全匹配的結(jié)果.

    圖2 詞素切分結(jié)果

    通常,網(wǎng)上收集到的文本語料庫中不同文本所包含的單詞數(shù)是不一樣的.因此,為使語料庫中的文本詞數(shù)相等,以便生成隨后輸入到CNN網(wǎng)絡(luò)中的文本矩陣,我們對文本集執(zhí)行填充操作來修改文本中的詞數(shù).本文對語料庫每個原始文本中的單詞數(shù)量進行了統(tǒng)計,如圖3所示(圖3中,橫軸表示文本中的單詞數(shù)量,縱軸表示不同單詞數(shù)量對應(yīng)的文本數(shù)量).

    圖3 實驗文本詞長統(tǒng)計

    從圖3可以看出,文本集中的文本大概包含60到120個詞左右,其中詞數(shù)約在100個左右的文本數(shù)量最多.所以,本實驗中輸入給CNN的所有文本的標準詞數(shù)選為100.詞數(shù)不到100的文本,則后向補零處理.同理,從文本集中提取詞干,并形成詞干序列文本集之后,選擇了每篇文本中的前100個詞干為CNN的輸入,如果詞干數(shù)不到100,則后向補零處理,以生成CNN所需的輸入矩陣.

    2.2 基于word2vec_TFIDF的文本表示

    2.2.1 詞向量學(xué)習(xí)方法

    詞(詞干)嵌入是通過word2vec技術(shù)從訓(xùn)練語料庫中生成的以詞出現(xiàn)的上下文為基的實數(shù)向量[18].Word2vec訓(xùn)練所生成的詞干向量可以用作許多自然語言處理任務(wù).兩個詞干之間的語義相似度可以通過計算這兩個詞干的詞干向量之間的距離來容易地被判斷.Word2vec中有兩種主要的學(xué)習(xí)算法:CBOW(連續(xù)詞袋)算法[19]和Skip-gram算法[20].

    CBOW是根據(jù)上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c來預(yù)測當前的詞干st出現(xiàn)的概率p(st|st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c).CBOW模型通過c個上下文詞干來表示當前的詞干st,c是預(yù)選窗口的大小,用CBOW算法對文本進行訓(xùn)練后得到詞干st的詞干向量,如圖4所示.本文使用CBOW算法進行詞干向量的訓(xùn)練.

    圖4 CBOW模型結(jié)構(gòu)

    與之相反,Skip-gram 是根據(jù)當前詞干st來預(yù)測上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c的出現(xiàn)概率p(st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c|st).

    我們通過計算采用word2vec工具所形成的詞干向量之間的余弦距離來能夠判斷詞干之間的語義相似度.詞干向量之間的余弦距離值越大,則詞干的語義相似度越高;反之,語義相似度就越低,如表2所示.

    表2 詞干向量語義相似度

    從表2可以看出,通過詞干向量之間余弦值的計算,獲得的與哈薩克詞干vaqxa(人民幣)和 tor(網(wǎng)絡(luò))語義相似度最高的五個詞干.

    2.2.2TFIDF權(quán)重

    對于包M含個文本的集合D,其中Di(i=1,2,…,M),通過CBOW模型得到詞干向量.對于文本中的每個詞干,通過TF-IDF算法計算其權(quán)重值tfidf(t,D),它是指詞干t在文本Di(i=1,2,…,M)中的權(quán)重值.TF-IDF考慮單個文本中的詞干頻率tf和整個文本集的詞干頻率idf.TF-IDF的計算公式如公式(1)所示:

    (1)

    其中,tf(t,Di)是詞干t在第i個文本中的出現(xiàn)頻率,分母是歸一化因子.idf(f)是詞干t的逆文檔頻率,計算公式如公式(2)所示:

    (2)

    其中,M是訓(xùn)練集中文本總數(shù),nt是詞干t在訓(xùn)練集中的出現(xiàn)頻率.

    每個詞干的詞干向量被tfidf值加權(quán)來表示一個文本,如公式(3)所示:

    (3)

    vec(Di)指的是每個文本Di的詞干向量,wt表示詞干t的N維詞干向量,tfidf(t,Di)表示詞干t在文本Di中的TF-IDF權(quán)重值.

    2.3 卷積神經(jīng)網(wǎng)絡(luò)框架

    CNN是Lecun等人[21]提出的一種深度學(xué)習(xí)模型,Kim[22]首次把CNN用于文本分類.CNN可以在詞干向量的基礎(chǔ)上自動提取和學(xué)習(xí)句子的特征,從而減少了對人工選擇特征的依賴性,并優(yōu)化了特征選擇的效果.CNN在結(jié)構(gòu)上的主要特點是卷積層和最大池化層的交替累積.本文中用的CNN模型由4個不同的層組成,分別為:輸入層、兩個卷積層、兩個池化層和全連接層,如圖5所示.

    圖5 CNN框架

    1)輸入層.CNN的第一層是輸入層,其中輸入?yún)?shù)是文本預(yù)訓(xùn)練后得到的詞干向量.輸入矩陣的形式是(n,s,k),其中n是文本的數(shù)目,s是固定的文本長度(CNN輸入文本的長度需要相同),k是詞干向量的維數(shù).v(wi)∈Rk表示對應(yīng)于第i詞干wi的k維子詞干向量.在這種情況下,輸入文本可以表示為公式(4).其中,?是級聯(lián)運算符號.

    t1:s=v(w1)?v(w2)?…?v(ws)

    (4)

    2)卷積層.卷積層是網(wǎng)絡(luò)的核心部分.該層通過卷積核來對網(wǎng)絡(luò)前一層的特征圖進行卷積運算,以此生成新特征.卷積運算采用卷積矩陣窗口w∈Rk×h來生成一個新的特征圖.其中,k是詞干向量的維數(shù),h是窗口內(nèi)詞干的數(shù)目.每個新生成的特征值可以從公式(5)中獲得.

    ct=f(w·Wi:i+h-1+b)

    (5)

    在公式(5)中,ci是由一個窗口詞干wi:i+h-1所生成的一個新特征,b是偏置項,算子“·”是指卷積運算,f()是激活函數(shù).當卷積矩陣窗口移動一步時,所有輸入矩陣由窗口(w1:h,w2:h,…,ws-h+1:s)卷積,并生成相應(yīng)的特征映射c=(c1,c2,…,cs-h+1).

    3)池化層.池化層的輸入是在卷積層中生成的特征矩陣.池化層的功能是對由卷積層所生成的特征圖進行采樣.本文使用最大池化方法,因為它能夠使模型提取最突出的特征,如公式(6)所示.在公式(6)中,ci表示在卷積層中產(chǎn)生的特征圖,m是特征圖的數(shù)目.

    cmax=max(ci) 0

    (6)

    4)全連接層.CNN的最后一層是全連接層,它將所有的特征和輸出值連接到分類器.該層使用Softmax分類器對來自池化層的特征向量進行分類操作,并輸出最后的分類結(jié)果.

    對于文本集Di(i=1,2,…,N),利用CBOW模型對文本進行訓(xùn)練后得到文本向量vec(Di).然后,對所有得到的文本向量進行修改,以形成卷積神經(jīng)網(wǎng)絡(luò)處理所需的矩陣.CNN的輸入文本可以表示為公式(7).其中,T1:n表示所有的輸入文本,?是級聯(lián)運算符.

    T1:n=vec(D1)+vec(D2)+…vec(Dn)

    (7)

    3 實驗結(jié)果及分析

    因為哈薩克文本分類處于初級研究階段,沒有公開的哈薩克文本語料庫,所以構(gòu)建哈薩克文本語料庫需要從網(wǎng)上下載文本,才能進進行實驗.

    3.1 實驗語料庫

    本文通過爬蟲官方哈薩克文網(wǎng)(1)kazakh.people.com.cn,從網(wǎng)上下載哈薩克文本來建立實驗語料庫.該語料庫包含旅游、教育、科技、文華、經(jīng)濟、法律、娛樂和體育等8個類別,每個類別有900篇文本,共7200篇文本.本文用75%文本作為訓(xùn)練集,10%文本作為驗證集,其余部分作為測試集.

    哈薩克文本因受其它語言的影響以及個性化等原因,從網(wǎng)絡(luò)上下載的文本容易出現(xiàn)拼寫錯誤.所以我們編寫了哈薩克文字拼寫檢查程序.該程序是通過對哈薩克語音節(jié)的結(jié)構(gòu)形式和規(guī)則進行分析,從而能夠找到存在拼寫錯誤的大部分哈薩克詞匯和不規(guī)則的外來詞,這樣我們便能更正給定詞匯中的拼寫錯誤.拼寫檢查程序流程如圖6所示.

    圖6 哈薩克文本拼寫檢查程序流程

    盡管Unicode是默認的編碼方案,但不同的操作系統(tǒng)和組織仍在使用不同的編碼.因此,我們建立一個代碼映射表,將語料庫中的文本集從各種不同的編碼形式轉(zhuǎn)換成統(tǒng)一的拉丁文字母編碼形式,然后用詞干提取工具從所有的文本中提取詞干,以構(gòu)建詞干序列文本語料庫.基于統(tǒng)計模型的哈薩克文本詞干提取方法可以有效地減少文本特征空間的維數(shù),其中,除掉停用詞后(停用詞數(shù)為1085),詞干詞匯的數(shù)量明顯地下降到詞詞匯數(shù)量的30%左右,如表3所示.

    表3 詞干提取引起的特征空間維數(shù)的減少

    從語料庫的文本集中提取詞干后,通過CBOW算法對此進行訓(xùn)練,生成詞干向量;同時,對于語料庫的文本沒有進行詞素切分和詞干提取的情況下,通過CBOW算法直接在詞序列構(gòu)成的原始文本上進行訓(xùn)練,以此生成詞向量.在word2vec訓(xùn)練時,詞與詞干嵌入維度和訓(xùn)練窗口的尺寸都設(shè)置為默認值,即,分別是100和5,迭代次數(shù)設(shè)置為5,batch_word設(shè)置為10000.取得詞與詞干向量之后,用TFIDF算法分別對所取得的詞與詞干向量進行加權(quán).

    3.2 評價指標

    常用于評價文本分類器性能的指標有準確率、精確率、召回率和F1分數(shù)等,對于某一個類別Ci的分類結(jié)果而言,如果正確分為該類的文本數(shù)目是a,錯誤劃歸為該類的文本數(shù)目是b,將該類文本錯誤劃歸為其他類的文本數(shù)目是c,屬于其他類的文本正確分為所屬類的文本數(shù)為d,則可以得到這些指標的計算公式如下:

    (8)

    (9)

    (10)

    (11)

    本文使用準確率和宏F1分數(shù)評測了所提出方法的性能.宏F1分數(shù)是一個全局性指標,它同時兼顧了分類模型的精確率和召回率.計算宏F1分數(shù)時,先要計算每個類別的F1分數(shù),然后計算它們的算術(shù)平均值作為宏F1分數(shù).

    3.3 實驗結(jié)果及分析

    本文實驗使用Pytorch在具有GPU支持的Linux CentOS-7操作系統(tǒng)上實現(xiàn)CNN框架.本文將通過詞素切分工具對文本集進行切分,并提取其詞干之后,通過word2vec及TFIDF算法對詞干進行向量化和加權(quán),用KNN[7,8,10]、NB、SVM[7,8,11]和CNN等方法進行了比較實驗.其中,在KNN、NB、SVM等傳統(tǒng)方法中,通過x2特征選擇方法對文本的特征維數(shù)進行降維,并把x2值最大的前100到2000之間的詞干項選作為新的特征,以此分別進行了實驗,如表4所示.

    表4 基于傳統(tǒng)方法的分類結(jié)果

    基于CNN的方法中,本文用word2vec算法從文本集中分別生成100×100的詞與詞干兩種向量,并用TFIDF算法對此進行加權(quán)之后,輸入給CNN,做了基于詞與詞干的分類實驗.本文實驗了包括2個、4個和6個卷積層的多種CNN模型結(jié)構(gòu).從這些實驗中發(fā)現(xiàn),對本文的文本分類任務(wù)而言,最好的CNN模型結(jié)構(gòu)由兩組卷積層組成,每個卷積層后面跟著一個最大池化層.本文通過反復(fù)實驗來確定在每個卷積層上設(shè)計尺寸為5×100的128個卷積核的效果最好.在第二個最大池化層之后,用一個dropout策略來避免發(fā)生過擬合現(xiàn)象,其dropout值設(shè)置為0.5.然后,附加一個長度為64的全連接層,后面跟著第二個dropout策略,最后的全連接層有八個節(jié)點,代表八個類別,每個節(jié)點的輸出通過 softmax 函數(shù)后可以歸一化,softmax 輸出值可以理解為這八個類別的概率分布,如圖5所示.CNN通過迭代計算獲得權(quán)重,經(jīng)過多次迭代后得到理想的參數(shù),本次實驗中,本文做了150次迭代運算,實驗結(jié)果如表5所示.

    表5 基于CNN的分類結(jié)果

    從表4和表5可以看出,基于KNN、NB和SVM的分類準確率最高時分別達85.49%、92.07%和93.64%.基于CNN的實驗中,不論是基于詞單元還是基于詞干單元,其分類準確率都隨著迭代次數(shù)的增加而提高,并分別達到93.71%和95.39%后,大概收斂于93.4%和95.2%左右.本文提出的方法與傳統(tǒng)模型相比,分類準確率分別高出9.9%、3.32%和1.75%.基于詞干的分類準確率比基于詞的分類準確率高出1.68%,證明對于粘著性語言的文本分類任務(wù)而言,基于詞干的分類方法能夠提高其分類的效果.

    為了驗證本文中利用的word2vec_TFIDF融合特征表示方法在文本分類任務(wù)中的性能,本文在沒有對詞與詞干進行預(yù)訓(xùn)練和用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練情況下,將CNN作為分類器,分別在詞單元和詞干單元上進行了文本分類實驗,并與本文中提出的方法分類結(jié)果進行了比較.在CNN+rand方法中,CNN模型結(jié)構(gòu)保持不變,但沒有對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,而分別直接輸入給CNN,輸入的分布式特征將按高斯分布隨機初始化,然后在訓(xùn)練過程中被修改的;在CNN+word2vec方法中,CNN模型結(jié)構(gòu)還是保持不變,但將用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,并分別把訓(xùn)練所得到的詞與詞干向量輸入給CNN.本次實驗中,為了公平比較,本文用了150次迭代運算,比較實驗結(jié)果如表6所示.

    表6 基于不同文本表示方法的分類結(jié)果

    從表6可以看出,基于word2vec_TFIDF融合特征的詞與詞干單元文本表示方法所得到的分類準確率分別比基于沒有預(yù)訓(xùn)練的和基于word2vec預(yù)訓(xùn)練的詞與詞干單元分類準確率分別高出3.87%、4.16%和0.52%、0.44%.基于詞干和word2vec_TFIDF融合特征的分類損失值明顯地小于其它兩種方法的分類損失值.由此可知,基于word2vec_TFIDF的融合文本表示方法能夠在考慮詞頻重要度的基礎(chǔ)上有效地獲取文本上下文之間的語義信息,以提高文本的分類準確率.

    4 總 結(jié)

    文本分類已經(jīng)成為處理海量信息的主要手段,特別是對具有噪聲數(shù)據(jù)的低資源語言而言,可靠的文本分類方法至關(guān)重要.哈薩克語是一種粘著性派生類語言,詞是由多個后綴所附的詞干構(gòu)成,后綴提供語義與句法功能,這一性質(zhì)在理論上產(chǎn)生了無限的詞匯量.所以,詞素切分與詞干提取是哈薩克語NLP的必要途徑.Word2vec詞嵌入技術(shù)可以將語言單元映射成基于上下文的順序向量空間.從上下文信息中獲取和預(yù)測OOV是一種有效的方法.本文討論了一種基于詞素與語音規(guī)則的哈薩克文本詞干提取方法,以及一種基于word2vec_TFIDF融合特征和CNN的文本分類方法.本文中,哈薩克文本分類任務(wù)分別用不同的特征表示方法在不同的詞匯單元上實現(xiàn).實驗結(jié)果顯示,本文提出的基于詞干單元和融合特征表示以及卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得95.39%的分類準確率,與基于其它詞匯單元和文本表示的文本分類方法相比,本文的方法中分類性能顯著提高.可見,對于哈薩克語等派生類粘著性語言的自然語言處理任務(wù)而言,有效的詞素切分和詞干提取方法能夠提高其效率.

    猜你喜歡
    詞干哈薩克語詞素
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
    詞素配價理論與應(yīng)用
    亞太教育(2018年5期)2018-12-01 04:58:23
    從詞素來源看現(xiàn)代漢語詞素同一性問題
    辭書研究(2017年3期)2017-05-22 14:04:16
    哈薩克語附加成分-A
    詞素溶合與溶合詞素
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機器翻譯
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    看免费成人av毛片| 中文字幕人妻熟人妻熟丝袜美| 国产视频内射| 两个人免费观看高清视频 | 日韩欧美 国产精品| av免费在线看不卡| 街头女战士在线观看网站| 一级a做视频免费观看| 一级二级三级毛片免费看| 好男人视频免费观看在线| 晚上一个人看的免费电影| 欧美老熟妇乱子伦牲交| 亚洲美女黄色视频免费看| 国产视频首页在线观看| 中文字幕av电影在线播放| 天堂俺去俺来也www色官网| 午夜免费观看性视频| 中文字幕人妻丝袜制服| 日韩中文字幕视频在线看片| 一本久久精品| 韩国高清视频一区二区三区| 中国美白少妇内射xxxbb| 人妻制服诱惑在线中文字幕| 少妇丰满av| 又粗又硬又长又爽又黄的视频| 春色校园在线视频观看| 黄色欧美视频在线观看| 在线观看av片永久免费下载| 18禁裸乳无遮挡动漫免费视频| 18禁在线无遮挡免费观看视频| 亚洲国产成人一精品久久久| 一级爰片在线观看| 91成人精品电影| 亚洲内射少妇av| 午夜日本视频在线| 精品久久久久久久久亚洲| 国产精品国产三级国产av玫瑰| 国产成人a∨麻豆精品| 三上悠亚av全集在线观看 | 免费大片18禁| 纯流量卡能插随身wifi吗| 久久鲁丝午夜福利片| 少妇人妻一区二区三区视频| 亚洲欧美日韩卡通动漫| 纯流量卡能插随身wifi吗| 另类亚洲欧美激情| h日本视频在线播放| 少妇人妻精品综合一区二区| 国产精品女同一区二区软件| 国产精品免费大片| 午夜久久久在线观看| 青春草亚洲视频在线观看| 久久久久久久精品精品| 亚洲va在线va天堂va国产| 老司机亚洲免费影院| 久久 成人 亚洲| 国产男女超爽视频在线观看| 日韩欧美一区视频在线观看 | 插逼视频在线观看| 日产精品乱码卡一卡2卡三| 日韩精品有码人妻一区| 又粗又硬又长又爽又黄的视频| 人人妻人人添人人爽欧美一区卜| 精品少妇内射三级| 女性被躁到高潮视频| 久久精品国产亚洲网站| 亚洲图色成人| 国产精品人妻久久久久久| 欧美区成人在线视频| 自拍偷自拍亚洲精品老妇| 一本色道久久久久久精品综合| 一级毛片久久久久久久久女| 亚洲精品国产av成人精品| 国产无遮挡羞羞视频在线观看| 久久久a久久爽久久v久久| 啦啦啦视频在线资源免费观看| 国产免费福利视频在线观看| 国产精品国产三级专区第一集| 欧美日韩精品成人综合77777| 国产亚洲欧美精品永久| 观看美女的网站| 久久国内精品自在自线图片| 韩国av在线不卡| 中文在线观看免费www的网站| 久久久欧美国产精品| 99精国产麻豆久久婷婷| 中文欧美无线码| 午夜激情久久久久久久| 91在线精品国自产拍蜜月| 免费黄色在线免费观看| 午夜影院在线不卡| 黄色配什么色好看| 亚洲一级一片aⅴ在线观看| 日本欧美国产在线视频| 亚洲av中文av极速乱| 成人18禁高潮啪啪吃奶动态图 | 久久精品国产亚洲网站| 国产精品一区二区在线观看99| 少妇人妻久久综合中文| 国内精品宾馆在线| 内射极品少妇av片p| 草草在线视频免费看| 性色avwww在线观看| 欧美精品高潮呻吟av久久| 人妻夜夜爽99麻豆av| 国产亚洲午夜精品一区二区久久| 特大巨黑吊av在线直播| 人体艺术视频欧美日本| a级毛片免费高清观看在线播放| 少妇熟女欧美另类| 国产精品一区二区在线观看99| 18禁裸乳无遮挡动漫免费视频| 曰老女人黄片| 日韩,欧美,国产一区二区三区| 少妇人妻 视频| 午夜福利影视在线免费观看| 久久久欧美国产精品| 少妇人妻一区二区三区视频| av不卡在线播放| 午夜免费观看性视频| 国产精品偷伦视频观看了| 久久综合国产亚洲精品| 免费黄频网站在线观看国产| 街头女战士在线观看网站| 一二三四中文在线观看免费高清| 国产色婷婷99| 如日韩欧美国产精品一区二区三区 | 免费观看a级毛片全部| 国产免费视频播放在线视频| 亚洲丝袜综合中文字幕| av福利片在线| 麻豆成人午夜福利视频| 亚洲欧美成人精品一区二区| 少妇丰满av| 久久国内精品自在自线图片| 亚洲在久久综合| 亚洲怡红院男人天堂| 日本欧美国产在线视频| 精品少妇黑人巨大在线播放| 777米奇影视久久| 国产精品国产三级国产专区5o| 在线精品无人区一区二区三| 亚洲自偷自拍三级| 女的被弄到高潮叫床怎么办| 亚洲精品aⅴ在线观看| 99九九线精品视频在线观看视频| 国产高清三级在线| 哪个播放器可以免费观看大片| 能在线免费看毛片的网站| 男人添女人高潮全过程视频| 3wmmmm亚洲av在线观看| 欧美日韩av久久| 男人添女人高潮全过程视频| 国产探花极品一区二区| 日本av手机在线免费观看| 国精品久久久久久国模美| 韩国av在线不卡| 亚洲第一av免费看| 亚洲精品日韩av片在线观看| 老司机影院成人| 中文资源天堂在线| 亚州av有码| 99热6这里只有精品| 亚洲中文av在线| 五月玫瑰六月丁香| 女的被弄到高潮叫床怎么办| 色网站视频免费| 欧美少妇被猛烈插入视频| 另类精品久久| 性高湖久久久久久久久免费观看| 3wmmmm亚洲av在线观看| 国产亚洲91精品色在线| 欧美日韩综合久久久久久| 如日韩欧美国产精品一区二区三区 | 欧美+日韩+精品| 日本vs欧美在线观看视频 | 国产一区二区在线观看日韩| 女性被躁到高潮视频| 高清视频免费观看一区二区| 一级片'在线观看视频| 妹子高潮喷水视频| 久久久久久久久久人人人人人人| 成人漫画全彩无遮挡| 在线免费观看不下载黄p国产| 性色av一级| 色婷婷av一区二区三区视频| 美女主播在线视频| 国产av国产精品国产| 香蕉精品网在线| av线在线观看网站| 国产在线男女| h日本视频在线播放| 午夜av观看不卡| 久久综合国产亚洲精品| 韩国av在线不卡| 少妇被粗大的猛进出69影院 | 亚洲av男天堂| 久久青草综合色| 免费在线观看成人毛片| 免费看不卡的av| 在线看a的网站| 日本wwww免费看| 亚洲色图综合在线观看| av国产精品久久久久影院| 蜜臀久久99精品久久宅男| xxx大片免费视频| 黄色毛片三级朝国网站 | 美女脱内裤让男人舔精品视频| 亚洲欧洲国产日韩| 久久综合国产亚洲精品| 99热6这里只有精品| 另类亚洲欧美激情| 日韩一本色道免费dvd| 在线观看三级黄色| 国产亚洲精品久久久com| videos熟女内射| 插逼视频在线观看| 女人精品久久久久毛片| 成人无遮挡网站| 日日啪夜夜爽| 欧美区成人在线视频| 另类亚洲欧美激情| www.色视频.com| 亚洲欧美中文字幕日韩二区| 国产在线免费精品| 成人18禁高潮啪啪吃奶动态图 | 国产精品不卡视频一区二区| 777米奇影视久久| 中文字幕制服av| 制服丝袜香蕉在线| 国模一区二区三区四区视频| 大香蕉久久网| 男女边吃奶边做爰视频| 亚洲国产毛片av蜜桃av| 又大又黄又爽视频免费| 性色av一级| 寂寞人妻少妇视频99o| 精品少妇久久久久久888优播| 午夜影院在线不卡| 亚洲av男天堂| 老熟女久久久| av免费观看日本| 亚洲国产色片| 欧美三级亚洲精品| 一区二区三区四区激情视频| 99久久精品一区二区三区| 精品国产一区二区久久| 国产精品一二三区在线看| 你懂的网址亚洲精品在线观看| 18禁在线播放成人免费| 国产精品国产av在线观看| 亚洲一级一片aⅴ在线观看| 久热久热在线精品观看| 欧美亚洲 丝袜 人妻 在线| 亚洲综合精品二区| 成人亚洲欧美一区二区av| 在线观看美女被高潮喷水网站| 欧美97在线视频| 26uuu在线亚洲综合色| 国产精品99久久99久久久不卡 | 亚洲一级一片aⅴ在线观看| 久热久热在线精品观看| 亚洲欧美精品专区久久| 国产成人aa在线观看| 精品国产一区二区三区久久久樱花| 偷拍熟女少妇极品色| 久久精品熟女亚洲av麻豆精品| 亚洲欧美成人综合另类久久久| 少妇熟女欧美另类| 亚洲精品亚洲一区二区| 下体分泌物呈黄色| 精品熟女少妇av免费看| 精品久久久精品久久久| 成年人免费黄色播放视频 | 国产日韩欧美在线精品| 亚洲精品乱久久久久久| 日日啪夜夜爽| 成人国产麻豆网| 青春草国产在线视频| 男女免费视频国产| 一本大道久久a久久精品| 国产精品一区二区三区四区免费观看| 日本av手机在线免费观看| 少妇的逼水好多| 日韩三级伦理在线观看| 久久久a久久爽久久v久久| 视频区图区小说| 久久精品久久久久久久性| 22中文网久久字幕| 亚洲国产色片| 纵有疾风起免费观看全集完整版| 大香蕉97超碰在线| 肉色欧美久久久久久久蜜桃| 丰满少妇做爰视频| 久久久国产精品麻豆| 99九九线精品视频在线观看视频| 蜜桃在线观看..| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲精品国产成人久久av| 精品久久久噜噜| 国产成人91sexporn| 嘟嘟电影网在线观看| 亚洲精品自拍成人| 狂野欧美白嫩少妇大欣赏| 亚洲第一区二区三区不卡| 亚洲高清免费不卡视频| 女人久久www免费人成看片| 视频中文字幕在线观看| 午夜福利,免费看| 91久久精品国产一区二区三区| 精品一区二区三卡| 少妇的逼好多水| 精品亚洲乱码少妇综合久久| 边亲边吃奶的免费视频| 成人国产av品久久久| av一本久久久久| 国产视频内射| 成年人免费黄色播放视频 | 成年人午夜在线观看视频| 在线播放无遮挡| 日韩制服骚丝袜av| 国产片特级美女逼逼视频| 亚洲国产精品999| 日本vs欧美在线观看视频 | 在现免费观看毛片| 国产爽快片一区二区三区| 日韩熟女老妇一区二区性免费视频| 成人国产av品久久久| 十八禁网站网址无遮挡 | a级毛色黄片| 亚洲精华国产精华液的使用体验| 日本色播在线视频| 精品国产国语对白av| 欧美丝袜亚洲另类| 国产av码专区亚洲av| xxx大片免费视频| 久久精品国产亚洲网站| 久久精品国产亚洲av涩爱| 国产熟女午夜一区二区三区 | 一本久久精品| 黄色配什么色好看| 亚洲国产精品专区欧美| 99热6这里只有精品| 欧美区成人在线视频| 精品久久久久久久久av| 欧美 日韩 精品 国产| 久久久久久久久久人人人人人人| 自拍欧美九色日韩亚洲蝌蚪91 | 汤姆久久久久久久影院中文字幕| 啦啦啦中文免费视频观看日本| 丁香六月天网| 最新的欧美精品一区二区| av在线播放精品| 久久久久久久久久久丰满| 亚洲精品日韩在线中文字幕| 18禁在线无遮挡免费观看视频| 日韩视频在线欧美| 欧美日韩精品成人综合77777| 亚洲欧美中文字幕日韩二区| 久久久久久久久久成人| 成人国产av品久久久| 国产成人午夜福利电影在线观看| 精华霜和精华液先用哪个| 熟女人妻精品中文字幕| 黄色配什么色好看| 一本色道久久久久久精品综合| 丝袜脚勾引网站| 国产精品一区二区三区四区免费观看| 国产成人免费观看mmmm| 亚洲欧美一区二区三区国产| 在线精品无人区一区二区三| 各种免费的搞黄视频| 嘟嘟电影网在线观看| 欧美精品一区二区大全| 免费观看性生交大片5| 精品亚洲成国产av| 男人舔奶头视频| 精品国产国语对白av| 国产在线男女| 日韩制服骚丝袜av| 亚洲精品第二区| 久久久久久久久久人人人人人人| 久久午夜综合久久蜜桃| 91精品国产九色| 国产精品一二三区在线看| 久久鲁丝午夜福利片| 一本色道久久久久久精品综合| 国产无遮挡羞羞视频在线观看| 国产熟女欧美一区二区| 在线观看美女被高潮喷水网站| h视频一区二区三区| 国内揄拍国产精品人妻在线| 自拍欧美九色日韩亚洲蝌蚪91 | 国产精品99久久99久久久不卡 | 免费在线观看成人毛片| 成年人免费黄色播放视频 | videossex国产| 亚洲欧美成人精品一区二区| 日本猛色少妇xxxxx猛交久久| 香蕉精品网在线| 欧美精品人与动牲交sv欧美| 欧美 亚洲 国产 日韩一| www.av在线官网国产| 精品久久国产蜜桃| 97在线人人人人妻| 免费高清在线观看视频在线观看| 嫩草影院入口| 99久久精品一区二区三区| 五月伊人婷婷丁香| 2021少妇久久久久久久久久久| 免费看不卡的av| 国产一区亚洲一区在线观看| 少妇熟女欧美另类| 亚洲av二区三区四区| 久久ye,这里只有精品| av在线老鸭窝| 如日韩欧美国产精品一区二区三区 | av在线观看视频网站免费| 亚洲精品日本国产第一区| 看十八女毛片水多多多| 久久久久人妻精品一区果冻| 久久久久久久亚洲中文字幕| 国产精品偷伦视频观看了| 日韩亚洲欧美综合| www.av在线官网国产| 99热网站在线观看| 亚洲欧美清纯卡通| 十八禁网站网址无遮挡 | 亚洲人与动物交配视频| 久久久久久久久久人人人人人人| 欧美性感艳星| 日韩成人伦理影院| 一级a做视频免费观看| 免费黄频网站在线观看国产| 国产一区二区在线观看av| 熟妇人妻不卡中文字幕| 汤姆久久久久久久影院中文字幕| 我要看黄色一级片免费的| av天堂中文字幕网| 男女国产视频网站| h视频一区二区三区| 一级片'在线观看视频| 国产免费又黄又爽又色| 中国三级夫妇交换| 在线亚洲精品国产二区图片欧美 | 十分钟在线观看高清视频www | 99视频精品全部免费 在线| av卡一久久| 岛国毛片在线播放| 啦啦啦中文免费视频观看日本| 99国产精品免费福利视频| 亚洲精品久久午夜乱码| 99re6热这里在线精品视频| 日本av手机在线免费观看| 日本黄色日本黄色录像| 日日爽夜夜爽网站| 久久久国产精品麻豆| 美女内射精品一级片tv| 精品国产一区二区三区久久久樱花| 一本久久精品| 寂寞人妻少妇视频99o| 久久久久精品性色| 久久久亚洲精品成人影院| 久久人人爽人人片av| 久久99蜜桃精品久久| 久热久热在线精品观看| 精品国产乱码久久久久久小说| 久久久久久久大尺度免费视频| 亚洲精品国产色婷婷电影| 免费人成在线观看视频色| 九九久久精品国产亚洲av麻豆| 中文字幕制服av| 中文欧美无线码| 女性被躁到高潮视频| 你懂的网址亚洲精品在线观看| 卡戴珊不雅视频在线播放| 十八禁网站网址无遮挡 | 亚洲久久久国产精品| 久久午夜综合久久蜜桃| 男女无遮挡免费网站观看| 亚洲美女视频黄频| 人妻系列 视频| 伊人亚洲综合成人网| 国产精品一区www在线观看| 国产精品久久久久久久电影| 亚洲,一卡二卡三卡| kizo精华| 在线观看美女被高潮喷水网站| 精品少妇黑人巨大在线播放| 成人影院久久| 日韩电影二区| 色哟哟·www| 久久毛片免费看一区二区三区| 欧美少妇被猛烈插入视频| videos熟女内射| 精品久久久久久久久亚洲| 在线观看www视频免费| 日韩人妻高清精品专区| 我要看黄色一级片免费的| 国产av精品麻豆| 久久午夜福利片| 国产精品.久久久| 国产黄片视频在线免费观看| 在线精品无人区一区二区三| 国产黄频视频在线观看| 成年人午夜在线观看视频| 免费观看在线日韩| av国产久精品久网站免费入址| 少妇高潮的动态图| 美女xxoo啪啪120秒动态图| 久热这里只有精品99| 一边亲一边摸免费视频| 在线观看一区二区三区激情| 久久久久久久久大av| 丝瓜视频免费看黄片| 日韩中字成人| 欧美日韩亚洲高清精品| 日本av免费视频播放| 亚洲精品成人av观看孕妇| 日韩av不卡免费在线播放| 水蜜桃什么品种好| 男人舔奶头视频| 国产 精品1| 亚洲av日韩在线播放| 我要看黄色一级片免费的| 高清黄色对白视频在线免费看 | 女人久久www免费人成看片| 最近中文字幕高清免费大全6| 人妻一区二区av| 国精品久久久久久国模美| 夫妻性生交免费视频一级片| 91精品伊人久久大香线蕉| 国产一区二区三区综合在线观看 | 老司机影院毛片| 国产免费视频播放在线视频| 久久女婷五月综合色啪小说| 午夜福利影视在线免费观看| 亚洲欧美精品自产自拍| 久久久久网色| 亚洲av欧美aⅴ国产| 97精品久久久久久久久久精品| 天天躁夜夜躁狠狠久久av| 国产日韩欧美视频二区| 亚洲一区二区三区欧美精品| 免费黄色在线免费观看| 少妇人妻一区二区三区视频| 妹子高潮喷水视频| 亚洲精品日韩av片在线观看| 亚洲人成网站在线播| 亚洲精品乱久久久久久| 成人午夜精彩视频在线观看| 亚洲国产精品一区三区| 欧美人与善性xxx| 久久精品久久精品一区二区三区| 国产欧美亚洲国产| 好男人视频免费观看在线| 国产熟女欧美一区二区| av不卡在线播放| 91久久精品电影网| 日韩一区二区三区影片| 婷婷色综合大香蕉| 国产在线一区二区三区精| 丰满人妻一区二区三区视频av| 亚洲三级黄色毛片| 丰满乱子伦码专区| 高清视频免费观看一区二区| 久久 成人 亚洲| 精品国产露脸久久av麻豆| 国产精品久久久久成人av| 国内少妇人妻偷人精品xxx网站| 少妇熟女欧美另类| 3wmmmm亚洲av在线观看| 精品亚洲乱码少妇综合久久| 国产一区亚洲一区在线观看| 午夜视频国产福利| 人人妻人人添人人爽欧美一区卜| 波野结衣二区三区在线| 国产片特级美女逼逼视频| 国产真实伦视频高清在线观看| 丁香六月天网| av天堂久久9| 欧美最新免费一区二区三区| av女优亚洲男人天堂| 自拍偷自拍亚洲精品老妇| 亚洲精品国产av蜜桃| 丰满乱子伦码专区| 欧美日韩一区二区视频在线观看视频在线| 久热久热在线精品观看| 黑人猛操日本美女一级片| 精品国产露脸久久av麻豆| 国产一级毛片在线| 国产男女内射视频| 久久女婷五月综合色啪小说| 热re99久久精品国产66热6| 亚洲国产欧美在线一区| 成人亚洲精品一区在线观看| 色视频www国产| 国产男人的电影天堂91| 亚洲经典国产精华液单| 欧美丝袜亚洲另类| 国产精品三级大全| av天堂中文字幕网| 一级av片app| 久久久精品94久久精品| 国产熟女欧美一区二区| 亚洲av不卡在线观看| 男女国产视频网站| 天堂中文最新版在线下载| 久久久久久人妻| 亚洲情色 制服丝袜| 成人毛片a级毛片在线播放| 国产日韩欧美亚洲二区| 亚洲色图综合在线观看| 2022亚洲国产成人精品| 国产日韩欧美在线精品|