• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      國(guó)家社科基金學(xué)科類別自動(dòng)判定模型構(gòu)建研究

      2020-05-06 09:11:03沈思翁小穎孫豪王東波
      關(guān)鍵詞:文本挖掘機(jī)器學(xué)習(xí)

      沈思 翁小穎 孫豪 王東波

      摘? ?要:在把所獲取的國(guó)家社科基金項(xiàng)目標(biāo)題按照詞表示成訓(xùn)練和測(cè)試語料的基礎(chǔ)上,基于條件隨機(jī)場(chǎng)模型和雙向長(zhǎng)短時(shí)記憶模型對(duì)所構(gòu)建的國(guó)家社科基金項(xiàng)目學(xué)科類別判定模型,進(jìn)行了多個(gè)角度和層面的驗(yàn)證,并與支持向量機(jī)模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比. 基于相應(yīng)的模型性能評(píng)價(jià)指標(biāo),驗(yàn)證了傳統(tǒng)機(jī)器學(xué)習(xí)模型在小規(guī)模語料上的整體性能,證明增加了人工特征模型后的條件隨機(jī)場(chǎng)模型的整體性能并未突出,同時(shí)對(duì)條件隨機(jī)場(chǎng)的性能進(jìn)行個(gè)案分析.

      關(guān)鍵詞:機(jī)器學(xué)習(xí);條件隨機(jī)場(chǎng)模型;國(guó)家社科基金;文本挖掘

      中圖分類號(hào):G255.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A

      Abstract:The words of National Social Science Foundation (NSSF) titles are expressed into the train and test corpus. And then, the category determination model of the NSSF project by using the conditional random field model and the bidirectional short and long time memory model is verified from many angles and levels. The results are compared with the experimental results of the support vector machine model. Based on the corresponding model performance evaluation indexes, this paper not only verifies the overall performance of the traditional machine learning model on the small-scale corpus, but also proves that the overall performance of the conditional random field model with the artificial feature model is not certain to be outstanding, meanwhile, the performance of the conditional random field model is analyzed in a case.

      Key words:machine learning;conditional random field;National Social Science Foundation;text mining

      國(guó)家社科基金成立二十多年以來,其學(xué)科類別逐步得到完善,形成了一套相對(duì)完整的類別體系. 排除數(shù)量相對(duì)較少的藝術(shù)學(xué)和軍事學(xué)這兩個(gè)學(xué)科類別,目前,國(guó)家社科基金主要由馬列·科社、黨史·黨建、哲學(xué)、理論經(jīng)濟(jì)、應(yīng)用經(jīng)濟(jì)、政治學(xué)、社會(huì)學(xué)、法學(xué)、國(guó)際問題研究、中國(guó)歷史、世界歷史、考古學(xué)、民族學(xué)、宗教學(xué)、中國(guó)文學(xué)、管理學(xué)、教育學(xué)、外國(guó)文學(xué)、語言學(xué)、新聞學(xué)與傳播學(xué)、人口學(xué)、統(tǒng)計(jì)學(xué)、圖書館、情報(bào)與文獻(xiàn)學(xué)、體育學(xué)等24個(gè)學(xué)科類別構(gòu)成. 上述24個(gè)學(xué)科覆蓋了重點(diǎn)項(xiàng)目、一般項(xiàng)目、青年項(xiàng)目、西部項(xiàng)目、后期資助、成果文庫和中華學(xué)術(shù)外譯等不同類別的國(guó)家社科項(xiàng)目. 但有部分國(guó)家社科基金,特別是國(guó)家社科重大項(xiàng)目有些是缺乏類別的知識(shí). 如何對(duì)國(guó)家社科基金,特別是國(guó)家社科基金重大項(xiàng)目進(jìn)行類別判斷,不僅對(duì)于后續(xù)的項(xiàng)目申請(qǐng)者和研究者具有直接的指導(dǎo)意義和價(jià)值,還可以提高項(xiàng)目管理者對(duì)項(xiàng)目管理的精準(zhǔn)度,從而提升對(duì)國(guó)家社科項(xiàng)目管理的科學(xué)性和高效性.

      條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)、支持向量機(jī)(Support Vector Machine,SVM)和雙向長(zhǎng)短時(shí)記憶模型(Bidirectional Long-Short Term Memory Model,Bi-LSTM)均可以實(shí)現(xiàn)對(duì)短文本的自動(dòng)類別判定,圍繞這3個(gè)模型的代表性研究如下:Lannoy等[1]提出一種在心電信號(hào)中自動(dòng)分類心跳的方法,根據(jù)該應(yīng)用的特定特征提出了一個(gè)特定的分類器,該分類器是條件隨機(jī)場(chǎng)分類器的加權(quán)變體,實(shí)驗(yàn)結(jié)果優(yōu)于以往的心跳分類方法,尤其在病理性心跳方面;Delaye等[2]提出了一種在不受約束的在線手寫文檔中,區(qū)分文本和非文本筆跡的新方法,該方法基于條件隨機(jī)場(chǎng)聯(lián)合多個(gè)信息源建模,實(shí)現(xiàn)了在筆畫級(jí)別提高分類精度,同時(shí)也突出了上下文信息不同來源的貢獻(xiàn);Hu等[3]提出了一種新的高光譜圖像分類處理方法,即在CRF中加入低維表示,研究了LE(Laplacian Eigenmaps)、SSSE(Spatial-Spectral Schrocedinger Eigenmaps)、LLE(Local Linear Embedding) 3種基于圖的降維算法對(duì)隨后基于CRF分類的影響,有效地解決了CRF在高光譜分類應(yīng)用中需要大量計(jì)算的問題;張春元[4]提出了一種基于條件隨機(jī)場(chǎng)的文本分類模型,利用特征選擇將文本表示成為CRFs的觀察序列和狀態(tài)序列,提取序列之間的關(guān)聯(lián)特征,用前向或后向算法評(píng)估出各狀態(tài)序列的概率,有效提高了文本分類的效率;曾佳妮[5]對(duì)基于條件隨機(jī)場(chǎng)的短文本分類算法進(jìn)行了改進(jìn),將條件隨機(jī)場(chǎng)理論和序列標(biāo)注的方法用于短文本分類領(lǐng)域,并利用類別作為標(biāo)注使用條件隨機(jī)場(chǎng)模型進(jìn)行標(biāo)注;汪光亞[6]提出了一種基于CRF模型的多時(shí)相遙感影像分類方法,運(yùn)用最大期望算法,結(jié)合空間以及時(shí)間上下文信息構(gòu)造了條件隨機(jī)場(chǎng)模型. 條件隨機(jī)場(chǎng)作為線性序列模型的代表,不僅在分詞、詞性和實(shí)體等識(shí)別上表現(xiàn)出了極強(qiáng)的性能,而且在序列的分類任務(wù)上也有較好的表現(xiàn).

      Ravi等[7]提出了一種基于深度特征的SVM分類模型,針對(duì)裁判員的手勢(shì)數(shù)據(jù)集進(jìn)行分類,利用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),使用線性支持向量機(jī)分類器,從而得出基于vgg19提取的特征訓(xùn)練的支持向量機(jī)實(shí)現(xiàn)網(wǎng)絡(luò)具有最佳的分類性能;Maldonado等[8]提出用SVM分類的嵌入式特征選擇算法,來處理高維類不平衡數(shù)據(jù)集,所提出的嵌入式策略與支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)和成本敏感型SVM(CS-SVM)一起使用,對(duì)12個(gè)高度不平衡的微陣列數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),可實(shí)現(xiàn)最高平均預(yù)測(cè)性能. 牛國(guó)成等[9]通過層次分析方法和信息熵值,界定了影響變壓器健康的主、客觀權(quán)重,并基于支持向量機(jī)設(shè)計(jì)了判斷變壓器未來是否正常的算法. 王崢等[10]基于句法決策樹、N-gram模型特征要素提取方法和SVM分類器,提出一種語境分類模型,解決字詞在不同語境的多義性問題,有效解決文本挖掘中語境識(shí)別難題. 冷強(qiáng)奎等[11]提出了一種基于混合二叉樹結(jié)構(gòu)的多類支持向量機(jī)分類算法,該分類模型由提升分類速度的超平面和完成最終精確分類的支持向量機(jī)混合構(gòu)成,既保證了分類精度,又提升了分類效率. 林香亮等[12]回顧了近30年來支持向量機(jī)的發(fā)展歷史與基本理論,介紹了其改進(jìn)算法,系統(tǒng)總結(jié)了支持向量機(jī)在分類與回歸問題中的具體應(yīng)用實(shí)例及優(yōu)勢(shì),肯定了傳統(tǒng)和改進(jìn)的支持向量機(jī)在未來的發(fā)展?jié)摿? Abidine等[13]對(duì)支持向量機(jī)、條件隨機(jī)場(chǎng)和線性判別分析模型進(jìn)行比較,分別對(duì)智能家居活動(dòng)進(jìn)行自動(dòng)識(shí)別,C-SVM能夠糾正大多數(shù)的固有偏差,提高活動(dòng)分類的類精度. 證明向量機(jī)性能,支持向量機(jī)作為分類的代表不僅在圖像、音頻等數(shù)據(jù)上應(yīng)用廣泛,還在非結(jié)構(gòu)化的文本自動(dòng)分類任務(wù)上表現(xiàn)突出.

      胡新辰[14]提出一個(gè)基于 LSTM 的深度學(xué)習(xí)模型來解決語義關(guān)系分類問題. 先提取文本特征,再抽取對(duì)應(yīng)實(shí)體的特征組成實(shí)體類型特征,最后對(duì)這兩種類型特征做特征融合并分類. 該模型在標(biāo)準(zhǔn)評(píng)測(cè)集合上取得的成績(jī)達(dá)到了目前最好水平. 趙明等[15]針對(duì)飲食領(lǐng)域文本分類,提出了一種基于word2vec和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)的分類模型,利用word2vec構(gòu)建飲食文本的文本向量作為L(zhǎng)STM模型的輸入,訓(xùn)練LSTM模型進(jìn)行分類,有效解決了數(shù)據(jù)表示稀疏及維度災(zāi)難問題,提高了分類準(zhǔn)確率. 近年來,深度學(xué)習(xí)在文本挖掘的各個(gè)研究任務(wù)上得到了迅速應(yīng)用,在本文的社科基金項(xiàng)目類別自動(dòng)判定上引入深度學(xué)習(xí)模型,并與傳統(tǒng)的機(jī)器學(xué)習(xí)模型的整體性能進(jìn)行對(duì)比.

      基于已有的研究,本文的整體研究框架如下. 首先,確定本文所使用的類別判定的機(jī)器學(xué)習(xí)模型,并對(duì)模型的原理進(jìn)行簡(jiǎn)單介紹. 其次,給出了本文所使用的模型訓(xùn)練與測(cè)試的數(shù)據(jù)源,明確對(duì)模型判定所使用的評(píng)價(jià)指標(biāo)體系. 之后在所確定的數(shù)據(jù)源基礎(chǔ)上,完成基于支持向量機(jī)、條件隨機(jī)場(chǎng)和深度學(xué)習(xí)的類別模型訓(xùn)練,并對(duì)模型的整體性能進(jìn)行判定和分析. 最后,在分析模型整體性能的基礎(chǔ)上,對(duì)類別判定模型所存在的錯(cuò)誤和不足之處進(jìn)行分析.

      1? ?類別構(gòu)建模型說明

      從線性序列、整體文本和神經(jīng)網(wǎng)絡(luò)的角度,條件隨機(jī)場(chǎng)模型、支持向量機(jī)模型和長(zhǎng)短時(shí)記憶模型被用來驗(yàn)證國(guó)家社科基金項(xiàng)目的學(xué)科分類,各個(gè)模型的整體狀況如下.

      1.1? ?CRF

      條件隨機(jī)場(chǎng) [16]在分詞、詞性、實(shí)體識(shí)別、句法器的開發(fā)等自然語言處理與文本挖掘的研究上表現(xiàn)出極強(qiáng)的性能. 本文通過把社科項(xiàng)目標(biāo)題學(xué)科類別的判定這一分類問題轉(zhuǎn)化為序列標(biāo)注的問題,為構(gòu)建基于條件隨機(jī)場(chǎng)的社科項(xiàng)目類別判定模型提供了條件. 從而實(shí)現(xiàn)把分類問題轉(zhuǎn)化為序列標(biāo)注的問題.

      若x = {x1,x2,…,xn - 1,xn}代表輸入被觀察的國(guó)家社科項(xiàng)目的數(shù)據(jù)序列,如“莊子今注今譯”,則y = {y1,y2,…,yn - 1,yn}表示有限狀態(tài)的整體集合,其中每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)國(guó)家社科基金項(xiàng)目待標(biāo)注的類別標(biāo)記. 在給定輸入的社科項(xiàng)目序列x的條件下,參數(shù)λ = {λ1,λ2,…,λn - 1,λn}的線性鏈CRFs的狀態(tài)序列y的條件概率為:

      式中:Zx為歸一化因子,表示所有可能的國(guó)家社科項(xiàng)目文本的狀態(tài)序列的得分,確保所有可能狀態(tài)序列的條件概率之和為1;fj(yi-1,yi,x,i)為特征函數(shù),表示二值表征函數(shù);λj是基于條件隨機(jī)場(chǎng)模型對(duì)所訓(xùn)練語料中國(guó)家社科項(xiàng)目數(shù)據(jù)之和獲得的相應(yīng)特征函數(shù)的權(quán)重.

      實(shí)驗(yàn)中,簡(jiǎn)單特征模板主要基于詞這1列特征進(jìn)行模型訓(xùn)練;復(fù)雜特征模板使用了詞、詞長(zhǎng)、左邊界詞和右邊界詞這4列特征進(jìn)行訓(xùn)練.

      1.2? ?SVM

      支持向量機(jī) [17]的主旨思想是通過設(shè)計(jì)分割面將結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行兩個(gè)及兩個(gè)以上的分類. 支持向量機(jī)具有添加特征便捷、操作簡(jiǎn)單、整體性能較為突出等特點(diǎn),該模型廣泛應(yīng)用于圖像、文本等數(shù)據(jù)媒介分類領(lǐng)域.

      國(guó)家社科項(xiàng)目標(biāo)題學(xué)科類別的判定,由該項(xiàng)目標(biāo)題所組成的文本中的不同詞頻,作為特征輸入到支持向量機(jī)模型中,結(jié)合所確定的24個(gè)學(xué)科類別知識(shí),構(gòu)建相應(yīng)的分類模型. 針對(duì)國(guó)家社科基金項(xiàng)目學(xué)科類別判定這一探究任務(wù),按照該基金項(xiàng)目24個(gè)不同學(xué)科類別,對(duì)某一項(xiàng)目標(biāo)題進(jìn)行學(xué)科歸屬的判定,適合基于支持向量機(jī)進(jìn)行構(gòu)建模型,這一探究是典型的多分類任務(wù). 基于訓(xùn)練語料構(gòu)建國(guó)家社科基金項(xiàng)目分類模型過程中確定的核函數(shù)為linear,使用word2vec構(gòu)建國(guó)家社科基金項(xiàng)目特征向量,實(shí)驗(yàn)中使用的維度數(shù)為50,其中懲罰參數(shù)為2.0,徑向基核函數(shù)的系數(shù)gamma值為0.5.

      1.3? ?Bi-LSTM

      結(jié)合社科基金項(xiàng)目的具體類別,長(zhǎng)短時(shí)記憶模型公式中的it、 ft、Ot、ct分別表示t時(shí)刻社科基金項(xiàng)目類別數(shù)據(jù)輸入門(Input gate)、社科基金項(xiàng)目類別數(shù)據(jù)遺忘門(Forget gate)、輸出門(Output gate)和社科基金項(xiàng)目類別數(shù)據(jù)細(xì)胞狀態(tài)單元(Memory cell)的輸出,有待訓(xùn)練的社科基金項(xiàng)目類別數(shù)據(jù)權(quán)重矩陣W、V和偏置向量b. σ表示用于控制社科基金項(xiàng)目類別數(shù)據(jù)輸入和社科基金項(xiàng)目類別數(shù)據(jù)遺忘和記憶單元的記憶程度、遺忘程度以及社科基金項(xiàng)目類別數(shù)據(jù)輸入門保留程度的激活函數(shù)sigmoid. xt表示項(xiàng)目標(biāo)題的第t個(gè)詞匯的embedding向量;ht-1表示LSTM中t-1時(shí)刻更新門;U表示上一個(gè)隱含狀態(tài). 長(zhǎng)短記憶網(wǎng)絡(luò)的訓(xùn)練過程為[18]:

      國(guó)家社科基金項(xiàng)目單向LSTM對(duì)于后續(xù)的信息不能有效利用,通過在單層國(guó)家社科基金項(xiàng)目LSTM上添加一層后向的LSTM,實(shí)現(xiàn)國(guó)家社科基金項(xiàng)目雙向長(zhǎng)短記憶網(wǎng)絡(luò)(Bidirectional LSTM,Bi-LSTM)的構(gòu)建,在一定程度上可以解決國(guó)家社科基金項(xiàng)目自動(dòng)分類長(zhǎng)距離依賴的問題,并有效地利用國(guó)家社科基金項(xiàng)目序列前后的特征信息. 國(guó)家社科基金項(xiàng)目自動(dòng)分類中每個(gè)隱藏層(hidden layer)的隱藏單元數(shù)(hidden unit)為256個(gè),每批國(guó)家社科基金項(xiàng)目自動(dòng)分類中數(shù)據(jù)量(batch size)大小為64,國(guó)家社科基金項(xiàng)目自動(dòng)分類中隱藏單元隨機(jī)刪除概率(dropout rate)為0.5,國(guó)家社科基金項(xiàng)目自動(dòng)分類中學(xué)習(xí)率(learning rate)為0.001,國(guó)家社科基金項(xiàng)目自動(dòng)分類中最大迭代次數(shù)(epochs)為100,國(guó)家社科基金項(xiàng)目自動(dòng)分類中梯度裁剪(clip)為5.

      2? ?語料獲取和評(píng)價(jià)指標(biāo)

      2.1? ?語料獲取

      研究所使用的數(shù)據(jù)全部通過國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫[19]獲取,該數(shù)據(jù)庫囊括了歷年公布的國(guó)家社科基金項(xiàng)目. 以全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室設(shè)立的1991年為起始年,本研究抓取了1991~2015年間的國(guó)家社科基金項(xiàng)目(國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫的檢索頁面中未呈現(xiàn)出1994年的社科項(xiàng)目). 數(shù)據(jù)具體抓取的網(wǎng)頁樣例如圖1所示.

      針對(duì)抓取數(shù)據(jù)中存在的問題,設(shè)計(jì)專門的數(shù)據(jù)清洗程序進(jìn)行數(shù)據(jù)清洗、加工與整理,具體如下:首先,在數(shù)據(jù)抓取過程中,去除了1991年之前立項(xiàng)的國(guó)家社科項(xiàng)目的數(shù)據(jù),如1987年立項(xiàng)的“老、少、山、邊、僑地區(qū)職業(yè)技術(shù)教育為經(jīng)濟(jì)發(fā)展服務(wù)的研究與實(shí)驗(yàn)”和“戰(zhàn)后蘇聯(lián)教育研究”項(xiàng)目;其次,刪除國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫中存在錯(cuò)誤的數(shù)據(jù),如“123456? 重大項(xiàng)目 0 dasdasda? 0000-01-01 dasd 0”、“批準(zhǔn)號(hào)? ?課題名稱0000-00-00首席專家”此類有明顯錯(cuò)誤的數(shù)據(jù),從所獲取的數(shù)據(jù)中進(jìn)行清洗;最后,對(duì)于項(xiàng)目中被標(biāo)注為多個(gè)學(xué)科類別的數(shù)據(jù),根據(jù)該項(xiàng)目的標(biāo)題、作者及所屬單位,進(jìn)行人工核對(duì),在數(shù)據(jù)清洗和整理加工的基礎(chǔ)上修正錯(cuò)誤,如一個(gè)項(xiàng)目被標(biāo)注為“人類學(xué)、藝術(shù)學(xué)和計(jì)算機(jī)科學(xué)”.

      本文共涵蓋24個(gè)學(xué)科的47 352個(gè)國(guó)家社科基金項(xiàng)目,在后續(xù)構(gòu)建類別判定模型的過程中,基于所獲取的47 352個(gè)國(guó)家社科基金項(xiàng)目的標(biāo)題和類別,構(gòu)建國(guó)家社科項(xiàng)目自動(dòng)類別判定的模型.

      為了更加直接、高效地對(duì)訓(xùn)練和測(cè)試語料進(jìn)行標(biāo)注,本文對(duì)“馬列·科社、黨史·黨建、哲學(xué)、理論經(jīng)濟(jì)、應(yīng)用經(jīng)濟(jì)、政治學(xué)、社會(huì)學(xué)、法學(xué)、國(guó)際問題研究、中國(guó)歷史、世界歷史、考古學(xué)、民族學(xué)、宗教學(xué)、中國(guó)文學(xué)、管理學(xué)、教育學(xué)、外國(guó)文學(xué)、語言學(xué)、新聞學(xué)與傳播學(xué)、人口學(xué)、統(tǒng)計(jì)學(xué)、圖書館、情報(bào)與文獻(xiàn)學(xué)、體育學(xué)”這24個(gè)學(xué)科的類別分別編制了相應(yīng)的代碼. 為了驗(yàn)證各個(gè)模型利用最直接的語詞特征進(jìn)行類別判定的性能,對(duì)不同類別下的社科項(xiàng)目標(biāo)題中的詞按照其所處的開始、中間和結(jié)尾3個(gè)位置,分別設(shè)計(jì)了B、I、E共3個(gè)標(biāo)記,具體語料訓(xùn)練如表1所示.

      2.2? ?評(píng)價(jià)指標(biāo)

      為了更好地統(tǒng)一判定所構(gòu)建國(guó)家社科基金項(xiàng)目的學(xué)科分類模型的整體性能,條件隨機(jī)場(chǎng)模型、雙向長(zhǎng)短記憶模型與支持向量機(jī)模型的性能判定均基于準(zhǔn)確率、召回率和調(diào)和平均值。

      在所構(gòu)建的國(guó)家社科基金項(xiàng)目學(xué)科分類模型中,只使用了上述3個(gè)指標(biāo),鑒于正確率不能準(zhǔn)確地衡量國(guó)家社科基金項(xiàng)目學(xué)科分類模型的性能,為了更好地判定所構(gòu)建國(guó)家社科基金項(xiàng)目的學(xué)科分類模型的整體性能,在條件隨機(jī)場(chǎng)模型、雙向長(zhǎng)短記憶模型與支持向量機(jī)模型的性能判定上引入調(diào)和平均值.

      3? ?國(guó)家社科基金項(xiàng)目的學(xué)科分類模型性能

      分析

      在對(duì)國(guó)家社科基金項(xiàng)目進(jìn)行劃分訓(xùn)練和測(cè)試語料基礎(chǔ)上,驗(yàn)證了3個(gè)模型的整體性能. 在相應(yīng)實(shí)驗(yàn)的設(shè)計(jì)過程中,通過十折交叉驗(yàn)證的方法,來測(cè)試所構(gòu)建的3個(gè)模型的性能,將國(guó)家社科基金項(xiàng)目標(biāo)題的數(shù)據(jù)集按照9 ∶ 1拆分為訓(xùn)練和測(cè)試的語料. 為了獲得高性能的國(guó)家社科基金項(xiàng)目類別判定模型,設(shè)置了兩組對(duì)比實(shí)驗(yàn),一組是條件隨機(jī)場(chǎng)、支持向量機(jī)和雙向長(zhǎng)短時(shí)記憶模型;另一組是基于簡(jiǎn)單特征基礎(chǔ)的條件隨機(jī)場(chǎng)分類模型和復(fù)雜特征基礎(chǔ)上的條件隨機(jī)場(chǎng)模型.

      3.1? ?3個(gè)模型整體性能的對(duì)比

      基于國(guó)家社科基金標(biāo)題的詞匯,通過雙向長(zhǎng)短時(shí)記憶、支持向量機(jī)和條件隨機(jī)場(chǎng)模型,驗(yàn)證了所構(gòu)建的國(guó)家社科基金項(xiàng)目學(xué)科分類的整體性能,如圖2~圖4所示.

      由圖2可知,雙向長(zhǎng)短時(shí)記憶模型的召回率相對(duì)精準(zhǔn)率而言,整體性能較為突出,最高召回率為61.67%. 調(diào)和平均值整體上低于60%,通過計(jì)算,雙向長(zhǎng)短時(shí)記憶模型的平均調(diào)和平均值為55.14%. 雙向長(zhǎng)短時(shí)記憶模型的性能之所以這么低,根本原因是待分類標(biāo)題整體上較短并且數(shù)量分布不充分,導(dǎo)致神經(jīng)網(wǎng)絡(luò)在序列化分類模型的構(gòu)建上整體性能較差.

      由圖4可知,相對(duì)雙向長(zhǎng)短時(shí)記憶模型和支持向量機(jī)模型,條件隨機(jī)場(chǎng)模型整體性能較為突出,在平均調(diào)和平均值上,條件隨機(jī)場(chǎng)模型整體達(dá)到90.70%,比雙向長(zhǎng)短時(shí)記憶模型和支持向量機(jī)模型分別高出35.36%和34.78%. 通過十折交叉驗(yàn)證方法所獲取的10個(gè)分類模型中,后8個(gè)模型的整體調(diào)和平均值均在96%以上,而前2個(gè)模型的調(diào)和平均值剛突破60%,說明相對(duì)支持向量機(jī),通過序列化的思想對(duì)國(guó)家社科基金的標(biāo)題進(jìn)行分類整體性能較為突出,相較雙向長(zhǎng)短時(shí)記憶模型而言,條件隨機(jī)場(chǎng)模型更適應(yīng)數(shù)據(jù)量較小的短文本.

      3.2? ?不同特征下的條件隨機(jī)場(chǎng)模型的對(duì)比

      通過調(diào)研,在構(gòu)建條件隨機(jī)場(chǎng)模型的過程中,相應(yīng)特征會(huì)被添加到模型的構(gòu)建中,以驗(yàn)證不同特征對(duì)所構(gòu)建模型性能的影響. 在此基礎(chǔ)上,本研究選擇了標(biāo)題的左邊界詞、右邊界詞和詞長(zhǎng)來探究模型的整體性能. 所界定的左邊詞主要由“中國(guó)、我國(guó)、基于、新、當(dāng)代、西部、社會(huì)和現(xiàn)代”等詞匯構(gòu)成;右邊界詞主要由“研究、分析、發(fā)展、建設(shè)、影響、實(shí)踐、建設(shè)、對(duì)策和視角”等詞匯構(gòu)成. 標(biāo)題詞匯的長(zhǎng)度分布情況,對(duì)于整個(gè)類別的判定也有一定的影響,尤其是基于序列化思想進(jìn)行類別判定的情況下. 根據(jù)對(duì)所有標(biāo)題詞匯分布情況的統(tǒng)計(jì)可知,國(guó)家社科基金項(xiàng)目標(biāo)題詞匯的長(zhǎng)度主要是集中在2、3、4這3個(gè)長(zhǎng)度上. 在這3個(gè)特征的基礎(chǔ)上,所構(gòu)建的10個(gè)國(guó)家社科基金項(xiàng)目學(xué)科類別自動(dòng)分類模型的性能如圖5所示.

      由圖5可知,相對(duì)所構(gòu)建的單特征的條件隨機(jī)場(chǎng)模型而言,多特征分類模型的整體性能并未得到有效提高,所構(gòu)建的十折交叉模型的平均調(diào)和平均值僅為73.50%,其中8個(gè)模型的調(diào)和平均值均低于70%,僅有2個(gè)模型的調(diào)和平均值超過了90%. 說明在規(guī)模相對(duì)較小的數(shù)據(jù)上,通過增加特征并不能確保所構(gòu)建條件隨機(jī)場(chǎng)模型的性能得到提升,且在均分小規(guī)模語料進(jìn)行測(cè)試時(shí),導(dǎo)致模型效果出現(xiàn)較大的偏差.

      3.3? ?條件隨機(jī)場(chǎng)模型分類結(jié)果的個(gè)案分析

      為了從微觀角度分析基于條件隨機(jī)場(chǎng)模型所構(gòu)建的分類模型的性能,從調(diào)和平均值達(dá)到90%的構(gòu)建模型中任意選擇一定量的測(cè)試結(jié)果,從測(cè)試結(jié)果中任意選擇10個(gè)識(shí)別結(jié)果進(jìn)行分析,如表2所示.

      由表2可知,在所選取的10條國(guó)家社科標(biāo)題類別的判定結(jié)果樣例中,對(duì)有明顯特征詞匯的標(biāo)題進(jìn)行了正確的類別判定,如“中國(guó)文化資源產(chǎn)權(quán)交易法律保障機(jī)制研究”、“現(xiàn)代性問題的馬克思哲學(xué)革命”、“玄言詩派研究”等. 但也出現(xiàn)了類別判定不當(dāng)?shù)那闆r,如“農(nóng)村人口轉(zhuǎn)移背景下惠農(nóng)政策效果的跟蹤、評(píng)價(jià)與保障研究”這一標(biāo)題,雖然有“人口”等與“人口學(xué)”這一學(xué)科相關(guān)的特征詞匯,但此項(xiàng)目明顯是研究經(jīng)濟(jì)學(xué)的,同樣,對(duì)于“中國(guó)大學(xué)核心價(jià)值體系教育模式研究”這一標(biāo)題,由于有“教育”這一特征詞匯,類別判定模型自動(dòng)把此項(xiàng)目劃分到教育學(xué),實(shí)際上,應(yīng)該歸屬為馬列·社科這一學(xué)科.

      通過分析這10個(gè)例子可以看出,目前所構(gòu)建的國(guó)家社科基金項(xiàng)目學(xué)科類別判定模型,對(duì)于語義不是太復(fù)雜的標(biāo)題可以相對(duì)精準(zhǔn)地給出具體的學(xué)科類別,但對(duì)于語義復(fù)雜、語義內(nèi)容指向多樣性的標(biāo)題,所構(gòu)建的模型在自動(dòng)標(biāo)注過程中相對(duì)較差.

      4? ?結(jié)? ?論

      以對(duì)未有學(xué)科類別的國(guó)家社科基金項(xiàng)目標(biāo)題進(jìn)行學(xué)科類別的自動(dòng)判定為研究切入點(diǎn),基于機(jī)器學(xué)習(xí)的系列模型,構(gòu)建了系列國(guó)家社科基金項(xiàng)目學(xué)科類別判定模型,完成了對(duì)條件隨機(jī)場(chǎng)模型整體性能的各種判定.

      1)基于國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫,通過開發(fā)相應(yīng)的網(wǎng)絡(luò)爬蟲,獲取了24個(gè)學(xué)科的國(guó)家社科基金項(xiàng)目標(biāo)題數(shù)據(jù),并對(duì)所獲取的數(shù)據(jù)進(jìn)行清洗、整理與加工,為構(gòu)建國(guó)家社科基金項(xiàng)目類別判定模型奠定了數(shù)據(jù)基礎(chǔ).

      2)按照24個(gè)學(xué)科類別,以字為表示單位,把47 352個(gè)國(guó)家社科基金項(xiàng)目標(biāo)題的數(shù)據(jù)集分成了訓(xùn)練和測(cè)試語料,并對(duì)模型所使用的參數(shù)情況進(jìn)行了說明.

      3)通過系列實(shí)驗(yàn),完成對(duì)雙向長(zhǎng)短時(shí)記憶模型、條件隨機(jī)場(chǎng)模型和支持向量機(jī)模型的性能比較,并得出條件隨機(jī)場(chǎng)模型在整體性能上要優(yōu)于其他模型.

      4)從單一特征、多特征和個(gè)案的角度對(duì)條件隨機(jī)場(chǎng)模型在國(guó)家社科基金項(xiàng)目學(xué)科類別判定上進(jìn)行了多個(gè)角度的驗(yàn)證和對(duì)比.

      參考文獻(xiàn)

      [1]? ? LANNOY G D,F(xiàn)RANCOIS D,DELBEKE J,et al. Weighted conditional random fields for supervised interpatient heartbeat classification [J]. IEEE Transactions on Bio-Medical Engineering,2012,59(1):241—247.

      [2]? ? DELAYE A,LIU C L. Text/non-text classification in online handwritten documents with conditional random fields[C]// Chinese Conference on Pattern Recognition. Berlin,Heidelberg:Springer,2012:514—521.

      [3]? ? HU Y,CAHILL N D,MONTEIRO S T,et al. Low-dimensional representations of hyperspectral data for use in CRF-based classification[C]// Image & Signal Processing for Remote Sensing XXI. Toulouse,F(xiàn)rance:SPIE,2015:96430L.

      [4]? ? 張春元. 基于條件隨機(jī)場(chǎng)的文本分類模型[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(7):77—80.ZHANG C Y. Text categorization model based on conditional random fields [J]. Computer Technology and Development,2011,21(7):77—80. (In Chinese)

      [5]? ? 曾佳妮. 基于條件隨機(jī)場(chǎng)的中文短文本分類算法研究[D]. 上海:上海交通大學(xué)信息安全工程學(xué)院,2013:1—63.ZENG J N. Research on short text classification algorithm based on CRFs[D]. Shanghai:School of Information Security Engineering, Shanghai Jiao Tong University,2013:1—63. (In Chinese)

      [6]? ? 汪光亞. 基于條件隨機(jī)場(chǎng)的多時(shí)相遙感影像分類[D]. 南京:南京理工大學(xué)計(jì)算機(jī)學(xué)院,2018:1-59.WANG G Y. Multi-temporal remote sensing image classification based on conditional random field[D]. Nanjing:Department of Computer Science,Nanjing University of Science and Technology,2018:1—59. (In Chinese)

      [7]? ? RAVI A,VENUGOPAL H,PAUL S,et al. A Dataset and preliminary results for umpire pose detection using SVM classification of deep features [C]// 2018 IEEE Symposium Series on Computational Intelligence. Bangalore,India:SSCI,2018:1396—1402.

      [8]? ? MALDONADO S,LOPEZ J. Dealing with high-dimensional class-imbalanced datasets:embedded feature selection for SVM classification [J]. Applied Soft Computing,2018,67:94—105.

      [9]? ? 牛國(guó)成,胡貞,胡冬梅. 基于SVM與物元信息熵的變壓器健康度分析與預(yù)測(cè)[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,133(8):91—97.NIU G C,HU Z,HU D M. Analysis and prediction of transformer health index based on SVM and matter element information entropy[J]. Journal of Hunan University(Natural Sciences),2019,133(8):91—97. (In Chinese)

      [10]? 王崢,劉師培,彭艷兵,等. 基于句法決策樹和SVM的短文本語境識(shí)別模型[J]. 計(jì)算機(jī)與現(xiàn)代化,2017(3):13—17.WANG Z,LIU S P,PENG Y B. An essay context recognition model based on syntax decision tree and SVM algorithm[J]. Computer and Modernization,2017(3):13—17. (In Chinese)

      [11]? 冷強(qiáng)奎,劉福德,秦玉平. 一種基于混合二叉樹結(jié)構(gòu)的多類支持向量機(jī)分類算法[J]. 計(jì)算機(jī)科學(xué),2018,45(5):227—230,244.LENG Q K,LIU F D,QIN Y P. Multi-class classification algorithm for SVM based on hybrid binary tree structure[J]. Computer Science,2018,45(5):227—230,244. (In Chinese)

      [12]? 林香亮,袁瑞,孫玉秋. 支持向量機(jī)的基本理論和研究進(jìn)展[J]. 長(zhǎng)江大學(xué)學(xué)報(bào)(自科版),2018,15(17):6,54—59.LIN X L,YUAN R,SUN Y Q. Basic theory and research progress of support vector machine[J]. Journal of Yangtze University(Natural Science Edition),2018,15(17):6,54—59. (In Chinese)

      [13]? ABIDINE M B,F(xiàn)ERGANI B. Evaluating C-SVM,CRF and LDA classification for daily activity recognition[C]// International Conference on Multimedia Computing & Systems. Tangier,Morocco:ICMCS,2012:272—277.

      [14]? 胡新辰. 基于LSTM的語義關(guān)系分類研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2015:1—71.HU X C. Research on semantic relation classification based on LSTM[D]. Harbin: School of Computer Science and Technology,Harbin Institute of Technology,2015:1—71. (In Chinese)

      [15]? 趙明,杜會(huì)芳,董翠翠,等. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(10):207—213.ZHAO M,DU H F,DONG C C,et al. Diet health text classification based on word2vec and LSTM[J]. Transactions of the Chinese Society of Agricultural Machinery,2017,48(10):207—213. (In Chinese)

      [16]? LAFFERTY J,MCCALLUM A,PRREIRA F. Conditional random fields:probabilistic models for segmenting and labeling sequence data [J]. International Conference on Machine Learning (ICML),2001 (37):282—289.

      [17]? HSU C W,LIN C J. A comparison of methods for multi-class support vector machines [J].IEEE Transacatuions on Netural Networks,2002,13(23):415—425.

      [18]? SUYKENS J A K,VANDEWALLE J. Least squares support vector machine classifiers [J]. Neural Processing Letters,1999,9(3):293—300.

      [19]? 國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫[EB/OL]. http://fz.people.com.cn/skygb/sk/,2019-08-25.Database of National Social Science Foundation [EB/OL].http://fz.people.com.cn/skygb/sk/, 2019-08-25. (In Chinese)

      猜你喜歡
      文本挖掘機(jī)器學(xué)習(xí)
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
      商(2016年34期)2016-11-24 16:28:51
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      慧眼識(shí)璞玉,妙手煉渾金
      忻州市| 通渭县| 双城市| 揭西县| 根河市| 上蔡县| 北票市| 高密市| 会泽县| 尼玛县| 峨山| 和平区| 新巴尔虎左旗| 怀化市| 台中市| 彩票| 巴马| 同心县| 门头沟区| 扎囊县| 岚皋县| 乃东县| 墨脱县| 鲁甸县| 宜宾市| 深圳市| 普格县| 夏津县| 万盛区| 阳新县| 白玉县| 临沂市| 包头市| 大姚县| 滨州市| 霍山县| 千阳县| 抚州市| 奇台县| 柘荣县| 武山县|