• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線用戶評(píng)論的主題發(fā)現(xiàn)研究

      2015-12-15 01:59:59王和勇崔蓉
      現(xiàn)代情報(bào) 2015年9期
      關(guān)鍵詞:特征詞分詞精度

      王和勇+崔蓉

      〔摘 要〕在線用戶評(píng)論是電子商務(wù)網(wǎng)站中的一個(gè)重要板塊,找出在線用戶評(píng)論的關(guān)注點(diǎn)有利于網(wǎng)站、商家及時(shí)有效地查看用戶的反饋信息。本文在對(duì)在線用戶評(píng)論進(jìn)行分詞的基礎(chǔ)上,分別使用拉普拉斯評(píng)分(LS,Laplacian Score)及信息增益(IG,Information Gain)對(duì)所得到的分詞結(jié)果進(jìn)行文本主題挖掘,并使用支持向量機(jī)(SVM,Support Vector Machine)進(jìn)行分類精度的檢驗(yàn)。實(shí)證結(jié)果表明,主題選擇的結(jié)果是有效的,分類的效果與選擇的關(guān)鍵詞個(gè)數(shù)和核函數(shù)有關(guān)。

      〔關(guān)鍵詞〕中文分詞;主題發(fā)現(xiàn);拉普拉斯評(píng)分;信息增益;支持向量機(jī)

      DOI:10.3969/j.issn.1008-0821.2015.09.012

      〔中圖分類號(hào)〕 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2015)09-0063-07

      〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.

      〔Key words〕word segmentation;topic discovery;LS;IG;SVM

      我國(guó)電子商務(wù)市場(chǎng)起步較晚但發(fā)展迅速。根據(jù)2014年5月由中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)與中國(guó)互聯(lián)網(wǎng)絡(luò)信息信息中心(CNNIC)聯(lián)合編纂發(fā)布的《中國(guó)互聯(lián)網(wǎng)發(fā)展報(bào)告》(2014)顯示,2013年,我國(guó)互聯(lián)網(wǎng)用戶已達(dá)到618億,其中電子商務(wù)用戶達(dá)到302億,相比2012年增長(zhǎng)5 987萬(wàn)人,4890%的網(wǎng)民使用網(wǎng)絡(luò)渠道進(jìn)行購(gòu)物消費(fèi),電子商務(wù)的市場(chǎng)規(guī)模也達(dá)到了99萬(wàn)億。蘊(yùn)藏巨大潛力的市場(chǎng)使得各大網(wǎng)站不斷完善自身建設(shè),而在線用戶評(píng)論模塊則是網(wǎng)站建設(shè)中不可忽視的一環(huán)。Double Click Inc研究了美國(guó)旅游業(yè)、計(jì)算機(jī)硬件業(yè)、運(yùn)動(dòng)健身行業(yè)以及服裝業(yè)的網(wǎng)絡(luò)用戶行為,發(fā)現(xiàn)將近一半的用戶會(huì)在購(gòu)買前在網(wǎng)絡(luò)中搜索產(chǎn)品的相關(guān)信息及用戶評(píng)價(jià)等[1]。

      目前學(xué)者們對(duì)在線用戶評(píng)論的研究主要集中在主題發(fā)現(xiàn)研究(商品或用戶的特征發(fā)現(xiàn))[2-8]、評(píng)論質(zhì)量檢測(cè)[9-12]、情感傾向識(shí)別[13-15]及相關(guān)內(nèi)容推薦[16-17]等方面,其中,主題發(fā)現(xiàn)研究是后續(xù)研究中較基礎(chǔ)的部分,也引起了很多學(xué)者的關(guān)注。

      APons-Pottata[2]利用將層次聚類和劃分聚類相結(jié)合的方式進(jìn)行主題發(fā)現(xiàn);Blei[3]對(duì)LDA(latent Dirichlet allocation)模型進(jìn)行全面的解釋后,由于概率主題模型出色的文檔建模和維度削減能力,主題模型在文本挖掘領(lǐng)域得到了迅速的發(fā)展;阮光冊(cè)[4]針對(duì)網(wǎng)絡(luò)在線用戶評(píng)論信息內(nèi)容短、信息量少的特征,提出了基于LDA主題發(fā)現(xiàn)模型,結(jié)合HowNet知識(shí)庫(kù)進(jìn)行信息分析的方法,實(shí)現(xiàn)了對(duì)在線用戶評(píng)論信息主題的挖掘;李慧、張舒等[5]為準(zhǔn)確挖掘用戶評(píng)論中的有用信息,提出了采用頁(yè)面分塊與信息熵的迭代計(jì)算技術(shù)的用戶評(píng)論抽取算法,實(shí)現(xiàn)了評(píng)論塊的自動(dòng)發(fā)現(xiàn)與抽?。魂愑?、程學(xué)旗等[6]提出了一種利用特征抽取技術(shù)提取內(nèi)容特征,利用結(jié)構(gòu)特征去發(fā)現(xiàn)高質(zhì)量主題的框架,并提出了一種基于遺傳算法、禁忌搜索與機(jī)器學(xué)習(xí)的特征選擇算法,用來(lái)評(píng)價(jià)被抽取特征的重要性;呂韶華、張亮等[7]主要針對(duì)餐館評(píng)論提出了一種基于LDA的排序方法,通過(guò)抽取、過(guò)濾、計(jì)算評(píng)分、回歸等步驟確定排序模型;羅輝停[8]為克服應(yīng)用LDA模型挖掘在線用戶評(píng)論熱點(diǎn)方法不能自動(dòng)確定熱點(diǎn)話題的數(shù)目的問(wèn)題,提出了應(yīng)用中餐館模型來(lái)挖掘在線用戶評(píng)論熱點(diǎn)。

      以上學(xué)者對(duì)在線用戶評(píng)論主題挖掘的研究,主要集中在使用LDA及其改進(jìn)模型以及針對(duì)評(píng)論特征的算法實(shí)現(xiàn)等方面的研究。本文利用圖像特征選擇的LS方法和IG方法,應(yīng)用到在線用戶評(píng)論文本的主題發(fā)現(xiàn)上,并對(duì)主題發(fā)現(xiàn)結(jié)果通過(guò)SVM分類方法進(jìn)行比較分析,發(fā)現(xiàn)IG對(duì)在線用戶評(píng)論效果比LS方法效果好。

      1 相關(guān)理論

      11 中文分詞

      與英文天然分開(kāi)的單詞不同,中文的詞語(yǔ)之間沒(méi)有明顯的分割標(biāo)識(shí),并且中文的語(yǔ)言環(huán)境更加復(fù)雜。所謂中文分詞是將中文序列分成一個(gè)個(gè)有意義的詞?,F(xiàn)有的中文分詞算法可分為四大類:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法以及基于語(yǔ)義的分詞方法[18],也有不少學(xué)者提出了許多改進(jìn)算法,如基于改進(jìn)最大匹配算法的中文分詞粗分算法[19]、基于互信息的串掃描分詞方法[20]、基于字詞聯(lián)合解碼的分詞方法[21]等。

      目前常用的開(kāi)源中文分詞器有IKAnalyzer、Jieba、mmseg4j、Ansj、Paoding等。本文實(shí)驗(yàn)采用了R語(yǔ)言環(huán)境下的Rwordseg作為分詞工具,它使用rJava調(diào)用Java分詞工具Ansj。

      12 拉普拉斯評(píng)分

      拉普拉斯評(píng)分是一種無(wú)監(jiān)督的特征選擇算法,可以用于實(shí)現(xiàn)主題選擇。給定數(shù)據(jù)集X=[X1,X2,…,Xn]∈Rd×n,并假定fri(i=1,2,…,n)為第i個(gè)樣本Xi的第r個(gè)特征詞的詞頻(r=1,2,…,d),第i個(gè)樣本和第j個(gè)樣本Xj之間的相似系數(shù)為Wij=e|xi-xj|2t(t為一個(gè)適當(dāng)?shù)某?shù)),第r個(gè)特征的方差為var(fr),則第r個(gè)特征的拉普拉斯評(píng)分可用公式(1)表示如下:endprint

      LS(fr)=∑ij(fri-frj)2Wijvar(fr)

      (1)

      從定義中可以看出,Wij表示兩個(gè)向量之間的距離,Wij越小,則兩個(gè)樣本的差異越小,(fri-frj)2越小,表明主題對(duì)差異的貢獻(xiàn)小。LS要求∑ij(fri-frj)2Wij越小越好。var(fr)越大,表明特征包含的信息越多,特征詞越有效。因此,LS尋找的是得分比較低的那些特征詞,這些特征詞就是主題選擇要尋找的主題。

      13 信息增益

      信息增益是一種有監(jiān)督的特征選擇算法,也是識(shí)別特征詞的一個(gè)重要方法?;陟氐母拍?,信息增益衡量了某特征詞出現(xiàn)與否對(duì)文本信息分類可提供的信息量,如公式(2)所示:

      IG(w)=P(w)∑|c|i=1P(ciw)logP(ciw)P(ci)+P()∑|c|i=1 P(ci)logP(ci)P(ci)

      (2)

      其中,c表示類別總數(shù),P(w)表示特征詞w在文本中出現(xiàn)的概率,P(ciw)為條件概率,表示文本包含w時(shí)屬于ci類的概率,P(ci)表示類別ci在文本集中出現(xiàn)的概率,P()表示文本中不包含特征詞w的概率,P(ci)也為條件概率,表示文本中不包含w時(shí)屬于ci類的概率。

      文獻(xiàn)[22-23]具體分析了信息增益算法并在此基礎(chǔ)上進(jìn)行了改進(jìn),并通過(guò)實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的有效性。

      14 支持向量機(jī)

      支持向量機(jī)是一種有監(jiān)督的分類算法,在文本分類中應(yīng)用較為成熟。SVM通過(guò)搜索最佳分離超平面實(shí)現(xiàn)數(shù)據(jù)的分類,其具體的做法是使用一種映射,將原始的訓(xùn)練數(shù)據(jù)映射到較高的維度,在新的維度上,搜索最佳分離超平面。對(duì)于非線性可分問(wèn)題,可以利用高維映射使其轉(zhuǎn)化為線性可分,核函數(shù)可以用來(lái)對(duì)原始數(shù)據(jù)進(jìn)行映射變化。常用的核函數(shù)主要有:線性核函數(shù)(K(x,y)=x·y)、多項(xiàng)式核函數(shù)(K(x,y)=[x·y+1]q)、RBF核函數(shù)(K(x,y)=exp{-rx-y2})以及Sigmoid核函數(shù)(K(x,y)=tankh{r(x·y)+c}),其中,RBF在不同的應(yīng)用中取得的效果較均衡,在文本分類中線性核函數(shù)的效果較好[24]。

      2 實(shí)證分析

      21 研究思路

      分別使用本文研究思路如圖1所示,首先采用R語(yǔ)言環(huán)境下的分詞工具Rwordseg進(jìn)行中文分詞,具體步驟包括去掉數(shù)字、空白、去掉停用詞、文本分詞、篩選出名詞、建立語(yǔ)料庫(kù)、統(tǒng)計(jì)詞頻、建立文檔詞條矩陣X=[X1,X2,…,Xn]d×n,從而將在線用戶評(píng)論的文本信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);接著,分別對(duì)該結(jié)構(gòu)化數(shù)據(jù)使用LS和IG按照式(1)和式(2)的算法進(jìn)行評(píng)分,根據(jù)公式選出m個(gè)特征詞,最后,對(duì)包含選取的特征詞及類標(biāo)簽的矩陣X′=[X′1,X′2,…,X′m+1]d×(m+1)進(jìn)行SVM分類,觀察分類精度得出結(jié)論。

      22 實(shí) 驗(yàn)

      鑒于操作的便捷性,本次實(shí)驗(yàn)數(shù)據(jù)樣本選取某電商網(wǎng)站隨機(jī)截取的1 000在線用戶評(píng)論數(shù)據(jù)集,剔除過(guò)短評(píng)論如

      “還不錯(cuò)”、“可以的”及重復(fù)評(píng)論如“不錯(cuò)不錯(cuò)不錯(cuò)不錯(cuò)”等。整理后數(shù)據(jù)樣例如圖2所示,pridid是在線商品的序列號(hào),summary為在線用戶評(píng)論的文本數(shù)據(jù),是非結(jié)構(gòu)化數(shù)據(jù),需要進(jìn)行主題挖掘,score為在線用戶對(duì)商品的評(píng)分,是結(jié)構(gòu)化數(shù)據(jù),在本實(shí)驗(yàn)中為分類的類標(biāo)簽,本文主要用到了summary和score屬性。

      221 中文分詞并得出文檔詞條矩陣

      本文利用R語(yǔ)言中的Rwordseg包及tm包對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,Rwordseg使用rJava調(diào)用Java分詞工具Ansj實(shí)現(xiàn)對(duì)中文的分詞,tm包可以用來(lái)創(chuàng)建文檔詞條矩陣。先后進(jìn)行去除數(shù)字和空白、去掉停用詞等操作,并利用函數(shù)選出具有代表性的名詞和形容詞,得到一個(gè)擁有691個(gè)關(guān)鍵詞的文檔詞條矩陣,由于矩陣稀疏度很高,剔除詞頻小于等于2的特征詞,最后得到208個(gè)特征詞,形成文檔詞條矩陣[X1,X2,…,X208]1000×208,部分結(jié)果如圖3所示。

      222 選擇特征詞并進(jìn)行分類

      采用R語(yǔ)言對(duì)所得的208個(gè)候選主題詞進(jìn)行信息增益

      計(jì)算和拉普拉斯評(píng)分,通過(guò)對(duì)式(1)和式(2)的分析可知,在使用式(1)后,應(yīng)選擇評(píng)分較低的詞語(yǔ),而使用式(2)計(jì)算后,應(yīng)選擇評(píng)分較高的詞語(yǔ)。利用LS和IG算法得出的部分關(guān)鍵詞排名分別如圖4和圖5所示。 圖4給出的是LS算法下部分關(guān)鍵詞的排名,實(shí)驗(yàn)所用函數(shù)已經(jīng)將關(guān)鍵詞按照所得評(píng)分由低到高排好。排在前10位的分別為精細(xì)、傳真、情況、寬度、好、插座、體重、不錯(cuò)、一線、單薄。圖5給出的是IG算法下部分關(guān)鍵詞的排名,實(shí)驗(yàn)所用函數(shù)已經(jīng)將關(guān)鍵詞按照所得評(píng)分由高到低排好。排在前10位的分別為好、不錯(cuò)、價(jià)格、質(zhì)量、便宜、東西、性價(jià)比、產(chǎn)品、感覺(jué)、一般。這些關(guān)鍵詞在一定程度上表明了在線用戶對(duì)該電商網(wǎng)站商品的關(guān)注點(diǎn)。

      223 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)1:LS和IG下不同訓(xùn)練集比例和特征詞的分類精度對(duì)比

      表1所示為L(zhǎng)S下不同訓(xùn)練集和特征詞數(shù)的分類精度對(duì)比,圖6為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在62%以上,當(dāng)訓(xùn)練集比重為70%、80%時(shí),分類精度是比較高的;不同的訓(xùn)練集比重下,當(dāng)選取100個(gè)關(guān)鍵詞時(shí),分類的精度相對(duì)都比較高;整體折線圖成發(fā)散模式,在選擇較少的關(guān)鍵詞時(shí),模型是穩(wěn)健的。

      表2所示為IG下不同訓(xùn)練集和特征詞數(shù)的分類精度對(duì)比,圖7為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在61%以上,當(dāng)訓(xùn)練集比重為70%、80%時(shí),分類精度是比較高的;不同的訓(xùn)練集比重下,當(dāng)選取100個(gè)關(guān)鍵詞時(shí),分類的精度相對(duì)都比較高;整體折線圖成發(fā)散模式,在選擇較少的關(guān)鍵詞時(shí),模型是穩(wěn)健的。

      表3所示為不進(jìn)行關(guān)鍵詞的選擇時(shí),不同訓(xùn)練集比重下的分類精度,從圖8折線圖中可以看出在不進(jìn)行關(guān)鍵詞選擇時(shí),對(duì)208個(gè)特征詞都進(jìn)行SVM分類,在不同的訓(xùn)練集比重下,分類的精度都是比較高的,對(duì)比使用了特征選擇算法后的分類精度,都能達(dá)到6100%以上,說(shuō)明進(jìn)行特征選擇是有效的。endprint

      圖9(a~d)綜合比較了不同訓(xùn)練集、不同特征詞個(gè)數(shù)下,LS算法與IG算法的分類精度對(duì)比,總的來(lái)說(shuō),當(dāng)所選關(guān)鍵詞個(gè)數(shù)小于60個(gè)左右時(shí),使用LS算法選出的特征詞具有更好的分類效果,且隨著訓(xùn)練及比例的增大,該效果表現(xiàn)出不明顯的趨勢(shì);當(dāng)所選關(guān)鍵詞個(gè)數(shù)大于60個(gè)左右時(shí),使用IG算法選出的特征詞分類效果更好。在使用IG算法、80%訓(xùn)練集下,選擇100個(gè)關(guān)鍵詞后進(jìn)行分類,精度最高,分類效果最好。

      圖10(a~d)給出了使用LS算法、不同訓(xùn)練集比例、不同特征詞個(gè)數(shù)情況下,核函數(shù)對(duì)分類精度的影響。4幅圖各分類精度越來(lái)越發(fā)散的現(xiàn)象,多項(xiàng)式函數(shù)在各個(gè)方面取得了較好的分類效果,而線性核函數(shù)取得了較折中的分類效果,在各個(gè)函數(shù)中,比較具有代表性。

      圖11(a~d)給出了使用IG算法、不同訓(xùn)練集比例、不同特征詞個(gè)數(shù)情況下,核函數(shù)對(duì)分類精度的影響。4幅圖中各分類精度也呈現(xiàn)逐漸發(fā)散的現(xiàn)象,在該算法下,同樣是多項(xiàng)式函數(shù)在各個(gè)方面取得了較好的分類效果,而線性核

      3 結(jié)束語(yǔ)

      本文的主要工作有:對(duì)在線用戶評(píng)論進(jìn)行中文文本分詞、分別使用拉普拉斯評(píng)分及信息增益對(duì)所得到的分詞結(jié)果進(jìn)行主題詞的選擇、使用支持向量機(jī)進(jìn)行分類精度的檢驗(yàn)。實(shí)證結(jié)果表明,進(jìn)行主題詞的選擇是有效的,所選關(guān)鍵詞個(gè)數(shù)及SVM核函數(shù)對(duì)分類結(jié)果有較大的影響。本文豐富了在線用戶評(píng)論文本主題發(fā)現(xiàn)的研究,將用于圖像特征選擇的LS算法和IG算法進(jìn)行對(duì)比,LS算法也取得了較好的效果,在實(shí)踐中,可以將LS作為文本特征選擇算法來(lái)使用,商家可以借此了解用戶關(guān)注的領(lǐng)域,從而著重在該方面改善客戶關(guān)系。在線用戶評(píng)論中還存在著許多結(jié)構(gòu)化的數(shù)據(jù),如客戶等級(jí)、客戶地區(qū)等,將非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合分析是本文接下來(lái)要研究的內(nèi)容。

      參考文獻(xiàn)

      [1]GodesD,Mayzlin D.Using online conversations to studyword-of-mouth communication[J].Marketing Science.2004,23(4):545-560.

      [2]Pons-Porrata A,Berlanga-Llavori R,Ruiz-Shulcloper J.Topic discovery based on textmining techniques[J].Information Processing&Managemen,t 2007,43(3):752-768.

      [3]David MBlei,Andrew YNg,and Michael IJordan.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

      [4]阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014,(3):161-164.

      [5]李慧,張舒,顧天竺,等.一種新穎的CRE用戶評(píng)論信息抽取技術(shù)[J].計(jì)算機(jī)應(yīng)用,2006,(10):2509-2512.

      [6]陳友,程學(xué)旗,楊森.面向網(wǎng)絡(luò)論壇的高質(zhì)量主題發(fā)現(xiàn)[J].軟件學(xué)報(bào),2011,(8):1785-1804.

      [7]呂韶華,楊亮,林鴻飛.基于LDA模型的餐館評(píng)論排序[J].計(jì)算機(jī)工程,2011,19:62-64,67.

      [8]羅輝停.基于CRP模型的評(píng)論熱點(diǎn)挖掘研究修正版[J].技術(shù)與創(chuàng)新管理,2012,(2):166-169.

      [9]林煜明,王曉玲,朱濤,等.用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014,(3):506-527.

      [10]黃婷婷,曾國(guó)蓀,熊煥亮.基于商品特征關(guān)聯(lián)度的購(gòu)物客戶評(píng)論可信排序方法[J].計(jì)算機(jī)應(yīng)用,2014,(8):2322-2327,2341.

      [11]聶卉.基于內(nèi)容分析的用戶評(píng)論質(zhì)量的評(píng)價(jià)與預(yù)測(cè)[J].圖書(shū)情報(bào)工作,2014,13:83-89.

      [12]Mudambi SM,Schuff D.What makes a helpful online review?A study of customer reviews on amazon.com[J].MIS Quarterly,2010,34(1):185-200.

      [13]SZhou,QChen,XWang.Active deep learning method for semi-supervised sentiment classification[J].Neurocomputing,2013,120:536-546.

      [14]陳憶金,曹樹(shù)金,陳桂鴻.網(wǎng)絡(luò)輿情意見(jiàn)挖掘:用戶評(píng)論情感傾向分析研究[J].圖書(shū)情報(bào)知識(shí),2013,(6):90-96.

      [15]王剛,楊善林.基于RS-SVM的網(wǎng)絡(luò)商品評(píng)論情感分析研究[J].計(jì)算機(jī)科學(xué),2013,(S2):274-277.

      [16]唐曉波,房小可.基于隱含狄利克雷分配的微博推薦模型研究[J].情報(bào)科學(xué),2015,(2):3-8.

      [17]王偉,王洪偉,孟園.協(xié)同過(guò)濾推薦算法研究:考慮在線評(píng)論情感傾向[J].系統(tǒng)工程理論與實(shí)踐,2014,(12):3238-3249.

      [18]張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報(bào)探索,2008,(11):53-56.

      [19]周俊,鄭中華,張煒.基于改進(jìn)最大匹配算法的中文分詞粗分方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,(2):124-128.

      [20]趙秦怡,王麗珍.一種基于互信息的串掃描中文文本分詞方法[J].情報(bào)雜志,2010,(7):161-162,172.

      [21]宋彥,蔡?hào)|風(fēng),張桂平,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學(xué)報(bào),2009,(9):2366-2375.

      [22]郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,27:119-122,127.

      [23]胡穎.基于信息增益的文本特征選擇方法[J].計(jì)算機(jī)與數(shù)字工程,2013,(3):460-462.

      [24]張國(guó)梁,肖超鋒.基于SVM新聞文本分類的研究[J].電子技術(shù),2011,(8):16-17.

      (本文責(zé)任編輯:郭沫含)endprint

      猜你喜歡
      特征詞分詞精度
      結(jié)巴分詞在詞云中的應(yīng)用
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      值得重視的分詞的特殊用法
      GPS/GLONASS/BDS組合PPP精度分析
      面向文本分類的特征詞選取方法研究與改進(jìn)
      改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
      巧用磨耗提高機(jī)械加工精度
      河南科技(2014年14期)2014-02-27 14:11:53
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      临清市| 岗巴县| 五大连池市| 民勤县| 巫溪县| 丹棱县| 泾川县| 宜兰县| 洪湖市| 深州市| 汶川县| 邢台市| 湘阴县| 清丰县| 桂阳县| 古浪县| 大兴区| 信丰县| 文化| 五寨县| 扎囊县| 左云县| 景德镇市| 佛坪县| 九龙坡区| 肇州县| 崇左市| 会泽县| 墨玉县| 噶尔县| 昭觉县| 全椒县| 建德市| 永靖县| 靖宇县| 夏河县| 鸡西市| 广灵县| 连州市| 海丰县| 顺义区|