• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)隱式文本特征的提取

      2018-01-17 09:26:48陳君
      電子技術(shù)與軟件工程 2017年23期
      關(guān)鍵詞:聚類(lèi)算法

      摘 要 隨著互聯(lián)網(wǎng)環(huán)境下大數(shù)據(jù)的極速膨脹,其文本信息也變得越發(fā)復(fù)雜,同時(shí)存在大量的隱式文本,針對(duì)隱式文本信息,當(dāng)前缺乏有效的特征數(shù)據(jù)提取方法,為了解決該問(wèn)題,提出了擴(kuò)充CRFs模型的聚類(lèi)提取方法。首先采用CRFs模型對(duì)候選文本對(duì)象進(jìn)行建模,根據(jù)知識(shí)庫(kù)擴(kuò)充候選文本的特征詞集合;然后利用聚類(lèi)算法提取隱式文本對(duì)象集,經(jīng)過(guò)迭代計(jì)算,得到特征詞的匹配程度,并據(jù)此進(jìn)行文本對(duì)象的分類(lèi);提出改進(jìn)的特征去噪方法,結(jié)合權(quán)重計(jì)算提取得到目標(biāo)文本對(duì)象。通過(guò)實(shí)驗(yàn)數(shù)據(jù)的分析,驗(yàn)證了本文提出的方法可以有效應(yīng)用于隱式文本對(duì)象的特征數(shù)據(jù)提取上,提高了隱式文本特征提取的查全率和準(zhǔn)確率。

      【關(guān)鍵詞】隱式文本 特征數(shù)據(jù) CRFs模型 聚類(lèi)算法

      1 引言

      當(dāng)下人們大部分的信息數(shù)據(jù)都是來(lái)自互聯(lián)網(wǎng),個(gè)人用戶可以通過(guò)評(píng)價(jià)對(duì)比某商品是否值得購(gòu)買(mǎi),企業(yè)可以通過(guò)搜集個(gè)人用戶的評(píng)價(jià)和訪問(wèn)等行為指導(dǎo)企業(yè)發(fā)展方向。但是隨著大數(shù)據(jù)的急速膨脹,如何從中提取出目標(biāo)數(shù)據(jù),成為了行業(yè)內(nèi)亟待解決的難題。目前針對(duì)顯式特征數(shù)據(jù)提取的研究比較眾多,且較為完善,而對(duì)于隱式特征數(shù)據(jù)提取的研究,則寥寥無(wú)幾。

      為了更好地實(shí)現(xiàn)隱式特征數(shù)據(jù)的提取,本文提出了擴(kuò)充CRFs模型的聚類(lèi)提取方法。該方法適用于互聯(lián)網(wǎng)環(huán)境下,中文隱式文本特征的提取,下面將對(duì)方法進(jìn)行具體說(shuō)明。

      2 互聯(lián)網(wǎng)隱式文本提取

      2.1 候選對(duì)象CRFs模型

      隱式文本對(duì)象的特征集具有不確定性,考慮到實(shí)際情況的復(fù)雜程度,結(jié)合CRFs模型進(jìn)行互聯(lián)網(wǎng)環(huán)境下的隱式文本的分析,其公式表示如下:

      結(jié)合該模型分析隱式文本對(duì)象的優(yōu)點(diǎn)是無(wú)需知道特征集的相互關(guān)系,并且可以在不改變模型本身的情況下,向模型中添加其它的新特征。在對(duì)隱式文本對(duì)象識(shí)別時(shí),根據(jù)文本語(yǔ)句的語(yǔ)義和句式,將包含的名詞、動(dòng)詞與形容詞分別用np,vp,ap進(jìn)行表示,于是,vp和ap可以用來(lái)表示候選隱式文本對(duì)象的特征詞,而np則代表了文本語(yǔ)句包含的候選文本對(duì)象。根據(jù)np與vp,np與ap關(guān)系又可以構(gòu)造得到二元組C(np,vp)與C(np,ap),通過(guò)得到的二元組信息便可以很好的反映出文本語(yǔ)句的主干。

      2.2 特征詞擴(kuò)充

      利用相似詞匯以及相似短語(yǔ)對(duì)C(np,vp)與C(np,ap)構(gòu)成的候選文本對(duì)象模型進(jìn)行相應(yīng)的合理擴(kuò)充。擴(kuò)充的方法采用HowNet知識(shí)庫(kù),該知識(shí)庫(kù)不僅支持英語(yǔ),對(duì)中文漢語(yǔ)也有很好的支持,采用將漢語(yǔ)文本詞匯分割成最小語(yǔ)義的方法,實(shí)現(xiàn)對(duì)漢語(yǔ)文本詞匯的識(shí)別?;趎p,vp,ap屬性文本詞匯,利用HowNet知識(shí)庫(kù)分割出最小語(yǔ)義npi,npj,vpk,并將它們放入特征詞集合T,實(shí)現(xiàn)擴(kuò)充,擴(kuò)充后集合表示為T(mén)=(ap,N,A)或者T=(vp,N,V),N表示np的集合,A表示ap的集合,V表示vp的集合。至此,候選文本對(duì)象的模型可以表示為:C(np,T)。

      2.3 候選文本對(duì)象的聚類(lèi)

      為了可以清晰引導(dǎo)文本語(yǔ)義,使用Kmeans對(duì)模型C(np,T)進(jìn)行聚類(lèi)計(jì)算。設(shè)定Kmeans算法的輸入?yún)?shù)分別為聚類(lèi)數(shù)與候選文本對(duì)象集,并依次表示為k、D,算法輸出為聚類(lèi)的結(jié)果。聚類(lèi)處理的過(guò)程中,首先選定原始聚類(lèi)中心Ki,選定的方法是在候選文本對(duì)象集中,任意抽取k數(shù)量的對(duì)象;然后通過(guò)迭代計(jì)算得到候選對(duì)象Cj和其它任何一個(gè)候選對(duì)象的匹配程度,并根據(jù)匹配程度把Cj放入匹配度最高的聚類(lèi)里;再次計(jì)算得到新的Ki;最后判斷算法是否達(dá)到成熟,如果沒(méi)有成熟,重新返回迭代循環(huán),相反則計(jì)算結(jié)束,結(jié)束的判斷依據(jù)是:不再有新的Ki產(chǎn)生;Cj的聚類(lèi)趨于穩(wěn)定,不再發(fā)生變化。

      在計(jì)算C(np,T)匹配程度的過(guò)程中,是通過(guò)集合T內(nèi)部各元素間匹配程度的平均值計(jì)算而來(lái),對(duì)于候選文本對(duì)象集中的任意兩個(gè)元素Ci和Cj,它們的匹配程度計(jì)算如下:

      2.4 隱式文本特征數(shù)據(jù)的識(shí)別

      根據(jù)IG算法,對(duì)于某個(gè)特征項(xiàng)t,它對(duì)應(yīng)C的增益計(jì)算公式為:

      其中Ci是候選特征數(shù)據(jù)的類(lèi)別集,p表示概率。利用IG可以對(duì)特征存在與否進(jìn)行分析,特征不存在的分析對(duì)于隱式文本對(duì)象提取是很重要的,可是這種分析在文本的分類(lèi)同時(shí)也增加了噪聲的干擾,為了避免該問(wèn)題的出現(xiàn),采用改進(jìn)IG算法,公式如下:

      對(duì)于低頻特征詞或者稀疏特征詞,該方法能夠避免其權(quán)重的失效,因此結(jié)合權(quán)重計(jì)算有助于提高特征數(shù)據(jù)提取的準(zhǔn)確度。

      3 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析

      利用租房平臺(tái)網(wǎng)頁(yè)上下載的房源評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),來(lái)分析驗(yàn)證本文所提方法的性能。

      3.1 擴(kuò)展CRFs模型聚類(lèi)結(jié)果

      首先對(duì)基于擴(kuò)展CRFs模型聚類(lèi)的結(jié)果與常規(guī)聚類(lèi)結(jié)果進(jìn)行實(shí)驗(yàn)對(duì)比。由于租房人的需求不同,他們所關(guān)注房源的特征也有所差別,大部分租戶關(guān)注的評(píng)價(jià)對(duì)象主要包括:租金、交通、地段、戶型、面積、樓層、朝向、裝修、租住方式、房屋配套設(shè)施、小區(qū)配套設(shè)施、周邊配套設(shè)施。因此,根據(jù)列出的12項(xiàng)主要評(píng)價(jià)對(duì)象,實(shí)驗(yàn)中采用的聚類(lèi)數(shù)取值為[5,12],并計(jì)算得到每種數(shù)量聚類(lèi)的平均純度,以此作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表1所示。

      表1所示為擴(kuò)展CRFs模型聚類(lèi)的結(jié)果與常規(guī)聚類(lèi)結(jié)果的數(shù)據(jù)對(duì)比,從表中數(shù)據(jù)分析能夠看出,擴(kuò)展CRFs模型聚類(lèi)后的平均純度更高,表明其聚類(lèi)中,任意聚類(lèi)只對(duì)應(yīng)單個(gè)類(lèi)別的成分更大。

      3.2 隱式特征提取結(jié)果

      實(shí)驗(yàn)中,是對(duì)隱式文本特征進(jìn)行提取,因此,采用召回率和準(zhǔn)確率來(lái)評(píng)價(jià)隱式特征提取的性能。針對(duì)不同聚類(lèi)數(shù),依次進(jìn)行特征提取,同時(shí),為了驗(yàn)證本文方法中改進(jìn)IG去噪的性能,首先在不加入IG去噪時(shí)進(jìn)行一次特征提取實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,然后加入IG去噪,使用本文提出的完整方法重新進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

      通過(guò)表2和表3的結(jié)果對(duì)比,清晰看出加入改進(jìn)IG去噪方法后,準(zhǔn)確率得到提高,說(shuō)明該方法有效克服了特征數(shù)據(jù)的不均衡,濾除了模型建立過(guò)程中產(chǎn)生的噪聲。

      根據(jù)表3數(shù)據(jù)顯示,本文提出的方法在聚類(lèi)增加的時(shí)候,其召回率呈上升趨勢(shì),準(zhǔn)確率也得到提高,當(dāng)聚類(lèi)達(dá)到一定程度的時(shí)候,準(zhǔn)確率就會(huì)趨于穩(wěn)定,通過(guò)實(shí)驗(yàn)結(jié)果,證明了所提方法在隱式特征數(shù)據(jù)提取中的有效性,并且具有良好的提取性能。

      4 結(jié)束語(yǔ)

      目前針對(duì)互聯(lián)網(wǎng)環(huán)境下隱式特征數(shù)據(jù)提取問(wèn)題的研究還有待于深入,尤其對(duì)中文文本的特征提取,缺乏有效方法,為此,本文提出一種隱式中文文本特征的提取方法。該方法首先通過(guò)CRFs模型獲得特征詞集,擴(kuò)展后利用聚類(lèi)算法得到隱式文本對(duì)象分類(lèi),再通過(guò)去噪處理,結(jié)合權(quán)重計(jì)算提取出隱式特征。通過(guò)實(shí)驗(yàn)對(duì)提出的方法進(jìn)行驗(yàn)證,分別驗(yàn)證了擴(kuò)展CRFs模型聚類(lèi)的有效性,以及改進(jìn)IG去噪的有效性,證明了所提方法提高了隱式文本特征提取的準(zhǔn)確性和完整性。

      參考文獻(xiàn)

      [1]胡海斌.引入特征傾向性的高仿網(wǎng)絡(luò)文本數(shù)據(jù)挖掘[J].計(jì)算機(jī)仿真,2015,32(05):436-440.

      [2]王晶晶,李壽山,黃磊.中文微博用戶性別分類(lèi)方法研究[J].中文信息學(xué)報(bào),2014,28(06):150-155.

      [3]甘麗新,萬(wàn)常選,劉德喜等.基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J].計(jì)算機(jī)研究與發(fā)展,2016,53(02):284-302.

      [4]李國(guó),張春杰,張志遠(yuǎn).一種基于加權(quán)LDA模型的文本聚類(lèi)方法[J].中國(guó)民航大學(xué)學(xué)報(bào),2016,34(02):46-51.

      [5]ZHAO J,LIU K,WANG G.Adding redundant features for CRFs-based sentence sentiment classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.

      作者簡(jiǎn)介

      陳君(1977-),女,湖北省漢川縣人。碩士研究生。講師。主要研究方向?yàn)橛?jì)算機(jī)軟件。

      作者單位

      湖北大學(xué)知行學(xué)院 湖北省武漢市 430011endprint

      猜你喜歡
      聚類(lèi)算法
      一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類(lèi)算法
      基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類(lèi)方法分析張學(xué)文治療肝熱血瘀證用藥規(guī)律
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
      K—Means聚類(lèi)算法在MapReduce框架下的實(shí)現(xiàn)
      基于K?均值與AGNES聚類(lèi)算法的校園網(wǎng)行為分析系統(tǒng)研究
      數(shù)據(jù)挖掘技術(shù)在識(shí)別可疑金融交易中的應(yīng)用
      基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
      大規(guī)模風(fēng)電場(chǎng)集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類(lèi)
      基于MapReduce的DBSCAN聚類(lèi)算法的并行實(shí)現(xiàn)
      合阳县| 南昌县| 林西县| 本溪市| 思南县| 阜阳市| 南宫市| 大新县| 深州市| 揭阳市| 寿阳县| 神农架林区| 博野县| 武义县| 大邑县| 丰原市| 溧水县| 长寿区| 青海省| 家居| 太仆寺旗| 乐清市| 梁山县| 昌宁县| 庄浪县| 景宁| 综艺| 遂昌县| 铁力市| 牡丹江市| 卢氏县| 扶沟县| 凤台县| 东阳市| 舞阳县| 靖安县| 朝阳县| 河津市| 天津市| 黎平县| 九江县|