• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語(yǔ)義的文本相似度算法研究

      2014-04-29 00:00:00鄶媛媛

      摘 要:文本相似度算法研究一直是文本挖掘領(lǐng)域非常重要的算法,指采用一定的策略比較兩個(gè)文本之間的相似程度,目前文本相似度算法已經(jīng)在文本分類(lèi)、文本聚類(lèi)、自然語(yǔ)言處理等多個(gè)領(lǐng)域嶄露頭角。本文主要就語(yǔ)義角度出發(fā)對(duì)文本之間相似度進(jìn)行界定。

      關(guān)鍵詞:文本挖掘;文本相似度;語(yǔ)義

      中圖分類(lèi)號(hào):TP311.13

      文本之間相似度的度量一直是是文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,優(yōu)良的文本相似度算法可以更加精準(zhǔn)的實(shí)現(xiàn)對(duì)文本之間相似度的界定。在文本分類(lèi)、文本聚類(lèi)和搜索引擎等文本處理領(lǐng)域,文本相似度算法占據(jù)著非常重要的地位。目前文本相似度算法有基于文本結(jié)構(gòu)特征的相似度算法、基于關(guān)鍵詞匹配的文本相似度算法和基于語(yǔ)義的文本相似度算法等,本文試圖從語(yǔ)義的角度出發(fā)來(lái)闡釋文本之間相似度。

      1 HowNet簡(jiǎn)介

      知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。是一部比較詳盡的語(yǔ)義知識(shí)詞典。相比于其它語(yǔ)義詞典,其特點(diǎn)是基于世界知識(shí)來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),并且摒棄了完全用樹(shù)狀結(jié)構(gòu)來(lái)描述知識(shí),而是采用了網(wǎng)狀結(jié)構(gòu)來(lái)描述知識(shí)。知網(wǎng)中用“義原”來(lái)描述概念,并以之作為最小意義單位?!傲x原”間層次結(jié)構(gòu)如圖1所示。

      根據(jù)知網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),各個(gè)知網(wǎng)“義原”節(jié)點(diǎn)對(duì)應(yīng)于各個(gè)網(wǎng)狀節(jié)點(diǎn),通過(guò)對(duì)知網(wǎng)邏輯節(jié)點(diǎn)進(jìn)行梳理,各個(gè)“義原”之間關(guān)聯(lián)性可以通過(guò)這種復(fù)雜的網(wǎng)狀結(jié)構(gòu)加以反映,各個(gè)節(jié)點(diǎn)之間具備邏輯層次關(guān)系,正是這種邏輯層次關(guān)系,得到“義原”之間語(yǔ)義關(guān)聯(lián)性,如公式1所示。

      自然界中詞語(yǔ)通常都可以包含多個(gè)詞義,知網(wǎng)中定義這個(gè)多個(gè)詞義為概念(義項(xiàng)),每個(gè)概念可以通過(guò)多個(gè)“義原”按照不同的組合方式加以過(guò)程,則關(guān)鍵詞之間語(yǔ)義關(guān)聯(lián)性可以通過(guò)具有語(yǔ)義關(guān)聯(lián)性的“義原”加以反映。

      2 文本相似度算法

      目前文本相似度算法多采用基于關(guān)鍵詞的余弦相似度算法,算法思路如下:將文本進(jìn)行關(guān)鍵詞切分,并對(duì)經(jīng)過(guò)切分的關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,結(jié)合向量空間模型,將關(guān)鍵詞進(jìn)行維度填充,通過(guò)計(jì)算向量之間內(nèi)積來(lái)定義文本之間相似度。假設(shè)文本D1和D2分別表示為D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度計(jì)算方法如公式2所示。

      3 結(jié)束語(yǔ)

      本文從語(yǔ)義的角度出發(fā)對(duì)文本之間相似度進(jìn)行分析,在文本之間語(yǔ)義相似度進(jìn)行闡述時(shí),對(duì)語(yǔ)義工具HowNet進(jìn)行了介紹,并且梳理了當(dāng)前流行的基于余弦相似度的文本相似度的處理流程。

      參考文獻(xiàn):

      [1]馬軍紅.分階段融合的文本語(yǔ)義相似度計(jì)算方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):20-26.

      [2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013(12):229-232.

      [3]郭麗,劉磊.詞匯語(yǔ)義相似度算法研究及應(yīng)用[J].軟件導(dǎo)刊,2013(07):57-58.

      作者簡(jiǎn)介:鄶媛媛(1983.10-),女,遼寧沈陽(yáng)人,圖書(shū)館中級(jí)職稱(chēng),主要研究方向:圖書(shū)館管理。

      作者單位:遼寧行政學(xué)院,沈陽(yáng) 110161

      宁国市| 南宫市| 肇庆市| 桂林市| 大方县| 佛冈县| 新津县| 仁怀市| 木兰县| 忻城县| 庆元县| 浮山县| 长垣县| 呈贡县| 和田市| 孟村| 长海县| 万山特区| 安阳县| 万州区| 电白县| 临江市| 柳河县| 准格尔旗| 丰顺县| 东乡县| 沅陵县| 彰武县| 腾冲县| 望谟县| 定远县| 兰溪市| 元江| 西林县| 江西省| 上栗县| 易门县| 南康市| 崇义县| 临澧县| 平罗县|