• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語(yǔ)義的文本相似度算法研究

    2014-04-29 00:00:00鄶媛媛

    摘 要:文本相似度算法研究一直是文本挖掘領(lǐng)域非常重要的算法,指采用一定的策略比較兩個(gè)文本之間的相似程度,目前文本相似度算法已經(jīng)在文本分類(lèi)、文本聚類(lèi)、自然語(yǔ)言處理等多個(gè)領(lǐng)域嶄露頭角。本文主要就語(yǔ)義角度出發(fā)對(duì)文本之間相似度進(jìn)行界定。

    關(guān)鍵詞:文本挖掘;文本相似度;語(yǔ)義

    中圖分類(lèi)號(hào):TP311.13

    文本之間相似度的度量一直是是文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,優(yōu)良的文本相似度算法可以更加精準(zhǔn)的實(shí)現(xiàn)對(duì)文本之間相似度的界定。在文本分類(lèi)、文本聚類(lèi)和搜索引擎等文本處理領(lǐng)域,文本相似度算法占據(jù)著非常重要的地位。目前文本相似度算法有基于文本結(jié)構(gòu)特征的相似度算法、基于關(guān)鍵詞匹配的文本相似度算法和基于語(yǔ)義的文本相似度算法等,本文試圖從語(yǔ)義的角度出發(fā)來(lái)闡釋文本之間相似度。

    1 HowNet簡(jiǎn)介

    知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。是一部比較詳盡的語(yǔ)義知識(shí)詞典。相比于其它語(yǔ)義詞典,其特點(diǎn)是基于世界知識(shí)來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),并且摒棄了完全用樹(shù)狀結(jié)構(gòu)來(lái)描述知識(shí),而是采用了網(wǎng)狀結(jié)構(gòu)來(lái)描述知識(shí)。知網(wǎng)中用“義原”來(lái)描述概念,并以之作為最小意義單位?!傲x原”間層次結(jié)構(gòu)如圖1所示。

    根據(jù)知網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),各個(gè)知網(wǎng)“義原”節(jié)點(diǎn)對(duì)應(yīng)于各個(gè)網(wǎng)狀節(jié)點(diǎn),通過(guò)對(duì)知網(wǎng)邏輯節(jié)點(diǎn)進(jìn)行梳理,各個(gè)“義原”之間關(guān)聯(lián)性可以通過(guò)這種復(fù)雜的網(wǎng)狀結(jié)構(gòu)加以反映,各個(gè)節(jié)點(diǎn)之間具備邏輯層次關(guān)系,正是這種邏輯層次關(guān)系,得到“義原”之間語(yǔ)義關(guān)聯(lián)性,如公式1所示。

    自然界中詞語(yǔ)通常都可以包含多個(gè)詞義,知網(wǎng)中定義這個(gè)多個(gè)詞義為概念(義項(xiàng)),每個(gè)概念可以通過(guò)多個(gè)“義原”按照不同的組合方式加以過(guò)程,則關(guān)鍵詞之間語(yǔ)義關(guān)聯(lián)性可以通過(guò)具有語(yǔ)義關(guān)聯(lián)性的“義原”加以反映。

    2 文本相似度算法

    目前文本相似度算法多采用基于關(guān)鍵詞的余弦相似度算法,算法思路如下:將文本進(jìn)行關(guān)鍵詞切分,并對(duì)經(jīng)過(guò)切分的關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,結(jié)合向量空間模型,將關(guān)鍵詞進(jìn)行維度填充,通過(guò)計(jì)算向量之間內(nèi)積來(lái)定義文本之間相似度。假設(shè)文本D1和D2分別表示為D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度計(jì)算方法如公式2所示。

    3 結(jié)束語(yǔ)

    本文從語(yǔ)義的角度出發(fā)對(duì)文本之間相似度進(jìn)行分析,在文本之間語(yǔ)義相似度進(jìn)行闡述時(shí),對(duì)語(yǔ)義工具HowNet進(jìn)行了介紹,并且梳理了當(dāng)前流行的基于余弦相似度的文本相似度的處理流程。

    參考文獻(xiàn):

    [1]馬軍紅.分階段融合的文本語(yǔ)義相似度計(jì)算方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):20-26.

    [2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013(12):229-232.

    [3]郭麗,劉磊.詞匯語(yǔ)義相似度算法研究及應(yīng)用[J].軟件導(dǎo)刊,2013(07):57-58.

    作者簡(jiǎn)介:鄶媛媛(1983.10-),女,遼寧沈陽(yáng)人,圖書(shū)館中級(jí)職稱(chēng),主要研究方向:圖書(shū)館管理。

    作者單位:遼寧行政學(xué)院,沈陽(yáng) 110161

    新沂市| 敦化市| 潮州市| 宜川县| 舟曲县| 江北区| 河西区| 都江堰市| 抚远县| 兴仁县| 泗阳县| 唐河县| 屏山县| 阜南县| 余江县| 互助| 乐山市| 德阳市| 吉首市| 大名县| 海伦市| 界首市| 水富县| 汪清县| 安达市| 阜阳市| 永春县| 容城县| 卢湾区| 宁武县| 石河子市| 渭南市| 淳化县| 左云县| 大兴区| 剑川县| 微博| 金湖县| 福泉市| 绿春县| 美姑县|