• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于TF-IDF向量空間模型文本相似度算法的分析

    2018-08-07 03:30:30甘秋云
    池州學(xué)院學(xué)報(bào) 2018年3期
    關(guān)鍵詞:詞頻余弦夾角

    甘秋云

    (福州理工學(xué)院 工學(xué)院,福建福州350014;福建工程學(xué)院國(guó)脈信息學(xué)院,福建福州350014)

    在實(shí)際的工作學(xué)習(xí)中,為了比較兩個(gè)不同文檔之間是否具有一定的相似性,往往需要使用一定的方法來(lái)計(jì)算文本之間的相似程度。相似度算法就是通過(guò)一定的方法來(lái)計(jì)算不同字符串之間的相似程度,這種算法在剽竊系統(tǒng)檢測(cè)、用戶輸入糾錯(cuò),數(shù)據(jù)清洗、自動(dòng)評(píng)分系統(tǒng)以及網(wǎng)頁(yè)搜索和DNA序列匹配等方面都有廣泛的應(yīng)用。

    目前衡量文本相似度的方法主要有基于向量空間模型(如余弦算法、漢明距離等)和基于詞條空間(如最長(zhǎng)公共子串、最少編輯距離法等)。基于向量空間模型(VSM)是目前最常用的相似度計(jì)算模型,在自然語(yǔ)言的處理中有著非常廣泛的應(yīng)用。本文主要通過(guò)傳統(tǒng)的基于向量空間模型(VSM)文本相似度算法及TF-IDF詞頻統(tǒng)計(jì)方法,分析探討基于TF-IDF的文本相似度算法的實(shí)現(xiàn)[1]。

    其中Wk是Tk的權(quán)重(1<=k<=n)。

    計(jì)算兩個(gè)文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2),使用余弦相似度計(jì)算,公式為:

    1 VSM文本相似度算法

    對(duì)于不同的文本或短文本對(duì)話,可以將文本中詞語(yǔ)映射到向量空間,形成文本中文字和向量數(shù)據(jù)的映射關(guān)系,通過(guò)計(jì)算不同向量之間的差異大小判斷文本的相似度。

    假設(shè)文本用D(Document)表示,特征項(xiàng)指在文檔中能反映文檔內(nèi)容的基本語(yǔ)言單位,一般由單詞或短語(yǔ)構(gòu)成,用T(Term)表示。文本和特征項(xiàng)可以使用集合表示為D(T1,T2,…,Tn),其中Tk是特征項(xiàng)(1<=k<=n),例如某文檔有a,b,c,d,e五個(gè)特征項(xiàng),則該文檔可以表示為D(a,b,c,d,e)[2]。

    包含n個(gè)特征項(xiàng)的文本,每個(gè)特征項(xiàng)都有一個(gè)權(quán)重值,用W表示,文檔D的權(quán)重向量可以表示為:

    其中,Ai、Bi分別表示文本D1和 D2第 i個(gè)特征項(xiàng)的權(quán)重值(1<=i<=n)。

    文檔D1,D2中n維向量是:D1=D1(A1,A2,…,An),D2=D2(B1,B2,…,Bn)。

    則兩個(gè)向量的點(diǎn)積為:A*B=A1*B1+A2*B2+......+An*Bn

    公式中的模為:

    相似度計(jì)算結(jié)果為:

    Sim的結(jié)果就是兩個(gè)向量的空間夾角的余弦值。

    向量空間模型的基本思想是把文本簡(jiǎn)化為以特征項(xiàng)(關(guān)鍵詞)的權(quán)重為分量的N維向量空間。余弦相似度,是基于向量空間模型,通過(guò)測(cè)量向量空間中兩個(gè)向量夾角的余弦值作為衡量二者之間差異的大小。圖1描述了向量夾角的余弦值與相似度的關(guān)系。

    圖1 向量夾角余弦值與相似度關(guān)系圖

    從圖1可知,向量可以看作是從原點(diǎn)([0,0,…])出發(fā)的兩條線段,它們指向不同的方向,余弦值的范圍在[-1,1]之間。兩條線段之間存在一個(gè)夾角,若夾角為0度,余弦值為1,表示方向相同,線段重合,個(gè)體差異?。蝗魥A角為180度時(shí),余弦值為-1,表示方向相反,個(gè)體差異大。因此,通過(guò)向量之間的夾角余弦值可以計(jì)算不同文本在統(tǒng)計(jì)學(xué)方法中的相似度情況,該算法主要用于文件的比較[3]。

    本實(shí)驗(yàn)以5個(gè)文檔為例子,文檔內(nèi)容如圖2所示。

    圖2 文檔內(nèi)容

    通過(guò)分詞,最終得到12個(gè)文本特征詞,表1是文檔D1至D5的詞頻表。

    表1 文檔詞頻表

    通過(guò)余弦相似度算法計(jì)算,分別得到文檔之間的相似余弦值,Sim(D1,D2)=0.67082,Sim(D1,D3)=0.223607,Sim(D1,D4)=0.258199,Sim(D1,D5)=0.316228。

    從表中可知,文檔D1與D2之間共有的特征項(xiàng)有3個(gè),計(jì)算得到的相似度余弦值為0.67028,相似度偏高,但從實(shí)際理解出發(fā),二者之間的相似度并不大,結(jié)果與實(shí)際存在一定的偏差。

    此外,在文本的詞頻計(jì)算中,如果對(duì)所有詞語(yǔ)或短句進(jìn)行詞頻計(jì)算,不僅工作量繁瑣,而且對(duì)于某些詞語(yǔ),即使出現(xiàn)的頻率極高,但實(shí)際對(duì)于文本內(nèi)容的區(qū)分意義不大。因此,在計(jì)算詞頻時(shí),需要對(duì)文本進(jìn)行預(yù)處理,它的主要目的是進(jìn)行中文分詞和去停用詞,通過(guò)對(duì)每一個(gè)詞條進(jìn)行查詢,判斷是否存在于停用詞表中,若存在則從詞條串中刪除,通過(guò)剔除,過(guò)濾篩選后的詞語(yǔ)再計(jì)算詞頻計(jì)算。對(duì)于文檔中出現(xiàn)的詞語(yǔ)是否具有文本類別區(qū)分作用的,可以通過(guò)TF-IDF統(tǒng)計(jì)方法對(duì)文檔中詞語(yǔ)的重要性及類別區(qū)分能力進(jìn)行判斷。

    2 TF-IDF詞頻統(tǒng)計(jì)方法

    TF(Term Frequency,詞頻)表示一個(gè)給定詞語(yǔ)t在一篇文檔d中出現(xiàn)的頻率。TF越高,說(shuō)明詞語(yǔ)t對(duì)文檔d越重要,TF越低則詞語(yǔ)t對(duì)文檔d越不重要。在實(shí)際的文檔中,往往會(huì)出現(xiàn)一些對(duì)文本內(nèi)容識(shí)別意義不大的高頻詞、符號(hào)、標(biāo)點(diǎn)或亂碼等,例如“那,這,是,的,在”等,若直接根據(jù)TF作為相似度的評(píng)判標(biāo)準(zhǔn),顯然存在問(wèn)題。IDF(Inverse Document Frequency,逆向文件頻率)是一個(gè)詞語(yǔ)對(duì)于整個(gè)文檔集或語(yǔ)料庫(kù)的重要性的判斷依據(jù)。在文檔集或語(yǔ)料庫(kù)中國(guó),若包含詞語(yǔ)t的文檔越少,則IDF越大,說(shuō)明詞語(yǔ)t在整個(gè)文檔集層面上具有很好的識(shí)別區(qū)分能力。因此,基于TF-IDF的權(quán)重詞頻計(jì)算方法,是一種統(tǒng)計(jì)方法,它的評(píng)判標(biāo)準(zhǔn)是根據(jù)字詞在文件中出現(xiàn)的次數(shù)判斷其重要性。如果某個(gè)詞語(yǔ)或短句在一篇文章中出現(xiàn)的頻率高(TF高),并且在其他文章中很少出現(xiàn)(IDF高),則認(rèn)為該詞語(yǔ)或短句具有較好的區(qū)分能力,適用于分類。因此,TF描述了某個(gè)詞語(yǔ)t對(duì)某篇文檔的重要性,而IDF則是描述了詞語(yǔ)t相對(duì)整個(gè)文檔集的重要性[4]。

    假設(shè)對(duì)于某一篇文檔dj里的詞語(yǔ)ti而言,ti的詞頻可以表示為:

    其中,ni,j表示詞語(yǔ) ti在文檔 dj中出現(xiàn)的次數(shù),分母表示文檔dj中所有詞語(yǔ)出現(xiàn)的次數(shù)總和。例如,某文檔中單詞“分子”出現(xiàn)的次數(shù)為20,文檔中所有詞語(yǔ)出現(xiàn)的總次數(shù)為500,則詞語(yǔ)“分子”的TF為20/500=0.04。

    對(duì)于某一特定的詞語(yǔ)的IDF,由總文件數(shù)除以包含該詞語(yǔ)的文件數(shù),對(duì)所得的商取對(duì)數(shù),表示為:

    其中|D|是語(yǔ)料庫(kù)中所有文檔的總數(shù),分母表示包含詞語(yǔ)ti的所有文檔數(shù)。例如,共有100份文件,其中包含詞語(yǔ)“分子”的文件數(shù)為20,則詞語(yǔ)“分子”的IDF為log(100/20)=1.609。

    TF-IDF的計(jì)算是以TF和IDF乘積作為特征空間坐標(biāo)系的取值測(cè)度,即TF-IDF=TF×IDF,它與該詞出現(xiàn)頻率成正比,與在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)成反比。一個(gè)單詞出現(xiàn)的文本頻率數(shù)越小,它區(qū)別不同類別文本的能力越大。通過(guò)TF-IDF的方法,可以得出文檔中詞語(yǔ)的重要性,從而對(duì)文本詞語(yǔ)進(jìn)行過(guò)濾篩選,選擇出適合的文本特征項(xiàng),再通過(guò)計(jì)算詞頻,建立權(quán)重向量空間,最終計(jì)算余弦值判斷文本相似度。

    3 基于TF-IDF的文本相似度算法的實(shí)現(xiàn)

    基于TF-IDF統(tǒng)計(jì)方法,分別對(duì)5個(gè)文檔的各個(gè)詞語(yǔ)進(jìn)行TF-IDF權(quán)重詞頻的計(jì)算,通過(guò)分詞、過(guò)濾停用詞后,建立權(quán)重向量空間,最后通過(guò)余弦相似度算法計(jì)算余弦值。

    本實(shí)驗(yàn)中,分別對(duì)5個(gè)文檔進(jìn)行TF-IDF的算法實(shí)現(xiàn),計(jì)算各個(gè)特征項(xiàng)的TF,IDF及TF-IDF值,圖3是以文檔1為例的統(tǒng)計(jì)結(jié)果。

    圖3 文檔1各個(gè)特征詞TF-IDF計(jì)算結(jié)果

    表3 詞頻權(quán)重

    通過(guò)計(jì)算余弦值,得到5個(gè)文檔與文檔1之間的相似度及相似度查找時(shí)間統(tǒng)計(jì),結(jié)果存放在.txt類型的文件中,如圖4。

    圖4 文檔相似度計(jì)算結(jié)果

    圖5是傳統(tǒng)VSM文本相似度算法與基于TFIDF的文本相似度算法得到的相似值對(duì)比圖。

    圖5 傳統(tǒng)VSM算法與基于TF-IDF的文本相似度算法對(duì)比

    由圖4可知,對(duì)文檔的相似度查找耗時(shí)不到1秒,該方法在分類的速度和相似度的效果上都得到了明顯的提高。由圖3-3發(fā)現(xiàn),5個(gè)文檔之間的相似性的曲線走向沒(méi)有改變,但是通過(guò)TF-IDF詞頻計(jì)算后,各個(gè)文檔之間的相似性降低,如文檔1和文檔2在傳統(tǒng)VSM算法得到的Sim值為0.67028,調(diào)整后的Sim值為0.238997,明顯減小了文檔之間的相似度,結(jié)果更符合實(shí)際的理解。

    一個(gè)詞預(yù)測(cè)主題的能力越強(qiáng),權(quán)重就越大,反之越小。在權(quán)重的計(jì)算中,往往過(guò)濾權(quán)重為0的詞語(yǔ),上述實(shí)驗(yàn)主要用于說(shuō)明基于TF-IDF權(quán)重的詞頻計(jì)算較傳統(tǒng)的詞頻計(jì)算在求余弦相似度結(jié)果上更合理。在實(shí)際的文本比對(duì)中,剔除了權(quán)重值為0的詞語(yǔ),使用權(quán)重值較高的詞語(yǔ)作為文本特征項(xiàng),計(jì)算得到的文本相似度也更加準(zhǔn)確,基于TF-IDF的文本相似度算法不論在分類的速度還是相似度的效果上有較好的應(yīng)用水平[5]。

    4 總結(jié)

    向量空間模型(VSM),將文本內(nèi)容轉(zhuǎn)化為空間中的點(diǎn),以向量的形式表示文本,大大降低了文本內(nèi)容的處理難度,簡(jiǎn)化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系,該算法將語(yǔ)言問(wèn)題更好的轉(zhuǎn)化為數(shù)學(xué)問(wèn)題,使得該算法模型具有可計(jì)算性。通過(guò)詞頻計(jì)算,建立權(quán)重向量空間,最后計(jì)算余弦值確定文本之間的差異大小,該算法實(shí)質(zhì)就是歸一化后的點(diǎn)積結(jié)果,在文本的相似度計(jì)算方面受到普遍認(rèn)可。

    猜你喜歡
    詞頻余弦夾角
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    探究鐘表上的夾角
    求解異面直線夾角問(wèn)題的兩個(gè)路徑
    任意夾角交叉封閉邊界內(nèi)平面流線計(jì)算及應(yīng)用
    兩個(gè)含余弦函數(shù)的三角母不等式及其推論
    直線轉(zhuǎn)角塔L形絕緣子串夾角取值分析
    廣西電力(2016年5期)2016-07-10 09:16:44
    分?jǐn)?shù)階余弦變換的卷積定理
    圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    彝良县| 维西| 沁阳市| 登封市| 施甸县| 霍山县| 浦东新区| 札达县| 稻城县| 荃湾区| 都江堰市| 松桃| 曲水县| 梁平县| 夏邑县| 建宁县| 通州区| 通化县| 新宁县| 汽车| 宣城市| 鄂伦春自治旗| 基隆市| 蓝田县| 和龙市| 泸西县| 泽州县| 永安市| 辽阳县| 横山县| 北安市| 隆化县| 且末县| 上饶县| 井研县| 潜江市| 克东县| 易门县| 双城市| 广丰县| 济源市|