• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Word2Vec的編程領域詞語拼寫錯誤檢測算法

    2022-03-18 05:01:24劉峻松唐明靖楊成榮
    計算機應用與軟件 2022年3期
    關鍵詞:語義向量詞語

    劉峻松 唐明靖 薛 崗* 楊成榮

    1(云南大學軟件學院 云南 昆明 650000)2(云南師范大學生命科學學院 云南 昆明 650000)3(六盤水師范學院 貴州 六盤水 553004)

    0 引 言

    Stack Overflow是一個熱門的計算機編程領域的問答社區(qū),它為世界范圍內(nèi)的計算機編程愛好者提供了一個解決問題的平臺。因此論壇中的問答文本具有很高的價值,每年都有很多人以Stack Overflow中的問題答案文本為研究對象,在海量的文本數(shù)據(jù)中挖掘不同的信息,為不同領域的研究提供數(shù)據(jù)基礎。

    由于Stack Overflow是一個開放式的問答社區(qū)平臺,其中所有的文本數(shù)據(jù)均為來自世界各地用戶的輸入,因此其文本數(shù)據(jù)中存在大量的拼寫錯誤。在對文本進行分析時,拼寫錯誤對基于統(tǒng)計學理論的很多分析方法來說是相對致命的。以分析熱門問題和熱搜問題為例,在通過關鍵詞進行分析和檢索的過程中,如果某段文本的語義中心詞存在拼寫錯誤,根據(jù)計算機的模式匹配原則,該文段將會被錯誤地認知或歸類,當錯誤詞匯出現(xiàn)的頻率較高時,對于統(tǒng)計結果乃至最終的分析結果都會產(chǎn)生較大的影響。絕大多數(shù)人類輸入的文字都會出現(xiàn)文本拼寫錯誤,而諸如Stack Overflow這種開放平臺下的自然語言文本來說,其中拼寫錯誤文本的數(shù)量更是不可忽視。

    本文提出了一種基于詞向量的文本拼寫錯誤自動檢測算法,通過結合文段語義及部分計算機輸入習慣所造成的常見錯誤情況,對Stack Overflow中計算機編程領域的文本數(shù)據(jù)進行自動的單詞拼寫檢測和糾正。實驗結果表明,與現(xiàn)有的以編輯距離為基礎的候選詞檢測和糾錯方式相比,使用本文算法對文本進行自動校正后,所獲得的結果文本與標準文本對比,語義相似度更高,針對部分計算機編程領域的專業(yè)詞匯及縮寫等情況的檢測和糾正效果更好,且在面對海量文本數(shù)據(jù)時能夠做到快速自動檢測和糾正,從而驗證了基于Word2Vec的計算機編程領域詞語拼寫錯誤檢測算法在針對計算機編程領域自然語言文本的單詞拼寫自動糾錯問題中具有較好的效果。

    1 研究背景

    單詞拼寫錯誤的檢測和糾正在自然語言處理領域是一個很早就已經(jīng)出現(xiàn)的問題,Kukich[1]使用UNIX實現(xiàn)了英文文本的拼寫檢查方法,同時提出了單詞拼寫錯誤應包括非詞錯誤(Non-word error)和真詞錯誤(Real-word error),這些理論為后續(xù)的單詞拼寫檢測和糾錯提供了基礎。Levenshtein[2]提出了編輯距離的概念,如今編輯距離被廣泛應用于單詞拼寫檢測和糾錯中,Soleh等[3]提出了使用詞法分析和查找字典的方式檢測錯誤詞匯,通過錯誤詞匯編輯距離構建候選詞集合,最后使用隱馬爾可夫模型對詞匯文本進行分析進而對候選詞集合的所有詞匯進行排序,選取序列中排列首位的詞匯作為錯誤詞匯的改正詞匯進行替換。謝文慧等[4]提出在編輯距離的計算中引入鍵盤物理布局這一因素,將鍵盤鍵位間的最短距離直接引入到編輯距離算法中,但該文使用絕對的物理距離作為參數(shù),實際上用戶的鍵盤輸入誤差僅存在于周圍的鍵位當中,更遠的鍵位距離值會對最終的判別產(chǎn)生負向的影響。且上述所有方法均是以字典和編輯距離為核心判斷標準,因此對于部分專業(yè)領域較強的特殊詞匯及字典中沒有記錄的網(wǎng)絡新興詞匯的檢測能力不強,甚至可能會出現(xiàn)誤判的情況,而且對于網(wǎng)絡開放社區(qū)的文本來說存在大量諸如用戶名、郵箱地址等特定且無實際意義的詞匯,該類詞匯可能由某個具有實意的單詞演變而來且二者編輯距離極有可能很小,對該類詞匯的誤判會對文段的語義產(chǎn)生較大影響。

    Bergsma等[5]將N-gram模型引入到拼寫糾錯問題當中,基于統(tǒng)計語言模型,分別利用了有監(jiān)督和無監(jiān)督的方法,結合上下文語義對單詞進行拼寫糾錯。Kim等[6]結合了單詞的相似性和N-gram模型,使用N-gram模型計算的語義相似性對單詞的拼寫相似度進行修正,提高了拼寫糾錯的準確性,但是N-gram模型具有參數(shù)空間大且數(shù)據(jù)稀疏嚴重的弊端,因此在處理大量文本時效率較低。

    目前從文本拼寫糾錯領域的研究情況看,大部分方法是基于文本拼寫特征或基于統(tǒng)計的詞匯替換方法進行詞語拼寫矯正,上述方法存在準確度低、速度較慢等問題,而本文算法以Word2Vec運算的詞向量構建文本的向量空間,通過余弦相似度構建與檢測詞匯語義相似詞匯的集合,結合余弦相似度、詞頻、基于鍵盤鍵位改進的文本編輯距離的復合評分標準來對錯誤詞匯進行檢測和糾正。相較于上述已有的方法,本文提出的方法復合了多種對詞匯正誤判斷及候選集合選取有影響的因素。通過實驗表明,本文方法能夠在保證語義的前提下自動對大量文本進行檢測和糾錯,并且對部分專業(yè)性較強的生僻詞匯、新詞匯、縮寫詞匯有較好的檢測和糾正效果。

    2 相關技術

    2.1 詞向量技術

    為了表達詞與詞之間的關系,Hinton[7]提出了詞語的分布式表達形式,每個詞對應的分布式表達是一個低維度的實值向量,其中每一個維度均可以表示一個詞的潛在特征。通過對大量文本語料的分析和訓練,將已知文本中的每一個詞匯映射為低維向量空間中的一個向量,這個向量空間稱為詞向量空間,其中的每一個向量稱之為詞向量。在這個空間中引入“距離”的概念,這個“距離”一般使用向量間的余弦值,多維向量的余弦值由歐幾里得向量點積公式推導得出,以此值作為兩個詞語的余弦相似度[8]。假設空間內(nèi)現(xiàn)有兩個n維向量a=(A1,A2,…,An)、b=(B1,B2,…,Bn),向量夾角為θ,余弦相似度計算式表示為:

    (1)

    由于詞向量本身包含了詞語潛在的上下文特征,因此通過對向量間余弦值的計算可以判斷其對應詞匯之間在語義或者上下文使用上的相似度。

    Word2Vec是在2013年由Google的Mikolov等[9-10]提出并實現(xiàn)的一種工具,用于快速地對文本進行訓練并獲得低維詞向量,其核心是一個淺層的神經(jīng)網(wǎng)絡。Word2Vec中包含了兩種訓練模型[10],分別為CBOW和Skip-gram,兩種模型如圖1所示。

    (a) CBOW模型 (b) Skip-gram模型圖1 Word2Vec中的兩種訓練模型

    可以看出,兩種模型均是包含輸入層、輸出層及映射層的淺層神經(jīng)網(wǎng)絡模型,核心理論是貝葉斯條件概率,研究w和Context(w)之間的條件概率關系,即P(w|Context(w))或P(Context(w)|w),此處Context(w)定義為詞語w的上下文,數(shù)學表達如下:

    Context(wi)=wi-t,…,wi-1,wi,wi+1,…,wi+t

    (2)

    式中:wi表示當前詞匯;t表示納入上下文計算的詞匯數(shù)量,即從當前詞匯開始計算前后需要納入計算的連續(xù)詞匯的數(shù)量。CBOW模型是通過輸入上下文對其中詞匯進行預測,而Skip-gram與之相反,通過詞匯對上下文進行預測。Word2Vec為了提高訓練的效率,還提供了兩種優(yōu)化算法,分別是Hierachy Softmax和Negative Sampling,通過使用Word2Vec訓練可以輸出一組質量相對較高的低維詞向量,并且語義相近的詞匯將被映射到空間距離相近的位置上。

    2.2 編輯距離

    編輯距離(Levenshtein Distance)是Levenshtein[2]提出的方法,用于表示一個字符串轉變?yōu)榱硪粋€字符串所需的最小操作步數(shù)。一步操作包括刪除一個字符、增加一個字符和修改一個字符三種情況,假設現(xiàn)有字符串A和字符串B,使用Ai表示A字符串前i個字符構成的子串,同理使用Bj表示B字符串前j個字符構成的子串,用LD(i,j)表示字符串A和B之間的編輯距離,則根據(jù)編輯距離算法可得計算式:

    (3)

    3 基于詞向量的單詞拼寫識別方法

    本文以文本詞向量為詞義相似度的評判基礎,通過改進的編輯距離模型對詞義相似度的模型進行修正,綜合考慮文本的語義和編輯距離的影響提出一種文本相似度計算方法,以此為基礎提出了一種文本單詞拼寫檢測糾錯的算法。本節(jié)通過對編輯距離模型、綜合文本相似度模型及單詞拼寫錯誤檢測方法三個方面進行概述。

    3.1 基于物理鍵盤輸入方式的編輯距離模型

    Levenshtein[2]提出的編輯距離可以一定程度的描述兩個單詞之間的拼寫相似程度,但是Stack Overflow是一個開放的網(wǎng)絡社區(qū),其中絕大多數(shù)詞匯都是通過計算機鍵盤進行輸入的,因此有一部分詞匯錯誤是鍵盤鍵位相近導致的誤操作所造成的。本文將在原始編輯距離公式上進行改進,將因鍵盤鍵位相近導致誤操作的情況納入編輯距離計算中。

    本文使用無向圖的方式表示鍵盤鍵位,根據(jù)國際標準QWERTY鍵盤的物理鍵位位置,構建如圖2所示的無向圖。文獻[4]使用無向圖中的最短路徑作為距離引入到編輯距離當中,但實際上針對國際標準鍵盤布局,有一種較為常用的輸入指法,在該指法下,用戶在輸入的過程中,不同的輸入錯誤情況出現(xiàn)的概率會根據(jù)指法中鍵位的分布而存在偏差,鍵盤指法的分布如圖2所示。

    圖2 鍵盤布局和鍵盤指法分布圖

    文獻[11]中針對鍵盤指法提出了三種輸入錯誤的類型:(1) 錯誤字母與正確字母位于同一個手指負責的區(qū)域(此類錯誤情況定義為W1);(2) 錯誤字母與正確字母位于同一只手的相鄰手指負責的區(qū)域(此類錯誤情況定義為W2);(3) 錯誤字母與正確字母位于不同手的相鄰手指負責的區(qū)域(此類錯誤情況定義為W3)。

    以單詞“word2vec”為例,與字母“w”相鄰部分的鍵位如圖3所示,用戶在執(zhí)行鍵入“W”的操作時,若錯誤輸入為“2”“S”則屬于W1情況,若錯誤輸入為“3”“Q”“E”“A”則屬于W2情況。

    圖3 字母“W”相鄰布局圖

    文獻[11]通過大量的統(tǒng)計實驗表明,上述三種錯誤情況出現(xiàn)的概率滿足如下關系:

    (4)

    式中:W1、W2、W3分別代表上文提及的發(fā)生三種輸入錯誤類型的事件;P(W)表示不同輸入錯誤類型所代表的事件的發(fā)生概率。因此,將上述無向圖改為加權無向圖,將邊賦予不同的權值。同樣以“word2vec”為例,如果使用圖的最短距離直接作為鍵盤鍵位對編輯距離的影響因子,則“mord2vec”和“tord2vec”的影響程度是不一樣的,但是實際上,一旦超過“相鄰”鍵位這個范疇,這種詞語中字符的區(qū)別則更傾向于不同單詞或其他錯誤情況,因此本文在上述基礎上引入一個閾值,當其最短距離超過閾值時,則認為該字符差異不是由鍵盤物理鍵位的誤操作引起的。

    根據(jù)上述思路,首先根據(jù)三種錯誤情況出現(xiàn)的概率對鍵盤鍵位圖中各邊的權值進行設定,根據(jù)上述規(guī)則,設W1=1、W2=2、W3=3。盡管某些情況下,同一手指負責的區(qū)域出錯的可能性較大。由于兩個字母按鍵相隔距離較遠時,其混淆輸入的可能性將大幅度下降,因此在加權圖的距離計算時將距離乘跳數(shù)作為其距離的最終值,同時引入閾值T=4,將誤操作范圍界定于圖3所示的范圍內(nèi)。則任意兩個鍵盤可輸入字符串A和B之間的距離Dk的計算公式如下:

    (5)

    (6)

    則推導可得任意兩個字符串A和B,改進后編輯距離的影響因子I(A,B)的計算式如下:

    (7)

    綜上,對原始編輯距離公式修正為:

    LDk(A[i],B[j])=

    (8)

    3.2 詞匯綜合相似度模型

    基于詞向量關注每個詞匯上下文情況,而不關注詞匯拼寫本身的特性,且絕大部分拼寫錯誤詞匯,輸入者所想表達的語義與其對應的正確詞匯是一致的,因此錯誤詞匯的上下文特征與正確詞匯的上下文特征相似度較高,也就是在向量空間中二者詞向量間的夾角余弦值較小,因此將詞向量間的余弦相似度值與上述改進的編輯距離同時納入到綜合相似度評分的計算中。

    對任意兩個詞A和B的綜合相似度評分S(A,B)進行計算,S(A,B)與A、B對應詞向量的余弦相似度成正比,與LDk成反比,由此可得S(A,B)計算公式為:

    特深井實施應依據(jù)地層深度方向宏觀分布規(guī)律將特深井分為上部、中部和下部三段分別考慮。本文依據(jù)科學特深井地層深度方向的不同特點,以孔內(nèi)安全問題為技術主線,提出具有針對性的鉆孔安全技術措施,從而提出特深井施工技術體系初步方案及其重大關鍵技術構想。

    (9)

    式中:a、b表示詞語A、B所對應的詞向量;cos(a·b)表示A、B詞語對應詞向量的余弦相似度;LDk(A,B)表示改進的詞語A、B的編輯距離;max()表示選取最大值函數(shù);len()表示字符串長度。若兩個詞語的編輯距離等于最長詞語的字符數(shù),則意味著在本文模型中,這兩個詞匯沒有任何相似之處,因此將其相似度綜合評分直接定為0。

    3.3 基于詞向量的自動拼寫錯誤識別

    本文提出的算法會對文本中每一個詞語進行分析。對于每一個被檢測詞語,首先通過Word2Vec計算的模型獲得與當前詞語向量余弦語義相似度最高的十個詞語組成候選詞集合,分別對當前詞語和候選詞集合中的所有詞語計算綜合相似度評分,獲取評分最高的詞語,對比兩個詞語的詞頻。若當前被檢測詞語的詞頻低于候選集中評分最高的詞語,則使用該詞語替換當前詞語,達到詞語糾錯的目的。因此要對文本語料進行處理和訓練,獲得詞向量模型。首先對文本進行預處理,原始Stack Overflow的文本數(shù)據(jù)如下:

    PyXML works well.

    You didn t say what platform you re using, however if you re on Ubuntu you can get it with sudo apt-get install python-xml. I m sure other Linux distros have it as well.

    If you re on a Mac, xpath is already installed but not immediately accessible. You can set PY_USE_XMLPLUS in your environment or do it the Python way before you import xml.xpath:

    if sys.platform.startswith(′darwin′):
     os.environ[′PY_USE_XMLPLUS′]=′1′
    

    In the worst case you may have to build it yourself. This package is no longer maintained but still builds fine and works with modern 2.x Pythons.Basic docs are here.

    Stack Overflow的原始文本是按照HTML的格式組織的,其中包含大量的HTML標簽和無意義的格式信息,因此對上述原始數(shù)據(jù)的處理步驟如下:

    (1) 解析HTML結構文本獲得自然語言文本。在解析HTML文本的過程中,包含兩類標簽,一類是諸如

    、
    僅對文本格式或樣式設置的標簽,此類標簽應直接刪除而保留標簽內(nèi)的文本;另一類是諸如、等包含鏈接、代碼等與自然語言文段語義不相關的內(nèi)容,此類標簽應與標簽內(nèi)文本一同刪除。

    (2) 清理轉義字符。對文本中部分轉義字符進行識別和刪除,該部分字符內(nèi)嵌于HTML標簽內(nèi)大部分用于對格式進行調整或表達某類符號,無實際語義。

    (3) 刪除常規(guī)標點符號。由于Stack Overflow文本數(shù)據(jù)主題是計算機編程領域,因此文本中包含大量特殊字符,該類字符少量與語義相關,例如“C”“C#”,在計算機編程領域中這兩個詞匯代表著兩種不同的技術,若刪除特殊符號“#”對文本語義產(chǎn)生影響較大,因此本步僅對常規(guī)標點符號進行刪除。

    (4) 分詞處理。由于Stack Overflow本身是一個國外論壇,因此其中所有的文本均為英語文本,英語文本直接使用空格作為分界進行分詞即可。

    (5) 對文本進行詞類還原。同一個詞匯會存在不同形式,但其語義相同,因此需要對詞匯進行詞類還原,包括動詞時態(tài)還原以及名詞復數(shù)還原,這里使用NLTK[12]中的詞類還原工具WordNetLemmatizer對文本中的詞性進行還原。

    經(jīng)過上述五步的數(shù)據(jù)處理,可以獲得最終用以訓練的文本數(shù)據(jù)。針對樣例數(shù)據(jù),上述五步處理過程的結果如表1所示。

    表1 樣例數(shù)據(jù)處理過程

    續(xù)表1

    接下來使用Word2Vec工具對處理好的文本進行訓練,Word2Vec自身集成了兩種詞向量訓練模型,以及兩種訓練優(yōu)化算法,因此共有四種詞向量訓練框架,如表2所示。

    表2 Word2Vec四種詞向量訓練框架

    本文中數(shù)據(jù)量較大,且存在較多的專業(yè)生僻詞,因此選取Skip-gram算法進行計算,而Hierachy Softmax使用了哈夫曼編碼,因此效率較高,所以本文使用Skip-gram+HS的框架訓練詞向量。

    詞向量訓練完成后,即可對文本的每一個詞匯進行掃描識別,但是在計算機編程領域存在較多專業(yè)性生僻詞匯和縮寫詞匯的特殊詞匯情況,一個特殊詞匯可能是標準英語詞匯字典中不存在的詞匯,也有可能是某個較長詞匯或者詞組的縮寫。一般情況下,在特定的專業(yè)領域內(nèi),該類情況所衍生出的一系列特殊詞匯的拼寫和形式都較為統(tǒng)一,因此使用大量的同一領域內(nèi)的語料進行訓練后,針對專業(yè)性生僻詞匯和縮寫應存在以下兩種情況:

    (1) 專業(yè)性生僻詞匯。此類詞匯的特征是在標準英語詞匯字典中不存在卻真實的表現(xiàn)了該領域的某個含義,此類詞匯反映在向量空間中應是作為一個語義獨立的單獨詞匯,因此從向量特征或是語義的角度來說不存在可以替換的詞匯也不會被作為錯誤詞匯處理。

    (2) 縮寫詞匯。此類詞匯的特征是拼寫長度相對較短,其語義可以代表另一個單詞,這種單詞應分為兩個方面處理:當縮寫詞匯拼寫長度過短時一個字母發(fā)生變化,盡管編輯距離很短,但是對于這類詞來說極大概率會變成毫不相關的另一個詞匯,而且在長度極短的詞匯中出現(xiàn)錯誤的概率也相對較低,因此應當根據(jù)文本情況設定文本檢測的最小單詞長度,在檢測的過程中跳過過于短小的詞匯;而對于長度較長的縮寫詞匯,反映在向量空間模型中應該與其代表的原有詞匯相似度最高,但一般縮寫詞匯與原有詞匯的編輯距離都相對較長,因此也不會進行更改處理。即便縮寫詞匯與原有詞匯的拼寫差距較小,那么被修改為原有詞匯對原文的文意也沒有影響。

    綜上所述應按照相關規(guī)則檢測所有符合要求的單詞,對每個單詞,識別工作流程如圖4所示。

    圖4 詞語拼寫糾錯流程

    通過詞向量模型構建與之余弦相似度最小的10個詞匯候選集,每個詞與被檢測詞計算綜合相似度評分,選取評分最高的一個詞匯,與原詞匯對比在整體文本中出現(xiàn)的詞頻,詞頻更高的單詞視為該語境中更接近正確的詞語,若候選集中的詞語詞頻更高,則替換原詞匯,反之保留原詞匯。

    4 實 驗

    為了驗證本文所提算法的實際效果,本文從兩個方面來進行實驗驗證:計算機編程領域內(nèi)專業(yè)詞語錯誤檢測糾正效果和糾錯后文本語義還原效果。本文驗證實驗環(huán)境為CPU:Intel Core i5- 4590,內(nèi)存:8 GB RAM,操作系統(tǒng):Microsoft Windows 10 1903;實驗程序使用Python語言編寫,Python版本3.7;調用NLTK[12]及Gensim[13]相關的Python庫;文本數(shù)據(jù)來源于開源計算機問答社區(qū)Stack Overflow[14]中的文本數(shù)據(jù)。對比算法為基于經(jīng)典編輯距離和詞頻統(tǒng)計的錯誤詞匯檢測糾正算法。

    4.1 錯詞檢測糾正效果驗證

    錯詞檢測糾正率驗證的實驗主要針對本文提出算法模型對計算機領域特定詞匯的錯誤檢測糾正效果進行實驗驗證。在所有Stack Overflow文本數(shù)據(jù)中,隨機選取500句具有專業(yè)領域詞匯的句子進行人工的錯詞糾正,獲得500句詞匯拼寫標準的句子集合作為實驗數(shù)據(jù)的對照數(shù)據(jù),對上述500句文本中675個涉及計算機編程領域的詞匯進行人工給錯,此處錯誤的類型包括各類的輸入錯誤,每類錯誤均在Stack Overflow全部文本數(shù)據(jù)中進行檢索,確保該類型錯誤為真實存在的錯誤情況。

    同時對上述500句人工給錯的數(shù)據(jù)分別執(zhí)行本文提出的基于Word2vec和基于經(jīng)典編輯距離的檢測糾錯算法,根據(jù)數(shù)據(jù)實際情況,僅對拼寫長度大于2的詞匯進行檢測,兩種算法的訓練數(shù)據(jù)均為全部Stack Overflow文本數(shù)據(jù)。實驗分別將兩種算法計算的結果與對照數(shù)據(jù)進行對照,對錯誤詞匯的識別數(shù)、改正數(shù)及正確詞匯的誤判數(shù)三個方面進行統(tǒng)計和對比,結果如表3所示。

    表3 錯詞糾正效果實驗結果

    通過實驗結果所示,經(jīng)典編輯距離算法和基于詞向量的糾錯算法的糾正效果如表4所示。

    表4 糾正效果對比 (%)

    通過實驗驗證可得,相比于經(jīng)典的編輯距離算法,本文提出的基于Word2Vec的拼寫錯誤檢測算法的識別率提高了4.1%,糾正率提高了22.63%,誤判率減少了49.33%,整體效果提升顯著。

    4.2 語義還原效果驗證

    語義還原效果的實驗驗證使用的數(shù)據(jù)與錯詞檢測糾正效果實驗相同,引入BLEU值[15]作為語義還原度的評價標準,BLEU原用于評價機器翻譯的翻譯準確度,本文使用該值評價修改后的文本與原文本的語義相似程度,通過上述實驗中兩種算法糾正完成后的500句文本語句與標準對照文本進行BLEU的計算,結果如表5所示。

    表5 兩種算法結果平均BLEU值對比

    通過BLEU值對比,本文提出的基于Word2Vec的拼寫檢測糾錯算法,在語義還原度上比經(jīng)典的編輯距離算法提高了7.58%,具有較好的語義還原性。

    綜合上述實驗結果表明,本文提出的基于Word2Vec的計算機編程領域詞語拼寫錯誤檢測算法,能夠在保證較高語義還原度的基礎上,較好地對計算機編程領域文本進行自動拼寫錯誤檢測和校正。

    5 結 語

    目前,在自然語言分析領域,語料中的錯誤詞匯依然影響著數(shù)據(jù)統(tǒng)計和挖掘的精確性,本文提出了一種基于詞向量計算詞語相似度,再通過改進的編輯距離算法對相似度進行修正,針對Stack Overflow開放性問答社區(qū)中計算機編程領域的大量文本實現(xiàn)快速自動糾錯。經(jīng)過實驗驗證,相比較于現(xiàn)有的文本糾錯方法,本文算法能夠在保證原文語義的前提下自動將大部分文本中的錯誤進行糾正,取得了較好的效果。

    猜你喜歡
    語義向量詞語
    容易混淆的詞語
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    找詞語
    語言與語義
    詞語欣賞
    “上”與“下”語義的不對稱性及其認知闡釋
    向量垂直在解析幾何中的應用
    向量五種“變身” 玩轉圓錐曲線
    一枚詞語一門靜
    97人妻精品一区二区三区麻豆 | 97碰自拍视频| 国产精品,欧美在线| 精品国产乱码久久久久久男人| 男人操女人黄网站| 欧洲精品卡2卡3卡4卡5卡区| 成人国产综合亚洲| 精品人妻1区二区| 久久天堂一区二区三区四区| 老鸭窝网址在线观看| 99久久国产精品久久久| 欧美另类亚洲清纯唯美| 色播在线永久视频| 国产99白浆流出| 亚洲自拍偷在线| 99在线人妻在线中文字幕| 日本 欧美在线| 国产亚洲欧美98| 免费观看精品视频网站| 在线十欧美十亚洲十日本专区| 麻豆久久精品国产亚洲av| 国产主播在线观看一区二区| 国产精品av久久久久免费| tocl精华| 国产日韩一区二区三区精品不卡| 亚洲国产高清在线一区二区三 | 两个人免费观看高清视频| 国产成人精品在线电影| 后天国语完整版免费观看| 多毛熟女@视频| 精品卡一卡二卡四卡免费| 身体一侧抽搐| 亚洲精品美女久久av网站| 国产精品久久视频播放| 久久久久久亚洲精品国产蜜桃av| 香蕉久久夜色| 久久国产乱子伦精品免费另类| 啦啦啦 在线观看视频| 国产成人影院久久av| 成熟少妇高潮喷水视频| 欧美日本视频| 波多野结衣av一区二区av| 亚洲av日韩精品久久久久久密| 国产色视频综合| 欧美中文综合在线视频| 欧美乱色亚洲激情| 97碰自拍视频| 国内毛片毛片毛片毛片毛片| 在线观看舔阴道视频| 国产亚洲精品久久久久久毛片| 美女午夜性视频免费| 国产精品自产拍在线观看55亚洲| 国产精品秋霞免费鲁丝片| 黄色a级毛片大全视频| 在线观看66精品国产| 一级a爱片免费观看的视频| 露出奶头的视频| 别揉我奶头~嗯~啊~动态视频| 最新美女视频免费是黄的| 岛国在线观看网站| 在线视频色国产色| 国产精品av久久久久免费| 久久久精品国产亚洲av高清涩受| 看片在线看免费视频| 亚洲 欧美 日韩 在线 免费| 岛国视频午夜一区免费看| 免费看十八禁软件| √禁漫天堂资源中文www| 久久久久国产精品人妻aⅴ院| 色在线成人网| 丝袜美腿诱惑在线| 非洲黑人性xxxx精品又粗又长| 亚洲情色 制服丝袜| 一级a爱视频在线免费观看| 成人三级黄色视频| 在线永久观看黄色视频| 国产精品,欧美在线| 久久精品影院6| 亚洲无线在线观看| 性色av乱码一区二区三区2| 满18在线观看网站| 视频在线观看一区二区三区| 麻豆国产av国片精品| 99香蕉大伊视频| 少妇 在线观看| 在线观看免费午夜福利视频| 亚洲五月色婷婷综合| 国产蜜桃级精品一区二区三区| 日韩欧美国产一区二区入口| 天天躁狠狠躁夜夜躁狠狠躁| 欧美黑人精品巨大| 国产一区在线观看成人免费| 少妇被粗大的猛进出69影院| av视频在线观看入口| 日韩大码丰满熟妇| 亚洲一码二码三码区别大吗| 亚洲成av人片免费观看| 黄频高清免费视频| 亚洲久久久国产精品| 亚洲,欧美精品.| 亚洲中文av在线| 免费搜索国产男女视频| 桃红色精品国产亚洲av| 禁无遮挡网站| 日本一区二区免费在线视频| 自拍欧美九色日韩亚洲蝌蚪91| 我的亚洲天堂| 老司机深夜福利视频在线观看| 黄网站色视频无遮挡免费观看| 亚洲精品一区av在线观看| 精品国产美女av久久久久小说| 露出奶头的视频| 亚洲人成电影观看| 老司机午夜福利在线观看视频| 欧美最黄视频在线播放免费| 国产精品一区二区精品视频观看| 国产精品影院久久| 99精品欧美一区二区三区四区| 亚洲一码二码三码区别大吗| 亚洲成a人片在线一区二区| 18禁黄网站禁片午夜丰满| 国产成人av激情在线播放| 亚洲国产欧美网| 精品久久久久久久久久免费视频| 九色国产91popny在线| 亚洲欧美日韩另类电影网站| 最好的美女福利视频网| 宅男免费午夜| 俄罗斯特黄特色一大片| 国产麻豆成人av免费视频| 一级毛片精品| 日本免费一区二区三区高清不卡 | bbb黄色大片| 国产99久久九九免费精品| 一进一出抽搐gif免费好疼| 十八禁网站免费在线| 一级作爱视频免费观看| 日日爽夜夜爽网站| 丝袜在线中文字幕| av有码第一页| 午夜老司机福利片| 韩国av一区二区三区四区| 国产av在哪里看| 欧美日韩亚洲综合一区二区三区_| 免费在线观看亚洲国产| 亚洲国产日韩欧美精品在线观看 | 99国产精品一区二区蜜桃av| 久久香蕉激情| 伦理电影免费视频| 色婷婷久久久亚洲欧美| 日本免费一区二区三区高清不卡 | 国产精品 欧美亚洲| 国产伦一二天堂av在线观看| 身体一侧抽搐| 亚洲第一av免费看| 中文字幕人妻丝袜一区二区| 免费看十八禁软件| 成人三级做爰电影| 国产精品亚洲av一区麻豆| 曰老女人黄片| 少妇粗大呻吟视频| 亚洲精品美女久久av网站| 欧美成狂野欧美在线观看| 国产在线精品亚洲第一网站| 亚洲成人免费电影在线观看| 在线观看一区二区三区| 欧美激情极品国产一区二区三区| 免费在线观看黄色视频的| 日日夜夜操网爽| 12—13女人毛片做爰片一| 亚洲久久久国产精品| 免费看十八禁软件| 亚洲成a人片在线一区二区| 黑人欧美特级aaaaaa片| 国产乱人伦免费视频| 亚洲自拍偷在线| 午夜福利免费观看在线| 99久久国产精品久久久| 久久久久久久久免费视频了| 欧美精品啪啪一区二区三区| 少妇的丰满在线观看| 欧美国产精品va在线观看不卡| 在线观看www视频免费| 国产一卡二卡三卡精品| 久久久久久大精品| 18禁裸乳无遮挡免费网站照片 | 国产精品99久久99久久久不卡| 欧美日本亚洲视频在线播放| 琪琪午夜伦伦电影理论片6080| a在线观看视频网站| 成熟少妇高潮喷水视频| 9191精品国产免费久久| 国产精品一区二区精品视频观看| 最新美女视频免费是黄的| www.熟女人妻精品国产| 又黄又粗又硬又大视频| 人人妻人人澡欧美一区二区 | www.www免费av| 久久精品国产99精品国产亚洲性色 | 久久天躁狠狠躁夜夜2o2o| 欧美一级毛片孕妇| 不卡av一区二区三区| 久久人人精品亚洲av| 一个人免费在线观看的高清视频| 国产麻豆成人av免费视频| 亚洲精品av麻豆狂野| 亚洲精品国产区一区二| 99热只有精品国产| 亚洲人成电影观看| 亚洲情色 制服丝袜| 国产一区二区三区视频了| 十八禁网站免费在线| 三级毛片av免费| 国产亚洲精品综合一区在线观看 | 亚洲精品av麻豆狂野| 欧美日韩精品网址| 中文亚洲av片在线观看爽| 在线av久久热| 中文字幕av电影在线播放| av中文乱码字幕在线| 俄罗斯特黄特色一大片| 人妻久久中文字幕网| 亚洲专区字幕在线| 波多野结衣高清无吗| 十八禁网站免费在线| 成人手机av| 制服人妻中文乱码| 亚洲精品中文字幕在线视频| 欧美黑人欧美精品刺激| 久久久久国内视频| 亚洲欧洲精品一区二区精品久久久| 在线观看免费视频日本深夜| 国产一卡二卡三卡精品| 男人的好看免费观看在线视频 | 在线观看免费视频网站a站| 亚洲国产精品成人综合色| 午夜成年电影在线免费观看| 国产精品99久久99久久久不卡| 国产又色又爽无遮挡免费看| 亚洲av日韩精品久久久久久密| 99香蕉大伊视频| 99国产精品99久久久久| 黑人巨大精品欧美一区二区蜜桃| 露出奶头的视频| 热99re8久久精品国产| 精品卡一卡二卡四卡免费| 国产野战对白在线观看| 国产精品av久久久久免费| 免费在线观看亚洲国产| 无限看片的www在线观看| 午夜福利18| 国产精品av久久久久免费| www国产在线视频色| 女性被躁到高潮视频| 日韩欧美一区视频在线观看| 久久久久九九精品影院| 午夜免费鲁丝| 欧美在线黄色| 桃色一区二区三区在线观看| 成人国产一区最新在线观看| 波多野结衣一区麻豆| 美女国产高潮福利片在线看| 精品国产乱码久久久久久男人| 午夜免费鲁丝| 宅男免费午夜| 丰满人妻熟妇乱又伦精品不卡| av天堂在线播放| 91国产中文字幕| 两性午夜刺激爽爽歪歪视频在线观看 | 最近最新中文字幕大全电影3 | 制服人妻中文乱码| 女人高潮潮喷娇喘18禁视频| 精品熟女少妇八av免费久了| 亚洲一区二区三区色噜噜| 色播亚洲综合网| 中文字幕高清在线视频| 亚洲视频免费观看视频| 国产精品亚洲av一区麻豆| 手机成人av网站| 久久精品国产亚洲av香蕉五月| 午夜福利视频1000在线观看 | 国产成人精品在线电影| 久久久久久久久免费视频了| 国产一卡二卡三卡精品| 亚洲avbb在线观看| av中文乱码字幕在线| 一区在线观看完整版| 亚洲欧美精品综合一区二区三区| 亚洲国产精品成人综合色| 91在线观看av| 国产精品爽爽va在线观看网站 | 香蕉久久夜色| 亚洲性夜色夜夜综合| 免费在线观看日本一区| 免费av毛片视频| 91麻豆av在线| 日本欧美视频一区| 99久久精品国产亚洲精品| 丝袜在线中文字幕| 亚洲人成电影观看| 777久久人妻少妇嫩草av网站| 叶爱在线成人免费视频播放| 在线国产一区二区在线| 久久中文看片网| 成人亚洲精品av一区二区| 国产男靠女视频免费网站| av福利片在线| 欧美一区二区精品小视频在线| 国产精品 国内视频| 好看av亚洲va欧美ⅴa在| 欧美激情极品国产一区二区三区| 亚洲成a人片在线一区二区| 老司机福利观看| 久久人人97超碰香蕉20202| 久久欧美精品欧美久久欧美| 少妇裸体淫交视频免费看高清 | 精品一区二区三区视频在线观看免费| 亚洲av电影在线进入| 精品日产1卡2卡| 一边摸一边做爽爽视频免费| 国产三级黄色录像| 久久草成人影院| 午夜两性在线视频| 亚洲人成77777在线视频| 午夜福利成人在线免费观看| 亚洲精品在线美女| 91成年电影在线观看| 午夜成年电影在线免费观看| 999久久久国产精品视频| 国产成人精品久久二区二区91| 黄片播放在线免费| 国产亚洲精品第一综合不卡| 日本撒尿小便嘘嘘汇集6| 亚洲全国av大片| 亚洲一卡2卡3卡4卡5卡精品中文| 妹子高潮喷水视频| 中国美女看黄片| 亚洲色图av天堂| 欧美成人性av电影在线观看| 亚洲va日本ⅴa欧美va伊人久久| 极品教师在线免费播放| 色播在线永久视频| 国产精品爽爽va在线观看网站 | 岛国在线观看网站| 狠狠狠狠99中文字幕| 搞女人的毛片| 高清黄色对白视频在线免费看| 欧美乱码精品一区二区三区| 日韩视频一区二区在线观看| 在线观看舔阴道视频| 亚洲av电影在线进入| 波多野结衣巨乳人妻| 亚洲精品粉嫩美女一区| 精品国内亚洲2022精品成人| 亚洲精品粉嫩美女一区| 可以在线观看毛片的网站| 国产欧美日韩精品亚洲av| 我的亚洲天堂| 亚洲精品粉嫩美女一区| 丁香六月欧美| 嫩草影院精品99| 国产亚洲精品综合一区在线观看 | 男女床上黄色一级片免费看| 免费观看精品视频网站| 在线天堂中文资源库| 精品国内亚洲2022精品成人| 欧美日韩中文字幕国产精品一区二区三区 | 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲少妇的诱惑av| 国产精品秋霞免费鲁丝片| 97碰自拍视频| 欧美黄色淫秽网站| 美女大奶头视频| 老司机午夜福利在线观看视频| 国产在线观看jvid| 欧美成人免费av一区二区三区| 久久国产精品男人的天堂亚洲| 久久久久国产一级毛片高清牌| 久久久国产欧美日韩av| 久久久久久亚洲精品国产蜜桃av| 巨乳人妻的诱惑在线观看| 亚洲欧美精品综合久久99| 97人妻精品一区二区三区麻豆 | 精品久久久久久久久久免费视频| 亚洲精品美女久久av网站| 啦啦啦韩国在线观看视频| 亚洲熟妇熟女久久| 国产99久久九九免费精品| 啦啦啦 在线观看视频| 丁香六月欧美| 久久中文字幕人妻熟女| 在线国产一区二区在线| 叶爱在线成人免费视频播放| 久久久久国产精品人妻aⅴ院| 亚洲aⅴ乱码一区二区在线播放 | 女性被躁到高潮视频| 69av精品久久久久久| 日韩精品中文字幕看吧| 69av精品久久久久久| 国产精品一区二区精品视频观看| 禁无遮挡网站| 男人舔女人的私密视频| 99久久精品国产亚洲精品| 亚洲自拍偷在线| 欧美一级毛片孕妇| 男女做爰动态图高潮gif福利片 | 久热这里只有精品99| 美女扒开内裤让男人捅视频| 免费av毛片视频| xxx96com| 美女高潮到喷水免费观看| 亚洲国产欧美网| 香蕉丝袜av| 欧美精品啪啪一区二区三区| 久久久久国内视频| 亚洲电影在线观看av| 精品欧美国产一区二区三| 麻豆久久精品国产亚洲av| 一进一出抽搐动态| 午夜免费成人在线视频| 亚洲第一欧美日韩一区二区三区| 日本 av在线| 欧美大码av| 国产精品一区二区三区四区久久 | 女性被躁到高潮视频| 亚洲五月天丁香| 亚洲 欧美 日韩 在线 免费| 国产麻豆成人av免费视频| 欧美+亚洲+日韩+国产| 精品一区二区三区四区五区乱码| 日本欧美视频一区| 国内久久婷婷六月综合欲色啪| 亚洲av美国av| 丝袜美足系列| 亚洲av第一区精品v没综合| 在线十欧美十亚洲十日本专区| 夜夜爽天天搞| 999久久久精品免费观看国产| 可以在线观看的亚洲视频| av天堂在线播放| 99久久综合精品五月天人人| 色综合亚洲欧美另类图片| 亚洲国产精品成人综合色| 欧美不卡视频在线免费观看 | 国产成人精品无人区| 97人妻天天添夜夜摸| 十八禁人妻一区二区| 12—13女人毛片做爰片一| 精品一区二区三区四区五区乱码| 丁香欧美五月| 多毛熟女@视频| 人人妻人人爽人人添夜夜欢视频| 国产1区2区3区精品| 久久人妻福利社区极品人妻图片| 亚洲一区中文字幕在线| 日韩高清综合在线| 女人被躁到高潮嗷嗷叫费观| 夜夜夜夜夜久久久久| 精品一品国产午夜福利视频| 黑人欧美特级aaaaaa片| 90打野战视频偷拍视频| 欧美精品啪啪一区二区三区| 99riav亚洲国产免费| 一进一出抽搐gif免费好疼| 日本撒尿小便嘘嘘汇集6| 日韩 欧美 亚洲 中文字幕| 久久午夜综合久久蜜桃| 91精品三级在线观看| 中文字幕高清在线视频| 国产高清有码在线观看视频 | 欧美国产日韩亚洲一区| 日本 av在线| 熟女少妇亚洲综合色aaa.| 亚洲美女黄片视频| 久99久视频精品免费| 亚洲电影在线观看av| 中国美女看黄片| 激情在线观看视频在线高清| 久久中文字幕人妻熟女| 中文字幕高清在线视频| 国产午夜精品久久久久久| 国内精品久久久久精免费| 美女高潮喷水抽搐中文字幕| 国产高清videossex| 久热这里只有精品99| 亚洲精品国产一区二区精华液| 美女免费视频网站| 欧美丝袜亚洲另类 | 午夜视频精品福利| 真人一进一出gif抽搐免费| 日本黄色视频三级网站网址| 在线观看免费日韩欧美大片| 韩国精品一区二区三区| 亚洲精品国产一区二区精华液| 深夜精品福利| 99久久99久久久精品蜜桃| 欧美在线一区亚洲| 老司机靠b影院| av片东京热男人的天堂| 色综合亚洲欧美另类图片| 黄色毛片三级朝国网站| av视频在线观看入口| 妹子高潮喷水视频| 亚洲一区高清亚洲精品| av视频免费观看在线观看| 窝窝影院91人妻| 欧美成人性av电影在线观看| 国产一区二区三区视频了| 最新在线观看一区二区三区| 国产私拍福利视频在线观看| 9191精品国产免费久久| 色精品久久人妻99蜜桃| 久久人人97超碰香蕉20202| 一卡2卡三卡四卡精品乱码亚洲| 99国产精品免费福利视频| 欧美乱色亚洲激情| 国产精华一区二区三区| 午夜免费成人在线视频| 正在播放国产对白刺激| 亚洲人成77777在线视频| 亚洲精品一卡2卡三卡4卡5卡| 在线观看免费午夜福利视频| 国产不卡一卡二| 看免费av毛片| 高清黄色对白视频在线免费看| 亚洲精品国产区一区二| 亚洲第一欧美日韩一区二区三区| 男女床上黄色一级片免费看| 搞女人的毛片| 真人一进一出gif抽搐免费| 亚洲国产毛片av蜜桃av| 黄色a级毛片大全视频| 少妇裸体淫交视频免费看高清 | 免费观看精品视频网站| 久久精品国产亚洲av高清一级| 不卡一级毛片| 色综合欧美亚洲国产小说| 老汉色av国产亚洲站长工具| 欧美精品啪啪一区二区三区| 久久香蕉激情| av欧美777| 黄色毛片三级朝国网站| 一个人观看的视频www高清免费观看 | 日韩三级视频一区二区三区| 成人国产综合亚洲| 18禁黄网站禁片午夜丰满| 久久婷婷人人爽人人干人人爱 | 欧美在线一区亚洲| 日本免费一区二区三区高清不卡 | 久久久水蜜桃国产精品网| 国产精品国产高清国产av| 一级作爱视频免费观看| 在线观看免费视频网站a站| 真人做人爱边吃奶动态| 午夜福利在线观看吧| 国产精品影院久久| 最新美女视频免费是黄的| 91av网站免费观看| 久久婷婷成人综合色麻豆| 色av中文字幕| 视频区欧美日本亚洲| 变态另类成人亚洲欧美熟女 | 久久精品aⅴ一区二区三区四区| 男男h啪啪无遮挡| 这个男人来自地球电影免费观看| av天堂在线播放| xxx96com| 最近最新中文字幕大全免费视频| 日本免费一区二区三区高清不卡 | 人人妻人人爽人人添夜夜欢视频| 亚洲va日本ⅴa欧美va伊人久久| 亚洲一卡2卡3卡4卡5卡精品中文| 国产主播在线观看一区二区| 亚洲在线自拍视频| 女性生殖器流出的白浆| 国产成人精品久久二区二区免费| 制服丝袜大香蕉在线| 亚洲精品一卡2卡三卡4卡5卡| 99香蕉大伊视频| 国产蜜桃级精品一区二区三区| 咕卡用的链子| 久久性视频一级片| 日韩 欧美 亚洲 中文字幕| 99国产精品99久久久久| 18禁裸乳无遮挡免费网站照片 | 1024香蕉在线观看| 亚洲自偷自拍图片 自拍| 99香蕉大伊视频| 国产精品久久久人人做人人爽| 9191精品国产免费久久| 久久午夜亚洲精品久久| 在线观看一区二区三区| 9191精品国产免费久久| 亚洲成av人片免费观看| 精品一品国产午夜福利视频| 黑人操中国人逼视频| 欧美成狂野欧美在线观看| 精品一品国产午夜福利视频| 欧美日本视频| 后天国语完整版免费观看| 欧美黑人精品巨大| 国产亚洲精品一区二区www| 制服诱惑二区| 两个人免费观看高清视频| 亚洲专区字幕在线| 操出白浆在线播放| 久久中文看片网| 成人国产综合亚洲| 性少妇av在线| 人人妻人人爽人人添夜夜欢视频| 激情在线观看视频在线高清| 无人区码免费观看不卡| 88av欧美| 777久久人妻少妇嫩草av网站| 欧美丝袜亚洲另类 |