• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于聚類算法的英語動(dòng)詞詞形分類方法研究

    2022-07-14 09:43:04吳沛瑾
    關(guān)鍵詞:詞形語義聚類

    吳沛瑾

    (蚌埠學(xué)院,安徽 蚌埠 233000)

    1 引言

    英語是被廣泛使用的國際語言,在經(jīng)濟(jì)全球化和世界多元文化格局下,提高全民的英語水平,逐步消除英語溝通障礙顯得十分重要。動(dòng)詞是英語語法中的核心詞匯,具有較高的開放性,存在很多詞形變化的特征[1]。英語動(dòng)詞詞形不僅需要和主語人稱以及數(shù)量保持對應(yīng),還需要依據(jù)句子的時(shí)態(tài)、語態(tài)和語氣進(jìn)行轉(zhuǎn)變。英語動(dòng)詞詞形可以反映動(dòng)作發(fā)生的時(shí)間或存在的狀態(tài)以及反映主語和動(dòng)作之間的關(guān)系[2],同時(shí)還可以表示對某個(gè)動(dòng)作的命令、請求等。由于漢語不包含詞形變化,因長期受到母語的影響,導(dǎo)致很難理解及區(qū)分英語動(dòng)詞詞形,進(jìn)而影響人們的英語學(xué)習(xí)效果。因此,有必要對英語動(dòng)詞詞形進(jìn)行有效分類,幫助人們更好地掌握動(dòng)詞的用法。英語動(dòng)詞詞形分類不僅能為英語教學(xué)提供輔助,還可以豐富翻譯單位和語料庫研究,同時(shí)對于詞典編纂、教材編寫以及文本分析等也發(fā)揮著不可估量的作用[3,4]。傳統(tǒng)分類方法以人工識(shí)別形式為主,雖然準(zhǔn)確度較高,但存在耗時(shí)費(fèi)力以及受數(shù)量限制大等弊端,并且部分非常用詞形很容易被忽略。因此,研究可靠并具有大批量處理能力的英語動(dòng)詞詞形分類方法成為當(dāng)前學(xué)術(shù)領(lǐng)域關(guān)注的重點(diǎn)課題。

    很多學(xué)者均在該課題的研究上取得重大進(jìn)展,例如牛振東等人利用深度隨機(jī)森林完成英語動(dòng)詞詞形分類,該方法能很好地應(yīng)對大規(guī)模數(shù)據(jù)處理問題,但對于復(fù)雜動(dòng)詞詞形的分類效果欠佳[5];丁勇等人利用主題和關(guān)鍵詞特征完成英語動(dòng)詞詞形分類,該方法的泛化能力和時(shí)間性能較為優(yōu)異,但在特征提取時(shí)未考慮特征的詞頻信息[6]。

    為此,本文設(shè)計(jì)了了基于聚類算法的英語動(dòng)詞詞形分類方法。隨著大數(shù)據(jù)時(shí)代的發(fā)展,以聚類算法為核心環(huán)節(jié)的信息檢索技術(shù)在語言識(shí)別領(lǐng)域得到廣泛應(yīng)用,通過K-means 算法和支持向量機(jī)算法的相互協(xié)作,達(dá)到準(zhǔn)確判斷英語動(dòng)詞詞形類別的目的。并通過實(shí)驗(yàn)分析驗(yàn)證了本文分類方法的有效性。

    2 英語動(dòng)詞詞形分類方法設(shè)計(jì)

    2.1 英語動(dòng)詞詞形語義結(jié)構(gòu)模型構(gòu)建

    為了實(shí)現(xiàn)英語動(dòng)詞詞形的分類,首先構(gòu)建了英語動(dòng)詞詞形的語義架構(gòu)模型。英語動(dòng)詞詞形用CS描述,其包含的語義結(jié)構(gòu)數(shù)量為m,在其基礎(chǔ)上通過多元特征分布重新塑造語法規(guī)則,得到英語動(dòng)詞詞形語義特征分布模型,并借助權(quán)重約束手段獲取語義結(jié)構(gòu)特征分布集,同時(shí)引入模糊度檢測,完成英語動(dòng)詞詞形狀態(tài)特征量的提取。令語義策略用Ai描述,在此策略下,英語動(dòng)詞詞形狀態(tài)分布集用V描述,其屬于謂語中心詞,相應(yīng)的承受者用O 描述,英語動(dòng)詞的分級特征量用S 描述,且S=V,任意一個(gè)英語動(dòng)詞用Wi描述,其多級知識(shí)結(jié)構(gòu)用S 和V 描述,Wi的特征語義修飾對象用WGi描述,則可以使用公式(1)描述英語動(dòng)詞詞形狀態(tài)分布的相關(guān)度計(jì)算過程:

    定義β 代表英語動(dòng)詞詞形特征分布的實(shí)數(shù)集,且滿足β∈[0,T],其中英語動(dòng)詞詞形評價(jià)集S內(nèi)的元素有T 個(gè),通過語法樹將英語動(dòng)詞詞形多級知識(shí)表達(dá)模型創(chuàng)建于S 中,并利用最小屬性特征分割對英語動(dòng)詞詞形結(jié)構(gòu)進(jìn)行組合分析[7,8],以獲取公式(2)所示語義信息分布狀態(tài)特征量求解過程:

    式中,ak的取值介于[-0.5,0.5]范圍內(nèi),取整算子用round 描述。依據(jù)語法量化集對該式進(jìn)行求解,可獲得英語動(dòng)詞詞形狀態(tài)特征量,用m 描述。

    針對多級知識(shí)結(jié)構(gòu)的劃分,可以通過分段劃分的形式來完成,使其變?yōu)锳B、AA、PD,并從英語動(dòng)詞的特征分布集中查找相應(yīng)的簡單語義集,分別用AB+S、AA+S 和PD+V 描述,最后借助語義本體特征構(gòu)造方法反映英語動(dòng)詞詞形語義特征,如L→AAPDAB,從而實(shí)現(xiàn)英語動(dòng)詞詞形語義結(jié)構(gòu)模型構(gòu)建。

    2.2 英語動(dòng)詞詞形語義特征表達(dá)

    在上述構(gòu)建的英語動(dòng)詞詞形語義結(jié)構(gòu)模型基礎(chǔ)上,為描述英語動(dòng)詞詞形語義特征,使用語義本體特征構(gòu)造方法來實(shí)現(xiàn),進(jìn)而有效提取英語動(dòng)詞詞形狀態(tài)特征量。

    二元語義信息用{(s1,a1),(s2,a2),…,(sn,an),}描述,與其相匹配的權(quán)重向量用ω=((ω1,a′1),(ω2,a′2),…,(ωn,a′n),)T描述,其中ωj的取值介于[0,1]范圍內(nèi),可使用公式(3)表示加權(quán)算術(shù)平均算子的計(jì)算過程:

    通過有向圖模型重組英語動(dòng)詞詞形狀態(tài),得出相應(yīng)的語法樹模型[9,10]。定義R(rij,aij)m×n代表英語動(dòng)詞詞形評價(jià)矩陣,多級知識(shí)反映的指標(biāo)權(quán)重用W=((ω1,β1),…,(ωn,βn))描述,則公式(4)為將語法樹使用模糊度尋優(yōu)完成歸一化后所得結(jié)果:

    依據(jù)上式所得結(jié)果,獲取有向圖模型內(nèi)的指標(biāo)權(quán)重以及綜合評價(jià)矩陣,分別用W=((ω′2,β2),…,(ω′n,β′n))、X=(rij,a′ij)m×n描述。

    2.3 英語動(dòng)詞詞形狀態(tài)特征量的相似度計(jì)算

    使用余弦相似度對上述過程中獲取的英語動(dòng)詞詞形狀態(tài)特征量之間的相似度進(jìn)行計(jì)算。英語動(dòng)詞詞形間的相似度,即英語動(dòng)詞詞形狀態(tài)特征量之間的夾角余弦值,若想表明英語動(dòng)詞詞形之間具有較高相似度,則余弦值應(yīng)取較大值[11]。該方法的計(jì)算過程用公式(5)描述:

    式中,兩個(gè)英語動(dòng)詞詞形狀態(tài)特征量分別用x、y 描述,兩者位于空間上的距離用Sim(x,y)描述,x的第k 維權(quán)重值用xk描述,y 的第k 維權(quán)重值用yk描述,英語動(dòng)詞詞形狀態(tài)特征量總數(shù)用n 描述,x和y 的模分別用||x||、||y||描述。該式可以轉(zhuǎn)化為公式(6)所示形式:

    通過單位化處理英語動(dòng)詞詞形狀態(tài)特征量x,能夠得到公式(7)所示結(jié)果:

    可采用同樣方式處理英語動(dòng)詞詞形狀態(tài)特征量y,進(jìn)而獲得以下所示公式(5)的轉(zhuǎn)化結(jié)果:

    通過上述轉(zhuǎn)化過程,可顯著提升英語動(dòng)詞詞形狀態(tài)特征量之間相似度的計(jì)算效率。

    2.4 英語動(dòng)詞詞形分類實(shí)現(xiàn)

    依據(jù)上小節(jié)獲得的英語動(dòng)詞詞形狀態(tài)特征量之間相似度的計(jì)算結(jié)果,使用K-means 算法和支持向量機(jī)算法相結(jié)合的方法,對英語動(dòng)詞詞形進(jìn)行分類。

    2.4.1 K-means 算法

    K-means 算法是當(dāng)前應(yīng)用最廣泛的非監(jiān)督、間接性聚類算法之一。該算法定義的參數(shù)用k 描述,據(jù)其將數(shù)量為n 的對象劃分成k 個(gè)簇,以使簇內(nèi)和簇間的相似度分別處于較高、較低水平[12]。其中利用簇內(nèi)對象的均值便能得出簇內(nèi)相似度。

    K-means 算法基本原理:采用隨機(jī)形式抽取數(shù)量為k 的對象,各對象均能表示一個(gè)聚類中心,針對未抽取到的對象,依據(jù)某對象和每個(gè)聚類中心間的距離,將其劃分至與自身相似度最高的聚類中,并重新求解各聚類的聚類中心。循環(huán)執(zhí)行以上步驟,當(dāng)準(zhǔn)則函數(shù)達(dá)到收斂狀態(tài)時(shí),則停止循環(huán)。

    (1)假設(shè)英語動(dòng)詞詞形劃分的類別個(gè)數(shù)為k,則需要以隨機(jī)形式選取數(shù)量為k 的初始中心向量。

    (2)對各英語動(dòng)詞詞形和k 個(gè)聚類中心之間的距離進(jìn)行計(jì)算,依據(jù)相似度結(jié)果將所有英語動(dòng)詞詞形歸入相應(yīng)的類別。當(dāng)運(yùn)算執(zhí)行次數(shù)為m 時(shí),第i類的聚類中心用Ci(m)描述,其中i 的取值介于[1,k]范圍內(nèi)。在滿足D(t)-Cj(m)<D(t)-Ci(m)的條件下,且i和j 的值不相等時(shí),則表明英語動(dòng)詞詞形D(t)和聚類中心Cj(m)的相似度最高,將其分配到類θj中。

    (3)在計(jì)算k 個(gè)類的平均距離的基礎(chǔ)上,利用公式(9)求解k 個(gè)新聚類中心:

    式內(nèi),類θj內(nèi)的總點(diǎn)數(shù)用Mj描述。

    (4)依據(jù)最小距離原則,利用求出的新聚類中心重新實(shí)現(xiàn)所有英語動(dòng)詞詞形的聚類。循環(huán)執(zhí)行上述過程,停止條件為聚類中心不再發(fā)生變化。

    2.4.2 支持向量機(jī)算法

    創(chuàng)建符合分類標(biāo)準(zhǔn)的最優(yōu)超平面,并將其視為決策曲面,以最大化正、反例間的隔離邊緣[13,14],即支持向量機(jī)(Support Vector Machine,SVM)的基本原理。

    針對線性可分問題,假設(shè)訓(xùn)練樣本用{Xi,yi)}Ni=1描述,其中輸入模式中次序?yàn)閕 的例子用Xi描述,表示為Xi=(x1,…,x2,…xn),目標(biāo)輸出用yi描述,則可使用公式(10)描述分類超平面符合的約束條件:

    式中,權(quán)值向量用W 描述;偏置用k 描述;i 的取值介于[1,n]范圍內(nèi)。此時(shí)可使用Δ=2/||W||2表示分類間隔,因此能將最優(yōu)超平面建立問題轉(zhuǎn)化為在公式(10)的條件下,求解Φ(x)=||W||2/2 的問題,該式的解僅存在一個(gè),最優(yōu)超平面即最小化Φ(x)的分類平面。

    針對線性不可分問題,通過正松弛因子和錯(cuò)誤懲罰參數(shù)的引入,將上式轉(zhuǎn)化為公式(11)所示形式,同時(shí)使用公式(12)描述目標(biāo)函數(shù):

    式中,正松弛因子錯(cuò)誤懲罰參數(shù),分別用ξi、C描述。

    依據(jù)拉格朗日(Lagrange)乘子法,使用公式(13)描述以上問題轉(zhuǎn)化后的對偶形式:

    式中,Lagrange 乘子用α 描述,αi的值大于等于0,且小于等于C。αi、W 和k 的最優(yōu)解分別用αi*、W*以及k*描述,對其進(jìn)行計(jì)算 可獲得 公式(14)所示分類函數(shù):

    式中,符號函數(shù)用sgn(·)描述;輸入向量用X描述。

    通過非線性映射處理輸入向量,使其呈現(xiàn)在高維特征向量空間[15],最優(yōu)分類面可在該空間內(nèi)進(jìn)行創(chuàng)建,并選取合適的核函數(shù),即可將非線性問題轉(zhuǎn)化為線性分類。

    2.4.3 融合K-means 和SVM 的英語動(dòng)詞詞形分類過程

    (1)初始聚類。輸入樣本用D(t)=[d1(t,)d2(t),…,dn(t)]T描述,使用K-means 算法實(shí)現(xiàn)輸入樣本的初始聚類,獲得類別數(shù)為k。

    (2)選擇訓(xùn)練樣本。針對以上步驟生成的各類樣本,以其內(nèi)英語動(dòng)詞詞形數(shù)量作為標(biāo)準(zhǔn),從中選取距離聚類中心較近的英語動(dòng)詞詞形進(jìn)行SVM 訓(xùn)練。

    (3)使用SVM 完成分類。利用以上步驟獲得的訓(xùn)練集對SVM 進(jìn)行訓(xùn)練,并通過完成訓(xùn)練的SVM重新分類初始樣本,以獲得新的英語動(dòng)詞詞形分類結(jié)果。

    3 實(shí)驗(yàn)分析

    將從某語料庫不同使用頻率的英語動(dòng)詞集中,抽取的2000 個(gè)不同詞形變化的英語動(dòng)詞作為實(shí)驗(yàn)對象,其包含動(dòng)詞原形、第三人稱單數(shù)、過去式、過去分詞和現(xiàn)在分詞5 種英語動(dòng)詞詞形類別,且存在不規(guī)則變化的動(dòng)詞,使用本文方法對這2000 個(gè)英語動(dòng)詞進(jìn)行分類,以驗(yàn)證該方法的分類能力。

    分別從5 種英語動(dòng)詞詞形類別中隨機(jī)選擇3個(gè)規(guī)則動(dòng)詞,再另外選擇2 個(gè)不規(guī)則動(dòng)詞進(jìn)行分類測試,使用表1 描述本文方法計(jì)算的各英語動(dòng)詞詞形狀態(tài)特征量的相似度結(jié)果,與之對應(yīng)的英語動(dòng)詞詞形分類結(jié)果用表2 描述。

    表1 英語動(dòng)詞詞形狀態(tài)特征量的相似度

    表2 英語動(dòng)詞詞形分類結(jié)果

    從表2 可以看出,不同英語動(dòng)詞詞形類別中不存在分類錯(cuò)誤的動(dòng)詞,對于規(guī)則變化的動(dòng)詞,過去式和過去分詞類別中的動(dòng)詞完全相同,這是由于這兩種類型具有一致的英語動(dòng)詞詞形變化方式;對于不規(guī)則變化的動(dòng)詞became 和broken,本文方法均能將其分類到正確的類別中。表明本文方法對規(guī)則及不規(guī)則變化的英語動(dòng)詞詞形均具有較優(yōu)異的分類效果,且該方法的英語動(dòng)詞詞形狀態(tài)特征量的相似度計(jì)算結(jié)果準(zhǔn)確性較高,能夠?yàn)楹罄m(xù)分類提供可靠依據(jù)。

    引入調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)衡量本文方法的英語動(dòng)詞詞形分類性能,該系數(shù)的取值介于[0,1]范圍內(nèi),其值越大,表明方法的分類結(jié)果與實(shí)際情況的吻合度越高。將錯(cuò)誤懲罰參數(shù)分別設(shè)置為3、6、9、12,測試不同正松弛因子下,本文方法的分類調(diào)整蘭德系數(shù)結(jié)果,具體用圖1 描述。

    圖1 英語動(dòng)詞詞形分類調(diào)整蘭德系數(shù)結(jié)果

    分析圖1 可以發(fā)現(xiàn),在正松弛因子不斷增大的情況下,不同錯(cuò)誤懲罰參數(shù)對應(yīng)的英語動(dòng)詞詞形分類調(diào)整蘭德系數(shù)均呈現(xiàn)出先上升,并在達(dá)到極值后開始下降的趨勢,當(dāng)正松弛因子增大至3000 時(shí),不同錯(cuò)誤懲罰參數(shù)對應(yīng)的分類調(diào)整蘭德系數(shù)均處于最高值,其中最大值十分接近于1,當(dāng)正松弛因子一定時(shí),錯(cuò)誤懲罰參數(shù)取9 時(shí)對應(yīng)的分類調(diào)整蘭德系數(shù)始終保持最高,且在達(dá)到極值后的下降速率極其緩慢,其余值對應(yīng)的分類調(diào)整蘭德系數(shù)下降速率較快。以上結(jié)果可得,將正松弛因子和錯(cuò)誤懲罰參數(shù)分別設(shè)置為3000、9 時(shí),可獲得更好的英語動(dòng)詞詞形分類效果。

    4 結(jié)束語

    英語動(dòng)詞詞形分類對語言研究和語言教學(xué)的發(fā)展起著重要的推動(dòng)作用,為解決已有分類方法存在的分類效果較差等問題,本文研究基于聚類算法的英語動(dòng)詞詞形分類方法。該方法利用余弦相似度能準(zhǔn)確計(jì)算英語動(dòng)詞詞形狀態(tài)特征量之間的相似度,從而為分類提供可靠的數(shù)據(jù)支持。該方法通過K-means 算法和支持向量機(jī)的相互協(xié)作,可以對規(guī)則變化與不規(guī)則變化的英語動(dòng)詞詞形進(jìn)行有效分類,并且該方法通過測試已證明可以獲得更好分類效果的參數(shù)設(shè)置。

    猜你喜歡
    詞形語義聚類
    詞形變換解題指導(dǎo)
    韓國學(xué)校語法中副詞形語尾的變遷
    語言與語義
    帶前置功能的詞形《 в сопоставлениис 》的結(jié)構(gòu)與搭配
    山東青年(2018年7期)2018-11-06 06:13:12
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    認(rèn)知范疇模糊與語義模糊
    自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    思南县| 清涧县| 米易县| 图片| 特克斯县| 屯门区| 元氏县| 南昌县| 鹰潭市| 辽中县| 南陵县| 泰和县| 那坡县| 桐城市| 连城县| 五河县| 台东县| 乐都县| 涪陵区| 彭泽县| 临泉县| 盘山县| 丰镇市| 喀喇| 新郑市| 阿拉善盟| 天峻县| 田东县| 怀仁县| 紫阳县| 苍溪县| 哈尔滨市| 井陉县| 平顶山市| 山阴县| 长乐市| 错那县| 霍林郭勒市| 罗山县| 昭通市| 扎鲁特旗|