• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向文本聚類的實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型研究

    2018-06-14 07:38:34劉作國陳笑蓉
    中文信息學(xué)報(bào) 2018年5期
    關(guān)鍵詞:謂詞語句句型

    劉作國,陳笑蓉

    (貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025)

    0 前言

    近年來,語義實(shí)體建模逐漸成為信息挖掘領(lǐng)域的研究熱點(diǎn)。語義實(shí)體建模挖掘文本中有價(jià)值的命名實(shí)體(人物、事件等),建立實(shí)體間的關(guān)聯(lián),構(gòu)建實(shí)體鏈接和知識(shí)庫,在信息抽取、句法分析、機(jī)器翻譯、語義消歧、問答系統(tǒng)等諸多應(yīng)用領(lǐng)域具有巨大的研究價(jià)值和深遠(yuǎn)的應(yīng)用前景。

    目前,國內(nèi)外的大多數(shù)實(shí)體建模技術(shù)主要面向信息挖掘領(lǐng)域[1-2]和問答系統(tǒng)[3-4],關(guān)注實(shí)體的領(lǐng)域概念及映射關(guān)聯(lián)。挖掘深度主要停留在詞匯層面,缺少句法層面的分析[5-7],挖掘出的特征實(shí)體可能不是語句謂詞的施體或受體,在語句中并不充當(dāng)主要成分。例如語句“刺殺肯尼迪的兇手被捕了”,通常很多模型能挖掘出命名實(shí)體“肯尼迪”,但也很容易受此誤導(dǎo),認(rèn)為肯尼迪被捕。

    現(xiàn)行的實(shí)體描述模型注重刻畫實(shí)體關(guān)系而忽略了行為及狀態(tài)[8-9]。模型能夠描述家族族譜、組織機(jī)構(gòu)關(guān)系等靜態(tài)關(guān)聯(lián),但難以刻畫實(shí)體的動(dòng)作行為、狀態(tài)變遷及屬性變化。例如“Joe送給Bob玩具”的行為,Bob很開心的狀態(tài)都難以刻畫。

    目前國內(nèi)外有一些建立在句法分析層面上的文本實(shí)體挖掘研究[10]。本文認(rèn)為,這些研究關(guān)注“是什么”的問題,而文本聚類更關(guān)心“關(guān)于什么”的問題。例如以下兩個(gè)語句:

    例1A: 中國隊(duì)?wèi)?zhàn)勝了日本隊(duì)。

    例2B: 日本隊(duì)?wèi)?zhàn)勝了中國隊(duì)。

    兩個(gè)語句所表述的語義截然相反,但它們都涉及了中國隊(duì)與日本隊(duì)的比賽。從聚類分析的角度來看,兩句話是相似的。本文希望建立一個(gè)以漢語文本聚類為目標(biāo)的實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型(entity-action relationship model,EARM),通過句法分析挖掘文本中的實(shí)體關(guān)系,描述動(dòng)作及參與主體,并實(shí)施聚類分析。

    1 實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型EARM

    1.1 相關(guān)概念闡述

    漢語的功能同其他人類語言一樣,都是描述主觀和客觀的世界,即描述事物發(fā)生的行為、所處的狀態(tài)及具有的認(rèn)知等。本文希望從漢語語句中實(shí)體的行為及狀態(tài)出發(fā),挖掘行為的參與者或狀態(tài)主體,建立表示文本的實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型。以下對(duì)本文論述的相關(guān)概念進(jìn)行闡述。

    動(dòng)作: 對(duì)行為、關(guān)系、狀態(tài)、認(rèn)知等的描述。

    實(shí)體: 動(dòng)作的施體或受體。

    動(dòng)作元: 動(dòng)作發(fā)生時(shí)關(guān)聯(lián)的實(shí)體。

    本文將事物的行為、關(guān)系、狀態(tài)、認(rèn)知等關(guān)聯(lián)統(tǒng)稱為動(dòng)作。動(dòng)作可以是單獨(dú)的謂詞,也可以是謂詞的復(fù)合結(jié)構(gòu)。借鑒動(dòng)詞配價(jià)理論,將動(dòng)作分為零元、一元、二元、三元這四類動(dòng)作[11]。零元?jiǎng)幼靼l(fā)生時(shí)沒有關(guān)聯(lián)的實(shí)體,如“下雨”“刮風(fēng)”。一元?jiǎng)幼骶哂幸粋€(gè)關(guān)聯(lián)主體,如“[我]累了”。二元?jiǎng)幼骶哂兄黧w(也稱施體)和受體,如“[他]打[我]”“[我]擦[桌子]”。三元?jiǎng)幼鞫喑霈F(xiàn)在雙賓語句型中,具有主體(施體)、直接賓語(受體)、間接賓語(受體)這三個(gè)關(guān)聯(lián)實(shí)體,如“[他]遞給[我][錢]”。值得注意的是,在漢語語句中有時(shí)動(dòng)作的關(guān)聯(lián)實(shí)體可以省略,如“[我]已經(jīng)給(你)(錢)了”。

    實(shí)體可以是單獨(dú)的體詞,也可以是復(fù)合結(jié)構(gòu)[12]。實(shí)體與體詞的區(qū)別在于,體詞只描述客觀存在或抽象的概念,但未必參與動(dòng)作。例如“我送給他的禮物被偷了”,語句涉及三個(gè)體詞“我”、“他”、“禮物”,但動(dòng)作“偷”則只涉及一個(gè)實(shí)體“禮物”。

    1.2 EARM模型定義

    根據(jù)前文闡述,基于實(shí)體動(dòng)作關(guān)聯(lián)的EARM模型定義如下:

    定義1EARM: EARM由實(shí)體、動(dòng)作、動(dòng)作元這三個(gè)要素構(gòu)成,描述形式如式(1)所示。

    EARM=Action(R(E))

    (1)

    Action為動(dòng)作集合;E為實(shí)體集合;R(E)表示動(dòng)作元,即發(fā)生關(guān)聯(lián)的實(shí)體。例如,“市長/來到/西吉縣將臺(tái)堡/瞻仰/紅軍/長征/會(huì)師/紀(jì)念碑”,該語句屬于連謂句型:

    E={市長, 西吉縣將臺(tái)堡, 紅軍, 紀(jì)念碑};

    R= {(市長, 西吉縣將臺(tái)堡),(市長, 紀(jì)念碑), (紅軍, 長征),(紅軍, 會(huì)師)};

    Action={來到, 瞻仰, 長征, 會(huì)師}。EARM= {來到(市長, 西吉縣將臺(tái)堡), 瞻仰(市長, 紀(jì)念碑), 長征(紅軍), 會(huì)師(紅軍)}

    對(duì)應(yīng)實(shí)體—?jiǎng)幼麝P(guān)系如圖1所示。

    圖1 實(shí)體關(guān)聯(lián)模型

    1.3 句法成分識(shí)別

    漢語句法分析比印歐語系的句法分析更為困難,這是由漢語本身的語法特點(diǎn)決定的。朱德熙先生在《語法答問》[13]中提到: 漢語屬于非形態(tài)語言。與印歐語系相比,雖然漢語語法靈活多變,但又強(qiáng)調(diào)詞序;雖然漢語虛詞對(duì)描述語義有重要貢獻(xiàn),但又時(shí)常省略部分虛詞。朱先生總結(jié)了漢語的兩大特點(diǎn): 一是漢語詞類跟句法成分之間并非簡單的一一對(duì)應(yīng)關(guān)系,其句法成分對(duì)應(yīng)關(guān)系如圖2所示;二是漢語句子的構(gòu)造原則跟詞組的構(gòu)造原則基本一致。

    圖2 漢語句法成分對(duì)應(yīng)關(guān)系

    基于漢語句法這兩個(gè)特點(diǎn),必須建立成分識(shí)別機(jī)制,識(shí)別語句中的動(dòng)作和實(shí)體。由于漢語詞匯沒有時(shí)態(tài)、語態(tài)的變化,句法格式也不像英語那樣嚴(yán)格,語句成分缺省和倒裝的現(xiàn)象比英語更普遍[14-15]。為了準(zhǔn)確分析出動(dòng)作的參與者,應(yīng)當(dāng)建立句法關(guān)聯(lián)分析器。

    相關(guān)研究顯示,體詞通常作為語句的主語或賓語,謂詞主要作為謂語成分。本文參考文獻(xiàn)[16]提出的實(shí)體關(guān)系模式獲取策略,設(shè)計(jì)了基于句型結(jié)構(gòu)的EARM模型構(gòu)造器。構(gòu)造器包括成分識(shí)別器(recognizing machine)、關(guān)聯(lián)分析器(analyzing machine)、體詞特征規(guī)則(nominal rules)、謂詞特征規(guī)則(predicate rules)、句型特征庫(syntax library),如圖3所示。

    (1) 成分識(shí)別

    建立EARM的關(guān)鍵在于識(shí)別實(shí)體及動(dòng)作。本文借助復(fù)旦大學(xué)中文語料庫,對(duì)其中的大量語句進(jìn)行了人工標(biāo)注,并參考朱德熙先生的觀點(diǎn)(圖2的句法成分對(duì)應(yīng)關(guān)系),對(duì)漢語的體詞及謂詞類別特征進(jìn)行了研究和總結(jié),分別建立體詞規(guī)則庫和謂詞規(guī)則庫,概括了各類體詞和謂詞的特征。

    圖3 EARM構(gòu)造器

    體詞特征包括:

    ① 名詞;

    ② 動(dòng)詞;

    ③ 以名詞為中心的偏正短語結(jié)構(gòu);

    ④ 以動(dòng)詞為中心的偏正短語結(jié)構(gòu);

    ⑤ 多個(gè)體詞構(gòu)成的聯(lián)合結(jié)構(gòu)。

    謂詞特征包括:

    ① 動(dòng)詞;

    ② 形容詞,語句結(jié)構(gòu)為體詞+形容詞或體詞+副詞+形容詞;

    ③ 以謂詞為中心的偏正短語結(jié)構(gòu);

    ④ 多個(gè)謂詞構(gòu)成的聯(lián)合結(jié)構(gòu)。

    成分識(shí)別器根據(jù)特征規(guī)則識(shí)別實(shí)體及動(dòng)作,下面介紹相關(guān)規(guī)則。

    規(guī)則1實(shí)體識(shí)別規(guī)則: 以下結(jié)構(gòu)特征識(shí)別為實(shí)體:

    ① 單獨(dú)的體詞;

    ② 多個(gè)體詞形成的聯(lián)合結(jié)構(gòu),如并列結(jié)構(gòu)、緊縮結(jié)構(gòu)等;

    ③ 以體詞為中心的偏正結(jié)構(gòu),如“產(chǎn)生的煙霧”;

    ④ 謂詞+體詞構(gòu)成的動(dòng)賓結(jié)構(gòu),如“練習(xí)游泳”。

    規(guī)則2動(dòng)作識(shí)別規(guī)則: 以下結(jié)構(gòu)特征識(shí)別為動(dòng)作:

    ① 單獨(dú)的謂詞;

    ② 多個(gè)謂詞構(gòu)成的聯(lián)合結(jié)構(gòu),如“進(jìn)行分析”;

    ③ 以謂詞為核心的偏正結(jié)構(gòu),如“奮勇地拼搏”。

    (2) 關(guān)聯(lián)分析

    文獻(xiàn)[17-18]指出,漢語句型包括主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)、偏正結(jié)構(gòu)、補(bǔ)充結(jié)構(gòu)、聯(lián)合結(jié)構(gòu)五類基本句型。由這五類基本句型可以構(gòu)成連謂結(jié)構(gòu)、同位語結(jié)構(gòu)、雙賓語結(jié)構(gòu)、兼語結(jié)構(gòu)等復(fù)雜句型。作者對(duì)各類句型特征進(jìn)行了分析歸納,建立句型特征庫。例如以下是連謂句型的特征。

    特征1連謂句型特征: 實(shí)體1+動(dòng)作1+實(shí)體2+動(dòng)作2+實(shí)體3

    EARM描述: 動(dòng)作1(實(shí)體1,實(shí)體2),動(dòng)作2(實(shí)體1,實(shí)體3)。

    例如“他E/伸出A/手E/接過A/煙E”,對(duì)應(yīng)描述為: “他伸出手”“他接過煙”。

    以下是兼語句型的特征。

    特征2兼語句型特征: 實(shí)體1+動(dòng)作1+實(shí)體2+動(dòng)作2,且實(shí)體2是動(dòng)作2的施體。

    EARM描述: 動(dòng)作1(實(shí)體1,實(shí)體2),動(dòng)作2(實(shí)體2)。

    例如,“他的話E/讓A/我E/落淚A”,對(duì)應(yīng)描述為: “他的話讓我”“我落淚”。

    (3) 模型建立

    借助體詞特征規(guī)則和謂詞特征規(guī)則,由成分識(shí)別器識(shí)別語句成分(體詞、謂詞),關(guān)聯(lián)分析器檢驗(yàn)句型結(jié)構(gòu)并挖掘?qū)嶓w關(guān)系。設(shè)語句s長度為n,構(gòu)建s的EARM的總體過程如下:

    過程1語句EARM構(gòu)建總體過程

    Function: CreateEARM(s)

    Begin

    Sets=(w1,w2,…,wn);

    Loop: eachwins:

    Matchwwith Nomial and Predicate rules;

    EndLoop

    Return matchedresult;

    Loop: eachsyntaxin Syntax library

    If:resultmatchessyntax

    Create a newEARMbyrule;

    EndIf

    EndLoop

    Output all EARM;

    End

    1.4 實(shí)體調(diào)序機(jī)制

    通常情況下實(shí)體與動(dòng)作具有如下關(guān)聯(lián):

    規(guī)則3一般實(shí)體—?jiǎng)幼麝P(guān)聯(lián)規(guī)則:

    ① 零元?jiǎng)幼鳠o實(shí)體與之關(guān)聯(lián);

    ② 一元?jiǎng)幼魍ǔ橹髦^結(jié)構(gòu),它的施體位于動(dòng)作之前,如“我困了”;

    ③ 二元?jiǎng)幼魍ǔ橹髦^賓結(jié)構(gòu),動(dòng)作的施體位于動(dòng)作之前,受體位于動(dòng)作之后,如“我擦桌子”;

    ④ 三元?jiǎng)幼魍ǔ殡p賓結(jié)構(gòu),動(dòng)作的施體位于動(dòng)作之前、直接賓語和間接賓語位于動(dòng)作之后,如“他遞給我一支煙”。

    規(guī)則3總結(jié)了一般情況下的實(shí)體關(guān)聯(lián)規(guī)則,但漢語句法結(jié)構(gòu)較為靈活,有時(shí)會(huì)出現(xiàn)語句成分(實(shí)體、動(dòng)作)缺省或移位的情況[19-20],例如,“桌子我已經(jīng)擦了”。

    根據(jù)實(shí)體的定義及規(guī)則1,作者認(rèn)為體詞的連續(xù)(緊鄰)出現(xiàn)有多種情況,但實(shí)體的連續(xù)出現(xiàn)只能由以下兩類情況引發(fā):

    ① 雙賓語或賓語從句,例如,“我告訴她這件事”;

    ② 語句成分移位現(xiàn)象。

    若模型構(gòu)造器識(shí)別到緊鄰的實(shí)體a和b,從句型庫匹配雙賓語句型,若匹配失敗則說明不屬于①類情形而屬于②類現(xiàn)象。檢查匹配程度最高的句型特征進(jìn)行實(shí)體調(diào)序。設(shè)語句s經(jīng)過模型構(gòu)造器識(shí)別后抽象出ne個(gè)實(shí)體,na個(gè)動(dòng)作,k=ne+na。則s=(s1,s2,…,sk),實(shí)體調(diào)序過程如下:

    過程2實(shí)體調(diào)序過程

    Function: EntityReorg(s)

    Begin

    Sets=(s1,s2,…,sk);

    Loop: eachsiins,i

    If:siandsi+1belong EntitySet

    //find continuous Entity

    Checkswith Syntax library;

    Loop:sdoesn’t match Double

    Object Syntax

    //entity recoganizing

    Get another nearestsyntax

    from Syntax library;

    Get location ofsi,si+1,

    predicatep;

    //assumesi+1is closer top

    Movesireference onsyntax;

    Get new sentences′;

    If:s′ matches Syntax library

    //s′ is a Chinese sentence

    Outputs′;

    EndIf

    EndLoop

    EndIf

    EndLoop

    End

    例:s=“桌子我已經(jīng)擦了”,句型為實(shí)體a(桌子)+實(shí)體b(我)+動(dòng)作v(已經(jīng)擦了)。b距離v更近。

    ① 采用雙實(shí)語句型實(shí)施調(diào)序:syntax=動(dòng)作+實(shí)體+動(dòng)作。將實(shí)體a(桌子)進(jìn)行試移位,但對(duì)于a的所有位移結(jié)果s′,syntax均無法成功匹配,故syntax不是最佳句型;

    ② 再以主謂賓句型實(shí)施調(diào)序:syntax=實(shí)體+動(dòng)作+實(shí)體進(jìn)行匹配,將實(shí)體a(桌子)進(jìn)行試移位,s′=“我已經(jīng)擦了桌子”與syntax成功匹配。動(dòng)作v為二元?jiǎng)幼鳎瑒?dòng)作描述為: 已經(jīng)擦了(我,桌子)。

    ③ 如果對(duì)實(shí)體b(我)進(jìn)行位移,則匹配結(jié)果為s’=“桌子已經(jīng)擦了我”,動(dòng)作描述為: 已經(jīng)擦了(桌子,我)。雖然動(dòng)作施體和受體顛倒,但前文已經(jīng)論述過聚類分析并不強(qiáng)調(diào)區(qū)別施體和受體,②和③的動(dòng)作差別在聚類分析中可以忽略。

    2 文本表示

    本節(jié)基于EARM進(jìn)行文本表示。一個(gè)文本包含多個(gè)語句,每個(gè)語句對(duì)應(yīng)一個(gè)實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型: EARM=Action(R(E))。合并各語句的實(shí)體和動(dòng)作可建立文本的EARM表示模型。

    2.1 動(dòng)作層次分解

    語句中的各動(dòng)作可能處于不同的層級(jí)。例如圖1中動(dòng)作“來到”、“瞻仰”處于第一層級(jí),“長征”、“會(huì)師”處于第二層級(jí)。建立EARM時(shí)應(yīng)當(dāng)對(duì)多級(jí)動(dòng)作實(shí)施層次分解,合并實(shí)體及動(dòng)作關(guān)聯(lián)。

    本文認(rèn)為EARM的動(dòng)作通常沒有分解的必要,語句分解主要是對(duì)關(guān)聯(lián)實(shí)體進(jìn)行遞歸分解,將復(fù)雜的實(shí)體分解為簡單的體詞或語句。漢語句型結(jié)構(gòu)通常不超過二層,三層以下的語句成分對(duì)EARM的貢獻(xiàn)已經(jīng)較小。本文設(shè)定動(dòng)作層次分解的最大深度為三層,采用底層替換規(guī)則將第三層的動(dòng)作替換為簡單句型。

    規(guī)則4動(dòng)作層次分解規(guī)則:

    ① 由高層向低層逐層分解;

    ② 將復(fù)雜語句分解為簡單語句,例如1.3節(jié)連謂句特征和兼語特征;

    ③ 對(duì)復(fù)雜結(jié)構(gòu)的實(shí)體,如賓語從句,從句+體詞構(gòu)成的偏正結(jié)構(gòu)等,分解為主句和從句,主句實(shí)體簡化為原實(shí)體的中心詞,從句按照以上過程遞歸分解;

    ④ 如果存在第三層結(jié)構(gòu),則進(jìn)行底層替換。

    規(guī)則5底層替換規(guī)則:

    ① 偏正短語替換為該短語的中心詞;

    ② 一元?jiǎng)幼骱投獎(jiǎng)幼魈鎿Q為動(dòng)作的謂詞;

    ③ 三元?jiǎng)幼魈鎿Q為動(dòng)作的直接賓語,如“他遞給我一支煙”替換為“煙”;

    ④ 多個(gè)實(shí)體或動(dòng)作構(gòu)成的聯(lián)合句型,按照①~③分別替換,構(gòu)造成并列結(jié)構(gòu)“X和Y”。

    以圖1的例句“市長E/來到A/西吉縣將臺(tái)堡E/瞻仰A/紅軍E/長征A/會(huì)師A/紀(jì)念碑E”為例,該語句屬于連謂句型。動(dòng)作層次分解結(jié)果如圖4所示,語句分解為“市長來到西吉縣將臺(tái)堡”“市長瞻仰紀(jì)念碑”“紅軍長征和會(huì)師”三個(gè)簡單語句。

    圖4 動(dòng)作層次分解

    2.2 建立EARM

    (1) 合并語句模型

    基于語句EARM構(gòu)建文本的EARM,設(shè)動(dòng)作Action1(R(E1))、Action2(R(E2)),有E=E1∩E2≠?。合并相同實(shí)體集E,即將中心詞相同的實(shí)體進(jìn)行合并;合并實(shí)體后若Action1=Action2,合并Action。建立文本的表示模型EARM=Action(R(E))。

    (2) 實(shí)施權(quán)重量化

    經(jīng)過動(dòng)作層次分解,復(fù)雜實(shí)體已經(jīng)簡化為簡單實(shí)體,本節(jié)借助詞頻TF來量化實(shí)體和動(dòng)作對(duì)表示文本的貢獻(xiàn)。實(shí)體e在文本d中的權(quán)重量化為e在d中的詞頻,如式(2)所示。

    WE(e,d)=TF(e,d)

    (2)

    n元?jiǎng)幼鱝在文本d中的權(quán)重量化為a的所有動(dòng)作元的共現(xiàn)頻率,如式(3)所示。

    (3)

    其中TF(e,d)為實(shí)體e在文本d中的詞頻,TF(e1,Λ,en,d)為n個(gè)實(shí)體e1,Λ,en在文本d中的共現(xiàn)頻率。

    2.3 文本相似性度量

    兩個(gè)文本中,實(shí)體及謂詞完全相同的動(dòng)作是極少的,但相同的實(shí)體或相同的謂詞是廣泛存在的。作者將單個(gè)文本的EARM視為一個(gè)有向圖結(jié)構(gòu),如式(4)所示。

    EARM=G=

    (4)

    Node為圖的節(jié)點(diǎn)集合,對(duì)應(yīng)EARM實(shí)體集合E,?i∈E,Wnode(i)=WE(i);Edge為圖的邊集,對(duì)應(yīng)EARM謂詞集合Action,?i∈Action,Wedge(i)=WA(i)。兩個(gè)文本的相似度即對(duì)應(yīng)的實(shí)體—?jiǎng)幼麝P(guān)聯(lián)模型EARM的相似度,等價(jià)于有向圖G的相似度。

    本文在文獻(xiàn)[21]中設(shè)計(jì)并實(shí)現(xiàn)了一種基于最大公共子圖的文本相似度計(jì)算模型GBTS。本文沿用相關(guān)計(jì)算策略,將有向圖GA、GB的相似度定義為其最大公共子圖的節(jié)點(diǎn)相似度NS與邊相似度ES之和,如式(5)所示。

    Sim(A,B)=NS(A,B)+ES(A,B)

    (5)

    節(jié)點(diǎn)相似度NS計(jì)算如式(6)所示。

    (6)

    邊點(diǎn)相似度ES計(jì)算為如式(7)所示。

    (7)

    其中0≤α≤1為權(quán)重調(diào)節(jié)因子。若α→1,算法強(qiáng)調(diào)節(jié)點(diǎn)相似度;若α→0,算法強(qiáng)調(diào)邊相似度。Sum()為權(quán)重累加函數(shù),如式(8)所示。

    (8)

    2.4 計(jì)算復(fù)雜性分析

    VSM和EARM均采用相同的聚類算法實(shí)施聚類,本節(jié)只討論兩種模型在提取文本特征和計(jì)算文本相似度時(shí)的差異。

    設(shè)文本集為S=(t1,…,tk),包含N個(gè)特征項(xiàng),實(shí)體及動(dòng)作總數(shù)為M,文本集語句總數(shù)量為P;文本ti的語句數(shù)量為pi,動(dòng)作層次分解后文本ti的語句數(shù)量為qi,文本集語句數(shù)量為Q。在一般情況下pi≤qiP≤QM

    VSM空間維度等于文本集的特征數(shù)目n,構(gòu)建n維空間向量并計(jì)算兩個(gè)文本的距離,時(shí)間復(fù)雜度為O(N),空間復(fù)雜度為O(N)。

    EARM處理整個(gè)文本集需要分析P個(gè)語句,M個(gè)實(shí)體及動(dòng)作,并存儲(chǔ)Q個(gè)關(guān)聯(lián)模型,時(shí)間復(fù)雜度為O(P+M),空間復(fù)雜度為O(Q)。EARM的時(shí)間復(fù)雜度及存儲(chǔ)空間開銷均比VSM更低。

    此外,就單個(gè)文本ti的分析而言,EARM時(shí)間復(fù)雜度僅為O(pi),空間復(fù)雜度為O(qi),VSM時(shí)間復(fù)雜度和空間復(fù)雜度仍為O(N)。可見不論是單個(gè)文本的挖掘還是整個(gè)文本集合的分析,EARM都更有效率。

    3 實(shí)驗(yàn)分析

    本文共包括兩個(gè)實(shí)驗(yàn): 語句實(shí)體動(dòng)作分析實(shí)驗(yàn)檢驗(yàn)EARM對(duì)語句分析的效果。聚類實(shí)驗(yàn)檢驗(yàn)EARM計(jì)算文本相似度的準(zhǔn)確性。本文語料庫來自復(fù)旦大學(xué)中文語料庫。分別選取藝術(shù)、哲學(xué)、經(jīng)濟(jì)、政治、軍事、農(nóng)業(yè)、通信、運(yùn)輸、法律、醫(yī)藥十個(gè)類別的文本進(jìn)行實(shí)驗(yàn)。

    3.1 語句實(shí)體動(dòng)作分析實(shí)驗(yàn)

    從十個(gè)類別的文本中隨機(jī)選取5 000個(gè)語句,共計(jì)五萬個(gè)語句構(gòu)成本實(shí)驗(yàn)的數(shù)據(jù)。本文對(duì)語句集進(jìn)行了人工標(biāo)注。使用無標(biāo)注的數(shù)據(jù)集進(jìn)行EARM句法分析,并與人工標(biāo)注結(jié)果進(jìn)行比較,由人工來評(píng)價(jià)EARM對(duì)每個(gè)語句的實(shí)體動(dòng)作挖掘是否正確,根據(jù)EARM分析結(jié)果與人工標(biāo)注結(jié)果的一致性進(jìn)行評(píng)分,評(píng)分原則如下:

    ① 5分: 完全一致,即動(dòng)作及實(shí)體分析完全正確;

    ② 3分: 基本一致,即動(dòng)作分析正確且實(shí)體分析部分正確;

    ③ 1分: 部分一致,即動(dòng)作分析不正確但實(shí)體分析完全或部分正確;

    ④ 0分: 完全不一致,動(dòng)作及實(shí)體完全錯(cuò)誤。

    實(shí)驗(yàn)結(jié)果如表1所示。

    表1 語句實(shí)體動(dòng)作分析實(shí)驗(yàn)結(jié)果

    續(xù)表

    表1顯示語句EARM分析總體上是有效的,各類別語句完全識(shí)別(5分)率為81.30%,錯(cuò)誤(0分)率0.64%。各類別語句關(guān)聯(lián)分析的平均得分為4.4~4.6??梢奅ARM實(shí)體和動(dòng)作的挖掘是比較成功的。本實(shí)驗(yàn)錯(cuò)誤的分析結(jié)果主要出現(xiàn)在歧義句,尤其是復(fù)雜的歧義句。如“咬死獵人的狗跑了”可能包括以下兩種實(shí)體動(dòng)作劃分,①“咬死A/獵人的狗E/跑了A”;②“咬死獵人的狗E/跑了A”。模型在歧義句處理能力上尚嫌在不足。

    3.2 文本聚類實(shí)驗(yàn)

    本文在文獻(xiàn)[22]中設(shè)計(jì)并實(shí)現(xiàn)了一種基于高斯加權(quán)的重構(gòu)性K-NN聚類算法GWR K-NN。本小節(jié)設(shè)計(jì)了均衡樣本實(shí)驗(yàn)和非均衡樣本實(shí)驗(yàn),采用GWR K-NN實(shí)施聚類。

    均衡樣本實(shí)驗(yàn): 從語料庫十個(gè)類別的文本中,每類選擇1 000個(gè)樣本,共計(jì)10 000個(gè)樣本構(gòu)成實(shí)驗(yàn)數(shù)據(jù),分別使用經(jīng)典的VSM和EARM模型進(jìn)行文本表示,并使用GWR K-NN進(jìn)行聚類,對(duì)比所得聚類結(jié)果的準(zhǔn)確率和召回率。實(shí)驗(yàn)結(jié)果如表2所示。

    非均衡樣本實(shí)驗(yàn): 在語料庫十個(gè)類別中隨機(jī)選取10 000個(gè)樣本構(gòu)成實(shí)驗(yàn)數(shù)據(jù),每個(gè)類別的樣本規(guī)模存在差距。分別使用經(jīng)典的VSM模型和EARM進(jìn)行文本表示,并使用GWR K-NN進(jìn)行聚類。實(shí)驗(yàn)結(jié)果如表3所示。

    表2 均衡樣本聚類實(shí)驗(yàn)對(duì)比

    表3 非均衡樣本聚類實(shí)驗(yàn)對(duì)比

    續(xù)表

    類別Ci的準(zhǔn)確率Pi、召回率Ri及Fi值定義如式(9)~式(11)所示。

    均衡樣本與非均衡樣本下,各聚類F-Score值對(duì)比如圖5、圖6所示。

    圖5 VSM聚類性能對(duì)比

    圖6 EARM聚類性能對(duì)比

    實(shí)驗(yàn)結(jié)果顯示: 在均衡樣本和非均衡樣本下,基于EARM模型的聚類性能更為優(yōu)秀。各個(gè)類別下,EARM聚類的準(zhǔn)確率和召回率比VSM模型更高。非均衡樣本下,軍事類和農(nóng)業(yè)類樣本規(guī)模較小,傳統(tǒng)VSM模型受到樣本規(guī)模及樣本分布的影響,效率明顯下降?;贓ARM的重構(gòu)性K-NN能夠很好地適應(yīng)非均衡的樣本空間,不論是均衡樣本下還是非均衡樣本下,EARM性能的波動(dòng)都比VSM小。

    4 結(jié)束語

    本文面向文本聚類問題,設(shè)計(jì)并實(shí)現(xiàn)了一種基于實(shí)體—?jiǎng)幼麝P(guān)聯(lián)的文本表示模型EARM。模型構(gòu)造器根據(jù)詞庫特征和句型特征挖掘?qū)嶓w和動(dòng)作,構(gòu)造EARM。對(duì)不同層級(jí)的動(dòng)作進(jìn)行動(dòng)作層次分解,將復(fù)雜語句拆分簡化為簡單句型。本文采用統(tǒng)計(jì)學(xué)原理量化EARM模型的實(shí)體和動(dòng)作的權(quán)重,基于加權(quán)的EARM模型計(jì)算文本相似度并實(shí)施聚類。

    本文將EARM模型與VSM模型進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明EARM是有效的。模型能識(shí)別常見的漢語句型和詞匯,但是對(duì)歧義句的鑒別能力不足,下一步將引入多值函數(shù)或借助機(jī)器學(xué)習(xí)的方法來增強(qiáng)EARM處理歧義的能力。

    [1] 宋巍, 張宇, 劉挺, 等.基于檢索歷史上下文的個(gè)性化查詢重構(gòu)技術(shù)研究[J].中文信息學(xué)報(bào),2010, 24(3): 144-152.

    [2] 曹雷, 郭嘉豐, 白露, 等. 基于半監(jiān)督話題模型的用戶查詢?nèi)罩久麑?shí)體挖掘[J]. 中文信息學(xué)報(bào),2012, 26(5): 26-32.

    [3] Kuznetsov V A, Mochalov V A, Mochalova A V. Ontological-semantic text analysis and the question answering system using data from ontology[C]//Proceedings of the 18th International Conference on Advanced Communication Technology. Pyeongchang, South Korea. IEEE, 2016: 651-658.

    [4] Shen Haiying, Liu Guoxin, Wang Haoyu, et al. Social Q&A: An online social network based question and answer system[J]. IEEE Transactions on Big Data, 2017, 3(1): 91-106.

    [5] 劉丹丹, 彭成, 錢龍華, 等. 《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J]. 中文信息學(xué)報(bào),2014, 28(2): 91-99.

    [6] 劉丹丹, 彭成, 錢龍華, 等. 詞匯語義信息對(duì)中文實(shí)體關(guān)系抽取影響的比較[J]. 計(jì)算機(jī)應(yīng)用,2014, 32(8): 2238-2244.

    [7] Fei Wu, Daniel S W. Open information extraction using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Pennsylvania, USA. Association for Computational Linguistics, 2010: 118-127.

    [8] 楊丹, 申德榮, 聶鐵錚, 等. 異構(gòu)信息空間中實(shí)體關(guān)聯(lián)關(guān)系挖掘算法[J]. 計(jì)算機(jī)研究與發(fā)展,2014,51(4): 895-904.

    [9] Yuenhsien Tseng, Lunghao Lee, Shuyen Lin, et al. Chinese open relation extraction for knowledge acquisition[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden. Association for Computational Linguistics, 2014: 12-16.

    [10] Qiu Likun, Zhang Yue. ZORE: A syntax-based system for Chinese open relation extraction[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1870-1880.

    [11] Bai Xiaopeng, Li Bin.Comparing argument structure in Chinese verb taxonomy and Chinese propbank[C] //Proceedings of 2015 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Singapore: IEEE, 2015: 188-190.

    [12] Ma Hong, Lian Xin, Jiang Kun, et al. Research on delay ambiguity solving method based on Chinese remainder theorem[C]//Proceedings of 2014 International Conference on Information and Communications Technologies. Nanjing, China. IET, 2014: 1-4.

    [13] 朱德熙. 語法答問[M]. 北京: 商務(wù)印書館,1985.

    [14] 范婷. 現(xiàn)代漢語歧義表層結(jié)構(gòu)形式及其分化方法研究[D]. 成都: 四川外語學(xué)院碩士學(xué)位論文,2012.

    [15] 懷寶興, 寶騰飛, 祝恒書, 等. 一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 軟件學(xué)報(bào),2014,25(9): 2076-2087.

    [16] 鄧擘, 鄭彥寧, 傅繼彬. 漢語實(shí)體關(guān)系模式的自動(dòng)獲取研究[J]. 計(jì)算機(jī)科學(xué),2010,37(2): 183-185.

    [17] 朱德熙. 語法講義[M]. 北京: 商務(wù)印書館,1982: 38-55.

    [18] Huang C T J, Li Y H A,Yafei Li. The Syntax of Chinese[M]. America: World Book Inc,2013: 108-113.

    [19] 趙元任. 漢語口語語法[M]. 北京: 商務(wù)印書館,1979.

    [20] 何鐘豪, 蘇勁松, 史曉東, 等. 引入集成學(xué)習(xí)的最大熵短語調(diào)序模型[J]. 中文信息學(xué)報(bào),2014,28(1): 87-93.

    [21] Liu Zuoguo, Chen Xiaorong. Mapping texts into graphs: An improved text similarity algorithm[C]//Proceedings of 2012 2nd International Conference on Computer Science and Network Technology. Changchun: Springer, 2012: 1357-1361.

    [22] 劉作國, 陳笑蓉. 高斯加權(quán)的重構(gòu)性K-NN算法研究[J]. 中文信息學(xué)報(bào),2015,29(5): 112-116.

    猜你喜歡
    謂詞語句句型
    被遮蔽的邏輯謂詞
    ——論胡好對(duì)邏輯謂詞的誤讀
    重點(diǎn):語句銜接
    黨項(xiàng)語謂詞前綴的分裂式
    西夏研究(2020年2期)2020-06-01 05:19:12
    精彩語句
    強(qiáng)調(diào)句型的it和引導(dǎo)詞it有什么區(qū)別?
    也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
    如何搞定語句銜接題
    高中英語表示比較和對(duì)照關(guān)系的句型
    作文語句實(shí)錄
    謂詞公式中子句集提取的實(shí)現(xiàn)pdf
    海盐县| 彭阳县| 尼玛县| 金溪县| 泾川县| 星座| 鄱阳县| 本溪市| 卢龙县| 青河县| 温泉县| 普宁市| 万年县| 遵义市| 乳山市| 洪泽县| 绿春县| 新巴尔虎左旗| 民县| 玛多县| 乌拉特后旗| 平潭县| 临城县| 荣成市| 青龙| 临海市| 陆川县| 偃师市| 犍为县| 诏安县| 黎城县| 石阡县| 昌图县| 梁河县| 会泽县| 东源县| 开阳县| 丹东市| 庆安县| 屏边| 乐山市|