• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于句法分析的實(shí)體關(guān)系抽取

    2018-05-14 09:39:00李真張優(yōu)敏夏冬梅靳沖
    科技風(fēng) 2018年15期
    關(guān)鍵詞:支持向量機(jī)

    李真 張優(yōu)敏 夏冬梅 靳沖

    摘 要:針對(duì)領(lǐng)域本體構(gòu)建中實(shí)體關(guān)系種類不明確,以及中文文本中多出現(xiàn)復(fù)雜句式,復(fù)雜句子中實(shí)體關(guān)系的獲取比較難的問題,提出基于句子語法分析的實(shí)體關(guān)系獲取方法,通過對(duì)句法結(jié)構(gòu)的分析,加入句法特征。以旅游領(lǐng)域的實(shí)體關(guān)系獲取為模型分別進(jìn)行二組實(shí)驗(yàn)。實(shí)驗(yàn)表明,基于SVM關(guān)系抽取實(shí)驗(yàn)中,加入了句法特征的那組實(shí)驗(yàn)結(jié)果的F值提高了15個(gè)百分點(diǎn),證明句法特征對(duì)基于SVM的實(shí)體關(guān)系獲取的有效性。

    關(guān)鍵詞:實(shí)體關(guān)系;句法特征;支持向量機(jī)

    中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A

    國內(nèi)外對(duì)實(shí)體關(guān)系的抽取都做了相關(guān)的研究,蔡鴻博[1]采用挖掘頻繁項(xiàng)集關(guān)聯(lián)性與分析詞結(jié)構(gòu)信息相結(jié)合的方法來自動(dòng)挖掘上位詞之間的上位關(guān)系,達(dá)到了較好的層次化效果;郭劍毅[2]提出一種改進(jìn)的徑向基核函數(shù)融合多項(xiàng)式核函數(shù)及卷積樹核函數(shù)。本文前期也做過基于SVM(支持向量機(jī))的概念、屬性及屬性值的對(duì)應(yīng)關(guān)系獲取[3],但都沒有考慮復(fù)雜句式的問題,句法分析在處理復(fù)雜句式時(shí)有明顯的優(yōu)勢(shì),因此,本文在進(jìn)行關(guān)系抽取時(shí),通過對(duì)句法結(jié)構(gòu)的分析,加入句法特征。以云南旅游領(lǐng)域?qū)嶓w關(guān)系獲取進(jìn)行試驗(yàn)驗(yàn)證,結(jié)果表明該方法具有良好的可行性。

    1 基于句法分析的實(shí)體關(guān)系抽取

    特征的選擇。

    在使用SVM進(jìn)行實(shí)體關(guān)系獲取時(shí),最核心的步驟就是構(gòu)造特征向量,特征向量的構(gòu)造需要選取合適的特征,特征選取不合適會(huì)直接影響到實(shí)驗(yàn)的結(jié)果。由于中文文本中特征具有多樣性,在考慮到常用的詞特征、實(shí)體類型特征等的基礎(chǔ)上,引入一種句法特征。下面重點(diǎn)介紹一下句法特征。

    (a)父類成分特征。父類特征主要表示在同一個(gè)句子中,兩個(gè)實(shí)體在句法分析樹中的結(jié)點(diǎn)是在哪個(gè)句法位置處顯示的。本文主要考慮五個(gè)句法成分:pp,np,zj,dj,vp。從離兩個(gè)實(shí)體最近的父結(jié)點(diǎn)開始,依次向上搜索,如果出現(xiàn)最近的公共句法成分為pp,np,zj,dj,vp中任一個(gè),則其為父類特征。其中pp,np,zj,dj,vp在句法成分中分別表示動(dòng)詞短信、名詞短語、整句、單句句型和介詞短語。

    (b)兩個(gè)實(shí)體間的路徑特征。兩個(gè)實(shí)體在句法分析樹中的路徑,由兩個(gè)實(shí)體對(duì)應(yīng)的結(jié)點(diǎn)間的句法成分構(gòu)成。例如句子“滇池位于云南省昆明市的西南?!彼木浞錇閇jd[np滇池/ns] [vp位于/v [sp云南省/ns昆明市/ns 的/u 西南/nl 。/wp]]],如下圖所示,兩實(shí)體之間的路徑為np+dj-vp-sp。

    (c)中心詞之間以及中心詞到實(shí)體之間的路徑。在分析了“云南省昆明市的西南”和“滇池”這兩個(gè)實(shí)體在語法分析樹中充當(dāng)?shù)某煞趾?,發(fā)現(xiàn)它們都和動(dòng)詞“位于”的關(guān)系比較密切,從句子的語義角色這方面來看,“云南省昆明市的西南”是“ 位于”的受動(dòng)者,“滇池”是“位于”的施事者, 同時(shí)本文發(fā)現(xiàn)句子中的大部分關(guān)系都有這樣的一個(gè)角色依賴關(guān)系和中心詞。因此,本文在原有特征的基礎(chǔ)上加了兩個(gè)新特征:兩個(gè)實(shí)體分別到中心詞的句法分析路徑特征和中心詞特征。中心詞為“位于”,實(shí)體E1到中心詞的路徑為:np+dj-vp,實(shí)體E2到中心詞的路徑為:vp-sp。

    2 試驗(yàn)數(shù)據(jù)以及結(jié)果分析

    (1)試驗(yàn)數(shù)據(jù)以及評(píng)價(jià)指標(biāo)。

    為了證明SVM在實(shí)體語義關(guān)系抽取上具有可行性和有效性,本文分別設(shè)計(jì)了兩組相關(guān)的實(shí)驗(yàn)室,其中第一組實(shí)驗(yàn)是只有基礎(chǔ)特征實(shí)體關(guān)系抽取實(shí)驗(yàn);第二組是不斷加入句法特征的基于SVM的實(shí)體關(guān)系抽取實(shí)驗(yàn)。由于本文在做實(shí)體關(guān)系抽取的實(shí)驗(yàn)時(shí),缺乏相關(guān)的權(quán)威語料,本文利用網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)上搜集了相關(guān)旅游領(lǐng)域的語料,主要包括酒店、景點(diǎn)、文化、小吃四類,文檔3000余篇,其中有2000篇是作為訓(xùn)練語料,其余1000篇?jiǎng)t作為測(cè)試語料。

    在對(duì)實(shí)驗(yàn)結(jié)果的評(píng)測(cè)中,本文采用信息抽取任務(wù)中比較權(quán)威的評(píng)測(cè)標(biāo)準(zhǔn)。即用召回率(R)來反映實(shí)驗(yàn)結(jié)果的查全率,用準(zhǔn)確率(P)來反映實(shí)體關(guān)系抽取的精度,用F值來表示實(shí)驗(yàn)結(jié)果的最終性能指標(biāo),即:

    (2)結(jié)果及分析。

    由下表可知,每次加入的句法特征都起到了改進(jìn)系統(tǒng)性能的作用,其中父類成分以及中心詞和實(shí)體距中心詞的路徑兩個(gè)特征對(duì)實(shí)驗(yàn)的結(jié)果有很大的影響,提高了實(shí)體關(guān)系抽取的性能。

    3 結(jié)論

    實(shí)體關(guān)系的獲取是近年來文本信息處理領(lǐng)域的一個(gè)研究熱點(diǎn)。本文通過對(duì)兩個(gè)實(shí)體在句法結(jié)構(gòu)樹中的位置進(jìn)行分析,獲取實(shí)體之間的依存特征,在基于SVM的實(shí)體關(guān)系抽取中不斷地加入這些句子結(jié)構(gòu)特征,實(shí)驗(yàn)證明,句法分析對(duì)基于SVM的實(shí)體語義關(guān)系抽取具有顯著的效果。

    參考文獻(xiàn):

    [1]蔡鴻博.基于上位詞的中文實(shí)體關(guān)系圖譜構(gòu)建[D].哈爾濱工業(yè)大學(xué),2014.

    [2]郭劍毅,陳鵬,余正濤,等.基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取[J].中文信息學(xué)報(bào),2016,30(01):24-29.

    [3]郭劍毅,李真,余正濤,等.領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預(yù)測(cè)[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(04):383-389.

    [4]付瑞吉.開放域命名實(shí)體識(shí)別及其層次化類別獲取[D].哈爾濱工業(yè)大學(xué),2014.

    作者簡介:李真(1983-),女,碩士,講師,高級(jí)工程師,研究方向?yàn)樾畔⒊槿 ?/p>

    猜你喜歡
    支持向量機(jī)
    基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
    基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
    數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
    基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
    基于SVM的煙草銷售量預(yù)測(cè)
    動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
    論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
    基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
    基于支持向量機(jī)的金融數(shù)據(jù)分析研究
    管理類研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
    考試周刊(2016年53期)2016-07-15 09:08:21
    斗六市| 莱阳市| 南昌县| 随州市| 沿河| 八宿县| 天镇县| 谢通门县| 搜索| 敦煌市| 女性| 汉川市| 安陆市| 阿拉善右旗| 台北县| 昭通市| 常宁市| 股票| 纳雍县| 通海县| 和林格尔县| 白河县| 缙云县| 上饶市| 乐亭县| 黄平县| 额敏县| 农安县| 德惠市| 古浪县| 酉阳| 东明县| 常州市| 石渠县| 孝昌县| 绿春县| 灵璧县| 龙里县| 汉中市| 成安县| 太仆寺旗|