• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    本體構(gòu)建相關(guān)文獻(xiàn)綜述報(bào)告

    2019-11-30 12:49:10張婷
    電子技術(shù)與軟件工程 2019年1期
    關(guān)鍵詞:三元組術(shù)語語言學(xué)

    文/張婷

    1 概念學(xué)習(xí)

    概念學(xué)習(xí)階段主要包括術(shù)語提取和概念形成兩個(gè)任務(wù)。目前,概念學(xué)習(xí)階段首要集中于術(shù)語抽取的研究。現(xiàn)有的術(shù)語抽取研究首要分為四類:語言學(xué)方法、統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法和混合方法。

    1.1 語言學(xué)方法

    運(yùn)用語言學(xué)方法來進(jìn)行的術(shù)語抽取通常情況下是來分析某個(gè)領(lǐng)域之內(nèi)的術(shù)語的詞性組成,提取出領(lǐng)域內(nèi)術(shù)語的詞性構(gòu)成模板來提取術(shù)語。最開始是基于詞語的詞性(part-ofspeech,POS)標(biāo)注為基礎(chǔ)來進(jìn)行術(shù)語抽取,在20世紀(jì)70年代,Earl發(fā)現(xiàn)術(shù)語一般為名詞,采用研究詞性模板((A|N)+|((A|N)*(NP)?(A|N)*)N來篩選頻率超過一定閩值的詞語作為術(shù)語,之后的很多研究都在此基礎(chǔ)上進(jìn)行;Klingbiel結(jié)合詞典與詞性來選擇特定的語法結(jié)構(gòu)作為術(shù)語的候選詞;Bourigault運(yùn)用淺層語法分析來獲得名詞短語作為術(shù)語;Justeson研究后認(rèn)為術(shù)語不僅可以由單詞構(gòu)成,即單詞術(shù)語,還可以由多個(gè)詞組成的復(fù)合術(shù)語,并且他們以為大多數(shù)術(shù)語由形容詞、名詞或介詞短語組成,最終呈現(xiàn)的動(dòng)詞、副詞或連接詞很少。

    他們采用((A|N)+|((A|N)*(NP)?(A|N)*)N這一詞性模板,并結(jié)合詞典來獲取候選術(shù)語;提取候選術(shù)語的思想一出現(xiàn),很多研究都各自提出了復(fù)合術(shù)語的模板,包括Dagan等提出的Noun+模板,F(xiàn)rantzi等提出的(Noun|Adjective)+Noun模板等。此外,Sabou提取名詞短語的運(yùn)用信息如詞素,詞根和語句中的方位。除了英語言語的方式術(shù)語抽取研究,中文領(lǐng)域的相關(guān)研究中也提出一些模板或規(guī)則來進(jìn)行術(shù)語抽取,王昊等依據(jù)合成規(guī)則構(gòu)造術(shù)語的方法來獲取術(shù)語;王柏林利用規(guī)則方法從學(xué)術(shù)文獻(xiàn)中抽取術(shù)語。

    1.2 統(tǒng)計(jì)學(xué)方法

    通過運(yùn)用統(tǒng)計(jì)學(xué)的方法來進(jìn)行術(shù)語抽取,主要是通過術(shù)語的一些統(tǒng)計(jì)學(xué)特征來區(qū)分領(lǐng)域術(shù)語及普通詞語,例如基于術(shù)語的領(lǐng)域性,領(lǐng)域術(shù)語要較普通詞語在某一領(lǐng)域的出現(xiàn)頻率高。Pantel等在復(fù)合術(shù)語的抽取中采用互信息與對數(shù)似然方法;Gelbukh等采用對數(shù)似然進(jìn)行術(shù)語抽??;劉劍等以及李江華等采用互信息和信息嫡進(jìn)行術(shù)語抽取。除了復(fù)合術(shù)語內(nèi)部詞語的搭配強(qiáng)度,復(fù)合術(shù)語最左及最右的詞語與語料中左鄰及右領(lǐng)的詞的搭配強(qiáng)度也可用于考查復(fù)合術(shù)語的獨(dú)立性,丁杰等用左右邊界嫡確定專利術(shù)語邊界,該左右邊界嫡就是通過確定術(shù)語與其左詞及右詞搭配出現(xiàn)的關(guān)聯(lián)程度來考查該術(shù)語的獨(dú)立性。

    1.3 機(jī)器學(xué)習(xí)方法

    此外,統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Machine Learning,ML)方法也被應(yīng)用于術(shù)語的抽取中。關(guān)于特征的選擇問題,術(shù)語抽取常用的特征有統(tǒng)計(jì)特征及語言學(xué)特征等,統(tǒng)計(jì)特征指利用一些統(tǒng)計(jì)學(xué)方法獲取的特征值,包括文檔頻率、反文檔頻率和TF-IDF;語言特征主要指詞類特征。Collie使用隱馬爾可夫模型提取生物范疇的術(shù)語,并提取了23個(gè)特征。包括數(shù)字、大寫字母、羅馬字符、連字符等;Shen采用隱馬爾可夫模型,辨認(rèn)詞典的功用,包含:較為簡明的特點(diǎn),字詞的形態(tài)特征(如前綴或后綴)、詞性特征、語義觸發(fā)功用,名詞,和特別的動(dòng)詞;張承志使用條件隨機(jī)域提取出16個(gè)特征:除了根本的功用,如字、詞的長度,和講話的一部分,它還包含衍生功用,如頻率差等等。機(jī)器學(xué)習(xí)方法效果的好壞程度高度依賴于提取的特征集,當(dāng)特征提取地較為完備時(shí),可以獲得比較高的準(zhǔn)確率以及召回率,因此,選擇什么樣的特征集是機(jī)器學(xué)習(xí)方法研究的重點(diǎn)。

    1.4 混合方法

    混合方法即結(jié)合上述幾種方法來進(jìn)行術(shù)語抽取的方法,一般可以分為三種:第一種是首先利用語言學(xué)方法提取語料中的候選術(shù)語,再采用統(tǒng)計(jì)學(xué)方法對提取的候選術(shù)語進(jìn)行排序;第二種與第一種相反;第三種是首先提取特征集,再采用機(jī)器學(xué)習(xí)的方法來抽取術(shù)語。

    Frantzi等人提出的C值/NC值方式。該方法是歸于第一類的方法。首先,需要利用語言學(xué)的方式從語料庫之中提取名詞的短語,然后選用統(tǒng)計(jì)學(xué)方法來抽取復(fù)合術(shù)語。Lossio-Ventura結(jié)合了兩種方法來抽取復(fù)合術(shù)語,第一種方法是LIDF-value(結(jié)合語言學(xué)模板,IDF以及C-value方法),是一種結(jié)合了語言學(xué)及統(tǒng)計(jì)學(xué)的方法,第二種是TeRGraph(基于圖信息的術(shù)語排序方法),是一種基于圖的方法(統(tǒng)計(jì)),基于圖的方法假設(shè)術(shù)語的鄰接術(shù)語越多,則越不具備領(lǐng)域性,然后采用了Dice coeff icient來計(jì)算圖中由邊連接的兩個(gè)術(shù)語間共現(xiàn)。Ittoo結(jié)合了語言學(xué)和統(tǒng)計(jì)學(xué)方法來抽取復(fù)合術(shù)語(主要用于抽取2詞復(fù)合術(shù)語),他們采用了語言學(xué)方法進(jìn)行候選術(shù)語抽取,然后采用了cube互信息(MI3),并結(jié)合英文Wikipedia語料集來進(jìn)行術(shù)語抽取。張雷瀚提出一種多策略融合的領(lǐng)域術(shù)語抽取方法,結(jié)合語言學(xué)方法及統(tǒng)計(jì)方法,構(gòu)造術(shù)語的逆向詞性規(guī)則和領(lǐng)域停用詞表,利用PATTree和C-value方法獲取候選術(shù)語,再對比單一文檔和領(lǐng)域文檔集來計(jì)算術(shù)語領(lǐng)域度,通過排序獲取最終的術(shù)語。

    2 等級關(guān)系抽取

    關(guān)系抽取又包括等級關(guān)系抽取(taxonomic relationships)及非等級關(guān)系的抽取(nontaxonomic relationships),中文關(guān)系抽取主要集中在命名實(shí)體間的關(guān)系抽取,對于本體概念間的關(guān)系抽取研究很少,大多基于詞典、模板等進(jìn)行概念關(guān)系抽取,效率不高。概念間等級關(guān)系獲取的主要任務(wù)是構(gòu)建概念間的上下級關(guān)系,主要有四種方式:語言學(xué)方式、統(tǒng)計(jì)學(xué)方式、基于圖的方式和混合方式。

    2.1 語言學(xué)方法

    該方式主要經(jīng)過形狀剖析、句法剖析、依存結(jié)構(gòu)剖析和語義剖析來識(shí)別層次聯(lián)系。如果存在包括層次聯(lián)系的句法模式,則經(jīng)過提取和總結(jié)頻繁句法模式來標(biāo)識(shí)聯(lián)系。Hearst采用bootstrapping算法擴(kuò)展到更多的模板,用于抽取上下位關(guān)系;Pantel等結(jié)合Web與語言學(xué)模板的方法進(jìn)行了語義關(guān)系的抽取;王昊等提出了結(jié)合以文檔一術(shù)語空間為核心,結(jié)合形式概念分析的方法來進(jìn)行等級關(guān)系的構(gòu)建;湯青等結(jié)合句法分析與規(guī)則匹配來進(jìn)行概念等級關(guān)系的抽取。根據(jù)言語的方式辨認(rèn)詞之間的高精度關(guān)系。缺點(diǎn)是根據(jù)言語模板的方式通常需要專家常識(shí)來開發(fā)模板。在模板的擴(kuò)展過程中需要耗費(fèi)大量的成本,可移植性較差。

    2.2 統(tǒng)計(jì)學(xué)方法

    統(tǒng)計(jì)學(xué)方法通過對大規(guī)模語料庫的計(jì)算處理,發(fā)現(xiàn)規(guī)則,從而發(fā)掘聯(lián)系。該方法與言語、范疇無關(guān),具有很強(qiáng)的可移植性。但是,它十分依賴于語料庫的質(zhì)量和規(guī)模,使得命名聯(lián)系類型變得困難。層次聯(lián)系抽取可以看作是一個(gè)聚類或分類問題。根據(jù)聚類的層次聯(lián)系識(shí)別方法主要有兩種:層次聚類和非層次聚類。董洋溢等采用了混合了余弦相似度的核函數(shù)方法來進(jìn)行概念等級關(guān)系的抽取,將這一任務(wù)轉(zhuǎn)化為分類任務(wù)。

    2.3 基于圖的方法

    根據(jù)圖的方法一般涉及圖節(jié)點(diǎn)的概念、表明聯(lián)系的圖的邊以及丈量概念之間間隔的概念之間的邊數(shù)。Kozareva主張運(yùn)用根據(jù)圖的方法來從有向圖中結(jié)構(gòu)。給定根節(jié)點(diǎn)和一些分層概念,運(yùn)用預(yù)定義的模板,從而能夠發(fā)現(xiàn)新的從屬概念;Velardi為每個(gè)概念(在文檔集或Web中)找到定義,然后運(yùn)用分類結(jié)果。結(jié)構(gòu)有向圖模型,其中邊是概念之間的聯(lián)系;運(yùn)用根據(jù)圖的方法來度量概念之間的相關(guān)程度,而且運(yùn)用語句之間的空間間隔來丈量語句的相似性。

    2.4 混合方法

    Suchanek結(jié)合了語言學(xué)模板機(jī)器學(xué)習(xí)算法——支持向量機(jī)從文本中獲取概念聯(lián)系;Cimian將聚類算法和言語模板相結(jié)合,從互聯(lián)網(wǎng)上提取上下文信息,提取上下文聯(lián)系;Rios-Alvarado組合言語學(xué)習(xí)模板和clu斯特林算法對文本中的概念來進(jìn)行等級關(guān)系抽??;張曉勇結(jié)合深度學(xué)習(xí)與聚類方法從條件隨機(jī)場抽取的候選術(shù)語集中獲取概念等級關(guān)系;王昊利用形式概念分析來獲取主題概念,并采用主題概念格進(jìn)行概念等級關(guān)系的獲取。

    3 非等級關(guān)系抽取

    概念非等級關(guān)系的抽取通常包含兩個(gè)任務(wù):

    (1)從語料中抽取出可以組成概念非等級關(guān)系三元組的元素,包括相關(guān)的概念對以及描述概念對關(guān)系的動(dòng)詞;

    (2)命名概念之間的聯(lián)系。由于概念非層次聯(lián)系提取元素較多,因而概念非層次聯(lián)系提取的研討通常采用多種方式進(jìn)行提取。依據(jù)這些抽取工作中運(yùn)用的方式,可以分為兩類:一類是語言方式;另一種是統(tǒng)計(jì)學(xué)方式。

    3.1 語言學(xué)方法

    語言學(xué)方法是利用語言學(xué)模板的方法來獲取概念非等級關(guān)系三元組。Berland利用WordNet作為資源,采用模板對概念間的部分一整體關(guān)系進(jìn)行抽取,生成候選概念對,再利用統(tǒng)計(jì)學(xué)方法進(jìn)行排序;Nenadi采用了三種模板(詞典一語義模板、復(fù)合名詞模板、上下文模板)來獲取MEDLINE中的術(shù)語,上下文模板用于獲取語料庫中特征明顯的術(shù)語,然后獲取特定內(nèi)容中的另一個(gè)術(shù)語、動(dòng)詞和介詞,然后根據(jù)模板長度和頻率的排序規(guī)矩對模板進(jìn)行排序,并使用上述模板取得三個(gè)類似度。度,然后加權(quán)生成終究的類似度值,并調(diào)整權(quán)重參數(shù);Sanchez使用動(dòng)詞模板獲取領(lǐng)域語料庫中的動(dòng)詞,然后將非層次聯(lián)系的概念與Web相結(jié)合,然后以非層次聯(lián)系命名聯(lián)系。在漢語非層次聯(lián)系獲取的研討中,俞凡首先定義了漢語非層次聯(lián)系提取的規(guī)矩,然后結(jié)合關(guān)聯(lián)規(guī)矩發(fā)掘,提取非層次聯(lián)系的概念;何宇結(jié)合句法分析和詞典特征對專利領(lǐng)域的非等級關(guān)系進(jìn)行獲??;趙明等。采用句法分析來獲取概念間的非等級關(guān)系?;谀0宓姆椒P(guān)鍵在于針對不同類型的關(guān)系進(jìn)行模板的提取,但是需要窮盡所有的關(guān)系類型模板并非易事,這種方法只適用于獲取特定的非等級關(guān)系。

    3.2 統(tǒng)計(jì)學(xué)方法

    統(tǒng)計(jì)學(xué)方法一般利用術(shù)語對的共現(xiàn)或者相似度來抽取非等級關(guān)系。Kavalec先通過語言學(xué)方法獲取語料中的動(dòng)詞,通常概念非等級關(guān)系中的關(guān)系由動(dòng)詞表示,再將窗口范圍限定在N個(gè)單詞的距離內(nèi),在窗口中挑選兩個(gè)詞來生成“概念-動(dòng)詞-概念”三元組,再根據(jù)三元組的頻率來排序,獲取高頻三元組為候選三元組,然后利用條件概率來計(jì)算概念對與動(dòng)詞的相關(guān)性。Punuru提出了VF*ICF方法(類似于TF-IDF的方式)來計(jì)量動(dòng)詞注釋關(guān)系的能力,先獲取相關(guān)概念對,再從領(lǐng)域語料中獲取候選關(guān)系三元組(,SVO),采用對數(shù)似然方法來測量概念間的關(guān)聯(lián)程度。秦兵首先采用實(shí)體之間及關(guān)系指示詞的位置限制來獲取候選關(guān)系三元組,再采用全局排序和類型排序來挖掘關(guān)系動(dòng)詞,最后利用動(dòng)詞及句式規(guī)則對關(guān)系三元組進(jìn)行過濾。

    關(guān)聯(lián)規(guī)則挖掘通常也被用于挖掘概念對之間或概念對與動(dòng)詞之間的關(guān)系,Villaverde在獲取了候選非等級關(guān)系三元組的基礎(chǔ)上,利用相關(guān)規(guī)矩發(fā)掘方法在候選三元組中得到概念對與動(dòng)詞之間具有較強(qiáng)相關(guān)規(guī)矩的三元組,但是該文章只關(guān)注了概念對與動(dòng)詞之間的關(guān)聯(lián)度,并沒有衡量概念與概念之間的關(guān)聯(lián)程度。Gulla對比了利用關(guān)聯(lián)規(guī)則挖掘及向量空間模型兩種方法在非等級關(guān)系抽取中的效果,他們將非等級關(guān)系分為三類:不相關(guān)、相關(guān)和高度相關(guān)。結(jié)果表明,獲取的關(guān)系可以借助相似度算法來獲取,最終他們關(guān)聯(lián)規(guī)則挖掘與相似度算法相結(jié)合進(jìn)行了非等級關(guān)系的獲取,其效果很好。

    猜你喜歡
    三元組術(shù)語語言學(xué)
    基于語義增強(qiáng)雙編碼器的方面情感三元組提取
    軟件工程(2024年12期)2024-12-28 00:00:00
    基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
    關(guān)于余撓三元組的periodic-模
    認(rèn)知語言學(xué)與對外漢語教學(xué)
    三元組輻射場的建模與仿真
    有感于幾個(gè)術(shù)語的定名與應(yīng)用
    從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
    語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
    語料庫語言學(xué)未來發(fā)展趨勢
    基于認(rèn)知語言學(xué)的“認(rèn)知修辭學(xué)”——從認(rèn)知語言學(xué)與修辭學(xué)的兼容、互補(bǔ)看認(rèn)知修辭學(xué)的可行性
    呼玛县| 阿拉善盟| 台中市| 年辖:市辖区| 黎平县| 高碑店市| 定南县| 德昌县| 兰州市| 安西县| 离岛区| 赞皇县| 石家庄市| 太湖县| 亳州市| 宁化县| 兖州市| 齐河县| 普洱| 通海县| 夹江县| 临沭县| 庄浪县| 平潭县| 多伦县| 堆龙德庆县| 荔浦县| 莒南县| 渝北区| 丹凤县| 辽中县| 永登县| 馆陶县| 晋江市| 金平| 菏泽市| 贵阳市| 漠河县| 六枝特区| 酉阳| 黎川县|