• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用源域結(jié)構(gòu)的粒遷移學(xué)習(xí)及詞性標(biāo)注應(yīng)用

      2017-04-25 08:26:33孫世昶林鴻飛孟佳娜劉洪波
      中文信息學(xué)報(bào) 2017年1期
      關(guān)鍵詞:?;?/a>源域語料

      孫世昶,林鴻飛,孟佳娜,劉洪波

      (1.大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023; 2.大連民族大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116600;3.大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)

      利用源域結(jié)構(gòu)的粒遷移學(xué)習(xí)及詞性標(biāo)注應(yīng)用

      孫世昶1,2,林鴻飛1,孟佳娜2,劉洪波3

      (1.大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023; 2.大連民族大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116600;3.大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)

      遷移學(xué)習(xí)在一定程度上減輕了目標(biāo)域的數(shù)據(jù)稀疏問題對泛化能力的影響,然而泛化能力的提高仍然受到負(fù)遷移等問題的影響。為了解決負(fù)遷移問題,該文提出使用源域結(jié)構(gòu)的文本語料的信息?;椒?,用區(qū)間信息粒表示出源域數(shù)據(jù)集的結(jié)構(gòu)對數(shù)據(jù)集中統(tǒng)計(jì)量的影響。然后提出區(qū)間二型模糊隱馬爾可夫模型(Interval Type-2 fuzzy Hidden Markov Model,IHMM) 以處理區(qū)間信息粒。給出了IHMM的構(gòu)建方法和去模糊化方法。在文本的詞性標(biāo)注任務(wù)中進(jìn)行了多個(gè)實(shí)驗(yàn),可以證實(shí)利用源域結(jié)構(gòu)信息的粒遷移學(xué)習(xí)方法避免了負(fù)遷移,提高了模型的泛化能力。

      遷移學(xué)習(xí);粒計(jì)算;區(qū)間信息粒;詞性標(biāo)注

      1 引言

      詞性標(biāo)注被認(rèn)為是自然語言處理中的一個(gè)基礎(chǔ)部分,并且是信息抽取與檢索的重要的預(yù)處理工具。詞性標(biāo)注是通過計(jì)算的方式在文本上下文中確定詞性標(biāo)簽。隨著微博等網(wǎng)絡(luò)應(yīng)用的發(fā)展,詞性標(biāo)注任務(wù)常常需要被“遷移”到新的文本域。近年來,遷移學(xué)習(xí)[1]成為一個(gè)快速發(fā)展的研究領(lǐng)域;遷移學(xué)習(xí)的目的是把已有領(lǐng)域(稱為源域)中的模型和信息移植到新領(lǐng)域(稱為目標(biāo)域)。雖然遷移學(xué)習(xí)在一定程度上減輕了目標(biāo)域的數(shù)據(jù)稀疏問題對泛化能力的影響,然而泛化能力的提高仍然受到負(fù)遷移等問題的影響。

      在遷移學(xué)習(xí)中,負(fù)遷移是指源域的知識(shí)和任務(wù)對目標(biāo)域的任務(wù)造成負(fù)面影響。某個(gè)粒度的遷移對象可能成為“負(fù)遷移”的條件。因此作者將粒計(jì)算的思想引入到遷移學(xué)習(xí)中,提出“粒遷移學(xué)習(xí)”方法。粒遷移學(xué)習(xí)將信息?;椒ā⒘DP秃土6人枷胗迷谶w移學(xué)習(xí)中,以解決負(fù)遷移等問題,達(dá)到提高遷移學(xué)習(xí)模型泛化能力的目標(biāo)。將粒計(jì)算思想用于遷移學(xué)習(xí)的研究剛剛開始,缺少詳細(xì)的實(shí)施方法。為了將粒計(jì)算的思想和基礎(chǔ)方法引入遷移學(xué)習(xí),首先需要找到具體領(lǐng)域中適合知識(shí)遷移的信息?;椒?。本文探索適合文本應(yīng)用的信息粒度的表示和處理方法,首先用區(qū)間信息粒表示帶有結(jié)構(gòu)信息的源域中的粒度,然后將機(jī)器學(xué)習(xí)模型擴(kuò)展為粒模型以處理區(qū)間信息粒并得到適合遷移學(xué)習(xí)的粒度。

      下面對粒計(jì)算的有關(guān)概念進(jìn)行介紹。信息的粒度(granularity)泛指對信息進(jìn)行觀察和表示的不同抽象程度,例如信息粒的相對大小或粗糙程度。信息粒(granules)是由于相似性而聚集起來的復(fù)雜信息實(shí)體,包括區(qū)間、模糊集等多種形式[2]。?;?granulation)是以粒的方式表示信息的過程,即將研究對象根據(jù)某種相似性而形成的聚集表示為可以處理的形式。粒模型(granular model)是指通過信息粒完成機(jī)器學(xué)習(xí)任務(wù)的模型。Pedrycz認(rèn)為粒模型可以作為對原模型的一種抽象,適用于向目標(biāo)環(huán)境進(jìn)行知識(shí)遷移[3];并把信息粒度看成是知識(shí)遷移和復(fù)用中重要的設(shè)計(jì)資產(chǎn),在諸如數(shù)據(jù)覆蓋率等標(biāo)準(zhǔn)下進(jìn)行信息粒度的最優(yōu)分配。

      我們提出使用源域結(jié)構(gòu)的文本語料信息?;椒?。文本數(shù)據(jù)集帶有自然的結(jié)構(gòu),例如,Brown語料取自500多種文章來源并被分類為多種文體風(fēng)格,包括“新聞”、“小說”等。語料中的句子聚集為不同的文章,而文章屬于不同的類型;這些都屬于源域的結(jié)構(gòu)性信息,反映源域數(shù)據(jù)集在采樣過程中的組織結(jié)構(gòu)。傳統(tǒng)機(jī)器學(xué)習(xí)方法通常假定數(shù)據(jù)集是論域中數(shù)據(jù)的具有代表性的采樣,即代表了論域的分布,因而對于這些源域結(jié)構(gòu)并不通過其他方式加以利用。然而在遷移學(xué)習(xí)中,我們要建立的不是完全擬合源域的分布,而是以源域分布為基礎(chǔ)的抽象的、有利于知識(shí)遷移的模型。所以可以利用源域結(jié)構(gòu)來得到關(guān)于源域的粒度的信息。對于文章標(biāo)簽這樣的源域結(jié)構(gòu),我們采用Pedrycz提出的區(qū)間粒化方法來建立文本域特征的區(qū)間信息粒[2]。

      本文提出利用源域結(jié)構(gòu)的粒遷移學(xué)習(xí)方法,包括區(qū)間信息粒化和稱為區(qū)間二型模糊隱馬爾可夫模型的粒模型。通過Brown語料的大量詞性標(biāo)注實(shí)驗(yàn),表明利用源域結(jié)構(gòu)的粒遷移學(xué)習(xí)方法避免了負(fù)遷移,提高了模型的泛化能力。

      2 相關(guān)工作

      2.1 詞性標(biāo)注

      詞性標(biāo)注是自然語言處理領(lǐng)域的基礎(chǔ)性研究課題,其作用是通過上下文等信息計(jì)算決定符號(hào)的詞性標(biāo)簽。目前的國內(nèi)外研究大多采取基于概率統(tǒng)計(jì)的技術(shù)路線。詞性標(biāo)注是一種序列標(biāo)注問題,可以通過很多基于統(tǒng)計(jì)學(xué)習(xí)的模型來處理,包括隱馬科夫模型(HMM)[4]、最大熵模型(MEMM)[5]、條件隨機(jī)域模型(CRF)[6-7]等。許多模型通過特征選擇和調(diào)整可以取得較好的性能,而HMM的優(yōu)點(diǎn)在于計(jì)算量小和模型簡單。在文獻(xiàn)[8]的比較中經(jīng)過平滑和未登錄詞處理的HMM的性能超過其他模型。

      2.2 遷移學(xué)習(xí)

      根據(jù)Pan的綜述[1],遷移學(xué)習(xí)方法主要可以分為基于表示、基于實(shí)例和基于參數(shù)的方法。在基于參數(shù)的遷移學(xué)習(xí)中,最大后驗(yàn)(Maximum a Posteriori,MAP)[9]和最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)[10]可以用于以HMM為基礎(chǔ)的序列識(shí)別方法中。但是這些工作需要觀察值分布的連續(xù)性假設(shè)。對于離散型HMM,可以把通過源域估計(jì)出的參數(shù)作為先驗(yàn)并通過對目標(biāo)域的學(xué)習(xí)得出目標(biāo)模型,這種方法在本文中稱為DT-HMM。

      2.3 粒計(jì)算

      信息粒和粒計(jì)算是人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),其特點(diǎn)是將整個(gè)問題抽象為更容易計(jì)算的子問題。但是基于?;瘷C(jī)理的數(shù)據(jù)建模理論和方法還不能滿足復(fù)雜任務(wù)的要求,仍需要針對不同問題用粒計(jì)算的思想展開建模方法的研究。粒計(jì)算提出逐步精確化的特征表示和處理思想,即信息?;硎?。山西大學(xué)的郭虎升和王文劍在圖像處理中通過數(shù)據(jù)?;瘉硖岣咧С窒蛄繖C(jī)的學(xué)習(xí)效率[11].對于文本的?;椒ㄑ芯枯^少。邱桃榮[12]根據(jù)詞的多屬性來進(jìn)行詞的?;?,采用本體以獲取領(lǐng)域概念以及概念之間的關(guān)系,這種將詞作為對象的方法需要使用多個(gè)方面的屬性信息,對于數(shù)量龐大而結(jié)構(gòu)簡單的文本語料并不適用。Pedrycz認(rèn)為粒模型可以作為原模型的一種抽象,適用于向目標(biāo)環(huán)境進(jìn)行知識(shí)遷移[3],Song和Pedrycz[13]在神經(jīng)網(wǎng)絡(luò)中使用區(qū)間連接并輸出區(qū)間結(jié)果。

      3 利用源域結(jié)構(gòu)的區(qū)間信息粒化

      計(jì)算對象的?;橇S?jì)算中具有挑戰(zhàn)性的問題,?;侵敢粤5姆绞奖硎拘畔⒌倪^程,即將研究對象根據(jù)某種相似性而形成的聚集表示為可以處理的形式。這在一定程度上是對人的認(rèn)知方法的一種模擬,人在面對大量復(fù)雜信息時(shí)往往會(huì)將其簡化為不同的聚集,每個(gè)聚集便是一個(gè)粒。目前在很多粒計(jì)算研究中,將連續(xù)特征采用區(qū)間的形式進(jìn)行?;?,從而得到有效的處理;例如,時(shí)間特征[14]就是一種可以區(qū)間?;倪B續(xù)特征。文本是一種由離散的詞特征組成的復(fù)雜數(shù)據(jù),而詞特征本身難以用區(qū)間的形式表示出來。為了解決負(fù)遷移問題,本文找到一種文本的區(qū)間?;椒ǎ赐ㄟ^對數(shù)據(jù)集結(jié)構(gòu)信息進(jìn)行?;岳谜Z料庫中篇章、類別等組織結(jié)構(gòu)方面的信息。

      數(shù)據(jù)集結(jié)構(gòu)信息是一種反映數(shù)據(jù)聚集情況和采樣方式的信息,對遷移學(xué)習(xí)有一定的影響。樣本分布的不均衡性可能體現(xiàn)于各種粒度,有時(shí)一篇文章里某些特征非常顯著,有時(shí)特征的顯著性從某種文體中表現(xiàn)出來??梢酝茢?,不同粒度上的源域數(shù)據(jù)對遷移學(xué)習(xí)的適宜程度是不同的。使用信息粒作為對數(shù)值特征的一種抽象,可以增加模型對負(fù)遷移問題的處理能力。因此,有必要在遷移學(xué)習(xí)中引入基于數(shù)據(jù)集結(jié)構(gòu)信息的?;硎痉椒āedrycz[2]認(rèn)為區(qū)間通過引入二分法實(shí)現(xiàn)了對數(shù)據(jù)的抽象,即數(shù)據(jù)元素屬于或不屬于一個(gè)信息粒,依賴于從數(shù)據(jù)中提取信息的粒度;并將區(qū)間作為信息粒的一種實(shí)現(xiàn)形式。區(qū)間信息粒的構(gòu)造方法如下。

      為了使粒度具有合理性,從實(shí)驗(yàn)事實(shí)中建立信息粒的基本原則是滿足兩個(gè)相互競爭的要求:

      ① 實(shí)驗(yàn)事實(shí)的充分性。在區(qū)間粒的邊界內(nèi)有更多的數(shù)值型數(shù)據(jù)作為支撐。

      ② 語義的具體性。區(qū)間長度越短則對語義的表述越具體。

      函數(shù)f1(·)和f2(·)可以選擇為公式(5)和(6)的形式,其中α為?;峁┝艘欢ǖ撵`活性。

      較大的α起到強(qiáng)調(diào)語義具體性的效果,較小的α起到強(qiáng)調(diào)事實(shí)充分性的效果。

      4 區(qū)間二型模糊隱馬爾可夫模型

      對應(yīng)于區(qū)間粒形式的輸入,需要建立粒模型進(jìn)行處理??紤]隱馬爾可夫模型對于序列標(biāo)注任務(wù)的高效性,本節(jié)建立區(qū)間二型模糊隱馬爾可夫模型(Interval type-2 fuzzy Hidden Markov Model,IHMM)以完成序列遷移學(xué)習(xí)任務(wù)。

      ① 二型模糊狀態(tài)遷移向量:

      ② 二型模糊符號(hào)發(fā)射向量

      ③ 二型模糊初始狀態(tài)

      (7)

      圖的不確定覆蓋域

      本文通過粒度控制負(fù)遷移產(chǎn)生的條件。用區(qū)間信息粒表示帶有結(jié)構(gòu)信息的源域數(shù)據(jù)對應(yīng)的模型參數(shù),這樣建立的粒模型中包含區(qū)間信息粒中的粒度。在遷移學(xué)習(xí)設(shè)置下,可以通過驗(yàn)證集選取合適的粒度,類似于基于實(shí)例的遷移學(xué)習(xí)方法中的對實(shí)例賦權(quán),不同在于本文是從粒度層面控制影響遷移學(xué)習(xí)模型的源域數(shù)據(jù)子集,從而控制負(fù)遷移產(chǎn)生的條件。這樣,通過選擇適合目標(biāo)域的粒度,粒計(jì)算的思想方法被引入到遷移學(xué)習(xí)中。

      本文將IHMM用于兩種遷移學(xué)習(xí)設(shè)置。其一是只在源域中有已標(biāo)注文本,稱為轉(zhuǎn)導(dǎo)學(xué)習(xí)設(shè)置;其二是目標(biāo)域也有少量已標(biāo)注文本,稱為歸納學(xué)習(xí)設(shè)置。

      IHMM的構(gòu)建可以分成以下三個(gè)步驟:

      ① 如果目標(biāo)域沒有已標(biāo)注數(shù)據(jù),在以語料結(jié)構(gòu)為單位的子集上進(jìn)行HMM監(jiān)督學(xué)習(xí),從而構(gòu)建參數(shù)的統(tǒng)計(jì)量;這樣對應(yīng)于每個(gè)參數(shù)得到一組數(shù)值型數(shù)據(jù),作為IHMM的輸入。如果目標(biāo)域也有少量已標(biāo)注數(shù)據(jù),以語料結(jié)構(gòu)為單位的子集,以及目標(biāo)域的驗(yàn)證集可以采用諸如DT-HMM等歸納遷移學(xué)習(xí)方法建立模型,然后通過監(jiān)督學(xué)習(xí)得到對應(yīng)于每個(gè)參數(shù)的一組數(shù)值型數(shù)據(jù)。

      對于不同的遷移學(xué)習(xí)設(shè)置,可以采用不同的去模糊化方法。對于轉(zhuǎn)導(dǎo)學(xué)習(xí),采用區(qū)間中點(diǎn)得到脆性值;對于歸納學(xué)習(xí),可以利用目標(biāo)域的少量已標(biāo)注文本,采用粒子群(PSO)等優(yōu)化方法選取適合目標(biāo)域的脆性值參數(shù)的HMM,記為λ*。

      去模糊化算法如下:

      算法1.IHMM的去模糊化算法輸入: λ=( A, B, Π),目標(biāo)域驗(yàn)證集輸出:λ*01.if目標(biāo)域驗(yàn)證集==NULL:02. 在 Vi, Uj, Π中取各主隸屬的中點(diǎn)作為λ*的參數(shù)值03.else:04. 設(shè)定PSO的粒子的維度為HMM參數(shù)的個(gè)數(shù)05. 將 λ的主隸屬Ji,Jj,Jk作為PSO粒子在對應(yīng)維度上的取值范圍06. 使用bestFitness保持最高準(zhǔn)確率,并初始化為007. λ*=NULL08. 啟動(dòng)PSO迭代09. while迭代的結(jié)束條件不滿足:10. 生成候選粒子R11. 根據(jù)候選粒子得到一個(gè)對應(yīng)的HMM,記為λ(R)12. 測試λ(R)在目標(biāo)域驗(yàn)證集上的準(zhǔn)確率,記為Fitness13. ifFitness>bestFitness:14. bestFitness=Fitness15. λ*=λ(R)16. 更新粒子R的位置17. endwhile18.返回λ*

      5 實(shí)驗(yàn)結(jié)果與分析

      詞性標(biāo)注是評估序列學(xué)習(xí)方法的經(jīng)典任務(wù)。為了把IHMM和其他方法相比較,并說明參數(shù)設(shè)置和正則項(xiàng)參數(shù)的選取,我們進(jìn)行了Brown語料的實(shí)驗(yàn)。語料中的不同類型的文本分布被用作源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)。

      5.1 實(shí)驗(yàn)數(shù)據(jù)

      Brown語料被編輯為英語語言文本的通用語料,是第一個(gè)百萬詞集的英文電子語料,并且包含500多種文本的來源。這些文本來源通過語體被分類為形式小說、新聞、社論等多種類別。在每個(gè)類別中,根據(jù)語料的自然結(jié)構(gòu)劃分為40多個(gè)文件。因此,Brown語料適合用來驗(yàn)證基于自然結(jié)構(gòu)的區(qū)間?;椒澳P偷挠行浴?/p>

      我們使用Brown語料構(gòu)建了20個(gè)遷移學(xué)習(xí)任務(wù),選擇五種有代表性的類型,使用一種類型作為源域,并用另一種類型作為目標(biāo)域。對于每一個(gè)遷移學(xué)習(xí)任務(wù)“源域-目標(biāo)域”,使用如下方式構(gòu)造訓(xùn)練集、測試集,以及驗(yàn)證集的數(shù)據(jù)。在轉(zhuǎn)導(dǎo)學(xué)習(xí)設(shè)置中,我們?nèi)≡从蛑星?6個(gè)文件,計(jì)約3 600個(gè)已標(biāo)注句子作為訓(xùn)練集;取目標(biāo)域中的800個(gè)句子作為測試集。在歸納學(xué)習(xí)設(shè)置中,我們使用源域中的36個(gè)文件作為訓(xùn)練集;取目標(biāo)域中的前200個(gè)句子作為驗(yàn)證集、接下來800個(gè)句子作為測試集。對于IHMM,將源域的每個(gè)文件作為一次對HMM各參數(shù)的采樣。

      5.2 實(shí)現(xiàn)細(xì)節(jié)

      本文在兩種設(shè)置下進(jìn)行IHMM和其他方法的性能比較。其一是只在源域中有已標(biāo)注文本,稱為轉(zhuǎn)導(dǎo)學(xué)習(xí)設(shè)置,此時(shí)IHMM(transductive)簡記為IHMM(t); 與HMM進(jìn)行比較。其二是目標(biāo)域也有少量已標(biāo)注文本,稱為歸納學(xué)習(xí)設(shè)置,此時(shí)IHMM(inductive)簡記為IHMM(i); 與DT-HMM進(jìn)行比較。

      ① HMM:采用傳統(tǒng)的機(jī)器學(xué)習(xí)模型[4],利用源域數(shù)據(jù)進(jìn)行訓(xùn)練。

      ② DT-HMM:將源域數(shù)據(jù)作為先驗(yàn),以最大后驗(yàn)(MAP)[8]方式估計(jì)最終模型的參數(shù)。

      在IHMM中,參數(shù)α代表粒度,是粒化方法中的影響序列識(shí)別性能的因素。對于參數(shù)α的設(shè)置,使用點(diǎn)列[0.2,0.5,1.2,5,8]來進(jìn)行數(shù)值實(shí)驗(yàn)。我們使用了四個(gè)任務(wù)來展示參數(shù)α對準(zhǔn)確率的影響,結(jié)果如圖2所示。實(shí)驗(yàn)表明α≤1時(shí)通常有較好的表現(xiàn)。在下面的實(shí)驗(yàn)中取α=0.5.PSO算法參數(shù)的設(shè)置如表1。

      圖2 粒度的選取

      表1 PSO算法參數(shù)的設(shè)置:

      5.3 實(shí)驗(yàn)結(jié)果與分析

      首先進(jìn)行轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)的實(shí)驗(yàn),結(jié)果見圖3和表2。

      然后在上面的20個(gè)任務(wù)中進(jìn)行歸納遷移學(xué)習(xí)的實(shí)驗(yàn),在實(shí)驗(yàn)中與DT-HMM進(jìn)行比較。由于使用了隨機(jī)優(yōu)化方法,所以在每一個(gè)任務(wù)中進(jìn)行了四次運(yùn)行,以觀察運(yùn)行的穩(wěn)定性。結(jié)果見圖4和表3。

      圖3 轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)方式下的詞性標(biāo)注結(jié)果

      表2 轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)的結(jié)果和t檢驗(yàn)

      圖4 歸納遷移學(xué)習(xí)方式下的詞性標(biāo)注結(jié)果

      表3 歸納遷移學(xué)習(xí)的結(jié)果和t檢驗(yàn)

      續(xù)表

      由圖4可見,IHMM在每個(gè)任務(wù)中都取得了準(zhǔn)確率的提升。由表3中“平均”一行可知,在轉(zhuǎn)導(dǎo)遷移學(xué)習(xí)中,IHMM(transductive)比HMM平均高出1.88個(gè)百分點(diǎn);在歸納遷移學(xué)習(xí)中,IHMM (inductive)比DT-HMM平均高出1.42個(gè)百分點(diǎn)。并且,在每個(gè)任務(wù)的每次運(yùn)行中,IHMM的準(zhǔn)確率都高于采用標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)方法的HMM和DT-HMM,沒有出現(xiàn)負(fù)遷移。

      為了評估性能提高的統(tǒng)計(jì)顯著性,我們進(jìn)行了成對t檢驗(yàn)。零假設(shè)為IHMM的正確率沒有比原模型提高,備擇假設(shè)為IHMM的正確率比原模型有了顯著提高。顯著性水平設(shè)為αH=0.05,從表3中可見p值遠(yuǎn)低于αH,因此可以得出IHMM已經(jīng)獲得顯著的正確率提升的結(jié)論。

      以上實(shí)驗(yàn)結(jié)果證明,基于數(shù)據(jù)集結(jié)構(gòu)信息的粒化方法避免了序列遷移學(xué)習(xí)模型的負(fù)遷移,提高了泛化能力。

      6 結(jié)論

      本章提出基于數(shù)據(jù)集結(jié)構(gòu)信息的粒遷移學(xué)習(xí)方法。為了能夠避免負(fù)遷移,首先提出基于數(shù)據(jù)集結(jié)構(gòu)信息的粒化方法。用區(qū)間信息粒表示出源域數(shù)據(jù)集的結(jié)構(gòu)對數(shù)據(jù)集中統(tǒng)計(jì)量的影響。然后提出區(qū)間二型模糊隱馬爾可夫模型(IHMM)以處理區(qū)間信息粒。給出了IHMM的構(gòu)建方法和去模糊化方法。在文本的詞性標(biāo)注任務(wù)中進(jìn)行了多個(gè)實(shí)驗(yàn),可以證實(shí)基于數(shù)據(jù)集結(jié)構(gòu)信息的粒遷移學(xué)習(xí)方法避免了負(fù)遷移,提高了模型的泛化能力。

      我們將進(jìn)一步研究使用其他數(shù)據(jù)集結(jié)構(gòu)信息的粒遷移學(xué)習(xí)方法,并將應(yīng)用擴(kuò)展到組塊分析等文本的序列標(biāo)注任務(wù)。

      [1] Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

      [2] Pedrycz W.Granular computing:analysis and design of intelligent systems[M].CRC press,2013.

      [3] Pedrycz W,Russo B,Succi G.Knowledge transfer in system modeling and its realization through an optimal allocation of information granularity[J].Applied Soft Computing,2012,12(8):1985-1995.

      [4] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Readings in Spoech Recognition,1990,77(2):267-296.

      [5] Walder C J,Kootsookos B C,Peter J.andLovell.Towards a Maximum Entropy Method for Estimating HMM Parameters[C]//Proceedings of INTERSPEECH.2003:45-49.

      [6] Liu J,Yu K,Zhang Y,et al.Training Conditional Random Fields Using Transfer Learning for Gesture Recognition[C]//Proceedings of IEEE International Conference on Data Mining.2010:314-323.

      [7] Sutton C,McCallum A.Composition of conditional random fields for transfer learning[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.2005:748-754.

      [8] Brants T.TnT:a statistical part-of-speech tagger[C]//Proceedings of the Sixth Conference on Applied Natural Language Processing.2000:224-231.

      [9] Ait-Mohand K,Paquet T,Ragot N.Combining structure and parameter adaptation of HMMs for printed text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(9):1716-1732.

      [10] Kim N S,Sung J S,Hong D H.Factored MLLR Adaptation[J].Signal Processing Letters,2011,18(2):99-102.

      [11] 郭虎升,王文劍.動(dòng)態(tài)粒度支持向量回歸機(jī)[J].軟件學(xué)報(bào),2013,24(11):2535-2547.

      [12] 邱桃榮.面向本體學(xué)習(xí)的粒計(jì)算方法研究[D].北京交通大學(xué)博士學(xué)位論文,2009.

      [13] Song M,Pedrycz W.Granular neural networks:concepts and development schemes[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(4):542-553.

      [14] 孟軍.相容粒計(jì)算模型及其數(shù)據(jù)挖掘研究[D].大連理工大學(xué)博士學(xué)位論文,2012.

      Exploiting Source Domain Structure in Granular Transfer Learning for Part-of-speech Tagging

      SUN Shichang1,2,LIN Hongfei1,MENG Jiana2,LIU Hongbo3

      (1.School of Computer Science and Technology,Dalian University of Technology,Liaoning,Dalian 116023,China 2.School of Computer Science and Technology,Dalian Nationality University,Liaoning,Dalian 116600,China3.Information Science and Technology College,Dalian Maritime University,Liaoning,Dalian 116026,China)

      Transfer learning alleviates the data sparseness issue to some extent,but the generalization capacity is still hindered by negative-transfer problem.To address this issue,we propose an information granulation method for text corpora based on source domain structure.Interval granules are employed to express the influence of source domain structure on statistics of the dataset.We further design an Interval Type-2 fuzzy Hidden Markov Model (IHMM) to deal with the interval granules.Experiments on part-of-speech tagging proves that the proposed method avoids negative-transfer and improves generalization capacity.

      transfer learning;granular computing;interval granules;part-of-speech tagging

      孫世昶(1979—),博士,講師,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)與文本挖掘。E-mail:ssc@dlnu.edu.cn林鴻飛(1962—),通信作者,博士,教授,主要研究領(lǐng)域?yàn)槲谋就诰蚝托畔z索。E-mail:lhf@dlut.edu.cn孟佳娜(1972—),博士,教授,主要研究領(lǐng)域?yàn)槲谋就诰?。E-mail:mjn@dlnu.edu.cn

      1003-0077(2011)00-0066-09

      2016-09-20 定稿日期:2016-10-15

      國家自然科學(xué)基金(61472058,61572102);遼寧省自然科學(xué)基金(201602195);中央高校自主基金(DC201502030202)

      TP391

      A

      猜你喜歡
      粒化源域語料
      多源域適應(yīng)方法綜述
      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
      琯溪蜜柚汁胞?;绊懸蛩丶胺揽丶夹g(shù)綜述
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      粗粒化DNA穿孔行為的分子動(dòng)力學(xué)模擬
      再 論 粒 化 思 維
      扎兰屯市| 孟连| 两当县| 青浦区| 明光市| 新建县| 文昌市| 定结县| 云龙县| 乌拉特中旗| 邹城市| 呼和浩特市| 龙口市| 内黄县| 镇雄县| 嵊州市| 永和县| 五指山市| 上高县| 修武县| 太保市| 夏河县| 自治县| 浮梁县| 怀仁县| 紫阳县| 五指山市| 玛曲县| 东丰县| 白河县| 隆昌县| 莲花县| 慈利县| 肥东县| 东山县| 石泉县| 和顺县| 湘潭市| 尉氏县| 涿州市| 灵璧县|