• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主動(dòng)學(xué)習(xí)的中文問(wèn)題分類(lèi)數(shù)據(jù)集構(gòu)建

      2012-09-02 08:35:22邱錫鵬繆有棟黃萱菁
      關(guān)鍵詞:分類(lèi)器分類(lèi)樣本

      邱錫鵬,繆有棟,黃萱菁

      (復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,201203上海)

      問(wèn)題分類(lèi)(Question Classification,QC)是開(kāi)放領(lǐng)域問(wèn)題回答(Question Answering,QA)系統(tǒng)的基礎(chǔ)和前提,問(wèn)題分類(lèi)準(zhǔn)確性直接影響整個(gè)問(wèn)答系統(tǒng)的性能[1].在NIST舉辦的TREC QA評(píng)測(cè)會(huì)議推動(dòng)下,問(wèn)題分類(lèi)的研究已取得很大的進(jìn)展.但目前大部分問(wèn)題分類(lèi)的研究還集中在英文語(yǔ)料上,在中文問(wèn)題分類(lèi)的研究上,由于缺乏大規(guī)模的公開(kāi)中文問(wèn)題分類(lèi)數(shù)據(jù)集,以及中英文的語(yǔ)言區(qū)別,因此中文問(wèn)題分類(lèi)的性能還達(dá)不到英文的水平,這給中文問(wèn)題回答研究帶來(lái)了一個(gè)主要瓶頸.因此,標(biāo)注一個(gè)大規(guī)模的中文問(wèn)題分類(lèi)數(shù)據(jù)集是中文問(wèn)答系統(tǒng)研究中非常急迫的工作.

      在語(yǔ)料標(biāo)注中首先需要確定的是標(biāo)注規(guī)范.目前問(wèn)題分類(lèi)語(yǔ)料主要是針對(duì)事實(shí)類(lèi)問(wèn)題進(jìn)行答案類(lèi)型的標(biāo)注,這樣無(wú)法處理非事實(shí)類(lèi)問(wèn)題.本文根據(jù)問(wèn)題類(lèi)型和答案類(lèi)型兩方面進(jìn)行標(biāo)注.問(wèn)題類(lèi)型是定義用戶(hù)提問(wèn)的意圖,比如“事實(shí)類(lèi)”、“評(píng)價(jià)類(lèi)”、“比較類(lèi)”等.不同問(wèn)題類(lèi)型對(duì)應(yīng)不同的處理方式以及答案生成策略.答案類(lèi)型是定義返回答案的類(lèi)型,比如:“人物”、“歌名”等.答案類(lèi)型和問(wèn)答系統(tǒng)中的其他模塊一起配合工作,比如:命名實(shí)體識(shí)別、文檔摘要和答案抽取等.因此根據(jù)Z.Dong等[2]的實(shí)體分類(lèi)體系來(lái)確定答案類(lèi)型的標(biāo)注規(guī)范.

      在構(gòu)建數(shù)據(jù)集的方法中,主動(dòng)學(xué)習(xí)方法[3-4](Active Learning)已經(jīng)被證明是一種有效的減少標(biāo)注工作量有效方法.主動(dòng)學(xué)習(xí)是一種增量式的標(biāo)注方法,每次只需要人工標(biāo)注當(dāng)前模型分類(lèi)中最不確定的樣本,這樣可以盡量避免標(biāo)注重復(fù)樣本,使得標(biāo)注樣本的差異近可能大.要標(biāo)注大規(guī)模的數(shù)據(jù)集,每次按順序或隨機(jī)選取樣本進(jìn)行標(biāo)注的代價(jià)相當(dāng)大,而通過(guò)主動(dòng)學(xué)習(xí),每次選取對(duì)當(dāng)前分類(lèi)模型來(lái)說(shuō)具有最不確定性的樣本,會(huì)極大程序上降低標(biāo)注的工作量.本文采用快速的不確定樣本特征選取方式,利用Passive Aggressive(PA)算法來(lái)訓(xùn)練線(xiàn)性分類(lèi)器,并計(jì)算分類(lèi)的置信度.

      1 已有研究

      在英文問(wèn)題分類(lèi)方面,X.Li等[5-6]構(gòu)建了一個(gè)簡(jiǎn)單的英文問(wèn)題分類(lèi)數(shù)據(jù)集,采用了Winnow network算法進(jìn)行問(wèn)題分類(lèi),準(zhǔn)確率達(dá)到82%,在使用了一些詞的特征以及一些語(yǔ)義特征后,準(zhǔn)確率達(dá)到89%.D.Zhang等[7]使用基于語(yǔ)法樹(shù)核的方法,先進(jìn)行句法分析,然后用支撐向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類(lèi),使得準(zhǔn)確率提高到90%左右.Z.Huang等[8-9]利用英文問(wèn)句的特點(diǎn),結(jié)合英文疑問(wèn)詞(wh-word,比如:who/what/where)、中心詞(Head word)以及該詞的同義詞和上位詞等特征,在這些特定的特征下,采用SVM或最大熵方法進(jìn)行分類(lèi),準(zhǔn)確率在89%左右,在減小特征情況下準(zhǔn)確率并沒(méi)有顯著下降.

      在中文問(wèn)題分類(lèi)方面,張宇等[10]采用了針對(duì)問(wèn)題分類(lèi)問(wèn)題提出了改進(jìn)的貝葉斯分類(lèi)方法來(lái)改進(jìn)分類(lèi),準(zhǔn)確率為72.4%.文勖等[11]加入了句法結(jié)構(gòu)特征,在有效的分詞和句法分析數(shù)據(jù)上,得到了73%的準(zhǔn)確率.

      2 基本算法及框架

      2.1Passive Aggressive(PA)算法

      PA算法是一種在線(xiàn)學(xué)習(xí)算法,其基本思想是為了保證更新后的分類(lèi)器盡量保留以前的信息,每次總是選取與原有分類(lèi)器參數(shù)向量最接近的新向量,并且利用合適的損失函數(shù)作為更新后的向量在當(dāng)前樣本點(diǎn)上的懲罰,而這個(gè)懲罰是每次控制分類(lèi)器更新程度的重要參數(shù).

      假設(shè):x為樣本;y為對(duì)應(yīng)的類(lèi)別;Φ(x,y)為定義在(x,y)上的特征向量.每個(gè)樣本x的預(yù)測(cè)類(lèi)別為

      式中:w為權(quán)重向量,文獻(xiàn)[12]中提供了3種不同的優(yōu)化準(zhǔn)則來(lái)進(jìn)行學(xué)習(xí)更新權(quán)重的策略.

      在PA算法中,目標(biāo)函數(shù)定義為

      式中l(wèi)(w,Φ(x,y))為損失函數(shù),其定義為

      式中:γ(w;Φ(x,y))=wT·Φ(x,y)-wT·Φ(x,y~),y~=argz≠myax (wT·Φ(x,z)).Y為樣本的真實(shí)類(lèi)別;y~為分類(lèi)器預(yù)測(cè)的最佳類(lèi)別(除真實(shí)類(lèi)別外).

      對(duì)于式(1),使用拉格朗日算法來(lái)求解最優(yōu)化問(wèn)題.這樣w的更新方法為

      lt為當(dāng)前第t次迭代時(shí)的損失值.

      PA算法的具體訓(xùn)練流程如圖1所示.

      圖1 Passive aggressive算法的訓(xùn)練過(guò)程

      2.2 主動(dòng)學(xué)習(xí)

      主動(dòng)學(xué)習(xí)是一種半監(jiān)督學(xué)習(xí)算法,其核心思想是通過(guò)標(biāo)注最少量的樣本,并使得分類(lèi)模型的性能可以快速提高,減少人工標(biāo)注的工作量.近年來(lái)主動(dòng)學(xué)習(xí)方法已經(jīng)被廣泛應(yīng)用于需要大量人工標(biāo)注的數(shù)據(jù)集構(gòu)建工作中.

      在主動(dòng)學(xué)習(xí)中,首先標(biāo)注兩個(gè)數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集L和測(cè)試數(shù)據(jù)集T.初始訓(xùn)練集L僅僅包含少量的樣本,未標(biāo)注的樣本都被分配到未標(biāo)注數(shù)據(jù)集U.

      首先使用訓(xùn)練數(shù)據(jù)集L中的樣本學(xué)習(xí)出一個(gè)分類(lèi)模型.用這個(gè)模型對(duì)未標(biāo)注數(shù)據(jù)集U中的樣本進(jìn)行預(yù)測(cè),并選取出前k條預(yù)測(cè)置信度最低的樣本進(jìn)行人工標(biāo)注,并從U中刪除,標(biāo)注的樣本后加入L中,并重新訓(xùn)練分類(lèi)模型.并不斷重復(fù)上述過(guò)程.測(cè)試集T用來(lái)檢驗(yàn)當(dāng)前模型的預(yù)測(cè)效果.當(dāng)新的模型在測(cè)試集T上的性能增加小于一定閾值時(shí),就停止標(biāo)注或重新選取測(cè)試集T.

      為了選取最不確定的樣本,定義一個(gè)預(yù)測(cè)置信度R.設(shè)y1和y2分別為兩個(gè)當(dāng)前模型預(yù)測(cè)分?jǐn)?shù)最高的類(lèi).標(biāo)簽為

      對(duì)于未標(biāo)注集合U的所有數(shù)據(jù),本文都使用當(dāng)前分類(lèi)模型計(jì)算相應(yīng)的置信度,排序找出置信度最小的前i個(gè)樣本進(jìn)行人工標(biāo)注,從U中刪除并加入到訓(xùn)練集L中.標(biāo)注流程圖如圖2所示.

      圖2 基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)標(biāo)注流程

      3 基于主動(dòng)學(xué)習(xí)的問(wèn)題分類(lèi)標(biāo)注方法

      在問(wèn)題分類(lèi)中,提取復(fù)雜特征增加了處理時(shí)間但并不能有效地改進(jìn)模型性能.并且當(dāng)處理口語(yǔ)或網(wǎng)絡(luò)問(wèn)句時(shí),深層語(yǔ)法分析不能取得很好的結(jié)果,這樣利于語(yǔ)法特征反而會(huì)降低性能.因此根據(jù)先驗(yàn)知識(shí)提取一些有效特征有效提高模型性能.

      本文提取線(xiàn)索詞(hint word)作為特征.當(dāng)一個(gè)問(wèn)句中出現(xiàn)多個(gè)線(xiàn)索詞上時(shí),將多個(gè)線(xiàn)索詞之間的共現(xiàn)關(guān)系作為擴(kuò)展特征.

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)收集

      本文從“百度知道”和“搜搜問(wèn)問(wèn)”兩個(gè)問(wèn)答網(wǎng)站下載一百萬(wàn)條娛樂(lè)相關(guān)的問(wèn)句.然后將利于主動(dòng)學(xué)習(xí)的方法標(biāo)注.每次進(jìn)行標(biāo)注時(shí),讓兩個(gè)標(biāo)注者進(jìn)行標(biāo)注,當(dāng)兩個(gè)標(biāo)注者標(biāo)注結(jié)果不一致時(shí),讓一個(gè)校對(duì)人員進(jìn)行最終確認(rèn).

      4.2 主動(dòng)抽取特征的實(shí)驗(yàn)效果以及分類(lèi)器選擇實(shí)驗(yàn)

      為了驗(yàn)證線(xiàn)索詞特征的有效性,與n-gram特征進(jìn)行對(duì)比.

      首先進(jìn)行特征選取,采用圖3中的實(shí)驗(yàn)流程,設(shè)定初始樣本集大小和每次增加的樣本數(shù)量都為100.實(shí)驗(yàn)中,在30次循環(huán)后準(zhǔn)確率收斂,此時(shí)抽取特征為400個(gè)特征.使用這400個(gè)特征進(jìn)行后續(xù)實(shí)驗(yàn).

      圖3是PA與感知器兩個(gè)分類(lèi)器的結(jié)果比較.從圖3中明顯可以發(fā)現(xiàn)PA算法比感知器的性能有很大提升.因此之后的實(shí)驗(yàn)都采用PA算法.

      圖3 PA算法和感知器鐵問(wèn)題分類(lèi)性能比較

      在感知器的n-gram特征和主動(dòng)抽取線(xiàn)索詞特征的結(jié)果對(duì)比中看出通過(guò)加入線(xiàn)索詞特征可以快速提升分類(lèi)模型的效果.

      對(duì)于采用相同算法時(shí),使用線(xiàn)索詞特征的收斂速度更快,并且分類(lèi)性能更好.在最終的線(xiàn)索詞庫(kù)中,大部分為疑問(wèn)詞或明顯指示詞的不同變換形式.

      因此在數(shù)據(jù)構(gòu)建過(guò)程中,用PA算法進(jìn)行模型訓(xùn)練.這里使用2種特征(n-gram特征(n=3)、線(xiàn)索詞特征)進(jìn)行比較.并比較主動(dòng)學(xué)習(xí)和隨機(jī)抽取樣本兩種不同的標(biāo)注方法進(jìn)行訓(xùn)練,一共4組方式作為橫向比較.將這4組方式選取同樣的初始訓(xùn)練集,之后每次根據(jù)不同選取樣本策略選取100條數(shù)據(jù)進(jìn)行標(biāo)注.

      4組實(shí)驗(yàn)的性能比較如圖4所示.基于主動(dòng)學(xué)習(xí)的兩組方法在收斂速度上明顯快于另外兩組,當(dāng)準(zhǔn)確率達(dá)到80%時(shí),采用基于主動(dòng)學(xué)習(xí)的方法只需要基于隨機(jī)采樣的1/2數(shù)據(jù)量,這就減少了1/2的數(shù)據(jù)標(biāo)注工作量.因此采用基于主動(dòng)學(xué)習(xí)標(biāo)注方法在減少人工方面是十分顯著的.

      圖44 種抽取特征方式的比較

      在使用線(xiàn)索詞作為特征時(shí),錯(cuò)別字會(huì)降低分類(lèi)性能.例如:“歌->哥”,“專(zhuān)輯->專(zhuān)集”等.在以后研究中,需要進(jìn)一步針對(duì)這個(gè)問(wèn)題進(jìn)行研究.

      4.3 構(gòu)建中文問(wèn)題分類(lèi)數(shù)據(jù)集

      經(jīng)過(guò)基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)集標(biāo)注,最終形成了包含12 309條問(wèn)句的中文問(wèn)題回答數(shù)據(jù)集.

      4.3.1 問(wèn)題類(lèi)型

      在所有問(wèn)句中,目前包含11種問(wèn)句形式,統(tǒng)計(jì)各類(lèi)的數(shù)據(jù)量和樣例問(wèn)題如表1所示.

      表1 中文問(wèn)題分類(lèi)數(shù)據(jù)集的問(wèn)題類(lèi)型統(tǒng)計(jì)

      每一類(lèi)都有自己顯著的問(wèn)句形式并且類(lèi)與類(lèi)之間沒(méi)有顯著的相關(guān)性,可作為分類(lèi)器的類(lèi)別進(jìn)行學(xué)習(xí).

      4.3.2 答案類(lèi)型

      相對(duì)于問(wèn)題類(lèi)型,答案類(lèi)型是協(xié)助問(wèn)答系統(tǒng)進(jìn)行答案抽取的一個(gè)重要依據(jù).目前數(shù)據(jù)集中包含答案類(lèi)型可以分為7大類(lèi)和66個(gè)小類(lèi).表2是66個(gè)小類(lèi)的數(shù)據(jù)分布情況.

      表2 中文問(wèn)題分類(lèi)數(shù)據(jù)集的答案類(lèi)型統(tǒng)計(jì)

      5 結(jié)語(yǔ)

      本文提出一種基于主動(dòng)學(xué)習(xí)的構(gòu)建中文問(wèn)題分類(lèi)數(shù)據(jù)集方法,并從問(wèn)題類(lèi)型和答案類(lèi)型兩個(gè)方面定義了一套中文問(wèn)題類(lèi)別規(guī)范.實(shí)驗(yàn)顯示該方法有效地減少了標(biāo)注樣本的工作量.

      [1]VOORHEES E M.Overview of the TREC 2003 question answering track[C]//Proceedings of the Twelfth Text Retrieval Conference(TREC 2003).[S.l.]:Computer Science Bibliography,2003:54-68.

      [2]DONG Z,DONG Q.HowNet and the computation of meaning[M].[S.l.]:World Scientific Publishing Company,2006.

      [3]FREUND Y,SEUNG H S,SHAMIR E,et al.Selective sampling using the query by committee algorithm[J].Machine Learning,1997,28(2/3):133-168.

      [4]COHN D A,GHAHRAMANI Z,JORDAN M I.Active learning with statistical models[J].Journal of Artificial Intelligence Research,1996,4(1):129-145.

      [5]LI X,ROTH D.Learning question classifiers[C]//Proceedings of the 19th International Conference on Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2002:1-7.

      [6]LI X,ROTH D.Learning question classifiers:the role of semantic information[J].Natural Language Engineering,2006,12(3):229-249.

      [7]ZHANG D,LEE W S.Question classification using support vector machines[C]//Proceedings of the 26th ACM SIGIR Conference in Information Retrieval.New York,NY:ACM,2003:26-32.

      [8]HUANG Z H,THINT M,QIN Z C.Question classification using head words and their hypernyms[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2008:927-936.

      [9]HUANG Z H,THINT M,CELIKYILMAZ A.Investigation of question classifier in question answering[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2009:543-550.

      [10]張宇,劉挺,文勖.基于改進(jìn)貝葉斯模型的問(wèn)題分類(lèi)[J].中文信息學(xué)報(bào),2005,19(2):100-105.

      [11]文勖,張宇,劉挺,等.基于句法結(jié)構(gòu)分析的中文問(wèn)題分類(lèi)[J].中文信息學(xué)報(bào),2006,20(2):33-39.

      [12]CRAMER K,DEKEL O,KESHET J,et al.Online passive-aggressive algorithm[J].Journal of Machine Learning Research,2007,(7):551-585.

      猜你喜歡
      分類(lèi)器分類(lèi)樣本
      分類(lèi)算一算
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      分類(lèi)討論求坐標(biāo)
      推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
      數(shù)據(jù)分析中的分類(lèi)討論
      BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
      教你一招:數(shù)的分類(lèi)
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      潼南县| 泗洪县| 申扎县| 兰坪| 陕西省| 称多县| 巫山县| 甘孜| 大洼县| 兴安县| 陆丰市| 洛扎县| 吕梁市| 达拉特旗| 蛟河市| 罗源县| 栾川县| 昭通市| 林芝县| 榕江县| 涞水县| 嵩明县| 罗田县| 秭归县| 尼勒克县| 磴口县| 马鞍山市| 梧州市| 饶河县| 墨竹工卡县| 华池县| 贞丰县| 平谷区| 临朐县| 麟游县| 平顶山市| 桑植县| 南靖县| 屯留县| 孝义市| 五莲县|