采用改進重采樣和BRF方法的定義抽取研究

2011-06-14 03:34:50顧宏斌

中文信息學報 2011年3期

潘湑，顧宏斌

(南京航空航天大學民航學院，江蘇南京 210016)

1 簡介

隨著國內航空業(yè)的發(fā)展，對于民航從業(yè)人員的培訓需求迅速增長。當前各種培訓材料主要來源于各種技術文檔和維護手冊，而針對特定目的的培訓教材和考核試題則完全由培訓教員手動編寫。術語可以是單個的詞或者短語，其定義是培訓素材中可以用來描述術語所描述的事物的本質特點、作用、發(fā)生原因、位置、成分結構，或者其來源、形成情況等的句子[1]。這樣的句子不僅包含了可用于培訓教材的認知型信息，而且其結構很適合作為考核題庫以及領域本體系統(tǒng)的備選資料。

現有的定義抽取技術主要用于在自動問答系統(tǒng)中抽取答案，抽取的定義限于表達‘what is’和‘who is’類型的知識，利用的語料一般是使用給定術語詞匯從搜索引擎或者語料庫中抓取的相關文本信息。抽取的一般步驟是先用規(guī)則匹配方法獲取候選定義句，之后用分類的方法作進一步劃分以提高準確率，或者用排序的方法選出得分較高的句子作為給定術語的定義。

本文的目標是從航空民航專業(yè)語料庫中識別出所有包含航空、民航專業(yè)術語定義的單句，和現有的定義抽取技術的目標相比有一些不同之處。首先是要求獲得語料中所有的包含術語定義的單句，而不是給定術語的定義句；其次，要求可以獲得類型多種多樣的定義句，而不僅僅是‘what is’和‘who is’類型；再次，要求抽取的結果能夠達到盡可能高的召回率和準確率，而不僅僅是保證排序較高的少數幾個句子的準確性；最后，現有方法大多利用經初步篩選后的語料中包含的詞語的出現頻率來計算排序分值，這種方法既不利于按領域劃分術語定義也不利于保證最終結果中術語定義的時效性。由此可見，現有的定義抽取方法無法滿足本文的要求，因此本文提出了一種完全依靠分類方法來進行發(fā)現語料中的所有專業(yè)術語定義的方法。

本文的以后的內容安排如下：第2節(jié)介紹了近年來國內外對于各種術語定義抽取方法的研究和應用，并在最后提出了本文所使用方法的基本思想。第3節(jié)介紹了本文實驗所采用的語料庫的情況以及本文實驗的一些設計。第4節(jié)首先在本文實驗的語料庫上進行了僅使用BRF方法的實驗，之后介紹了本文提出的基于實例距離分布信息的過采樣方法的實驗。第5節(jié)是全文的結論。

2 研究現狀

2.1 用于自動問答系統(tǒng)的定義抽取

當前用于自動問答系統(tǒng)的定義抽取，大多先用規(guī)則匹配方法獲取候選定義句。使用的規(guī)則模板大致分為兩類，一類是硬匹配模式(Hard Patterns)[2-3]，另一類為柔性模式(Soft Pattern)[4-5]。大部分針對英文語料的實驗，主要針對系動詞和核心動詞建立模版；而在中文研究中，采用的模版包含了除核心動詞外的其他一些詞匯，同時，在目前所見的研究中，均為硬匹配模版,模式的數量一般在5～8個之間。

而柔性模式，則是從大量正例文本中通過結合詞匯片段和語言學標注，結合概率模型和上下文順序來獲取不同層次的模式[6]，這種方法在一些信息抽取項目中已被廣泛應用[7]。

在分類階段所使用的方法包括了大多數已知的分類方法，如K-臨近(Knn)法、樸素貝葉斯(Na?ve Bayes)法、支持向量機(Svm)方法等。從報告的結果看，在針對斯拉夫語的實驗中，單純是用機器學習方法而不使用規(guī)則模式的時候，準確率最低只有不到9%(正例:反例為1∶1)，而綜合了規(guī)則模板和多分類器的方法則可以達到20%的準確率[8-9]。而在針對英語的實驗中，綜合了機器學習方法和模式規(guī)則的方法效果較好，在定義句占訓練語料58.1%的實驗中，可以達到85%以上的準確率。但是，采用不同核的SVM 效果差異較大，徑向基(Radial Base Function, RBF)核效果最好，而線性核的效果甚至不如樸素貝葉斯方法[10]。

排序的方法主要見于李航和張榕的論文[2-3]，排位越高的句子，越傾向于認為是定義。張榕利用詞在術語和非術語語料中的出現頻率來定義詞和句子的隸屬度；李航等使用句子的基本名詞短語為特征，用Svm方法排序。在選取排序前三的結果進行比較時，前者在中文語料上達到83%的準確率，后者在包含16.5%的定義句的英文語料上達到88%的準確率。

2.2 使用分類方法的定義抽取

近期也有學者開始用處理不平衡數據分類的方法作為單一步驟來處理術語定義分類的問題。當一個數據集中的一個類別包含的實例數量遠遠小于其他類別時，這個數據集被認為是不平衡的。本文使用的語料庫中，定義句的數量遠遠少于非定義句，可以被認為是一種二分類的不平衡數據集[11-12]。在現實世界中，存在很多類似的問題如網絡入侵檢測[13]、利用衛(wèi)星圖像進行原油泄漏檢測[14]、罕見疾病診斷、飛機故障檢測等。在面對這樣的極不平衡數據時，一般的分類器極難準確預測作為少數類的正例。

處理不平衡數據分類問題的策略主要有兩類。其一是對原始數據集進行重采樣[16-19]，既可以對少數類數據進行過采樣，也可以對多數類數據進行欠采樣，直至達到一個能夠獲得較好分類結果的數據分布[20]。其二是通過給不同的類別設置不同的誤分類代價來提高分類敏感的學習方法的分類性能[21-23]。

重采樣技術在將數據交給分類器處理前先對數據分布進行調整，達到合適分布。其中最簡單的方法是進行隨機的過采樣和欠采樣[17]，前者隨機的復制正例加入到少數類中，后者隨機的從多數類中去除反例，但是前者會導致過擬合的問題，而后者會去除數據中很多重要信息。為了解決這些問題，近年來相關研究人員針對重采樣方法進行了諸多改進。

Chawla等人于2002年設計了過采樣技術SMOTE(Synthetic Minority Over-Sampling TEchnique)[19]，通過在兩個相鄰正例之間生成一個合成實例來對少數類進行過采樣，可以在一定程度上避免過采樣算法中的過學習問題。但是在處理高偏問題時效果有限，因為高偏問題中少數類往往過于稀疏，從而導致少數類和多數類最終混雜在一起。

Han等人，于2005年在SMOTE的基礎上進行改進，提出了Borderline-SMOTE技術[24]，將正例劃分為噪聲、邊界、安全三個區(qū)域，采用和SMOTE相同的過采樣方法，但是只對邊界域中的少數類進行過采樣。

Chumphol Bunkhumpornpat等人于2009年，對SMOTE做了進一步改進，提出了Safe-Level-SMOTE技術[25]，通過計算一個少數類實例的safe level，來確定不同的過采樣合成實例的生成位置。該方法可以得到比SMOTE和Borderline-SMOTE更高的準確率。

改進欠采樣的方法有Condensed Nearest Neighbor[26]、Neighborhood Cleaning Rule[27]、One-sided Selection[17]、Tomek Link等[28]。這些方法通過一些方法，找出邊界樣本和噪音樣本，有選擇地去掉對分類作用不大，即遠離分類邊界或者引起數據重疊的多數類樣本，并將其從大類中去掉，只留下安全樣本和小類樣本作為分類器的訓練集。通常改進的欠采樣方法得到的分類效果比隨機欠采樣理想一些。

Bagging(Bootstrap AGGregatING)算法[29]是一種集成學習(ensemble learning)技術[30]，該算法在訓練階段，各學習器的訓練集由原始訓練集利用可重復采樣(bootstrap sampling)技術獲得，訓練集的規(guī)模通常與原始訓練集相當。原始訓練集中的某些實例可能在新的訓練集中出現多次，而另一些實例可能不出現。Bagging可以顯著提高不穩(wěn)定的分類器的泛化能力。大部分集成學習算法在生成多個獨立的分類器之后，通常是對所有的分類器的結果進行聚合，因此很多研究者嘗試使用大規(guī)模的集成來解決問題。BRF方法是在Bagging基礎上發(fā)展起來的，利用可放回的重采樣方法以不平衡數據為基礎獲得平衡訓練集的集成學習技術[15]。

本文采用完全依靠分類的方法來解決定義抽取的問題，首先使用基于實例距離分布信息改進的過樣方法調整語料的不平衡分布，之后結合隨機欠采樣方法構建多個平衡訓練集用以訓練C4.5決策樹，之后使用BRF方法獲得C4.5決策樹分類結果的聚合。該方法既獲益于重采樣方法對數據分布的調整，又獲益于Bagging方法對不穩(wěn)定分類器性能的提升。

3 實驗設計

3.1 語料庫建設

本文使用的語料庫及其預處理過程和文獻[31]相同，由4本航空專業(yè)教材構成，總計16 627個句子，其中包含1 359個定義句或包含定義的句子。如果以定義句為正例，非定義句為反例，則正例占實例總數的約8%，正例與反例的數量比是1∶11.2，是一種極不平衡的數據集。

3.2 分類器

本文的實驗使用新西蘭懷卡托大學開發(fā)的懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis，WEKA)中的J48算法來構建分類樹，這是C4.5算法的一個變種。

3.3 評價指標

本文的實驗使用的評價方法包括召回率(Recall)、準確率(Precision)、F-measure，定義如下：

F-measure中β的取值由實驗中召回率和準確率的重要性來決定，當β取值為1的時候(F1指標)，認為召回率和準確率同等重要；當β取值為2的時候(F2指標)，認為召回率比準確率更加重要。

3.4 特征選擇和權重設置

本文使用詞袋模型作為文本表達方式，使用的特征為經哈爾濱工業(yè)大學LTP中文處理平臺分詞得到的中文詞[32]。使用詞匯的TF×IDF(詞頻×逆文檔頻率)作為特征的權重。

通過以前的研究表明，使用IG(Information Gain)或者CHI(開方檢驗)方法可以在使用較少數量的特征時，依然能夠保證分類器的性能[31]，本文最終使用IG作為本文實驗的特征選擇依據。如圖1 所示(針對單顆樹選取不同比例的特征對結果的影響圖)，分別給出了使用隨機重采樣技術和本文提出的改進重采樣技術情況下，在選用占總特征數不同比例的特征時單個分類器分類結果F2指標的變化情況。兩組實驗分別使用對原始數據集進行50次重采樣得到的數據作為訓練集，以原始數據集作為測試集，實驗結果取平均值。實驗結果表明，使用IG作為特征選擇方法，單個分類器的F2評價指標隨著選用特征的數量不同而變化。從選用特征數量為特征總數的1%開始，F2指標逐步提高。當選用特征數量達到特征總數的30%～40%時，F2指標達到最高值，隨后F2指標開始下降。之后的實驗均按照IG方法選取占總數35%的特征進行實驗。

圖1 單顆C4.5樹使用不同比例特征時的結果

4 使用隨機重采樣的方法及改進

4.1 采用BRF方法的實驗

如前所述，本文使用的術語定義語料庫是一種極不平衡的數據集，所以在該數據集上應用任何一種分類方法時，必須考慮到這種實例分布的特殊性帶來的影響。本文首先按照ukasz Kobyliński等人[15]的方法建立基礎實驗，僅作兩點改動，一是用C4.5決策樹代替CART樹，二是用信息增益(Information Gain)方法進行特征選擇。

該實驗結果如圖2所示，實驗結果同時表明了在使用Bagging方法處理航空領域術語定義抽取問題時，聚合結果和參與聚合的樹的數量之間的變化關系。由于使用偶數顆樹進行聚合時，投票結果中會出現對有些實例的正例判決得票數和反例判決得票數相等的情況，圖中將這類實例稱為未定實例，并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。從該圖可以看出，在樹的數量少于30時，聚合結果隨著樹的數量的增長快速提高，并達到59%的F1-measure成績和73%的F2-measure成績。但是在樹的數量超過30以后，聚合結果不能繼續(xù)提高。所以當處理大規(guī)模的術語定義抽取問題，需要兼顧模型的性能和訓練速度時，選用的聚合樹的數量可以定在30顆左右。

圖2 聚合樹數量和F-measure的對應關系

4.2 語料庫實例距離分布分析

本文使用實例間的歐氏距離分析航空領域術語定義語料庫的實例分布，存在以下特點：

1) 如圖3(a)所示，語料庫中的反例到最近的10個反例和最近的10個正例的距離均值集中在0.75～5.5之間，且大多數反例到最近的反例和到正例的距離均值相同或者很接近，僅有少量反例到反例的距離均值明顯小于到正例的距離均值，但是沒有反例到反例的距離均值小于到正例的距離均值。如圖3(b)所示，反例到最近的10個反例距離的方差密集分布于0.25～1.75之間，而反例到最近的10個正例距離的方差則密集分布在0到0.2之間。由此可見每個反例到最近10個正例和反例的平均距離很接近，但是到反例的距離在其均值附近的變化幅度遠大于到正例的距離。距離每個反例最近的10個實例中，依然是反例占多數。

圖3 反例到最近的10個實例的距離分布

2) 如圖4(a)所示，語料庫中的大部分正例到最近的10個正例的歐氏距離密集分布于1～2.5之間，且大多數正例到最近的正例和到反例的距離均值相同或者很接近，僅有少量正例到正例的距離均值明顯大于到反例的距離均值。如圖4(b)所示大部分正例到最近的10個正例距離的方差方法密集分布于0.3～0.8之間，而到最近的10個反例的距離方差密集分布于0～0.1之間。語料庫中正例到最近的10個正例的距離均值和到最近的10個反例的距離均值非常接近，而正例到最近的10個正例的距離方差遠遠大于最近的10個正例的距離方差。大部分正例的10個最近鄰實例中，依然是正例占多數，并且呈現出正例和反例間隔出現的情況。同時，也存在少量實例的10個最近鄰實例都是反例的情況。

圖4 正例到最近10個實例的距離方差

3) 如圖5所示，(a)是語料庫中少數類的正例到最近的10個正例的距離均值—數量的對應分布，表明全部正例的35.7%(485個)到最近10個正例的距離均值在1.20～1.425之間，而到10個最近正例的距離均值在0.975～1.875之間的正例更是占到總數的89%(1 210個)，這是一個密集分布區(qū)。(b)是語料庫中少數類的正例到最近的10個反例的距離均值—數量的對應分布，表明全部正例的33.6%(456個)到最近的10個反例的距離均值在1.20～1.425之間，而到10個最近反例距離均值在0.975～1.875之間的正例更是占到總數的84.5%(1 149個)。這表明單個正例到10個最近鄰實例，不論是同類實例還是異類實例，均集中在0.975～1.875之間，這個區(qū)域將成為本文下一步進行過采樣處理的重點區(qū)域。

圖5 正例到最近10個最近實例的距離均值的分布

4.3 基于實例距離分布信息改進的重采樣方法

基于以上對術語定義數據集中實例間距離的分析，本文對隨機重采樣算法做如下改進：

定義1：假設整個術語定義數據集中的實例總數為T，少數類實例總數為m，其中一個實例Pi到另一個同類實例Pj的距離為Dij，1

定義2：設數據集中的少數類實例Pi(1

1) 對于少數類中的每個實例Pi，在T中計算它的5個近鄰實例并按照距離由小到大的順序排列于隊列Pi-5NN中。

2) 如果Pi與Pi-5NN中首個實例構成一個不安全實例對或者中等安全實例對，則Pi不參與合成新樣本，其Pi-SYN為空，否則從Pi-5NN中逐個取出實例并與Pi比較。

3) 如當前Pi-5NNk實例為正例，且〈Pi,Pk〉為安全實例對或者中等安全實例對(非首個近鄰實例時)，將Pi-5NNk加入Pi-SYN；如果當前Pi-5NNk實例為反例，則檢查Pi-5NN剩余實例(含當前實例)中反例的占比和分布，如果反例的占比大于等于50%或者最近的連續(xù)的25%實例均為反例，則終止為當前Pi挑選新的合成實例集實例，否則跳過當前反例，重復步驟3)直到Pi-5NN為空。

4) 當確定了少數類實例的Pi-SYN后，將開始生成新的少數類合成樣本。本文使用數據僅包含數值型特征，合成實例包含的特征用與SMOTE相同的方法確定，但是采用新的隨機數生成方法如下。

定義3：假定Pi為當前少數類實例；Pcur為Pi-SYN中的當前候選合成實例；Ppre為Pi-SYN中位于Pcur之前的實例并滿足以下條件：在Pi-5NN中，Ppre到Pcur之間不存在異類實例且Pi-SYN中不存在比Ppre更靠前的實例Ppre′在Pi-5NN中到Pcur之間也不存在異類實例。

令Pcur到Pi的距離為Dcur，Ppre到Pi的距離為Dpre。圖5(a)將少數類實例到最近的同類實例的距離均值從近到遠劃分為等距離的10檔，表示為Level1～Level10，Dpre落在第Leveli檔中，Dcur落在第Levelj檔中。令Xpre為從Level1～Leveli包含的實例數量占少數類實例總數的比例，Xcur為從Level1～Levelj包含的實例數量占少數類實例總數的比例，則令合成新樣本過程中的隨機數取為rand[Xpre,Xcur]。

5) 在對多數類實例進行欠采樣前，去除反例中到最近10個同類實例的距離均值超過9.0的所有實例。去除反例中最近的10個實例中正例數量超過絕對多數的所有實例。

4.4 采用改進重采樣方法的實驗結果

經過以上處理后，少數類實例被過采樣約1.8倍，之后再用可放回的重采樣方法生成多個訓練集。每個訓練集中的少數類實例數量和多數類實例數量相等，且都為過采樣后少數類實例的數量。用以上訓練集訓練C4.5決策樹，用全部數據集作為測試集，用投票法獲取最終結果。由于使用偶數顆樹進行聚合時，投票結果中會出現對有些實例的正例判決得票數和反例判決得票數相等的情況，圖中將這類實例稱為未定實例，并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。實驗結果如圖6所示，在僅使用10顆聚合樹并將所有未定實例劃歸正例的情況下，就達到了F1-measure=0.658、F2-measure=0.78的最佳成績，比使用隨機采樣的Bagging方法的最好成績各提高了約5%。隨后，聚合成績有所下降，但是F1-measure穩(wěn)定在0.63～0.64之間，F2-measure穩(wěn)定在0.75～0.76之間。但是與隨機采樣的Bagging方法的結果不同的是，后者的實驗結果中，將未定實例劃歸反例可以獲得更好的成績，但是改進后的實驗中將未定實例劃歸正例可以獲得更好的成績。

圖6 聚合樹數量和F-measure對應關系

通過以上諸多實驗表明，在本文使用的語料的特征空間中，定義句比非定義句表現出更強的聚集性，并呈現出定義句的絕對稀疏性和在特定區(qū)域的相對密集分布。因此，本文的過采樣方法傾向于將合成樣本的生成位置確定在擁有更多可以構成安全實例對正例近鄰的區(qū)域，通過合成樣本有效強化了原數據集中的正例密集區(qū)域的分布。同時，本文在合成新樣本時對于夾雜在少數類近鄰中的零星多數類實例的處理方法，使得合成樣本能夠進一步鞏固原有少數類實例密集區(qū)域的邊界。最后，本文去除了部分距離較遠的多數類實例。通過以上方法，一方面調整了數據集中正反例的數量比，另一方面強化了正例的分布區(qū)域，配合之后的隨機采樣方法，構建了多個平衡訓練集用于訓練決策樹。實驗結果證明該方法比使用隨機欠采樣的Bagging方法更加有效。

5 結論

本文的實驗表明，采用基于實例距離分布信息改進的重采樣方法對比隨機重采樣方法，能夠有效的調整數據集分布，并提高Bagging方法的分類性能，是應對不平衡數據分類的有效方法。但是由于不同的數據集的數據分布情況差異較大，必須根據相應的數據分布特點來確定重采樣策略。

本文的實驗同時表明，用處理不平衡數據分類的方法來處理術語定義抽取問題是一種可行的思路，能夠將原有用于評價分類器的諸多評價指標引入到術語定義抽取領域。但是也面臨很多問題，如特征數量很多，導致樣本的特征空間是一種高維的稀疏空間，這也會極大的影響分類性能，這是我們下一步研究的重點之一。

[1] 馮志偉. 現代術語學引論[M]，語言文化出版社，1997： 31-34.

[2] Jun Xu, Yunbo Cao, Hang Li, Min zhao. Ranking Definitions with Supervised Learning Methods[C]//Proc. 14th International World Wide Web Conference Committee, Chiba, Japan: 2005: 811-819.

[3] 張榕. 術語定義抽取、聚類與術語識別研究[D]. 北京: 北京語言文化大學, 2006.

[4] Hang Cui, Min-Yen Kan, Tat-Seng Chua. Soft pattern matching models for definitional question answering[J]. ACM Transactions on Information Systems (TOIS), 2007, 25 (2): 8-es.

[5] H. Cui, M. Kan, and T. Chua. Generic soft pattern models for definitional question answering[C]//Proc. SIGIR’05, Salvador, Brazil: 2005: 384-391.

[6] Hang Cui, Min-Yen Kan, Tat-Seng Chua: Unsupervised learning of soft patterns for generating definitions from online news[C]//Proc. 13th international conference on World Wide Web, New York, NY, USA: 2004: 90-99.

[7] Eugene Agichtein and Luis Gravano. Snowball: Extracting relations from large plain-text collections[C]//Proc. the Fifth ACM International Conference on Digital Libraries, San Antonio, Texas, USA: 2000: 85-94.

[9] Przepiórkowski, A., Marcińczuk, M., Degórski..: Dealing with small, noisy and imbalanced data: Machine learning or manual grammars?[C]//Proc. TSD2008, Brno, Czech Republic: September 2008.

[10] Ismail Fahmi and Gosse Bouma. Learning to identify definitions using syntactic features[C]//Proc. the EACL workshop on Learning Structured Information in Natural Language Applications, Trento, Italy: 2006.

[11] Chawla, N., Japkowicz, N., Kolcz, A. Editorial: Special Issue on Learning from Imbalanced Data Sets[N]. SIGKDD Explorations 6(1), 1-6 2004.

[12] Prati, R., Batista, G., Monard, M. Class Imbalances versus Class Overlapping: an Analysis of a Learning System Behavior[C]//Proc. MICAI(2004). Heidelberg: Springer, 2004: LNAI 2972, 312-321.

[13] Fan, W., Miller, M., Stolfo, S., Lee, W., Chan, P. Using Artificial Anomalies to Detect Unknown and Known Network Intrusions[C]//Proc. ICDM 2001, San Jose, CA, USA: 2001: 123-130.

[14] Kubat, M., Holte, R., Matwin, S. Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J]. Machine Learning 30, 1998, 2-3: 195-215.

[16] Japkowicz, N. The Class Imbalance Problem: Significance and Strategies[C]//Proc. IC-AI 2000, Las Vegas, NV, USA: 2000 :111-117.

[17] Kubat, M., Matwin, S. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection[C]//Proc. ICML 1997, Morgan Kaufmann, Nashville: 1997: 179-186.

[18] Lewis, D., Catlett, J. Uncertainty Sampling for Supervised Learning[C]//Proc. ICML 1994, Morgan Kaufmann, New Brunswick: 1994: 148-156.

[19] N.V.Chawla, K. W. Bowyer. L.O.Hall, and W.P.Kegelmeyer. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

[20] G. M. Weiss and F. Provost. The effect of class distribution on classifier learning: An empirical study[R]. Computer Science Department, Rutgers University,. 2001.

[21] Domingos, P. Metacost: A General Method for Making Classifiers Cost-sensitive[C]//Proc. ACM SIGKDD 1999, San Diego: 1999: 155-164.

[22] Fan, W., Salvatore, S., Zhang, J., Chan, P. AdaCost: misclassification cost-sensitive boosting.[C]//Proc. ICML 1999, Bled, Slovenia: 1999: 97-105.

[23] Pazzani, M., Merz, C., Murphy, P., Ali, K., Hume, T., Brunk, C. Reducing Misclassification Costs.[C]//Proc. ICML 1994, Morgan Kaufmann, San Francisco: 1994: 217-225.

[24] Han, H., Wang, W., Mao, B. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.[C]//Proc. ICIC2005, LNCS 3644, Springer, Heidelberg: 2005: 878-887.

[25] Chumphol Bunkhumpornpat, Krung Sinapiromsaran and Chidchanok Lursinsap. Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling Technique for Handling the Class Imbalanced Problem[C]//Proc.， PAKDD 2009, Springer Berlin/Heidelber: 2009: 475-482.

[26] Hart, PE. The Condensed Nearest Neighbor Rule[J]. IEEE Transactions on Information Theory.1968, 14(3):515-516.

[27] Laurikkala, Jorma. Improving Identification of Difficult Small Classes by Balancing Class Distribution[R]. Department of Computer and Information Science, University of Tampere, Finland. 2001.

[28] Tomek, I. Two Modifications of CNN.[J].IEEE Transactions on Systems Man and Communications.1976,6(6): 769-772.

[29] Breiman, L, Bagging predictors[J]. Machine Learning, 2002, 26(2), 123-140.

[30] Dietterich TG. Machine Learning Research: Four current directions[J]. AI Magazine, 1997,18(4): 97-136.

[31] 潘湑，顧宏斌，孫嬋娟. 使用分類方法的航空領域術語定義識別[C]//Proc. CCPR2009, Nanjing, China: 2009 : 663-669.

[32] Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization[C]//Proc. COLING-ACL06, Sydney, Australia: 2006: 545-552.