那日薩, 孔 茸, 高 歡
(大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
隨著社會進(jìn)步和科技發(fā)展,人們越來越希望通過精確可靠的方式或借助科學(xué)計算工具來處理模糊現(xiàn)象,模糊集(Fuzzy Sets,F(xiàn)S)的提出突破了經(jīng)典集合中二值邏輯的約束,使計算機(jī)在外延不分明的模糊問題中也能發(fā)揮作用,直覺模糊集(Intuitionistic Fuzzy Sets,IFS)在模糊集的基礎(chǔ)上加入了猶豫度的概念,對模糊現(xiàn)象具有更精確的表示能力。近年來IFS相關(guān)研究中,隸屬度、非隸屬度的確定始終是一個重要問題[1,2],并直接影響著IFS的應(yīng)用范圍。
已有方法雖然考慮了研究問題和數(shù)據(jù)分布[2~4],但是大多采用模擬數(shù)據(jù)驗證方法有效性,極少應(yīng)用至實際數(shù)據(jù)。大數(shù)據(jù)時代使實際數(shù)據(jù)比以往更易獲得,數(shù)據(jù)類型也從結(jié)構(gòu)化向非結(jié)構(gòu)化轉(zhuǎn)變,能夠應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)的隸屬度確定方法更易于在實際問題中發(fā)揮作用,更加符合現(xiàn)實需求和技術(shù)趨勢。
近年來,深度學(xué)習(xí)在模式識別、文本挖掘等研究中廣泛應(yīng)用,它可以從數(shù)據(jù)中自動學(xué)習(xí)特征和隱藏結(jié)構(gòu)。IFS隸屬度、非隸屬度和猶豫度確定問題與深度學(xué)習(xí)處理分類問題時前幾步的運算過程相似,前者是通過某種方式確定樣本屬于IFS三種關(guān)系證據(jù)的程度,后者則是通過深層神經(jīng)網(wǎng)絡(luò)構(gòu)建樣本與類別之間的映射關(guān)系,所以IFS隸屬度、非隸屬度和猶豫度確定問題本質(zhì)上可看作一種“分類問題”,與深度學(xué)習(xí)的思想一致。
本文提出一種針對非結(jié)構(gòu)化數(shù)據(jù)的新方法,基于深度學(xué)習(xí)確定IFS隸屬度、非隸屬度和猶豫度。首先根據(jù)數(shù)據(jù)特點和IFS具體含義設(shè)計模型結(jié)構(gòu),然后在有標(biāo)簽數(shù)據(jù)上確定超參數(shù)并訓(xùn)練,最后使用成熟的模型計算無標(biāo)簽數(shù)據(jù)在IFS上的隸屬度、非隸屬度和猶豫度。本文在文本數(shù)據(jù)集上進(jìn)行實驗證明了方法可行性,新方法突破了傳統(tǒng)方法的技術(shù)和思維局限,為IFS隸屬度確定問題開辟了新的思路。
直覺模糊集[5,6]由Atanassov于1986年提出,是對Zadeh模糊集理論最有影響的擴(kuò)充和發(fā)展。FS可以描述“亦此亦彼”的模糊概念,IFS在FS隸屬度基礎(chǔ)上,提出了非隸屬度和猶豫度,可以進(jìn)一步描述“非此非彼”的中立狀態(tài),所以IFS可以更準(zhǔn)確、全面地反映客觀世界的模糊現(xiàn)象。
在IFS的應(yīng)用中,隸屬度、非隸屬度、猶豫度的確定至關(guān)重要,也是當(dāng)下的研究熱點與難點。雷陽等[7~10]對IFS非隸屬度確定進(jìn)行了許多探索:基于模糊統(tǒng)計提出了三分法非隸屬度確定方法,對論域模糊劃分,將界點的概率分布作為隸屬度函數(shù);針對元素具有屬性優(yōu)先特性的問題,提出了對比平均法和絕對比較法兩種非隸屬度確定方法;針對確定多屬性優(yōu)先次序問題,提出了基于優(yōu)先關(guān)系定序法的非隸屬度確定方法;總結(jié)了規(guī)范化確定非隸屬度的過程,理論證明了方法的正確性并進(jìn)行了算例分析,但其所提方法對數(shù)據(jù)結(jié)構(gòu)均有要求,算例規(guī)模小且沒有實際數(shù)據(jù)驗證。邢清華和劉付顯[11]基于證據(jù)理論,通過分析信任函數(shù)、似然函數(shù)與隸屬度函數(shù)、非隸屬度函數(shù)的互通性,建立了隸屬度函數(shù)、非隸屬度函數(shù)確定模型,但是僅在數(shù)值型數(shù)據(jù)中進(jìn)行了實驗。魏志遠(yuǎn)和岳振軍[12]將IFS應(yīng)用于情感分析,將積極、消極情感詞在句中出現(xiàn)的頻率作為隸屬度、非隸屬度,通過I-IFHA混合平均算子計算句子情感傾向,但是該方法仍是頻率統(tǒng)計方法。Zhang等[2]將IFS與在線評論情感分析相結(jié)合,應(yīng)用到電商排序中,采用專家評分法確定隸屬度、非隸屬度。綜上所述,在IFS隸屬度確定問題中,普遍存在主觀性強(qiáng)、缺乏一致性等問題,而且應(yīng)用研究大多采用仿真實驗,或使用的實際數(shù)據(jù)規(guī)模較小。隨著大數(shù)據(jù)時代到來,基于實際數(shù)據(jù)確定IFS隸屬度、非隸屬度、猶豫度成為當(dāng)前急需解決的科學(xué)問題。
深度學(xué)習(xí)模型能夠從數(shù)據(jù)中自動學(xué)習(xí)輸入信息與目標(biāo)輸出之間復(fù)雜的非線性關(guān)系,它從模仿人腦的信息處理機(jī)制發(fā)展而來,而人腦思維擅長處理模糊信息,很多研究將深度學(xué)習(xí)和模糊理論結(jié)合。Hatri等[13]將深度學(xué)習(xí)與模糊邏輯結(jié)合,使用模糊邏輯適應(yīng)性調(diào)整網(wǎng)絡(luò)參數(shù)來降低過擬合概率、跳出局部極小值,該方法被用于城市交通事故監(jiān)測的仿真實驗中。Deng等[1]使用模糊深度神經(jīng)網(wǎng)絡(luò)將信息的模糊表示和神經(jīng)元表征融合,增強(qiáng)了模型表示數(shù)據(jù)不確定性的能力,并在圖像分類、金融預(yù)測等實際任務(wù)中驗證了模型有效性。
盡管深度學(xué)習(xí)與模糊邏輯結(jié)合取得了應(yīng)用進(jìn)展,但是尚未見到利用深度學(xué)習(xí)構(gòu)建IFS的相關(guān)研究。本文提出利用深度學(xué)習(xí)確定IFS隸屬度、非隸屬度和猶豫度的新思路,這有利于解決隸屬度確定過程中主觀性強(qiáng)和標(biāo)準(zhǔn)難以統(tǒng)一等問題,另外深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力也使確定的隸屬度、非隸屬度和猶豫度更加貼近真實情況。
直覺模糊集[5,6]的定義如下:設(shè)X是一個給定論域,則X上的一個直覺模糊集A表示為式(1),其中μA(x),γA(x)是x在A上的隸屬度、非隸屬度,猶豫度πA(x)=1-μA(x)-γA(x),μA(x),γA(x),πA(x)滿足式(2)條件。
A={
(1)
(2)
μA(x)表示x隸屬于A的程度,γA(x)表示x不隸屬于A的程度,πA(x)表示對x是否隸屬于A的猶豫程度。論域X上的直覺模糊集A可簡記為A=
現(xiàn)實中的困難是IFS隸屬度、非隸屬度和猶豫度的數(shù)據(jù)很難獲得,但與此相關(guān)的帶有類別標(biāo)簽的數(shù)據(jù)則可以獲得。在本文研究中,數(shù)據(jù)樣本集X由N條數(shù)據(jù)x1,x2,…,xN構(gòu)成,即X={x1,x2,…,xN},并且在X上存在一個對應(yīng)具體語義的直覺模糊集A,其形式如(1)、(2)所示,μA(xi),γA(xi),πA(xi)表示xi在A上的隸屬度、非隸屬度、猶豫度。在X中有N1(N1 類別標(biāo)簽實際上是傳統(tǒng)集合的一種形式,可以將類別標(biāo)簽理解為IFS的極端形式。設(shè)類別標(biāo)簽具有3個水平,即{Y1,Y2,Y3}。根據(jù)A的語義,選出距離A最近、最遠(yuǎn)的標(biāo)簽,假設(shè)分別為Y1,Y3,然后確定語義距離居于Y1,Y3兩者中間的標(biāo)簽,設(shè)為Y2。于是可以理解為,在直覺模糊集A上,標(biāo)簽為Y1的樣本μA(xi)=1,πA(xi)=0,γA(xi)=0,標(biāo)簽為Y2的樣本μA(xj)=0,πA(xj)=1,γA(xj)=0,標(biāo)簽為Y3的樣本μA(xz)=0,πA(xz)=0,γA(xz)=1,如式(3)~(5)所示。 μA(xi)=1,πA(xi)=0,γA(xi)=0,?yi=Y1 (3) μA(xj)=0,πA(xj)=1,γA(xj)=0,?yj=Y2 (4) μA(xz)=0,πA(xz)=0,γA(xz)=1,?yz=Y3 (5) 這樣有標(biāo)簽數(shù)據(jù)x的標(biāo)簽y就可以表示為A上的μA(x),πA(x),γA(x),然后通過構(gòu)建深度學(xué)習(xí)模型,在有標(biāo)簽數(shù)據(jù)上訓(xùn)練,使用訓(xùn)練好的成熟模型將無標(biāo)簽數(shù)據(jù)在A上的隸屬度、非隸屬度和猶豫度計算出來。 為了針對文本特性設(shè)計模型結(jié)構(gòu),使模型訓(xùn)練后可用于確定文本數(shù)據(jù)的隸屬度、非隸屬度和猶豫度。首先根據(jù)文本長度n和詞向量維度d構(gòu)建n×d維的輸入層,然后使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)結(jié)合的CNN-LSTM模型學(xué)習(xí)文本到輸出的映射關(guān)系,最后通過全連接層得到代表隸屬度、非隸屬度和猶豫度的輸出,模型結(jié)構(gòu)如圖1所示。 圖1 CNN-LSTM模型結(jié)構(gòu) 輸入層將x用向量Vx表示,Vx既是對輸入的描述,也是模型訓(xùn)練的基礎(chǔ)。文本表示中,分布式詞向量[14]是較為成熟的方法之一,它將每個詞語表示為一個d維向量。例如當(dāng)xi∈X代表一句話,句中有ni個詞語,那么這句話可以表示為(ni,d)維向量,可理解為ni×d維矩陣。輸入層既要滿足模型的結(jié)構(gòu)要求,又要充分表示數(shù)據(jù)集X和直覺模糊集A中包含的信息。 3.2.1 卷積神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計算、以多層感知機(jī)為基本結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)[15],它能學(xué)習(xí)數(shù)據(jù)的局部特征。CNN的核心在于卷積層和池化層的結(jié)構(gòu)與參數(shù)設(shè)計,以及針對不同問題的靈活組合方式。文本數(shù)據(jù)適合使用1D卷積,1D卷積能夠?qū)W習(xí)句中相鄰詞語間的關(guān)聯(lián)關(guān)系。本文使用的1D卷積由一層卷積和一層池化構(gòu)成,卷積計算公式如式(6)所示,X代表輸入層,W代表卷積核,即卷積運算的權(quán)值,?代表卷積計算,b代表偏置向量,f代表激活函數(shù),C代表輸入層經(jīng)卷積計算后得到的隱層特征。f采用relu函數(shù),如式(7)所示,可以增加網(wǎng)絡(luò)的非線性能力。 C=f(W?X+b) (6) (7) (8) 3.2.2 長短時記憶神經(jīng)網(wǎng)絡(luò) 長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[17]擅長處理序列數(shù)據(jù),文本屬于一種序列數(shù)據(jù),詞語在句中出現(xiàn)的先后次序存在關(guān)聯(lián)。LSTM在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的基礎(chǔ)上,增加了記憶控制單元,避免了長序列中反向傳播梯度消失和梯度爆炸問題,使模型學(xué)習(xí)到相距較遠(yuǎn)的詞語依賴關(guān)系。 (9) (10) (11) (12) (13) dt=ot×tanh(Cellt) (14) 使用CNN可以學(xué)習(xí)文本中相鄰詞語間關(guān)系,同時保留強(qiáng)特征、減少噪音信息,使用LSTM可以學(xué)習(xí)文本中相距較遠(yuǎn)的詞語間關(guān)系。CNN-LSTM模型將兩者結(jié)合,學(xué)習(xí)局部特征和全局特征,從而更準(zhǔn)確地擬合文本在直覺模糊集上隸屬于、非隸屬于和猶豫的程度。 為了使模型的最終輸出代表x在直覺模糊集A上的隸屬度μA(x)、非隸屬度γA(x)和猶豫度πA(x),使用全連接層將輸出維度固定為3,分別對應(yīng)γA(x),πA(x),μA(x)。然后使用softmax函數(shù)歸一化,使其滿足IFS規(guī)范,softmax函數(shù)如式(15)所示,k為向量維度,xi代表向量中第i個分量。 (15) 本文使用百度“用戶評論情感極性判別”大賽公布的文本數(shù)據(jù)集及情感極性標(biāo)簽,數(shù)據(jù)集共包含82025條文本評論,每條評論對應(yīng)“消極”、“中性”、“積極”三種情感標(biāo)簽中的一個。數(shù)據(jù)集共有消極標(biāo)簽評論12240條、中性標(biāo)簽評論4187條、積極標(biāo)簽評論65598條。數(shù)據(jù)集涉及醫(yī)療服務(wù)、物流快遞、金融服務(wù)、旅游住宿、食品餐飲五個領(lǐng)域,數(shù)據(jù)分布如表1所示。 設(shè)定直覺模糊集A的具體含義為“積極評論”,X為文本數(shù)據(jù)集,標(biāo)簽的取值范圍是{消極,中性,積極}。根據(jù)A的語義,距離其最近的標(biāo)簽為Y1=積極,最遠(yuǎn)的標(biāo)簽為Y3=消極,居于兩者中間的標(biāo)簽為Y2=中性。因此由式(3)~(5),將標(biāo)簽轉(zhuǎn)換為A上的隸屬度、非隸屬度、猶豫度。 表1 實驗數(shù)據(jù)集 對評論分詞、去停用詞和詞向量轉(zhuǎn)換,通過word2vec工具構(gòu)建詞向量,取數(shù)據(jù)集中評論的平均長度n=100作為輸入定長。將醫(yī)療服務(wù)、物流快遞、金融服務(wù)、旅游住宿四個領(lǐng)域數(shù)據(jù)記為Corpus1,用于確定模型超參數(shù)和訓(xùn)練,將食品餐飲領(lǐng)域數(shù)據(jù)記作Corpus2,用于檢驗?zāi)P头€(wěn)健性。將Corpus1隨機(jī)劃分為訓(xùn)練集、驗證集和測試集,訓(xùn)練集、驗證集、測試集的數(shù)據(jù)量之比為8:1:1。 (16) (17) (18) (19) (20) CNN-LSTM模型中的超參數(shù)將影響神經(jīng)元數(shù)量和神經(jīng)元之間的連接,通過實驗調(diào)節(jié)模型超參數(shù)。根據(jù)已有研究[18,19],對模型影響較大的超參數(shù)有CNN中卷積核的寬度kernel、卷積層的輸出維度filter、LSTM層的輸出維度hidden,以及全連接層隨機(jī)失活的神經(jīng)元比例dropout,各超參數(shù)的取值范圍如表2所示。 表2 超參數(shù)的取值范圍 將超參數(shù)的初始值設(shè)置為kernel=3,filter=32,hidden=64,dropout=0.5,然后在取值范圍內(nèi)調(diào)節(jié),每次僅使單一超參數(shù)變化,其余不變。評價指標(biāo)采用Pw、Rw、F1w,實驗結(jié)果如圖2~5所示。從圖中可得,kernel=2,4,filter=16,64,hidden=128,dropout=0.1,0.3,0.5,0.8時,F(xiàn)1w大約到達(dá)最高點。將各參數(shù)在新的取值范圍內(nèi)調(diào)參,共有2×2×4=16種參數(shù)組合,采用網(wǎng)格搜索法實驗,取F1w表現(xiàn)最優(yōu)的參數(shù)組合,即kernel=2,filter=16,hidden=128,dropout=0.8。 圖2 kernel調(diào)參結(jié)果 圖3 filter調(diào)參結(jié)果 圖4 hidden調(diào)參結(jié)果 圖5 dropout調(diào)參結(jié)果 4.4.1 模型輸出結(jié)果介紹 將Xno_label作為測試集,使用訓(xùn)練好的模型計算x∈Xno_label在含義為“積極評論”直覺模糊集A上的隸屬度、猶豫度、非隸屬度,部分結(jié)果如表3所示。從表中可以看出模型較好地確定了樣本隸屬于A的程度,文本1,2情感積極,隸屬度較高;文本2中有部分中性猶豫,“太_了”、“額度不太高”,相比于文本1猶豫度、非隸屬度更高;文本3情感更偏向中性,其猶豫度較高;文本4,5情感消極,非隸屬度較高;文本5中有少量積極情感,“服務(wù)態(tài)度很好”,相比于文本4非隸屬度更低,猶豫度和隸屬度更高。 4.4.2 對比實驗及模型穩(wěn)健性 使用CNN、LSTM、CNN-RNN和支持向量機(jī)(Support Vector Machine,SVM)在相同的數(shù)據(jù)上訓(xùn)練,CNN、LSTM、CNN-RNN輸入與CNN-LSTM相同,SVM使用OVO(One Versus One)多分類模式,分別計算各模型的評價指標(biāo)Pw、Rw、F1w。如表4所示,CNN-LSTM的F1w值最高,即綜合來看CNN-LSTM優(yōu)于其他模型。 模型計算的隸屬度、非隸屬度、猶豫度的優(yōu)劣是難以評價的,這與比較標(biāo)準(zhǔn)、實際情景等都有關(guān)系,但是各模型Pw、Rw、F1w值可以反映其學(xué)習(xí)文本信息的能力優(yōu)劣,可以評價模型對隸屬度、非隸屬度相對大小的計算準(zhǔn)確性和識別能力,F(xiàn)1w值越大,模型綜合學(xué)習(xí)能力越強(qiáng),確定的隸屬度、非隸屬度和猶豫度越準(zhǔn)確。 表3 計算結(jié)果(部分) 表4 各模型評價指標(biāo) 使用優(yōu)化好超參數(shù)的模型在Corpus1∪Corpus2數(shù)據(jù)集上訓(xùn)練和測試,評價指標(biāo)為Pw=0.9479,Rw=0.9622,F(xiàn)1w=0.9549,說明該模型在新領(lǐng)域數(shù)據(jù)集上也展現(xiàn)出較好的性能,具有一定的擴(kuò)展性和穩(wěn)健性。 在IFS理論與應(yīng)用研究中,隸屬度、非隸屬度和猶豫度的確定方法始終是一個研究熱點與難點,該問題直接影響著IFS應(yīng)用和模型可擴(kuò)展性。隨著大數(shù)據(jù)時代到來,非結(jié)構(gòu)化數(shù)據(jù)比以往更易獲得,文本就是其中一種,相比于其他數(shù)據(jù),文本中包含更多模糊信息。本文提出基于深度學(xué)習(xí)的IFS隸屬度、非隸屬度和猶豫度確定方法,并將該方法應(yīng)用至文本數(shù)據(jù)集。根據(jù)文本特點構(gòu)建CNN-LSTM模型,經(jīng)訓(xùn)練后模型計算的隸屬度、非隸屬度和猶豫度與文本實際含義相符。CNN-LSTM的F1w值優(yōu)于CNN、LSTM、CNN-RNN和SVM,說明CNN-LSTM在學(xué)習(xí)文本信息方面優(yōu)于其他模型。在新領(lǐng)域文本數(shù)據(jù)Corpus2上,CNN-LSTM表現(xiàn)出較好的穩(wěn)健性和擴(kuò)展性。 本文具有一定的理論與實踐意義: (1)理論意義:提出一種基于深度學(xué)習(xí)的IFS隸屬度、非隸屬度和猶豫度確定方法,為IFS相關(guān)研究開辟了新的思路。 (2)實踐意義:通過構(gòu)建CNN-LSTM模型將該方法應(yīng)用至文本數(shù)據(jù),為進(jìn)一步應(yīng)用至其他非結(jié)構(gòu)化數(shù)據(jù)提供了參考。3 直覺模糊集隸屬度的深度學(xué)習(xí)方法構(gòu)建
3.1 基于IFS的輸入層
3.2 CNN-LSTM網(wǎng)絡(luò)結(jié)構(gòu)
3.3 IFS隸屬度的確定
4 實例研究
4.1 實驗數(shù)據(jù)及預(yù)處理
4.2 實驗評價指標(biāo)
4.3 實驗參數(shù)設(shè)置
4.4 實驗結(jié)果和分析
5 結(jié)論