王士同,謝潤山,周爾昊
(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,無錫 214000)
近年來,深度神經(jīng)網(wǎng)絡(luò)在多個領(lǐng)域取得了實(shí)質(zhì)性的突破并得到了重要應(yīng)用,特別是在計(jì)算機(jī)視覺[1-2]、自然語言處理[3]和醫(yī)學(xué)圖像識別[4]方面都取得了巨大的成功。在深度神經(jīng)網(wǎng)絡(luò)中,最為主流的結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)[5],生成式對抗神經(jīng)網(wǎng)絡(luò)[6]和殘差神經(jīng)網(wǎng)絡(luò)[7]。由于傳統(tǒng)模型追求的主要目標(biāo)是使模型與輸入數(shù)據(jù)相匹配,也就是模型要能有效地學(xué)習(xí)輸入數(shù)據(jù)的潛在分布規(guī)律,并能對未知數(shù)據(jù)做出精準(zhǔn)的預(yù)測。因此,在選擇解決方案時,精確度通常是最重要的性能指標(biāo),而深度神經(jīng)網(wǎng)絡(luò)擁有從輸入數(shù)據(jù)中準(zhǔn)確學(xué)習(xí)的出色能力,深度神經(jīng)網(wǎng)絡(luò)的研究熱潮也正好滿足了這種高精度要求。然而,這些高精度的深度神經(jīng)網(wǎng)絡(luò)大多是高度不透明的,也就是說,人們無法弄清楚是輸入數(shù)據(jù)中的什么信息使它們得出了最終的預(yù)測[8-9],因此這些模型也被稱為黑箱模型。具體來說,深度神經(jīng)網(wǎng)絡(luò)有著若干層完全連接的神經(jīng)元,第1層致力于從輸入數(shù)據(jù)中提取較簡單的、低級的特征,然后在后續(xù)層中組合成更復(fù)雜的、高級的、因而更有代表性的特征。盡管深度神經(jīng)網(wǎng)絡(luò)精準(zhǔn)的建模能力令人印象深刻,但這種優(yōu)點(diǎn)往往與較高的系統(tǒng)復(fù)雜性有關(guān)。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的高復(fù)雜度,人們往往無法理解深度神經(jīng)網(wǎng)絡(luò)是如何工作的,也無法解讀它們?yōu)槭裁磿a(chǎn)生某種最終決策。事實(shí)上,現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)的有效性可能會因?yàn)槟P蜔o法向人類用戶解釋它的決策而在某些應(yīng)用領(lǐng)域受到限制,從而可能導(dǎo)致不安全和不正確的決策。例如,在美國司法系統(tǒng)中用于累犯風(fēng)險預(yù)測的COMPAS模型就是典型的黑箱模型,它的作用是預(yù)測某人在出獄/入獄后的一定時間內(nèi)是否會被逮捕。由于人們無法弄清COMPAS模型是如何得出最后的決策,曾經(jīng)發(fā)生過人們被錯誤地拒絕假釋的案例[10]。不僅如此,COMPAS模型還被犯罪學(xué)家指責(zé)有種族偏見[11]。
在當(dāng)今社會,人們對模型的安全性、無偏性和透明性有著越來越高的需求,模型需要在必要時對其最終決策進(jìn)行解釋[12]。例如,在由政府機(jī)構(gòu)監(jiān)管的領(lǐng)域,如醫(yī)療、金融和交通等,往往要求最終決策有著高度的透明度。也就是說,在這些領(lǐng)域,必須證明模型沒有使用或產(chǎn)生任何偏見,即無偏性。在其他領(lǐng)域,例如高風(fēng)險投資(如投資組合再平衡),或關(guān)鍵任務(wù)的應(yīng)用(如電廠設(shè)定點(diǎn)選擇),最終決策必須由董事會所批準(zhǔn)或由電廠的經(jīng)營者所接受,然后他們對這些最終決策負(fù)責(zé)。因此,模型不僅需要追求高的精度,還要針對其他輔助標(biāo)準(zhǔn)進(jìn)行性能優(yōu)化,如安全性、無偏性、透明性、隱私性和穩(wěn)定性等。然而這些輔助標(biāo)準(zhǔn)中的大多數(shù)往往不能完全量化,但是如果這個模型是可解釋的,即是可解釋的人工智能(Explainable AI,XAI),它就能解釋自己的推理過程和最終結(jié)果,人們就可以驗(yàn)證該推理和最終結(jié)果在這些輔助標(biāo)準(zhǔn)方面是否合理和可采納。
在機(jī)器學(xué)習(xí)背景下,XAI模型的可解釋性被定義為模型向人類解釋或以可理解的術(shù)語呈現(xiàn)其最終決策的能力[13]。也就是說,通過模型的可解釋性,人類可以知道模型是如何得出其最終決策的[14]。相反,通過闡明模型內(nèi)部程序或內(nèi)部表示往往不能有效地提高模型的可解釋性[15]。近年來,一些方法被提出用以嘗試解釋深度神經(jīng)網(wǎng)絡(luò),例如顯著性圖[16],它能夠可視化輸入圖像上每個元素對于最終決策的重要程度,從而確定輸入圖像的哪一部分對深度神經(jīng)網(wǎng)絡(luò)的最終決策有最大的影響。然而,顯著性圖只能找出影響最大的這部分輸入圖像,卻無法告訴用戶神經(jīng)網(wǎng)絡(luò)利用這部分輸入圖像做了什么。特別是,多個類別的顯著性圖可能基本相同,此時顯著性圖將無法解釋輸入圖像的同一部分為何對于不同類別卻有著相同的最終決策[10]。就像文獻(xiàn)[10]中所闡述的:“創(chuàng)建第2個(事后)模型來解釋第1個黑盒子模型,這本身是有問題的,解釋往往是不可靠的,而且可能是誤導(dǎo)性的?!?yàn)榻忉尣豢赡芡昝赖刂覍?shí)于原始模型?!@就導(dǎo)致了一個危險,即任何對黑箱模型的解釋方法都可能是原始模型在部分特征空間中的不準(zhǔn)確表示?!币虼耍啾扔跇?gòu)建新的模型去嘗試解釋黑盒模型,直接構(gòu)建本質(zhì)上可解釋的模型是更好的選擇。這樣一來,模型會提供自己的忠實(shí)于模型實(shí)際最終決策的解釋。
眾所周知,基于模糊理論的模糊系統(tǒng)[17-18]能夠模仿人類的知識推理能力,將復(fù)雜的模糊問題清晰化,所生成的模糊規(guī)則是可以被人類讀懂和理解的IF-THEN語句,因此具有天然的可解釋性。實(shí)際上,模糊系統(tǒng)存在多種不同的可解釋性,而本文重點(diǎn)研究的是語義可解釋性。具體來說,語義可解釋性使用特定的程度語義值來描述輸入特征,如{很低、低、中等、高、非常高}就是一組常用的語義值,這樣所得到的模糊規(guī)則的前件將具有清晰的語義可解釋性。若無具體指明,下文的可解釋性都指代語義可解釋性。此外,模糊系統(tǒng)已經(jīng)被證明是一個通用逼近器[19],因此能以任意精度逼近非線性函數(shù),其性能有著堅(jiān)實(shí)的理論保證。模糊系統(tǒng)為處理不確定的數(shù)據(jù)、代表潛在的知識和展示推理過程提供了一個有效的范式。因此,近年來基于模糊系統(tǒng)的模糊人工智能(Fuzzy AI)[20]得到了廣泛的發(fā)展。為了改善最初提出的模糊系統(tǒng)的性能,多個主流的模糊系統(tǒng)的變體被相繼提出。例如,Mamdani型模糊系統(tǒng)[21]通過給模糊系統(tǒng)中添加模糊化器和解模糊器,使得模糊系統(tǒng)得到了精確值的輸出;Wang-Mendel模糊系統(tǒng)[22]給出了一種從數(shù)值數(shù)據(jù)中生成模糊規(guī)則的新方法。Takagi-Sugeno-Kang(TSK)模糊系統(tǒng)[17,23-24]通過在模糊系統(tǒng)中使用參數(shù)估計(jì)的方法來確定系統(tǒng)參數(shù),以使得模糊規(guī)則的輸出為精確值。作為最常用的模糊系統(tǒng),TSK模糊系統(tǒng)有著較好的非線性逼近能力,較簡潔的規(guī)則形式和高可解釋性。下面以TSK模糊系統(tǒng)為研究對象,介紹以TSK模糊系統(tǒng)為基礎(chǔ)發(fā)展而來的TSK人工智能(TSK AI)。
由于TSK模糊系統(tǒng)有著高可解釋性,其最終決策可以被由訓(xùn)練過程得到的若干條模糊規(guī)則很好地解釋。此外,TSK模糊系統(tǒng)能很好地解決不確定問題,即可以對其他類型得模型難以表達(dá)的場景進(jìn)行有效地建模。特別是,當(dāng)用戶必須處理數(shù)據(jù)的缺乏問題或輸入數(shù)據(jù)定義的不確定性時,TSK模糊系統(tǒng)將成為一個非常有效的工具。因此,TSK AI被廣泛應(yīng)用于數(shù)據(jù)挖掘、工業(yè)控制和模式識別等領(lǐng)域[25-27]。依據(jù)TSK AI中對TSK模糊系統(tǒng)改進(jìn)方式的不同,它們可以被大致分為3類。
第1類TSK AI是對單個TSK模糊系統(tǒng)使用不同優(yōu)化方法提高其性能,以使得其能適應(yīng)不同的應(yīng)用場景。例如,著名的自適應(yīng)神經(jīng)網(wǎng)絡(luò)的模糊推理系統(tǒng)(Adaptive network-based fuzzy inference system,ANFIS)[28-29]使得模糊系統(tǒng)有了自學(xué)習(xí)能力;進(jìn)化模糊系統(tǒng)(Evolutionary fuzzy system,EFS)[30]使用遺傳算法對模糊系統(tǒng)的參數(shù)進(jìn)行優(yōu)化,極大改善了TSK模糊系統(tǒng)的精確度;區(qū)間2型TSK模糊系統(tǒng)[31]將一類模糊集的不確定性問題建模為一類區(qū)間模糊數(shù),增強(qiáng)了TSK模糊系統(tǒng)應(yīng)對于高不確定問題的能力。其他的代表模型還包括:基于支持向量機(jī)的TSK模糊系統(tǒng)[32]、多任務(wù)TSK模糊系統(tǒng)[33]、基于極限學(xué)習(xí)機(jī)的TSK模糊系統(tǒng)[34]、以及可擴(kuò)展的TSK模糊系統(tǒng)[35]等,它們都在不同的學(xué)習(xí)任務(wù)中很大地增強(qiáng)了TSK模糊系統(tǒng)的性能。然而,由于維度詛咒問題[36-37]的存在,單個TSK模糊系統(tǒng)的精確度和可解釋性容易受到規(guī)則爆炸問題的影響,尤其是面對近年來出現(xiàn)的大規(guī)模高維數(shù)據(jù)。
第2類TSK AI是將模糊系統(tǒng)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,以增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的可解釋性或處理不確定性問題的能力,構(gòu)成基于神經(jīng)-模糊混合的TSK模糊神經(jīng)網(wǎng)絡(luò)。這類TSK AI的主要創(chuàng)新之處是:利用模糊數(shù)的概念來表示神經(jīng)網(wǎng)絡(luò)的權(quán)重,或用模糊邏輯單元取代神經(jīng)網(wǎng)絡(luò)中的感知器,或用模糊系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)。例如,文獻(xiàn)[38]通過將區(qū)間2型TSK模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種簡化的區(qū)間2型模糊神經(jīng)網(wǎng)絡(luò),在不確定性問題中取得了更好的測試性能和更低的計(jì)算復(fù)雜度。文獻(xiàn)[39]提出了TSK型卷積遞歸模糊網(wǎng)絡(luò)(TSK-type convolutional recurrent fuzzy network,TCRFN),它將TSK模糊系統(tǒng)和卷積遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,提高了網(wǎng)絡(luò)處理腦電圖EEG信號里噪音的能力;文獻(xiàn)[40]將1組帶有小波函數(shù)的TSK模糊系統(tǒng)和模糊小腦模型神經(jīng)網(wǎng)絡(luò)相結(jié)合,所提出的模型在不確定的非線性系統(tǒng)中取得了比其他神經(jīng)網(wǎng)絡(luò)模型更優(yōu)越的性能;文獻(xiàn)[41]提出一種模糊神經(jīng)網(wǎng)絡(luò)技術(shù),可以從給定的輸入和輸出數(shù)據(jù)集中提取TSK型模糊規(guī)則,以用于后續(xù)的系統(tǒng)建模。相比于TSK模糊系統(tǒng),盡管TSK模糊神經(jīng)網(wǎng)絡(luò)的性能得到了很大提高,但是它們的整體結(jié)構(gòu)仍然屬于深度神經(jīng)網(wǎng)絡(luò)這個黑箱模型的范疇,所以模型的可解釋性在一定程度上被削弱了。
第3類TSK AI是使用集成的方式來組織多個TSK模糊系統(tǒng),以獲得更好的性能。依據(jù)組合方式的不同,可以概括如下:
(1)寬度結(jié)構(gòu)。寬度TSK模糊系統(tǒng)將若干個TSK模糊子系統(tǒng)在寬度層面上進(jìn)行集成,以保持快速的并行/增量學(xué)習(xí)過程以及高可解釋性。具體來說,一方面一般的集成策略[37](例如,Bagging和Boosting)經(jīng)常被用于有效地結(jié)合若干個TSK模糊子系統(tǒng),然后在所有子系統(tǒng)上的輸出使用常用的聚合策略,如平均法、加權(quán)法和多數(shù)投票法,來得到整個結(jié)構(gòu)的最終輸出。為了增強(qiáng)在TSK模糊子系統(tǒng)之間的多樣性,Bagging[42-43]對原始訓(xùn)練數(shù)據(jù)集進(jìn)行隨機(jī)采樣,作為新的訓(xùn)練數(shù)據(jù)集,以減少不同TSK模糊子系統(tǒng)之間的關(guān)聯(lián)性。而Boosting[44-45]依次訓(xùn)練每個新的TSK模糊子系統(tǒng),并且更加關(guān)注那些在前一個TSK模糊子系統(tǒng)中表現(xiàn)不理想的訓(xùn)練實(shí)例。另一方面,除了Bagging和Boosting,研究人員還提出了許多新的方法來構(gòu)建有效的TSK模糊系統(tǒng)的寬度集成。例如,文獻(xiàn)[46]提出了利用1個一階TSK模糊模型來聚合多個TSK子系統(tǒng)的輸出,而不是使用傳統(tǒng)的線性聚合方法,如平均法。文獻(xiàn)[47]通過計(jì)算相應(yīng)輸出的權(quán)重,使用TSK模糊系統(tǒng)來動態(tài)選擇有能力的子分類器,然后通過多數(shù)投票或可調(diào)融合算法將這些被選中的子分類器的輸出聚合為最終輸出。在筆者最近的工作[48-49]中,一方面基于模糊知識退出的概念[48]提出了由多個TSK模糊子系統(tǒng)組成的寬度集合結(jié)構(gòu)(Wide learning based TSK fuzzy classifier,WL-TSK),它很好地模擬了人類的知識丟棄過程。WL-TSK最后對所有的TSK子系統(tǒng)使用平均法、加權(quán)法或多數(shù)票法來得到最終輸出,WL-TSK可以獲得令人滿意的分類性能,并具有高可解釋性。另一方面,文獻(xiàn)[49]通過使用動態(tài)正則化模仿人類思維過程中對知識的魯棒使用,設(shè)計(jì)了一種稱為KAT的新型知識對抗訓(xùn)練方法,以實(shí)現(xiàn)零階TSK模糊分類器增強(qiáng)的泛化性能、可解釋性和快速訓(xùn)練,最后將多個知識對抗零階TSK模糊子分類器進(jìn)行寬度集成來獲得最終輸出。
(2)深度結(jié)構(gòu)。依據(jù)文獻(xiàn)[50]中的猜想,深度神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜問題上的成功在于:①深度神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)可以捕捉到輸入數(shù)據(jù)的高級的抽象的特征,并以逐層的方式很好地描述輸入數(shù)據(jù)集的特征;②神經(jīng)網(wǎng)絡(luò)有著足夠高的模型復(fù)雜度,即大量的網(wǎng)絡(luò)可訓(xùn)練參數(shù)。這意味著深度學(xué)習(xí)模型的構(gòu)件不一定要局限于神經(jīng)網(wǎng)絡(luò)。類似的建模思想以前在層級模糊系統(tǒng)中也有過研究[51],層級模糊系統(tǒng)最初是為了克服模糊系統(tǒng)在處理高維問題時的缺點(diǎn)而提出的,它的通用逼近性已經(jīng)在文獻(xiàn)[52]中得到了證明,并在文獻(xiàn)[53-54]中得到了進(jìn)一步的發(fā)展,這意味著層級模糊系統(tǒng)的性能已經(jīng)有了十分堅(jiān)固的理論保證。一般來說,層級模糊系統(tǒng)由許多低維模糊子系統(tǒng)組成,這些子系統(tǒng)以逐層連接的方式進(jìn)行連接,這些連接方式主要分為遞增式、聚集式和級聯(lián)式,如圖1所示。層級模糊系統(tǒng)近年來的進(jìn)展可以總結(jié)如下:文獻(xiàn)[55]提出了一個可擴(kuò)展的模糊系統(tǒng)框架,該框架通過使用層級表示法來考慮模糊規(guī)則的優(yōu)先級;文獻(xiàn)[56]提出一個自適應(yīng)層級模糊系統(tǒng),它有利于調(diào)整一些控制器的一些參數(shù),同時減少每個處理器中輸入變量和模糊規(guī)則的數(shù)量。其他經(jīng)典的層級模糊系統(tǒng) 還 包括文獻(xiàn)[51,57-58]。盡 管 層 級TSK模糊系統(tǒng)有效地解決了模糊系統(tǒng)遇到高維數(shù)據(jù)時產(chǎn)生的規(guī)則爆炸問題,然而層級TSK模糊系統(tǒng)的中間變量(即,每個TSK模糊子系統(tǒng)的輸出)卻變得難以理解,因此中間層和輸出層的模糊規(guī)則的可解釋性也被降低了。特別是,因?yàn)榍?層的輸出被當(dāng)成當(dāng)前層的輸入,這種可解釋性上的困難隨著層級TSK模糊分類器中層數(shù)的增加而變得嚴(yán)重起來。圖1(c)中的級聯(lián)式層級模糊系統(tǒng)雖是深度結(jié)構(gòu),但其并沒有使用深度學(xué)習(xí)的方法進(jìn)行優(yōu)化,因此很難保持良好的泛化性能。為了解決層級結(jié)構(gòu)的可解釋性因中間變量變差的問題,同時提高層級結(jié)構(gòu)的泛化性能,最近一系列深度模糊系統(tǒng)在層級模糊系統(tǒng)的基礎(chǔ)上以深度學(xué)習(xí)的方式被開發(fā)出來。這類深度模型使用棧式泛化原理[59]來提升模型性能,并將深度學(xué)習(xí)里的方法引入模糊系統(tǒng)中,從而擺脫了對深度神經(jīng)網(wǎng)絡(luò)的依賴,并且保持了模糊系統(tǒng)的高可解釋性。因此,這類可解釋的深度TSK模糊系統(tǒng)[60-62]正在成為探索新的深度學(xué)習(xí)模型的一個有希望的潛在途徑。
圖1 層級TSK模糊系統(tǒng)的結(jié)構(gòu)Fig.1 Structures of hierarchical TSK fuzzy systems
近年來,以深度模糊系統(tǒng)為研究對象的綜述類文章受到了研究人員越來越多的關(guān)注。例如,文獻(xiàn)[63]通過分析模糊系統(tǒng)的發(fā)展歷程和近年來的研究進(jìn)展,總結(jié)出在大數(shù)據(jù)時代下,結(jié)合模糊系統(tǒng)的可解釋性和深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力將是未來解決高維數(shù)據(jù)問題的有力途徑。文獻(xiàn)[64]總結(jié)了模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,并分析了兩者在腦科學(xué)上的聯(lián)系,最后得出兩者的結(jié)合將會是腦綜合研究領(lǐng)域中一個十分有潛力的嘗試。文獻(xiàn)[65]討論了神經(jīng)網(wǎng)絡(luò)和模糊系統(tǒng)兩者結(jié)合的優(yōu)點(diǎn),然后介紹了由兩者結(jié)合得到的模糊神經(jīng)網(wǎng)絡(luò)在工業(yè)上的應(yīng)用情況??梢钥闯?,當(dāng)前關(guān)于深度模糊系統(tǒng)的綜述文章基本以深度模糊神經(jīng)網(wǎng)絡(luò)為研究對象,而本文的研究重點(diǎn)則是基于棧式泛化原理的深度模糊系統(tǒng),其目的是在保持可解釋性的前提下取得令人滿意的測試泛化性能。而在實(shí)際應(yīng)用中,相比于訓(xùn)練性能,測試泛化性能往往更為重要,這也增強(qiáng)了基于棧式泛化原理的深度模糊系統(tǒng)的實(shí)際應(yīng)用能力。以此為出發(fā)點(diǎn),本文總結(jié)了深度模糊系統(tǒng)的代表模型、應(yīng)用場景和未來發(fā)展趨勢。
作為最常用的模糊系統(tǒng),TSK模糊系統(tǒng)[17,23-24]的模糊規(guī)則(以第k條為例)的形式可以表達(dá)為
式中:x1代表輸入向量x的第1個特征;Aki代表第k條規(guī)則在第i個輸入特征xi上的前件模糊集;fk(x)代表第k條規(guī)則的后件;K代表模糊規(guī)則的數(shù)量;and代表模糊操作符;d是輸入向量x=[x1,x2,…,xd]T的特征數(shù)量。所有這些模糊規(guī)則構(gòu)成了一個模糊知識庫[48-49],其中每個模糊規(guī)則都可以被看作是一塊模糊知識??梢钥闯?,式(1)中的If-Then模糊規(guī)則和人類的語言非常接近,也就是說模糊規(guī)則可以被人類直接讀懂和理解,因此TSK模糊系統(tǒng)有著高可解釋性[66-68]。除了式(1)中的模糊規(guī)則外,還有如式(2)和式(3)中的其他模糊規(guī)則形式,它們的特點(diǎn)是帶有用于評估模糊規(guī)則重要程度的指標(biāo)。
式中rk和sk分別代表模糊規(guī)則的置信度和支持度,是兩個最常用的評估模糊規(guī)則重要程度的統(tǒng)計(jì)指標(biāo)[69]。
式中CFk代表模糊規(guī)則的規(guī)則權(quán)重(即不確定度),用于綜合地評估模糊規(guī)則的重要程度[70]。借助于式(2)和式(3)中的評估指標(biāo),人們可以從模糊系統(tǒng)得到的所有規(guī)則中找出較為重要的模糊規(guī)則,依據(jù)這些較為重要的模糊規(guī)則來對模糊系統(tǒng)的最終決策進(jìn)行解釋。由于參與解釋的模糊規(guī)則數(shù)量的減少,模糊系統(tǒng)的可解釋性得到了提高。
通常來說,TSK模糊規(guī)則的前件模糊集Aki使用高斯函數(shù)作為其模糊隸屬度函數(shù),即
式中:cki和δki分別代表高斯隸屬度函數(shù)的中心和帶寬;xi代表輸入向量x的第i個特征。依據(jù)文獻(xiàn)[71-72],TSK模糊系統(tǒng)的輸出可以表示為以下兩種方式。
(1)經(jīng)過解模糊處理
(2)沒有經(jīng)過任何解模糊處理
TSK模糊系統(tǒng)的基本特征之一就是可解釋性。正如Kuncheva[66]所指出的:“一旦可解釋性被作為對系統(tǒng)的要求而被否定,模糊分類器就會落入眾多以其性能來判斷的其他設(shè)計(jì)中。這些設(shè)計(jì)包括統(tǒng)計(jì)分類器和神經(jīng)網(wǎng)絡(luò),而模糊分類器很難成為它們的最佳對手?!笨梢钥闯觯c深度神經(jīng)網(wǎng)絡(luò)相比,可解釋性是TSK模糊系統(tǒng)的一大優(yōu)勢。影響模糊系統(tǒng)可解釋性的相關(guān)關(guān)因素[74]可以總結(jié)如下:(1)模糊分區(qū)的可解釋性;(2)基于模糊規(guī)則的系統(tǒng)的規(guī)模;(3)IF-THEN規(guī)則的復(fù)雜性;(4)推理過程和解模糊處理的簡易性。
目前,對于模糊系統(tǒng)來說,常用的可解釋性評價指標(biāo)[66,75]可以總結(jié)如下:(1)模糊規(guī)則的數(shù)量,更少的模糊規(guī)則通常意味著更高的可解釋性;(2)模糊規(guī)則包含的特征數(shù)量,即模糊規(guī)則的長度,更短的模糊規(guī)則通常意味著更高可解釋性,這也是短規(guī)則受到研究人員青睞的原因[71,76];(3)模糊規(guī)則的后件復(fù)雜度,更簡單的模糊規(guī)則后件形式通常意味著更高的可解釋性,例如后件形式更為簡單的零階TSK模糊規(guī)則通常比一階TSK模糊規(guī)則有著更高的可解釋性[77]。
具體來說,零階TSK模糊系統(tǒng)的分類性能比一階TSK模糊系統(tǒng)要差[62]。然而,與一階TSK模糊系統(tǒng)相比,零階TSK模糊系統(tǒng)具有更簡潔的可解釋性。因?yàn)槊織l模糊規(guī)則的后件部分只涉及一個參數(shù)的正負(fù)值可以明確地解釋為支持或反對被歸入第k類的確定度。相反,一階TSK模糊系統(tǒng)很難對每條模糊規(guī)則的后件部分所涉及的(d+1)個后件參數(shù)作出明確的解釋。
關(guān)于如何確定TSK模糊規(guī)則的前件部分(即模糊隸屬度函數(shù)的參數(shù)有多種方法已經(jīng)被提出。例如Wang-Mendel方法[78]和基于聚類的方法[79-80],如模糊C均值聚類(Fuzzy c-means clustering,F(xiàn)CM)[81],這些方法可以保證TSK模糊規(guī)則前件的可解釋性。此外,在最近的工作中[24,48,62,71,76,82],一種快速確定模糊規(guī)則的語義前件的方法被提出,即使用固定的語義分區(qū)來確定模糊前件。該方法首先將輸入數(shù)據(jù)的每個特征分為5個相等的部分,然后生成5個中心分別固定在{0,0.25,0.5,0.75,1.0}的模糊隸屬函數(shù),這5個中心分別與5個明確的語義值一一對應(yīng),例如:{很低、低、中、高、非常高}。這些語義值之間雖然有時很難劃清他們的界限,但它們的含義一般都是可以被正確理解的,不會引起誤會。因此每個模糊規(guī)則的前件部分可以通過隨機(jī)選擇這5個模糊隸屬度函數(shù)中的一個來生成,以使得每個模糊規(guī)則的前件具有高可解釋性。使用固定的語義分區(qū)的另一個原因是,這樣的做法更加符合人們表達(dá)問題的方式,例如人們常說某件事發(fā)生的可能性“比較小”,而不習(xí)慣于使用一個具體的數(shù)來指出程度的大小,并且在多數(shù)情況下人們很難給出一個表示程度大小的數(shù)。
傳統(tǒng)上,TSK模糊規(guī)則的后件部分可以由一些流行的梯度下降算法[83]求解,即根據(jù)輸入數(shù)據(jù)的標(biāo)簽和TSK模糊系統(tǒng)的輸出之間的差異來反復(fù)迭代確定,然而當(dāng)輸入數(shù)據(jù)有很大的規(guī)模時,訓(xùn)練過程通常是非常耗時的。因此,為了加快TSK模糊系統(tǒng)的訓(xùn)練過程并提高其性能,許多有效的學(xué)習(xí)算法已經(jīng)被提出[84-88]。例如,最小二乘法[84]、偽逆法[85]或極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)[89]。此外,依據(jù)最近關(guān)于最小學(xué)習(xí)機(jī)(Least learning machine,LLM)[86-88]的工作,證明了ELM和嶺回歸的等價性,從而LLM成為比ELM的最初偽逆版本更靈活的解法。因此,LLM可以一次性快速求解模糊規(guī)則的后件參數(shù),從而有效地避免了耗時的訓(xùn)練過程。LLM的有效性已經(jīng)得到了廣泛的驗(yàn)證[60-62]。
相比于TSK模糊系統(tǒng)的其他變體結(jié)構(gòu),可解釋的深度TSK模糊系統(tǒng)有著以下4點(diǎn)明顯的優(yōu)勢:
(1)與單個TSK模糊系統(tǒng)相比。面對復(fù)雜或者高維輸入數(shù)據(jù),為了取得令人滿意的分類性能,單個TSK模糊系統(tǒng)通常需要大量的模糊規(guī)則,而過多的模糊規(guī)則不可避免地降低了模糊系統(tǒng)的可解釋性。因此,單個TSK模糊系統(tǒng)的性能和可解釋性很容易受由維度詛咒[36-37]引發(fā)的規(guī)則爆炸問題所影響。相反,因?yàn)榭山忉尩纳疃萒SK模糊系統(tǒng)可以通過不斷加深其結(jié)構(gòu)來增強(qiáng)其分類性能,所以其包含的TSK模糊子系統(tǒng)可以使用相對少的模糊規(guī)則。具體來說,在相同學(xué)習(xí)任務(wù)下,借助棧式泛化原理[59]、深度結(jié)構(gòu)和深度學(xué)習(xí)的方法,可解釋的深度TSK模糊系統(tǒng)可以學(xué)習(xí)到原始輸入樣本里高級的抽象的特征,因此所需的模糊規(guī)則數(shù)量往往要比單個TSK模糊系統(tǒng)要少得多,從而有著更高的可解釋性。
(2)與寬度TSK模糊系統(tǒng)相比。雖然寬度TSK模糊系統(tǒng)通常有著更高的可解釋性,但是可解釋的深度TSK模糊系統(tǒng)可以從原始輸入特征中學(xué)習(xí)到更加高級的和抽象的特征,因此可解釋的深度TSK模糊系統(tǒng)可以處理更為復(fù)雜的學(xué)習(xí)任務(wù)。
(3)與深度模糊神經(jīng)網(wǎng)絡(luò)相比??山忉尩纳疃萒SK模糊系統(tǒng)的每個子系統(tǒng)都可以借助LLM[86-88]實(shí)現(xiàn)只需要1次的快速訓(xùn)練,因此其整個結(jié)構(gòu)不需要像深度模糊神經(jīng)網(wǎng)絡(luò)那樣使用基于反向傳播的梯度下降算法[83]來反復(fù)迭代其網(wǎng)絡(luò)參數(shù),從而保持了快速訓(xùn)練的優(yōu)勢,也避免了如梯度消失[90]等問題的產(chǎn)生。此外,它的分類性能可以隨著深度的增加(即TSK模糊子系統(tǒng)數(shù)量的增加)不斷地增強(qiáng)。層數(shù)的增加也可以被視為是一種增量學(xué)習(xí),使得深度TSK模糊系統(tǒng)可以動態(tài)地更新其網(wǎng)絡(luò)結(jié)構(gòu),以適應(yīng)不同難度的學(xué)習(xí)任務(wù),而不需要像模糊神經(jīng)網(wǎng)絡(luò)那樣重新訓(xùn)練整個網(wǎng)絡(luò)結(jié)構(gòu),這大大增強(qiáng)了其實(shí)用性。
(4)與層級模糊系統(tǒng)相比??山忉尩纳疃萒SK模糊系統(tǒng)通常是將若干TSK模糊子系統(tǒng)在棧式泛化原理[59]下進(jìn)行棧式堆疊得到的,每個TSK模糊子系統(tǒng)依舊保持著單獨(dú)訓(xùn)練的方式和高可解釋性。因此,整個結(jié)構(gòu)訓(xùn)練完成之后,可以根據(jù)不同需求選取不同層的TSK模糊子系統(tǒng)得到的模糊規(guī)則來對整個結(jié)構(gòu)的最終決策進(jìn)行解釋,這使得整個結(jié)構(gòu)都具有良好的可解釋性。此外,借助于深度學(xué)習(xí)里的方法,可解釋的深度TSK模糊系統(tǒng)通??梢匀〉酶玫姆夯阅?。
棧式泛化原理最早由文獻(xiàn)[59]提出,是一種提高模型泛化能力的深度集成方法,其核心思想是利用前一層模型的輸出來提高當(dāng)前層模型的泛化性能。實(shí)現(xiàn)棧式泛化原理的方式有很多,其中一種最為經(jīng)典的方式如圖2所示。棧式泛化原理首先在第1層分別訓(xùn)練了若干個弱分類器,然后將第1層分類器的輸出作為第2層分類器的輸入,以提高第2層分類器的泛化性能。此外,棧式泛化原理可以在每一層訓(xùn)練不同類型的分類器,這大大增強(qiáng)了其實(shí)用性。盡管棧式泛化原理沒有Bagging和Boosting[37]那么流行,但它的有效性已經(jīng)在提高無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的性能方面得到了證明。此外,棧式泛化原理可以通過不斷地打開原始輸入空間的流形結(jié)構(gòu)來保證其增強(qiáng)的泛化能力。更為重要的是,棧式泛化原理可以有效地避免去解決一個困難的非凸優(yōu)化問題,而目前大多數(shù)的深度學(xué)習(xí)方法卻都困擾于這個問題。因此,從這個角度來看,將棧式泛化原理引入建立深度TSK模糊系統(tǒng)中是十分合適。近年來,可解釋的深度TSK模糊系統(tǒng)因其優(yōu)越的分類性能和高可解釋性得到了研究人員越來越多的關(guān)注,其中的代表模型可以總結(jié)如下。
圖2 棧式泛化原理Fig.2 Stacked generalization principle
為了改善傳統(tǒng)的層級TSK模糊系統(tǒng)的中間變量難以解釋的問題,可解釋的深度TSK模糊系統(tǒng)首先在文獻(xiàn)[62]中被提出。具體來說,基于棧式泛化原理,作者提出了一種新穎的深度TSK模糊分類器D-TSK-FC。如圖3所示,D-TSK-FC棧式堆疊了若干個零階TSK模糊子分類器,除了第1個子分類器建立在原始輸入數(shù)據(jù)外,剩下的子分類器的輸入都設(shè)置為原始輸入數(shù)據(jù)加上前一個子系統(tǒng)輸出的隨機(jī)偏移。此外,D-TSK-FC借助三重簡潔的模糊規(guī)則,即隨機(jī)選擇的原始特征加上固定的語義分區(qū)、隨機(jī)的規(guī)則組合和相同的子分類器輸入空間,實(shí)現(xiàn)了增強(qiáng)的分類精度和高可解釋性。通過引入深度學(xué)習(xí)的技術(shù),D-TSK-FC改善了傳統(tǒng)層級TSK模糊系統(tǒng)的分類性能和可解釋性。
圖3 D-TSK-FC的結(jié)構(gòu)Fig.3 Structure of D-TSK-FC
在D-TSK-FC提出之后,可解釋的深度TSK模糊系統(tǒng)吸引了越來越多研究人員的關(guān)注。例如,文獻(xiàn)[61]通過將零階TSK模糊分類器以一種特殊的堆疊方式組裝起來,提出了一種可解釋的高階深度TSK模糊分類器DHO-TSK。相比于高階TSK模糊分類器,DHO-TSK不僅有著更好的可解釋性,而且它理論上等價于1個高級TSK模糊分類器。DHO-TSK的結(jié)構(gòu)如圖4所示。從圖4可以看出,它的每層都包含1個零階TSK子分類器,除了第1層的輸出是第1個子分類器的輸出外,其余層的輸出都是當(dāng)前層子分類器的輸出乘上對應(yīng)的隨機(jī)選中的原始特征,再加上前一層子系統(tǒng)的輸出。這樣一來,DHOTSK實(shí)現(xiàn)了令人滿意的分類性能和高可解釋性。
圖4 DHO-TSK的結(jié)構(gòu)Fig.4 Structure of DHO-TSK
文獻(xiàn)[60]首先提出了1個基于輸出擾動的對抗TSK模糊分類器TSKa,在理論上TSKa有著增強(qiáng)的泛化性能。然后,基于棧式泛化原理,作者將若干個TSKa進(jìn)行棧式堆疊,得到1個深度對抗TSK模糊系統(tǒng)DSA-FC,其結(jié)構(gòu)如圖5所示。除了第1個子分類器外,其余的子分類器不僅利用了原始輸入數(shù)據(jù),還同時利用到了前一個子分類器的平滑梯度信息G,用以避免在各層輸入數(shù)據(jù)空間的生成中出現(xiàn)不均勻現(xiàn)象。DSA-FC在分類精度、抗噪性能和可解釋性方面都取得了令人滿意的結(jié)果。
圖5 DSA-FC的結(jié)構(gòu)Fig.5 Structure of DSA-FC
文獻(xiàn)[91]為了解決DSA-FC[60]存在的面對大規(guī)模數(shù)據(jù)時訓(xùn)練速度慢的問題,開發(fā)了一種針對DSA-FC的快速訓(xùn)練算法FTA。FTA的訓(xùn)練工作流程如圖6所示。FTA首先在每個子對抗模糊分類器的所有模糊規(guī)則中選出前k條模糊規(guī)則(見圖6中虛線圓里的模糊規(guī)則)。然后從這些選擇的模糊規(guī)則中生成一階平滑的梯度引導(dǎo)信息。最后根據(jù)這些信息快速更新當(dāng)前的輸入,也就是說,這些信息將加入到下一層子分類器的輸入中。FTA在理論上能提高DSA-FC的泛化能力,同時實(shí)驗(yàn)上表明了其對DSA-FC加速能力的有效性。
圖6 FTA-FC的訓(xùn)練工作流程Fig.6 Training workflow of FTA-FC
文獻(xiàn)[71]提出一種基于共享語義模糊規(guī)則的深度TSK模糊分類器HID-TSK-FC,其結(jié)構(gòu)如圖7所示。HID-TSK-FC使用棧式結(jié)構(gòu)堆疊了若干個TSK模糊子分類器,除了第1個子分類使用零階TSK模糊系統(tǒng),其余的子分類器均使用特殊的TSK模糊系統(tǒng),即將前面所有子系統(tǒng)的輸出對原始的輸入數(shù)據(jù)進(jìn)行擴(kuò)維處理,以打開輸入空間的流形結(jié)構(gòu),并體現(xiàn)到模糊規(guī)則的后件形式中。為了取得更好的分類的性能,HID-TSK-FC使用梯度下降法來更新后件里的所有參數(shù)。此外,HID-TSK-FC在數(shù)學(xué)上等價于1個具有共享可解釋語言模糊規(guī)則的新型TSK模糊分類器,因此其每一條模糊規(guī)則都是可解釋的。
圖7 HID-TSK-FC的結(jié)構(gòu)Fig.7 Structure of HID-TSK-FC
文獻(xiàn)[92]提出一種基于棧式堆疊結(jié)構(gòu)的深度TSK模糊分類器SHFA-TSK-FC,以解決現(xiàn)有層級式模糊分類器在解釋中間層變量和模糊規(guī)則方面的不足。圖8給出了SHFA-TSK-FC的結(jié)構(gòu)。SHFATSK-FC每一層的模糊子分類器的輸入都設(shè)置為原始輸入樣本的所有輸入特征加上前一層的模糊子分類器的輸出。這樣做的好處是,這些擴(kuò)維后的輸入特征可以從本質(zhì)上打開原始輸入空間的流形結(jié)構(gòu),從而增強(qiáng)模糊子分類的分類性能。因此,SHFA-TSK-FC實(shí)現(xiàn)了增強(qiáng)的分類性能和高可解釋性。
圖8 SHFA-TSK-FC的結(jié)構(gòu)Fig.8 Structure of SHFA-TSK-FC
文獻(xiàn)[93]借助于棧式泛化原理,通過在深度集成中對少數(shù)類及其問題區(qū)域棧式堆疊若干個零階TSK模糊子分類器,提出了一種深度TSK模糊分類器IDE-TSK-FC,用以處理不平衡數(shù)據(jù)分類任務(wù)。IDE-TSK-FC的結(jié)構(gòu)如圖9所示。從圖9可以看出,除了第1個零階TSK模糊子分類器是建立在原始訓(xùn)練數(shù)據(jù)集外,后續(xù)的所有零階TSK模糊子分類器都被逐層堆疊在原始訓(xùn)練數(shù)據(jù)集中由K近鄰(Knearest neighbor,KNN)識別的問題區(qū)域和之前所有子分類器的平均輸出上。借助于棧式泛化原理[59],IDE-TSK-FC在類不平衡問題上實(shí)現(xiàn)了良好分類性能和高可解釋性。
圖9 IDE-TSK-FC的結(jié)構(gòu)Fig.9 Structure of IDE-TSK-FC
文獻(xiàn)[94]提出一種多視角深度TSK模糊系統(tǒng)DVR-TSK-FS用于檢測癲癇性腦電信號,其結(jié)構(gòu)如圖10所示。依據(jù)圖10,DVR-TSK-FS使用棧式泛化原理堆疊了若干個1階TSK模糊子分類器,每個子分類器都構(gòu)建在p個不同視角下的數(shù)據(jù)集上。此外,除了第1個子分類器構(gòu)建在p個原始數(shù)據(jù)集上外,其余的子分類器使用前面所有子分類器的輸出對p個原始數(shù)據(jù)集進(jìn)行了擴(kuò)維處理。相比于單視角的模糊系統(tǒng),DVR-TSK-FS在檢測癲癇性腦電信號上取得了更好的效果。
圖10 DVR-TSK-FS的結(jié)構(gòu)Fig.10 Structure of DVR-TSK-FS
除了可解釋的深度TSK模糊系統(tǒng)外,以其他模糊系統(tǒng)為基本構(gòu)件的可解釋的深度模糊系統(tǒng)也得到了廣泛的發(fā)展。其代表模型包括文獻(xiàn)[78]依據(jù)棧式泛化原理,提出了一種可解釋的深度Wang-Mendel模糊系統(tǒng)DFRBCS,DFRBCS采用逐層堆疊的構(gòu)建方式,每層子系統(tǒng)的輸入是通過對前一層所有模糊子系統(tǒng)的輸出進(jìn)行洗牌和滑動窗口操作產(chǎn)生的?;瑒哟翱诘氖褂眉葘?shí)現(xiàn)了降維的效果,也最大限度地保持了原始的輸入特征,因此取得了良好的分類性能和可解釋性。文獻(xiàn)[95]使用卷積操作進(jìn)行特征提取,逐層構(gòu)建了一種可解釋的深度Wang-Mendel模糊系統(tǒng)DCFS。DCFS的第1層包含若干弱的子分類器,它們使用卷積操作(1個移動窗口)在原始輸入數(shù)據(jù)中提取特征。然后,第2層以相同的方式構(gòu)建在第1層子分類器的輸出上面,逐層重復(fù)這個過程,直到達(dá)到滿意性能或最大層數(shù)。DCFS在擬合真實(shí)香港股票市場數(shù)據(jù)上取得了令人滿意的性能。
在實(shí)際應(yīng)用方面,因?yàn)榭山忉尩纳疃饶:到y(tǒng)可以在保持可解釋性的前提下取得令人滿意的測試泛化能力。在實(shí)際應(yīng)用中,測試泛化能力往往比訓(xùn)練性能更為重要。因此,以TSK模糊系統(tǒng)及其他模糊系統(tǒng)為基本構(gòu)件的可解釋的深度模糊系統(tǒng)在以下方面已經(jīng)得到了重要的應(yīng)用:
(1)中小規(guī)模數(shù)據(jù)集、數(shù)據(jù)缺乏和不平衡問題。在關(guān)注與可解釋的深度模糊系統(tǒng)相關(guān)的魯棒性屬性時,首先要考慮的是它們在提取領(lǐng)域內(nèi)密度較低的中小規(guī)模數(shù)據(jù)集中信息時的有效性,即所謂的“缺乏數(shù)據(jù)”問題[96]。原因很簡單:通過沿著輸入數(shù)據(jù)原始特征的總體領(lǐng)域定義模糊前件的語義空間,模糊前件可以對輸入空間進(jìn)行整體覆蓋。此外,當(dāng)前件模糊集之間存在相互重疊時,建模的信息顆粒之間可以獲得一個更為平滑的過渡。除了缺乏數(shù)據(jù)問題之外,可解釋的深度模糊系統(tǒng)在處理不精確和不確定數(shù)據(jù)方面也非常有效[62,92]。此時,模糊分區(qū)的定義以及隸屬函數(shù)的靈活性是十分重要的,例如,可以使用傳統(tǒng)的Ⅰ型模糊集的不同擴(kuò)展來增加表示中的額外自由度[97]。
(2)社會網(wǎng)絡(luò)分析問題。在過去的幾年里,由于社會媒體互動的增加,社會網(wǎng)絡(luò)分析已經(jīng)成為一個熱門話題。企業(yè)和學(xué)術(shù)界對這些關(guān)系的概念化、模型化、分析、解釋和預(yù)測非常感興趣。社會網(wǎng)絡(luò)分析所基于的圖論與模糊集理論之間存在著自然的聯(lián)系,這允許模糊系統(tǒng)提供一種更容易和更強(qiáng)大的方式來表達(dá)這些網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)系。此外,一些研究已經(jīng)討論了基于模糊集的社會數(shù)據(jù)的理論、概念模型和實(shí)際應(yīng)用[98]。
(3)金融。金融數(shù)據(jù)的固有不確定性造成了人們難以對其規(guī)律進(jìn)行準(zhǔn)確的預(yù)測,同時金融領(lǐng)域也急切需要可解釋的模型,以便于用戶可以放心地使用。在金融環(huán)境中,理解輸入和輸出是如何相互關(guān)聯(lián)對于能夠做出操作性和戰(zhàn)略性的決策至關(guān)重要。因此,可解釋的深度模糊系統(tǒng)已經(jīng)成功應(yīng)用于許多金融領(lǐng)域,例如股票走勢預(yù)測[95]。
(4)醫(yī)學(xué)。醫(yī)學(xué)應(yīng)用中的任何決定對于醫(yī)生和病人來說都至關(guān)重要,因此醫(yī)生采取的任何行動都必須有十足信心。這意味著在這種情況下使用的任何決策支持系統(tǒng)必須是可信的和透明的。換句話說,它必須向醫(yī)生和病人解釋某項(xiàng)診斷背后的原因,即模型必須是可解釋的。在這個意義上,可解釋的深度模糊系統(tǒng)將是合適的選擇[27,99]。
(5)入侵檢測系統(tǒng)。信息系統(tǒng)的廣泛使用和建立安全策略和規(guī)則的需要,使不想要的系統(tǒng)訪問被區(qū)分開來。其中,可解釋的深度模糊系統(tǒng)有著廣闊的應(yīng)用前景,原因可歸結(jié)如下。首先,入侵檢測問題有一個共同的結(jié)構(gòu),事實(shí)上它們是由數(shù)字?jǐn)?shù)據(jù)描述的,因此清晰的閾值會導(dǎo)致低的檢測精度。此外,合法行為和異常行為之間的界限本身是模糊的。換句話說,入侵行為中的微小變化可能不會被識別,而正常情況下的微小偏差可能會產(chǎn)生一個錯誤的警報[60,91]。
綜上所述,近年來,可解釋的深度TSK模糊系統(tǒng)得在理論、模型和實(shí)際應(yīng)用方面都得到了廣泛的發(fā)展。但其還面臨著以下的挑戰(zhàn)和機(jī)遇:
(1)更復(fù)雜數(shù)據(jù)的處理能力。雖然可解釋的TSK模糊系統(tǒng)在面對中小規(guī)模數(shù)據(jù)集上有競爭性優(yōu)勢,但面對大規(guī)模數(shù)據(jù)集的性能還有進(jìn)一步的探索空間。深度神經(jīng)網(wǎng)絡(luò)的成功經(jīng)驗(yàn)已經(jīng)證明了越深的結(jié)構(gòu)和越多的參數(shù)量是處理復(fù)雜問題的關(guān)鍵。借助殘差神經(jīng)網(wǎng)絡(luò)[100],深度神經(jīng)網(wǎng)絡(luò)解決了梯度消失[90]問題,因此其層數(shù)可以輕松實(shí)現(xiàn)幾十層甚至是上百層,以幫助其在大規(guī)模的和更具挑戰(zhàn)性的數(shù)據(jù)集上取得令人滿意的精確度。然而,現(xiàn)階段的可解釋的深度TSK模糊系統(tǒng)往往采用逐層訓(xùn)練和棧式堆疊的方式來加深其層數(shù),因此其結(jié)構(gòu)大多在10層以下。雖然更深的結(jié)構(gòu)是提高深度TSK模糊系統(tǒng)處理更復(fù)雜數(shù)據(jù)的一個有效方式,但是深度的增加也意味著模型參數(shù)和復(fù)雜度的增加,這不可避免會降低所得到的模糊規(guī)則的可解釋性。如果在深度TSK模糊系統(tǒng)的設(shè)計(jì)中,更多關(guān)注的是精確度而不是可解釋性,那么得到的模糊系統(tǒng)就很難與其他更可取的、更復(fù)雜的解決方案相比較,比如深度神經(jīng)網(wǎng)絡(luò)。因此,面對更復(fù)雜數(shù)據(jù),如何在發(fā)揮深度TSK模糊系統(tǒng)的優(yōu)勢,仍是困擾深度TSK模糊系統(tǒng)的一個難題。
(2)多種可解釋性。目前,深度TSK模糊系統(tǒng)的可解釋性僅僅考慮的是語義可解釋性,然而可解釋性的含義是廣泛的,僅僅考慮語義可解釋性顯然是不夠的也是不全面的[101]。具體來說,模糊系統(tǒng)的可解釋性還包含后件的可解釋性,整條模糊規(guī)則的可解釋和可視化的可解釋性等。在深度神經(jīng)網(wǎng)絡(luò)里,可視化的可解釋性也是一種去理解深度神經(jīng)網(wǎng)絡(luò)行為的常用方法,例如可視化的餅圖[102]。因此,未來的評價可解釋的指標(biāo)應(yīng)該是多個指標(biāo)的綜合,而不單單是語義上的可解釋性。如何讓深度TSK模糊系統(tǒng)在更加綜合的可解釋性指標(biāo)下依舊取得令人滿意的測試泛化性能將會是一個有趣的方向。
(3)更多深度學(xué)習(xí)領(lǐng)域的技術(shù)。深度TSK模糊系統(tǒng)正是因?yàn)槭褂昧松疃葘W(xué)習(xí)領(lǐng)域的技術(shù),所以取得了比傳統(tǒng)的層級式TSK模糊系統(tǒng)更好的性能和可解釋性。近年來,深度學(xué)習(xí)領(lǐng)域出現(xiàn)一些頗具潛力的新興技術(shù),如著名的擁有注意力機(jī)制的Transformer[103]。Transformer不僅僅在自然語言處理方面取得了巨大的成功[104],最近能有效地處理圖像數(shù)據(jù)的Transformer被相繼提出,例如國際頂會ICCV的2021最佳論文里提出的Swin transformer[3]就在多個圖像數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能。然而,深度TSK模糊系統(tǒng)和Transformer的結(jié)合還鮮有研究,未來兩者的結(jié)合或許能給深度TSK模糊系統(tǒng)更加有效地處理文本和圖像數(shù)據(jù)另一種有趣的思路。
數(shù)據(jù)科學(xué)的世界已經(jīng)改變了對模型性能的要求。以往模型只需要一味地追求高精確度,因此模型的復(fù)雜度被不斷提高。但目前,模型的核心不僅要達(dá)到盡可能高的精度,而且要使其對研究人員和從業(yè)人員具有可解釋性。在這個意義上,可解釋的深度TSK模糊系統(tǒng)保留了模糊系統(tǒng)可解釋的原始本質(zhì),也通過深度結(jié)構(gòu)提升了其建模能力,因此提供了比其他范式更多的優(yōu)勢。本文從可解釋的深度TSK模糊系統(tǒng)出發(fā),分析了深度TSK模糊系統(tǒng)相對于其他TSK模糊系統(tǒng)變體存在的優(yōu)勢;總結(jié)了深度TSK模糊系統(tǒng)當(dāng)前主流的模型和實(shí)際的應(yīng)用場景;并據(jù)此分析了深度TSK模糊系統(tǒng)未來可能面臨的挑戰(zhàn)和機(jī)遇。