姚帥君,閆敬來,杜彩鳳,溫巖,劉銘,楊繼紅
山西中醫(yī)藥大學(xué),山西 晉中 030619
圍絕經(jīng)期綜合征(perimenopausal syndrome,PPS)指婦女在絕經(jīng)前后時期卵巢的功能逐步衰退,從而引起體內(nèi)雌性激素水平降低,以及自主神經(jīng)功能紊亂和代謝障礙為主的一組癥候群。本病多發(fā)生于45~55歲,是婦女絕經(jīng)相關(guān)最常見的疾病,涉及人體多個器官、系統(tǒng)。目前多數(shù)學(xué)者認(rèn)為本病與卵巢功能減退引起的內(nèi)分泌紊亂密切相關(guān),同時也與社會、心理因素有關(guān)[1]。激素治療是現(xiàn)代醫(yī)學(xué)治療PPS最主要的方法,但不良反應(yīng)較大,存在潛在風(fēng)險。歷代中醫(yī)醫(yī)籍對本病并無專題論述,按照辨證論治及癥狀表現(xiàn)將其歸屬于“年老血崩”“臟燥”等范疇。中醫(yī)療法可有效緩解患者的臨床癥狀,且不良反應(yīng)較少,但目前尚存在缺乏統(tǒng)一的療效評價體系和缺乏大樣本臨床研究等局限[2]。
辨證論治是中醫(yī)的特色和精髓,但中醫(yī)辨證受個人主觀因素的影響,不確定性強(qiáng),存在客觀化、標(biāo)準(zhǔn)化等方面的不足。目前,中醫(yī)數(shù)字化辨證是人工智能在中醫(yī)領(lǐng)域研究的熱點課題[3-6]。統(tǒng)一規(guī)范的中醫(yī)辨證模式是中醫(yī)辨證智能化的基礎(chǔ),同時也是中醫(yī)藥現(xiàn)代化的重要內(nèi)容之一[7]。本研究基于邏輯回歸、支持向量機(jī)、K近鄰、隨機(jī)森林、XGBoost、BP神經(jīng)網(wǎng)絡(luò)6種機(jī)器學(xué)習(xí)算法,及公開發(fā)表的文獻(xiàn)醫(yī)案數(shù)據(jù)建立PPS中醫(yī)辨證模型,旨在為PPS的輔助診斷提供參考,并為中醫(yī)辨證智能化和客觀化提供借鑒。
本研究醫(yī)案數(shù)據(jù)來源于兩部分:一部分為數(shù)據(jù)庫,包括中國知識資源總庫(CNKI)、中文科技期刊數(shù)據(jù)庫(VIP)、萬方數(shù)據(jù)知識服務(wù)平臺(Wanfang Data)、中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBM)建庫至2022年5月發(fā)表的中醫(yī)治療PPS的臨床文獻(xiàn);另一部分為古今醫(yī)案云平臺2.3.5收錄的PPS相關(guān)中醫(yī)病案。
數(shù)據(jù)庫采用高級檢索,先以“圍絕經(jīng)期綜合征”與“醫(yī)案”“經(jīng)驗”“驗案”“病案”為檢索詞兩兩組合進(jìn)行檢索,然后以“更年期綜合征”與“醫(yī)案”“經(jīng)驗”“驗案”“病案”為檢索詞兩兩組合進(jìn)行檢索,再以“經(jīng)斷前后諸證”與“醫(yī)案”“經(jīng)驗”“驗案”“病案”為檢索詞兩兩組合進(jìn)行檢索。在古今醫(yī)案云平臺分別以“圍絕經(jīng)期綜合征”“更年期綜合征”“經(jīng)斷前后諸證”為主題詞進(jìn)行一框式檢索。
參考《中西醫(yī)結(jié)合內(nèi)分泌代謝疾病診治學(xué)》[8]、《婦產(chǎn)科中西醫(yī)結(jié)合診療技巧》[9]、《中醫(yī)婦科學(xué)》[10]、《中醫(yī)病證診斷療效標(biāo)準(zhǔn)》[11]中有關(guān)PPS或經(jīng)斷前后諸證辨證分型的論述,將本病證候確定為腎陰虛、腎陽虛、腎陰陽兩虛、腎虛肝旺、肝郁化火、肝氣郁結(jié)、氣滯血瘀、心脾兩虛共8個證型。
納入標(biāo)準(zhǔn):①符合上述證型標(biāo)準(zhǔn)的中醫(yī)治療PPS的醫(yī)案文獻(xiàn);②文獻(xiàn)中四診信息記錄完整的中醫(yī)醫(yī)案及臨床觀察類文獻(xiàn)。
排除標(biāo)準(zhǔn):①學(xué)位論文、綜述、Meta分析、理論論述類文獻(xiàn);②中西醫(yī)結(jié)合治療的臨床病例;③四診信息記錄不完整(缺少舌象和脈象)的醫(yī)案;④其他疾?。ㄈ缛橄侔?、糖尿病等)合并PPS的臨床病例。
首先將符合納入標(biāo)準(zhǔn)的文獻(xiàn)題目錄入WPS2019,去除重復(fù)文獻(xiàn)后,以剩余文獻(xiàn)題目為檢索詞在上述數(shù)據(jù)庫中進(jìn)行一框式檢索,提取其中可供錄入的醫(yī)案內(nèi)容,然后將醫(yī)案錄入(錄入內(nèi)容為患者癥狀、體征及所對應(yīng)的證型)。最終獲得上述醫(yī)案樣本的數(shù)據(jù)信息(其中腎陰虛證215例,腎陽虛證61例,腎陰陽兩虛證141例,腎虛肝旺證255例,肝郁化火證148例,肝氣郁結(jié)證79例,氣滯血瘀證63例,心脾兩虛證59例),以此作為原始數(shù)據(jù)庫(錄入格式:醫(yī)案編號;癥狀和體征;證型)。
以患者的臨床指標(biāo)為特征值(包括胸悶、口苦、口干、善太息、盜汗、潮熱汗出、失眠多夢、健忘、面紅目赤、面色?白、面色萎黃、兩顴潮紅、頭暈?zāi)垦!赡扛蓾?、耳鳴、心煩、心悸、手足心熱、四肢不溫、下肢冰冷、畏寒、悲傷欲哭、急躁易怒、情緒低落、胸脅脹痛、乳房脹痛、外陰干澀、外陰瘙癢、腰膝酸軟、氣短、精神倦怠、乏力、胃脘脹滿、納呆、小便短赤、小便清長、大便溏薄、大便秘結(jié)、大便時溏時秘、月經(jīng)有血塊、月經(jīng)量多、月經(jīng)量少、月經(jīng)量時多時少、月經(jīng)先期、月經(jīng)后期、月經(jīng)先后不定期、月經(jīng)紊亂、閉經(jīng)、舌紅、舌淡紅、舌淡白、舌黯紅、舌紫黯、胖大舌、齒痕舌、瘀斑瘀點舌、苔白、苔黃、苔薄、苔厚、少苔、無苔、脈弦、脈細(xì)、脈滑、脈虛、脈澀、脈沉、脈遲、脈數(shù)、脈緩、脈弱共72項),并使用“0-1”編碼對各列特征進(jìn)行賦值,即出現(xiàn)該特征記為“1”,不出現(xiàn)該特征記為“0”。然后以原始數(shù)據(jù)庫中每個樣本所對應(yīng)的證型作為目標(biāo)值(包括心脾兩虛、氣滯血瘀、肝氣郁結(jié)、肝郁化火、腎虛肝旺、腎陽虛、腎陰虛、腎陰陽兩虛共8類),建立PPS數(shù)據(jù)集(數(shù)據(jù)集格式:患者編號;特征值;目標(biāo)值)。
通過Scikit-learn中的標(biāo)簽編碼(Label Encoding)類對目標(biāo)值下的中醫(yī)證型進(jìn)行處理,將文本信息映射為數(shù)值,即轉(zhuǎn)換為0,1,2,3,4,5,6,7 的標(biāo)簽。利用train_test_split 模塊將PPS 數(shù)據(jù)集的70%作為訓(xùn)練集(n=714),30%作為測試集(n=307),通過設(shè)置參數(shù)stratify=y使訓(xùn)練集和測試集中各證型數(shù)據(jù)與原PPS數(shù)據(jù)集保持相同的比例,然后通過設(shè)置參數(shù)random_state=0保證每次實驗都使用相同的訓(xùn)練集和測試集,并增加實驗的重現(xiàn)性。
本研究開發(fā)環(huán)境為PyCharm2021.1,邏輯回歸、支持向量機(jī)、隨機(jī)森林、K近鄰及XGBoost算法采用的框架為Scikit-learn0.24.2。Scikit-learn是Python第三方提供的機(jī)器學(xué)習(xí)框架,支持分類、聚類、降維、回歸四大算法及特征提取、數(shù)據(jù)處理、模型評估三大模塊[12]。BP 神經(jīng)網(wǎng)絡(luò)采用的框架為PyTorch1.0.0。PyTorch是以Python優(yōu)先的深度學(xué)習(xí)框架,不僅支持自動求導(dǎo)功能,且設(shè)計簡潔,較其他深度學(xué)習(xí)框架具有靈活性強(qiáng)、運(yùn)行速度快等優(yōu)點[13]。模型解釋采用的框架為SHAP0.40.0,它使用SHAP值解釋機(jī)器學(xué)習(xí)模型和特征重要性[14]。
PPS 最常見的證型是腎虛肝旺證,而腎陽虛證、氣滯血瘀證臨床較為少見。因此,本研究使用的數(shù)據(jù)集為典型的多分類類別不平衡數(shù)據(jù)集,為使模型的泛化能力不受影響,在實驗過程中對邏輯回歸、支持向量機(jī)、隨機(jī)森林模型直接在建模時設(shè)置參數(shù)class_weight=“balanced”平衡樣本的權(quán)重,對XGBoost模型在擬合模型時手動計算各類別的權(quán)重后賦值給sample_weight參數(shù),對BP神經(jīng)網(wǎng)絡(luò)同樣手動計算各類別的權(quán)重后賦值給nn.CrossEntropyLoss 類中的weight參數(shù)。
邏輯回歸(logistic regression)主要應(yīng)用于二分類問題,也可應(yīng)用于多分類問題[15]。邏輯回歸假定觀察值樣本因變量的概率分布呈S形,且通過極大似然估計使因變量觀察次數(shù)的概率極大化,從而得到自變量參數(shù)的最佳估計值[16]。本研究通過調(diào)用sklearn 中的LogisticRegression算法實現(xiàn)邏輯回歸建模,參數(shù)solver(求解器)選擇“saga”,其余超參數(shù)選擇最優(yōu)組合,然后調(diào)用fit函數(shù)用訓(xùn)練集擬合模型,通過predict函數(shù)輸出預(yù)測值。
支持向量機(jī)(support vector machine)通過在特征空間構(gòu)造一個距離樣本點間隔最大的分離超平面ωTx+b=0將實例分到不同的類[17]。支持向量機(jī)是機(jī)器學(xué)習(xí)領(lǐng)域若干技術(shù)集大成者,能夠較好地解決小樣本、非線性、高維數(shù)和局部最小等一系列問題[18]。在本研究中通過調(diào)用sklearn中的svm.SVM算法實現(xiàn)支持向量機(jī)建模,參數(shù)kernel(核函數(shù))選擇“rbf”,其余超參數(shù)選擇最優(yōu)組合,然后調(diào)用fit函數(shù)用訓(xùn)練集擬合模型,通過predict函數(shù)輸出預(yù)測值。
隨機(jī)森林(random forest)算法首先在變量和數(shù)據(jù)的使用上進(jìn)行隨機(jī)化,削弱數(shù)據(jù)間的相關(guān)性,構(gòu)造大量的規(guī)則樹,通過簡單投票判斷類別并匯總結(jié)果[19]。它能夠很好地預(yù)測多達(dá)幾千個解釋變量的作用,被譽(yù)為當(dāng)前最好的機(jī)器學(xué)習(xí)算法之一。本研究通過調(diào)用sklearn中的RandomForestClassifier算法實現(xiàn)隨機(jī)森林建模,參數(shù)criterion(衡量指標(biāo))選擇“gini”,其余超參數(shù)選擇最優(yōu)組合,然后調(diào)用fit函數(shù)用訓(xùn)練集擬合模型,通過predict函數(shù)輸出預(yù)測值。
K近鄰(K-nearest neighbor)的思想是,如果待測樣本與訓(xùn)練集中的k個樣本最相似(即在特征空間中最鄰近),并且k個樣本中的大多數(shù)屬于某類,則待測樣本也屬于該類[20]。k值的選擇、距離度量、分類決策規(guī)則是K 近鄰法的3 個基本要素[21]。本研究通過調(diào)用sklearn 中的KNeighborsClassifier 算法實現(xiàn)K 近鄰建模,參數(shù)weights(近鄰權(quán))選擇“distance”,其余超參數(shù)選擇最優(yōu)組合,然后調(diào)用fit函數(shù)用訓(xùn)練集擬合模型,通過predict函數(shù)輸出預(yù)測值。
XGBoost算法通過對損失函數(shù)進(jìn)行二階泰勒展開,然后在損失函數(shù)之外對正則項求得最優(yōu)解,它可以充分利用多核CPU并行計算的優(yōu)勢,從而能夠更快地進(jìn)行模型探索[22]。本研究通過調(diào)用xgboost庫中的sklearn接口XGBClassifier實現(xiàn)XGBoost建模,參數(shù)objective(目標(biāo)函數(shù))選擇“multi:softmax”,其余超參數(shù)選擇最優(yōu)組合,然后調(diào)用fit 函數(shù)用訓(xùn)練集擬合模型,通過predict函數(shù)輸出預(yù)測值。
BP 神經(jīng)網(wǎng)絡(luò)(backpropagation neural network)的結(jié)構(gòu)包括輸入層、隱含層、輸出層。該算法的工作流程:先將輸入示例提供給輸入層神經(jīng)元,然后逐層將信號前傳,直到產(chǎn)生輸出層的結(jié)果;然后計算輸出層的誤差,再將誤差逆向傳播至隱層神經(jīng)元,最后根據(jù)隱層神經(jīng)元的誤差對連接權(quán)和閾值進(jìn)行調(diào)整,該迭代過程循環(huán)進(jìn)行,直到達(dá)到停止條件為止[23]。本研究通過torch.nn模塊層層堆疊的方式搭建神經(jīng)網(wǎng)絡(luò)分類器,神經(jīng)網(wǎng)絡(luò)中包含1個輸入層、2個隱含層和1個輸出層。其中輸入層與隱含層之間、隱含層與隱含層之間選擇Relu 激活函數(shù),輸出層選擇Softmax函數(shù)進(jìn)行多分類輸出,訓(xùn)練迭代周期設(shè)定為50,其余超參數(shù)選擇最優(yōu)組合。在每一個訓(xùn)練周期(epoch)通過DataLoader 方法循環(huán)獲得訓(xùn)練batch(批次),對每一批數(shù)據(jù)使用crossentropy loss(交叉熵?fù)p失函數(shù))作為模型的學(xué)習(xí)策略,優(yōu)化器選擇Adam(自適應(yīng)矩估計算法),然后通過torch.optim模塊完成優(yōu)化器清零、損失反向傳播、優(yōu)化器更新等訓(xùn)練步驟。
邏輯回歸、支持向量機(jī)、K 近鄰、隨機(jī)森林、XGBoost 采用GridSearchCV 模塊通過參數(shù)列表param_grid尋找最優(yōu)模型的超參數(shù)組合,使用分層K(K=5)折交叉驗證。BP神經(jīng)網(wǎng)絡(luò)在Optuna框架下創(chuàng)建objective(目標(biāo)函數(shù)),objective的評估指標(biāo)設(shè)置為accuracy(準(zhǔn)確率),通過study(研究對象)最大化目標(biāo)函數(shù)值進(jìn)行30次trials(試驗),并在試驗完成后從study中選擇最優(yōu)的超參數(shù)組合。
以上模型均使用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、f1分?jǐn)?shù)(f1 score)、混淆矩陣、受試者工作特征(ROC)曲線及曲線下面積(AUC)評估模型的性能。
高級檢索得到文獻(xiàn)3 519篇,一框式檢索得到醫(yī)案文獻(xiàn)559篇。去除重復(fù)文獻(xiàn)后得到文獻(xiàn)963篇,含可供錄入的醫(yī)案1 021則。
2.1.1 邏輯回歸
通過邏輯回歸建模后輸出的各證型ROC 曲線見圖1,混淆矩陣見圖2。
圖1 邏輯回歸模型ROC曲線
圖2 邏輯回歸模型混淆矩陣
2.1.2 支持向量機(jī)
通過支持向量機(jī)建模后輸出的各證型ROC曲線見圖3,混淆矩陣見圖4。
圖3 支持向量機(jī)模型ROC曲線
圖4 支持向量機(jī)模型混淆矩陣
2.1.3 K近鄰
通過K 近鄰法建模后輸出的各證型ROC 曲線見圖5,混淆矩陣見圖6。
圖5 K近鄰模型ROC曲線
圖6 K近鄰模型混淆矩陣
2.1.4 隨機(jī)森林
通過隨機(jī)森林建模后輸出的各證型ROC 曲線見圖7,混淆矩陣見圖8。
圖7 隨機(jī)森林模型ROC曲線
圖8 隨機(jī)森林模型混淆矩陣
2.1.5 XGBoost
通過XGBoost 建模后輸出的各證型ROC 曲線見圖9,混淆矩陣見圖10。
圖10 XGBoost模型混淆矩陣
2.1.6 BP神經(jīng)網(wǎng)絡(luò)
通過BP神經(jīng)網(wǎng)絡(luò)建模的accuracy-loss曲線見圖11。x軸代表epoch(訓(xùn)練周期),y軸代表準(zhǔn)確率和損失。隨著迭代次數(shù)增加,accuracy逐漸上升,loss逐漸下降,當(dāng)epoch在50左右時曲線趨于平緩,達(dá)到收斂。神經(jīng)網(wǎng)絡(luò)建模輸出的各證型ROC曲線見圖12,混淆矩陣見圖13。
圖11 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程accuracy-loss曲線
圖12 BP神經(jīng)網(wǎng)絡(luò)模型ROC曲線
圖13 BP神經(jīng)網(wǎng)絡(luò)模型混淆矩陣
通過網(wǎng)格搜索和貝葉斯優(yōu)化后的各辨證模型的最優(yōu)超參數(shù)見表1,其中Optuna超參數(shù)自動尋優(yōu)過程的優(yōu)化歷史曲線見圖14。
表1 模型最優(yōu)超參數(shù)
圖14 Optuna優(yōu)化歷史曲線
在相同測試集下各分類模型的accuracy、precision、recall、f1 score及AUC值見表2。從表2可知,高斯徑向基核函數(shù)支持向量機(jī)模型的accuracy、precsion、recall、f1 score達(dá)0.86,AUC值達(dá)0.98,各項評估指標(biāo)均優(yōu)于其他分類器模型。
表2 6種算法模型性能評估指標(biāo)
模型可解釋性在醫(yī)學(xué)領(lǐng)域十分重要,醫(yī)療輔助決策系統(tǒng)必須是可理解的、可解釋的。在理想狀態(tài)下,模型應(yīng)向所有相關(guān)方解釋提供對應(yīng)決策的完整邏輯,才能得到醫(yī)生信任[24]。SHAP(SHapley Additive exPlanations)值是由Lundberg 和Lee[25]于2017 年提出的用于解釋任何機(jī)器學(xué)習(xí)模型輸出的方法。SHAP值源自博弈論中的shaplely value,該方法量化了模型中每個特征對觀察結(jié)果最終預(yù)測的貢獻(xiàn),使用基于所有可能的特征子集組合(包括給定特征)預(yù)測模型[26]。本研究按照證型分類求得每個樣本特征對應(yīng)的SHAP值,并使用SHAP值的平均值作為該特征的重要性值,從而得到全局解釋,以此闡明模型中貢獻(xiàn)度較大的特征。
通過模型性能比較可以看出支持向量機(jī)的預(yù)測性能優(yōu)于其他機(jī)器學(xué)習(xí)模型,因此本研究在支持向量機(jī)的基礎(chǔ)上,調(diào)用SHAP 庫的Explainer API 降序輸出PPS各證型的特征重要性(排名前10位),見圖15。由圖可知,對心脾兩虛證,齒痕舌、大便溏薄、心悸、脈弱、納差等特征有較高貢獻(xiàn)度;對氣滯血瘀證,舌黯紅、脈澀、瘀斑瘀點舌、心煩、胸悶等特征有較高貢獻(xiàn)度;對肝氣郁結(jié)證,脈弦、心煩、善太息、情緒低落、胸脅脹痛等特征有較高貢獻(xiàn)度,對肝郁化火證,急躁易怒、心煩、脈弦、口苦、小便黃赤等特征有較高貢獻(xiàn)度;對腎虛肝旺證,脈弦、急躁易怒、口苦、手足心熱、乏力等特征有較高貢獻(xiàn)度;對腎陽虛證,脈沉、畏寒、四肢不溫、面色?白、舌淡白等特征有較高貢獻(xiàn)度;對腎陰虛證,心煩、盜汗、脈細(xì)、手足心熱、口干等特征有較高貢獻(xiàn)度;對腎陰陽兩虛證,脈沉、脈細(xì)、腰膝酸軟、健忘、畏寒等特征有較高貢獻(xiàn)度。
圖15 PPS各證型排名前10位的特征貢獻(xiàn)度
隨著中醫(yī)藥現(xiàn)代化研究不斷深入,中醫(yī)藥臨床數(shù)據(jù)量與日俱增,其數(shù)據(jù)形式和來源更加多樣、廣泛和復(fù)雜。傳統(tǒng)的數(shù)理統(tǒng)計分析方法和工具已無法滿足中醫(yī)藥臨床科研的需求,面對更加復(fù)雜、海量的醫(yī)學(xué)數(shù)據(jù)和信息,機(jī)器學(xué)習(xí)算法不僅能為中醫(yī)辨證提供有力支持[27-28],也能與現(xiàn)代醫(yī)學(xué)實驗室指標(biāo)相結(jié)合,提高診斷的準(zhǔn)確性。
本研究基于邏輯回歸、支持向量機(jī)、K近鄰、隨機(jī)森林、XGBoost、BP 神經(jīng)網(wǎng)絡(luò)6 種機(jī)器學(xué)習(xí)算法,通過文獻(xiàn)中的醫(yī)案數(shù)據(jù)對PPS的智能辨證進(jìn)行分析和探索。研究結(jié)果表明,K近鄰在6個分類器模型中表現(xiàn)較差,尤其不能較好地區(qū)分腎虛肝旺證和肝郁化火證,在75例腎虛肝旺證中,有22例被誤分類為肝郁化火證。XGBoost在心脾兩虛證的分類上預(yù)測能力較弱,18例心脾兩虛證僅14例分類正確。隨機(jī)森林在腎陽虛證的預(yù)測方面表現(xiàn)一般,17例腎陽虛證中有5例被預(yù)測為腎陰陽兩虛證。邏輯回歸在各證型的分類任務(wù)上表現(xiàn)一般。BP神經(jīng)網(wǎng)絡(luò)在腎虛肝旺證的分類上表現(xiàn)最佳,但在其余證型的預(yù)測上表現(xiàn)一般。支持向量機(jī)在6個分類器中預(yù)測性能最佳,各證型的分類正確率都很高,是較為理想的、泛化能力最好的分類器。BP神經(jīng)網(wǎng)絡(luò)具有良好的容錯性、自組織適應(yīng)性和學(xué)習(xí)能力,在疾病的診斷和預(yù)后等方面應(yīng)用廣泛。但由于本研究樣本量偏小,BP神經(jīng)網(wǎng)絡(luò)的分類效果并不十分理想。另外,神經(jīng)網(wǎng)絡(luò)算法對于四診信息的分類方法是隨機(jī)產(chǎn)生一個分離超平面并移動該超平面,直至屬于不同證型的癥狀和體征剛好位于該超平面的各不同側(cè)面,而支持向量機(jī)算法不但能夠找到一個滿足分類需求的超平面,并使各癥狀在訓(xùn)練集中的點距離超平面盡可能遠(yuǎn),且這樣的超平面具有唯一性。因此,神經(jīng)網(wǎng)絡(luò)算法僅能使分離超平面將訓(xùn)練集中的數(shù)據(jù)分開,但各證型的離散度并非最佳;支持向量機(jī)算法不僅能使超平面將訓(xùn)練集中的數(shù)據(jù)分開,還能保證各證型的離散度最大化[29]??芍?,支持向量機(jī)能很好地解決高維和局部極值的問題,克服神經(jīng)網(wǎng)絡(luò)算法中合理結(jié)構(gòu)難以確定和存在局部最優(yōu)等缺陷[30]。
近年來,支持向量機(jī)在中醫(yī)藥領(lǐng)域已經(jīng)逐漸受到學(xué)者的關(guān)注。顧天宇等[31]基于支持向量機(jī)對中風(fēng)病中醫(yī)證候進(jìn)行分類,模型分類準(zhǔn)確率達(dá)86%。許明東等[18]基于支持向量機(jī)算法建立高血壓中醫(yī)證候診斷模型,總體準(zhǔn)確率達(dá)90%。陳菊萍[32]運(yùn)用支持向量機(jī)實現(xiàn)了中醫(yī)證候信息的分類研究,平均訓(xùn)練模型的分類精度達(dá)98.8%。但該算法的缺點是面對大樣本時矩陣存儲和計算將耗費(fèi)大量內(nèi)存和時間,其訓(xùn)練速度會變慢,適用性也受到影響[33]。
綜上,在中醫(yī)診斷方面的中小型多分類類別不平衡數(shù)據(jù)集上,支持向量機(jī)模型較其他機(jī)器學(xué)習(xí)算法有更好的表現(xiàn),對中醫(yī)臨床更有指導(dǎo)意義和參考價值。