張麟宇,涂志瑩,杭少石,張柏林,初佃輝
哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海264209
真實(shí)、有效、完備的數(shù)據(jù)集意味著機(jī)器學(xué)習(xí)模型將有較好的輸入,模型通過(guò)學(xué)習(xí)發(fā)現(xiàn)規(guī)律,挖掘并分析當(dāng)中的關(guān)聯(lián)規(guī)則與信息,可以很好地為現(xiàn)實(shí)中社會(huì)生產(chǎn)活動(dòng)提供知識(shí)決策。另外,從提升模型的泛化能力出發(fā),也應(yīng)該相應(yīng)地增大訓(xùn)練數(shù)據(jù)的規(guī)模。
中國(guó)作為世界上最大的發(fā)展中國(guó)家,人口老齡化程度已經(jīng)比肩中高收入國(guó)家群體,并在未來(lái)30 年(到2050年)將迅速攀升,超過(guò)高收入國(guó)家群體。缺乏相關(guān)的信息化技術(shù)以及成熟的康養(yǎng)公共服務(wù)設(shè)施的輔助,康養(yǎng)數(shù)據(jù)的采集和獲取是比較困難的。真實(shí)、有效的數(shù)據(jù)集的缺失,成為了研究相關(guān)工作的障礙。
針對(duì)這一問(wèn)題,本團(tuán)隊(duì)從慢病康復(fù)訓(xùn)練指導(dǎo)入手,通過(guò)長(zhǎng)期的社區(qū)公益服務(wù)采集了某市的社區(qū)康養(yǎng)的標(biāo)準(zhǔn)數(shù)據(jù)。在此基礎(chǔ)上,本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型,以采集到小樣本數(shù)據(jù)集為基礎(chǔ),實(shí)現(xiàn)了大批量具有區(qū)域養(yǎng)老人群特征的樣本數(shù)據(jù)生成。該模型在第一階段使用基于樹(shù)形結(jié)構(gòu)的基礎(chǔ)屬性生成策略,按照自上而下的思想,生成符合原始數(shù)據(jù)集分布的基礎(chǔ)屬性樣本;接著提出了基于樸素貝葉斯的基礎(chǔ)行為能力指標(biāo)生成策略,將基礎(chǔ)行為能力指標(biāo)的生成轉(zhuǎn)化為分類問(wèn)題進(jìn)行實(shí)現(xiàn);第三階段,又提出了基于多元線性回歸的高階行為能力指標(biāo)生成策略,在前兩個(gè)階段的基礎(chǔ)上,通過(guò)選定合適的自變量,擬合9 個(gè)線性回歸方程,完成高階行為能力指標(biāo)數(shù)據(jù)的生成。最后,通過(guò)整合三個(gè)階段的結(jié)果,完成了康復(fù)養(yǎng)老數(shù)據(jù)的生成工作。
另外,本文利用了模型生成的數(shù)據(jù)集,設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)的分類推薦模型,在將生成的數(shù)據(jù)集反饋給康復(fù)專家驗(yàn)證、篩選、標(biāo)注之后,經(jīng)過(guò)屬性特征提取,把其輸入到模型當(dāng)中,實(shí)現(xiàn)了康復(fù)訓(xùn)練計(jì)劃推薦的任務(wù)。
與傳統(tǒng)的機(jī)器學(xué)習(xí)不同,現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型通常采用多層的網(wǎng)絡(luò)結(jié)構(gòu),其復(fù)雜程度較高,因此也需要盡可能多的數(shù)據(jù)進(jìn)行訓(xùn)練。而訓(xùn)練模型所必須的海量訓(xùn)練數(shù)據(jù)樣本難以獲取已經(jīng)成為阻礙深度學(xué)習(xí)技術(shù)進(jìn)一步推廣的一個(gè)普遍性難題。目前,學(xué)術(shù)界提出了很多解決小樣本數(shù)據(jù)集上學(xué)習(xí)的方法。一種常見(jiàn)的思路是把小樣本的數(shù)據(jù)應(yīng)用到改進(jìn)后的算法中。文獻(xiàn)[10]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的小樣本圖像識(shí)別方法,結(jié)合了深度學(xué)習(xí)與遷移學(xué)習(xí)技術(shù),先在卷積神經(jīng)網(wǎng)絡(luò)中對(duì)相關(guān)領(lǐng)域的大數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,提取預(yù)訓(xùn)練模型的權(quán)重和樣本特征,應(yīng)用到目標(biāo)小數(shù)據(jù)集中對(duì)模型進(jìn)行初始化,然后展開(kāi)訓(xùn)練。但是該方法受到了相關(guān)領(lǐng)域大規(guī)模數(shù)據(jù)集的限制,無(wú)法很好地應(yīng)用到缺少大規(guī)模數(shù)據(jù)集的工作當(dāng)中。
小樣本的模型學(xué)習(xí)問(wèn)題,在不使用大數(shù)據(jù)集輔助的情況下,文獻(xiàn)[11]提出了一種迭代提升欠采樣模型(under sampling with iteratively boosting,USIB),進(jìn)行疾病預(yù)測(cè)。該方法迭代地從多數(shù)類樣本中進(jìn)行欠采樣,構(gòu)建多組弱分類器,通過(guò)加權(quán)組合的方式集成一個(gè)強(qiáng)分類器,提高模型的學(xué)習(xí)能力。但是基于該方法更多地關(guān)注錯(cuò)誤分類和分類置信度不高的樣本去改善模型的預(yù)測(cè)能力,并沒(méi)有真正實(shí)現(xiàn)數(shù)據(jù)生成的任務(wù)。
集成方法也是解決小樣本學(xué)習(xí)的常用方法,通過(guò)融合集成技術(shù)和采樣技術(shù),充分利用了兩者的優(yōu)點(diǎn)。Liu等人提出了EasyEnsemble集成算法,結(jié)合了Bagging和欠采樣技術(shù)。在此基礎(chǔ)上,Liang和Cohn提出了UBagging 算法,該算法將Bagging 應(yīng)用到不平衡數(shù)據(jù)集訓(xùn)練中,不斷增加負(fù)樣本采樣數(shù)量來(lái)訓(xùn)練多個(gè)分類器,集成多個(gè)分類器提高整體分類性能。融合集成技術(shù)和采樣技術(shù)的算法通過(guò)多次采樣解決了單次采樣中樣本信息缺失問(wèn)題,但是每次隨機(jī)性地采樣,忽略了分類器之間的關(guān)系,限制了模型的整體性能。
另一種常用的方法是在已有數(shù)據(jù)集的基礎(chǔ)上,進(jìn)行特定技術(shù)的處理來(lái)增加樣本的數(shù)量。文獻(xiàn)[14]提出了一種深度卷積生成對(duì)抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGANs),通過(guò)設(shè)計(jì)生成器與判別器,學(xué)習(xí)圖像中物體到場(chǎng)景的層次化表征信息,最終生成新的圖像數(shù)據(jù)集。文獻(xiàn)[15]提出了一種基于Wasserstein GAN 的小樣本數(shù)據(jù)增強(qiáng)方法,使用訓(xùn)練集樣本訓(xùn)練GAN 后生成模擬樣本數(shù)據(jù),擴(kuò)增訓(xùn)練集樣本規(guī)模。雖然GAN 方法的生成不用考慮樣本屬性間的內(nèi)在聯(lián)系,但是GAN 在實(shí)際應(yīng)用當(dāng)中會(huì)存在一些問(wèn)題:
(1)無(wú)法進(jìn)行穩(wěn)定的訓(xùn)練,導(dǎo)致生成模型生成無(wú)意義的輸出,對(duì)于離散型數(shù)據(jù)的學(xué)習(xí)效果較差;
(2)生成的數(shù)據(jù)的可解釋性差,有時(shí)GAN生成的樣本只是對(duì)真實(shí)樣本的簡(jiǎn)單改動(dòng),導(dǎo)致生成樣本的多樣性較差。
綜上,已有的數(shù)據(jù)生成方法存在著隨機(jī)性、盲目性,并且有模型參數(shù)選擇和復(fù)雜程度的限制。研究新的數(shù)據(jù)模型,并將其應(yīng)用到相關(guān)工作當(dāng)中具有重要意義。
本次用于擴(kuò)充的康復(fù)養(yǎng)老數(shù)據(jù)集包含140 條數(shù)據(jù),每個(gè)樣本包含老年人的基礎(chǔ)屬性、行為能力評(píng)估指標(biāo)以及行為能力評(píng)估階段等信息。
在樣本數(shù)據(jù)方面,通過(guò)對(duì)采集到的樣本數(shù)據(jù)進(jìn)行分類,可以得到基礎(chǔ)屬性、行為能力評(píng)估指標(biāo)和行為能力評(píng)估階段等類別信息,其中每個(gè)分類包含的屬性如下:
(1)基礎(chǔ)屬性:姓名、年齡、家庭條件、殘疾原因、殘疾類型、殘疾等級(jí)。
(2)基礎(chǔ)行為能力評(píng)估指標(biāo):翻身、坐、站、轉(zhuǎn)移。
(3)高階行為能力評(píng)估指標(biāo):步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)。
(4)行為能力評(píng)估階段:康復(fù)初期、恢復(fù)期、治愈期。
在數(shù)據(jù)生成的模型設(shè)計(jì)中,本文分為了三個(gè)階段:第一階段按照基于樹(shù)形結(jié)構(gòu)的規(guī)則自上而下生成樣本的基礎(chǔ)屬性;第二階段對(duì)于基礎(chǔ)的行為能力指標(biāo)的生成,使用貝葉斯模型來(lái)實(shí)現(xiàn);第三階段,使用多元線性回歸生成高階行為能力指標(biāo)。具體的模型設(shè)計(jì)流程圖如圖1所示。
圖1 數(shù)據(jù)生成模型Fig. 1 Data generation model
在原始數(shù)據(jù)集當(dāng)中基礎(chǔ)屬性包括了性別、年齡、殘疾類型、殘疾原因、殘疾等級(jí)共5個(gè)維度特征,且它們?cè)跀?shù)據(jù)集中都呈現(xiàn)出一定的分布規(guī)律。如果要同時(shí)生成各個(gè)維度的值,則會(huì)忽略它們之間的相關(guān)性;如果只是簡(jiǎn)單地用隨機(jī)的方法生成各個(gè)維度的值,則生成的數(shù)據(jù)會(huì)不滿足原始數(shù)據(jù)集的分布,失去有效性和真實(shí)性。因此,本節(jié)提出了基于樹(shù)形結(jié)構(gòu)的基礎(chǔ)屬性生成策略:考慮先根據(jù)殘疾類型的分布情況,采用改進(jìn)后的輪盤賭算法確定生成樣本的殘疾類型,然后以此為根節(jié)點(diǎn),性別特征為其子節(jié)點(diǎn),利用條件分布,再次使用改進(jìn)后的輪盤賭算法確定性別特征;以此類推,按照樹(shù)形結(jié)構(gòu)的思想,不斷利用條件分布,采用改進(jìn)后的輪盤賭算法,自上而下地確定各個(gè)維度的值,最終實(shí)現(xiàn)基礎(chǔ)屬性的生成。
在確定了生成策略之后,本文對(duì)原數(shù)據(jù)進(jìn)行了預(yù)處理,從原數(shù)據(jù)集中篩選出真實(shí)可用的80 條數(shù)據(jù)。對(duì)這些數(shù)據(jù)的基礎(chǔ)屬性進(jìn)行統(tǒng)計(jì)分析,樣本的分布呈現(xiàn)出一定的規(guī)律,各個(gè)基礎(chǔ)屬性統(tǒng)計(jì)分布如表1所示。
表1 基礎(chǔ)屬性統(tǒng)計(jì)分布Table 1 Basic attribute statistical distribution
常見(jiàn)的輪盤賭算法通常需要先計(jì)算適應(yīng)度比例,即對(duì)于數(shù)量為的養(yǎng)老康復(fù)樣本,給每個(gè)個(gè)體x一個(gè)適應(yīng)度值(x),則每個(gè)特征值的選擇概率為:
然后計(jì)算每個(gè)個(gè)體的累計(jì)概率,即每個(gè)個(gè)體之前所有個(gè)體的選擇概率之和:
在確定了累計(jì)概率之后,隨機(jī)生成一個(gè)數(shù)組,數(shù)組的長(zhǎng)度為,元素值的范圍屬于[0,1],然后有序排列,用于確定個(gè)體是否能夠被選擇。若累計(jì)概率q大于隨機(jī)生成數(shù)組中的[],則x被選擇,將繼續(xù)比較[],若不大于,則不選擇,比較下一個(gè)個(gè)體x+1,以此類推,從而確定生成屬性。
在樣本的數(shù)據(jù)集中,要生成的基礎(chǔ)屬性中的特征值只有一個(gè),在輪盤賭算法中即每次需要選擇出來(lái)的個(gè)體只有一個(gè),為了能夠方便地控制選擇的個(gè)體的數(shù)量,本文改進(jìn)了輪盤賭算法,在函數(shù)參數(shù)中增加了一個(gè)控制生成個(gè)體數(shù)量的參數(shù)。具體的算法如下所示。
基于條件分布的輪盤賭算法
輸入:殘疾類型分布數(shù)組,性別條件分布數(shù)組,年齡條件分布數(shù)組,殘疾原因條件分布數(shù)組,殘疾等級(jí)條件分布數(shù)組。
通過(guò)對(duì)原始數(shù)據(jù)集的處理、分析、統(tǒng)計(jì),按照樹(shù)形結(jié)構(gòu)的思想,采用改進(jìn)后的輪盤賭算法,實(shí)現(xiàn)了基礎(chǔ)屬性的生成。
貝葉斯方法是以貝葉斯原理為基礎(chǔ),使用概率統(tǒng)計(jì)的知識(shí)對(duì)樣本數(shù)據(jù)集進(jìn)行分類,因此有著較好的統(tǒng)計(jì)和數(shù)學(xué)基礎(chǔ),分類的準(zhǔn)確率較高。該方法通過(guò)使用數(shù)據(jù)集中統(tǒng)計(jì)出的先驗(yàn)概率和后驗(yàn)概率,既避免了只使用先驗(yàn)知識(shí)的主觀偏見(jiàn),也避免了單獨(dú)使用樣本信息的過(guò)擬合現(xiàn)象。
樸素貝葉斯分類,以貝葉斯定理為基礎(chǔ),并且使用條件獨(dú)立性假設(shè)的方法,先通過(guò)已給定的訓(xùn)練集,以特征屬性之間獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入求出使得后驗(yàn)概率最大的輸出。
設(shè)有樣本數(shù)據(jù)集={,,…,s},對(duì)應(yīng)樣本數(shù)據(jù)的特征屬性集={,,…,x},且類變量為={,,…,y},即可以分為y個(gè)類別。其中,,…,x相互獨(dú)立且隨機(jī),則的先驗(yàn)概率=(),的后驗(yàn)概率=(|)。由樸素貝葉斯算法可得,后驗(yàn)概率可以由先驗(yàn)概率、證據(jù)()、類條件概率(|)以及在給定樣本類別時(shí)計(jì)算得出公式如下:
由以上兩公式可以得出后驗(yàn)概率為:
由于在每次的計(jì)算過(guò)程中()的大小是一樣的,在比較后驗(yàn)概率的時(shí)候,只比較上式的分子部分即可。最終可以得到一個(gè)樣本數(shù)據(jù)屬于類別y的樸素貝葉斯計(jì)算公式:
在樣本的康復(fù)養(yǎng)老數(shù)據(jù)集中,樣本的基礎(chǔ)行為能力評(píng)估指標(biāo)包含翻身、坐、站、轉(zhuǎn)移共四項(xiàng),每項(xiàng)指標(biāo)的評(píng)估分為0、1、2、3四個(gè)等級(jí),評(píng)估得分越高表明該項(xiàng)指標(biāo)的能力越強(qiáng)。因此,對(duì)于每項(xiàng)基礎(chǔ)行為能力評(píng)估指標(biāo)的生成,可以看作一個(gè)分類問(wèn)題。通過(guò)計(jì)算原數(shù)據(jù)集中樣本的基礎(chǔ)屬性(性別、年齡、殘疾類型、殘疾原因、殘疾等級(jí))之間的相關(guān)性,如表2 所示的基礎(chǔ)屬性的Spearman 相關(guān)性系數(shù)矩陣,可以發(fā)現(xiàn)它們之間有較低的關(guān)聯(lián)程度,即使用樸素貝葉斯算法,考慮每個(gè)特征之間的獨(dú)立性假設(shè)是合理的。
表2 樣本基礎(chǔ)屬性Spearman相關(guān)性系數(shù)矩陣Table 2 Spearman correlation coefficient matrix of sample basic attributes
在分析了樣本基礎(chǔ)屬性間的基礎(chǔ)屬性后,通過(guò)預(yù)先設(shè)定好的數(shù)值化規(guī)則進(jìn)行基礎(chǔ)屬性約束,設(shè)原始數(shù)據(jù)集的基礎(chǔ)屬性的數(shù)值化矩陣1,原始數(shù)據(jù)集的基礎(chǔ)行為能力評(píng)估指標(biāo)的數(shù)值化標(biāo)簽數(shù)組1,階段一中生成的基礎(chǔ)屬性的數(shù)值化矩陣2;將1、2 以及1輸入到樸素貝葉斯模型中,最終得到模型預(yù)測(cè)出的基礎(chǔ)行為能力指標(biāo)。
數(shù)據(jù)生成的第二階段,本文使用樸素貝葉斯算法,通過(guò)原數(shù)據(jù)集的訓(xùn)練,分別得到翻身、坐、站、轉(zhuǎn)移四個(gè)基礎(chǔ)行為能力評(píng)估指標(biāo)的生成模型,再利用階段一中已生成的基礎(chǔ)屬性,最終得到每個(gè)生成樣本的基礎(chǔ)行為能力評(píng)估指標(biāo)。
在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸。在現(xiàn)實(shí)中,一個(gè)現(xiàn)象結(jié)果的出現(xiàn)往往是與多個(gè)因素相聯(lián)系的,由多個(gè)自變量的最優(yōu)組合共同來(lái)預(yù)測(cè)或估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測(cè)或估計(jì)更有效,更符合實(shí)際,因此多元線性回歸的應(yīng)用場(chǎng)合常常更為廣泛。多元線性回歸模型如下:
式中,為常數(shù)項(xiàng),β(=1,2,…,)表示在其他變量保持不變時(shí),X增加或減少一個(gè)單位時(shí)的平均變化量,被稱為偏回歸系數(shù)。同樣,被稱為殘差,表示去除個(gè)自變量對(duì)影響后的隨機(jī)誤差。通常,多元線性回歸模型的應(yīng)用需要滿足如下條件:
(1)與,,…,X之間具有線性關(guān)系;
(2)各個(gè)樣本的觀察值Y(=1,2,…,)相互獨(dú)立;
(3)殘差服從均值為0,方差為的正態(tài)分布,等價(jià)于對(duì)任意一組自變量,,…,X值,因變量具有相同的方差,并且服從正態(tài)分布。
使用最小二乘法,根據(jù)樣本數(shù)據(jù)求得模型參數(shù)估計(jì)值:
通過(guò)建立多元線性回歸方程求解:
最后確定,,…,b的值,得到最終的多元線性回歸方程。
在康復(fù)養(yǎng)老的數(shù)據(jù)集中,高階行為能力評(píng)估指標(biāo)包含步行或驅(qū)動(dòng)輪椅、上下臺(tái)階、進(jìn)食、穿脫衣物、洗漱、入廁、交流、日常家務(wù)、社會(huì)活動(dòng)等九項(xiàng)指標(biāo),每項(xiàng)指標(biāo)分為0、1、2、3四個(gè)等級(jí),得分越高表示該項(xiàng)能力越強(qiáng)。通過(guò)統(tǒng)計(jì)原數(shù)據(jù)各項(xiàng)能力指標(biāo)的相關(guān)性,本文發(fā)現(xiàn)基礎(chǔ)行為能力指標(biāo)與高階行為能力指標(biāo)之間有較強(qiáng)的相關(guān)性。當(dāng)指標(biāo)得分被看作連續(xù)性數(shù)值時(shí),兩者具有一定的線性關(guān)系?;谏鲜龇治觯跀?shù)據(jù)生成的第三階段,本文采用多元線性回歸算法,通過(guò)對(duì)原始數(shù)據(jù)集的訓(xùn)練,針對(duì)不同的高階行為能力指標(biāo),分別構(gòu)建了對(duì)應(yīng)的回歸方程。
在自變量的選擇過(guò)程中,本文采取了逐步回歸法進(jìn)行篩選。該方法將前進(jìn)法和后退法相結(jié)合,首先使用前進(jìn)法挑選變量,然后將已入選的自變量使用后退法進(jìn)行剔除,在整個(gè)過(guò)程中,通過(guò)觀察實(shí)驗(yàn)中設(shè)定的相關(guān)檢驗(yàn)標(biāo)準(zhǔn),選擇和剔除合適的自變量,最后建立較優(yōu)的回歸方程。
通過(guò)統(tǒng)計(jì)和實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)同時(shí)引入翻身、坐、站、轉(zhuǎn)移四項(xiàng)作為自變量放入方程當(dāng)中,多元線性回歸模型的效果最好。在完成模型的訓(xùn)練之后,將第二階段生成的基礎(chǔ)行為能力評(píng)估指標(biāo)數(shù)據(jù)作為輸入,可以完成高階行為能力評(píng)估指標(biāo)的生成。然后根據(jù)整個(gè)行為能力評(píng)估指標(biāo)可以得到評(píng)估階段;最后整合每個(gè)生成樣本的基礎(chǔ)屬性、行為能力評(píng)估指標(biāo)以及評(píng)估階段可以得到一個(gè)完整的生成數(shù)據(jù)集。
在現(xiàn)實(shí)中,在得到了一個(gè)樣本的基礎(chǔ)屬性、行為能力評(píng)估指標(biāo)以及行為能力評(píng)估階段后,康復(fù)專家就可以根據(jù)這些特征進(jìn)行一些康復(fù)訓(xùn)練計(jì)劃的推薦,用于輔助患者的康復(fù)治療。因此,將模型生成的數(shù)據(jù)集反饋給康復(fù)專家,經(jīng)過(guò)專家的評(píng)審、篩選和標(biāo)注,最后可以形成一批標(biāo)注后的完整數(shù)據(jù)集。在此基礎(chǔ)上,可以設(shè)計(jì)一個(gè)模型,用于康復(fù)計(jì)劃的推薦。
在得到了樣本的數(shù)據(jù)信息后,統(tǒng)計(jì)需要推薦的項(xiàng)目包含運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練項(xiàng)目、康復(fù)療法、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)共7項(xiàng)。
通過(guò)對(duì)樣本數(shù)據(jù)的整理、統(tǒng)計(jì)后,得到的具體推薦數(shù)據(jù)如表3所示。
表3 推薦模型樣本數(shù)據(jù)展示Table 3 Sample data presentation of recommended model
其中,雖然每項(xiàng)計(jì)劃的內(nèi)容為文本數(shù)據(jù),但是內(nèi)容的劃分是分類別的。因此考慮構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的分類模型,用于實(shí)現(xiàn)康復(fù)訓(xùn)練計(jì)劃的推薦。
具體的推薦任務(wù)劃分為多分類任務(wù)和多標(biāo)簽分類任務(wù)。根據(jù)康復(fù)訓(xùn)練計(jì)劃數(shù)據(jù)的特點(diǎn),其中運(yùn)動(dòng)康復(fù)目標(biāo)、生活自理能力康復(fù)目標(biāo)、生活適應(yīng)能力康復(fù)目標(biāo)、康復(fù)訓(xùn)練強(qiáng)度、康復(fù)訓(xùn)練組數(shù)五項(xiàng)推薦屬于多分類任務(wù),康復(fù)訓(xùn)練項(xiàng)目與康復(fù)療法的推薦屬于多標(biāo)簽分類任務(wù)。
對(duì)于每個(gè)樣本而言,它都包含性別、年齡、殘疾類型、殘疾原因、殘疾等級(jí)、行為能力評(píng)估指標(biāo)以及行為能力評(píng)估階段七項(xiàng)基本信息,在分類推薦模型設(shè)計(jì)之前,需要先確定樣本的特征屬性和模型的輸入。在現(xiàn)實(shí)中,專業(yè)的康復(fù)醫(yī)護(hù)人員根據(jù)殘疾人的各項(xiàng)生理特征以及康復(fù)過(guò)程信息進(jìn)行康復(fù)計(jì)劃的制定,在與康復(fù)專家溝通之后,通過(guò)分析殘疾人的特征屬性和影響康復(fù)計(jì)劃推薦的主要因素,本文設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的樣本特征提取模型。具體的特征向量提取模型設(shè)計(jì)如圖2所示。
圖2 樣本特征提取模型Fig. 2 Sample feature extraction model
首先,經(jīng)過(guò)數(shù)據(jù)的預(yù)處理,將樣本的基本信息中的屬性數(shù)字化,然后將數(shù)字化的特征通過(guò)嵌入層的映射變換為16 維或32 維的低維特征。使用={,,…,x}表示樣本基礎(chǔ)信息中的各個(gè)特征項(xiàng),通過(guò)激活函數(shù)ReLU的非線性變換得到低維特征,接著通過(guò)全連接層將各個(gè)低維特征拼接融合,得到樣本特征,放入到隱藏層當(dāng)中,最終得到400維的高階融合特征向量。
在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中,本文將特征提取模型中得到的向量作為分類網(wǎng)絡(luò)的輸入層,通過(guò)隱藏層的加工抽象,選擇合適的損失函數(shù)完成輸出。
在網(wǎng)絡(luò)的輸出層中,對(duì)于不同的分類任務(wù),模型使用了不同的損失函數(shù)。針對(duì)多分類任務(wù),模型使用了Softmax 交叉熵?fù)p失函數(shù),針對(duì)多標(biāo)簽分類任務(wù),數(shù)據(jù)中類別標(biāo)簽是獨(dú)立且不互斥的,因此可以將其視為多個(gè)二分類任務(wù),使用Sigmoid 交叉熵?fù)p失函數(shù)。
在現(xiàn)實(shí)中,康復(fù)師對(duì)患者進(jìn)行行為能力評(píng)估時(shí)存在較多的不確定性和主觀因素,有時(shí)評(píng)估指標(biāo)得分在0~4 之間并沒(méi)有嚴(yán)格的區(qū)分度。例如當(dāng)一個(gè)樣本中“站”這項(xiàng)行為能力指標(biāo)的真實(shí)值為2,其作為測(cè)試數(shù)據(jù)放入模型當(dāng)中,被預(yù)測(cè)出的結(jié)果為0 或1 或3時(shí),都應(yīng)該給其一定的正確權(quán)重,而不是直接判錯(cuò)。即在分析階段二的生成模型的準(zhǔn)確率時(shí)不能完全按照分類問(wèn)題的準(zhǔn)確率的計(jì)算來(lái)定義。
通過(guò)與康復(fù)養(yǎng)老方面的專家溝通,本文定義了正確程度評(píng)價(jià)矩陣,用來(lái)合理地計(jì)算模型的準(zhǔn)確性。
對(duì)于數(shù)據(jù)規(guī)模為的測(cè)試數(shù)據(jù)集,T表示第個(gè)測(cè)試樣本的第個(gè)評(píng)估指標(biāo)的真實(shí)值,P表示第個(gè)測(cè)試樣本的第個(gè)評(píng)估指標(biāo)的預(yù)測(cè)值,則第個(gè)測(cè)試樣本第個(gè)評(píng)估指標(biāo)被預(yù)測(cè)的正確程度D為:
那么,第個(gè)指標(biāo)預(yù)測(cè)模型的準(zhǔn)確率計(jì)算為:
利用上述公式,得到正確程度評(píng)價(jià)矩陣如表4所示。
表4 正確程度評(píng)價(jià)矩陣Table 4 Matrix of correctness degree evaluation
在設(shè)計(jì)好了正確程度矩陣,改進(jìn)了評(píng)價(jià)的標(biāo)準(zhǔn)之后,對(duì)模型的準(zhǔn)確率進(jìn)行了實(shí)驗(yàn)驗(yàn)證,設(shè)定實(shí)驗(yàn)迭代次數(shù)為10,分別計(jì)算了未使用正確程度評(píng)價(jià)矩陣和改進(jìn)后的評(píng)價(jià)標(biāo)準(zhǔn),繪制出了“翻身”基礎(chǔ)行為能力指標(biāo)的生成模型準(zhǔn)確率折線圖,如圖3所示。
圖3 翻身行為能力指標(biāo)生成實(shí)驗(yàn)結(jié)果Fig. 3 Experimental results of ability index of turning over
從圖3中可以發(fā)現(xiàn),在使用了定義的正確程度評(píng)價(jià)矩陣衡量之后,模型的準(zhǔn)確率可以達(dá)到80%。在改進(jìn)了階段二實(shí)驗(yàn)的評(píng)價(jià)算法之后得到了較高的模型準(zhǔn)確率,說(shuō)明階段二的生成是可解釋的。
在第三階段生成高階行為能力指標(biāo)時(shí),本文總共構(gòu)建了9個(gè)回歸方程,因變量整體對(duì)方程的解釋使用了和值,各個(gè)變量對(duì)方程的顯著性影響使用了值,并且統(tǒng)計(jì)列出了各個(gè)方程自變量的系數(shù)。其中、、、分別為自變量翻身、坐、站、轉(zhuǎn)移,各個(gè)方程的和值如表5所示。
表5 各個(gè)回歸方程R2與F值統(tǒng)計(jì)表Table 5 Each regression equation R2 and F value
其中,以翻身、坐、站、轉(zhuǎn)移為自變量,步行或驅(qū)動(dòng)輪椅為因變量,擬合出的回歸方程的系數(shù)、標(biāo)準(zhǔn)差、值、值的結(jié)果如表6所示。
表6 回歸方程1的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of regression equation 1
從表5中可以發(fā)現(xiàn),和值最高達(dá)到0.612和32.140,說(shuō)明選取的變量整體可以對(duì)方程進(jìn)行解釋。在衡量每個(gè)變量對(duì)方程影響的顯著性時(shí)使用了檢驗(yàn),其中當(dāng)值小于0.05 時(shí),表示拒絕原假設(shè),即表明該自變量與因變量有一定的回歸關(guān)系,且對(duì)方程有較高的顯著性影響。
在生成階段一中,實(shí)驗(yàn)保證了生成出的數(shù)據(jù)是符合原數(shù)據(jù)集分布的,在生成階段二和階段三中也選取了合適的實(shí)驗(yàn)評(píng)價(jià)指標(biāo),保證了其結(jié)果的可靠性?;谝陨瞎ぷ鳎€需要對(duì)整個(gè)生成模型的實(shí)驗(yàn)結(jié)果進(jìn)行分析和評(píng)估。因此,本文設(shè)計(jì)了Spearman相關(guān)性系數(shù)矩陣余弦相似度計(jì)算的方法進(jìn)行實(shí)現(xiàn)。
先計(jì)算出原數(shù)據(jù)集中各個(gè)特征維度之間的Spearman相關(guān)性系數(shù)矩陣1,然后計(jì)算生成數(shù)據(jù)集的各個(gè)特征維度之間的Spearman 相關(guān)性系數(shù)矩陣2,之后將兩者做余弦相似度計(jì)算,得到1 和2之間的相似度用來(lái)衡量生成數(shù)據(jù)的質(zhì)量。
在具體的操作過(guò)程中,本文設(shè)定了不同的數(shù)據(jù)集生成的Batch Size,生成數(shù)據(jù)集的大小分別從100到1 000,控制每批次生成數(shù)據(jù)規(guī)模的大小。此外,在每次得到生成的數(shù)據(jù)集之后,計(jì)算數(shù)據(jù)集的Spearman相關(guān)系數(shù)矩陣,然后統(tǒng)計(jì)出了3個(gè)不同的矩陣相似度,用來(lái)與文中提出的模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。其中表示生成階段二、三都使用樸素貝葉斯的方法后矩陣1 和2 的相似度;表示生成階段二使用樸素貝葉斯,階段三使用多元線性回歸并將高階行為能力指標(biāo)得分四舍五入后矩陣1和2 的相似度;則表示生成階段二使用樸素貝葉斯,階段三使用多元線性回歸后矩陣1 和2 的相似度。最后,在得到了每次實(shí)驗(yàn)的結(jié)果之后,統(tǒng)計(jì)并繪制了實(shí)驗(yàn)結(jié)果折線圖如圖4所示。
圖4 矩陣相似度計(jì)算折線圖Fig. 4 Result of matrix similarity calculation
從圖4的數(shù)據(jù)可以看出,相似度會(huì)有極值點(diǎn)的出現(xiàn),但隨著生成數(shù)據(jù)集規(guī)模的增大,矩陣相似度趨于穩(wěn)定,且具體表現(xiàn)為、以及分別在0.725、0.800、0.850 這3 個(gè)值上下波動(dòng)。其中的值最大,說(shuō)明通過(guò)本文提出的模型生成出的數(shù)據(jù)很大程度上和原數(shù)據(jù)集在各個(gè)特征維度的相關(guān)性上也保持了一致,從實(shí)驗(yàn)結(jié)果上驗(yàn)證了生成數(shù)據(jù)集的真實(shí)性和可靠性。
在本節(jié)的實(shí)驗(yàn)中,使用了三階段生成模型并經(jīng)過(guò)康復(fù)專家標(biāo)注后的數(shù)據(jù)集。在具體的實(shí)驗(yàn)過(guò)程中,為了避免隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果造成影響,本文做了5次實(shí)驗(yàn),每次實(shí)驗(yàn)隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩下的20%作為測(cè)試數(shù)據(jù)集,取5 次實(shí)驗(yàn)的平均值作為最終結(jié)果。多分類任務(wù)1~5 分別為運(yùn)動(dòng)康復(fù)目標(biāo)推薦、生活自理能力康復(fù)目標(biāo)推薦、生活適應(yīng)能力康復(fù)目標(biāo)推薦、康復(fù)訓(xùn)練強(qiáng)度推薦、康復(fù)訓(xùn)練組數(shù)推薦,本文使用準(zhǔn)確率Acc 進(jìn)行評(píng)估;對(duì)于多標(biāo)簽分類任務(wù),本文使用AUC(area under curve)進(jìn)行評(píng)估。得到的實(shí)驗(yàn)結(jié)果如表7、表8所示。
表7 多分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of multi-classification tasks %
表8 多標(biāo)簽分類任務(wù)的實(shí)驗(yàn)結(jié)果Table 8 Experimental results of multi-label classification tasks %
從實(shí)驗(yàn)結(jié)果來(lái)看,多分類任務(wù)的Acc 可以達(dá)到77%,多標(biāo)簽分類任務(wù)的AUC可以達(dá)到65%,說(shuō)明分類推薦模型有較好的效果,可以為后續(xù)的研究提供一些參考。
本文提出了一種基于機(jī)器學(xué)習(xí)的三階段數(shù)據(jù)生成模型。實(shí)驗(yàn)表明,生成模型的第一個(gè)階段保證了生成后的數(shù)據(jù)集和原數(shù)據(jù)集有相同的屬性分布;在第二階段,通過(guò)設(shè)計(jì)正確程度矩陣驗(yàn)證了基礎(chǔ)行為能力指標(biāo)的生成結(jié)果可以達(dá)到80%;生成階段三提出的基于多元線性回歸的高階行為能力指標(biāo)生成策略保證了生成數(shù)據(jù)集繼承了原始數(shù)據(jù)集屬性之間的相關(guān)性。此外,通過(guò)注入專家知識(shí),本文有效地篩選和標(biāo)注了生成數(shù)據(jù),在此基礎(chǔ)上,實(shí)現(xiàn)的多分類任務(wù)的Acc 可以達(dá)到77%,多標(biāo)簽分類任務(wù)的AUC 可以達(dá)到65%。
盡管本文所提出的基于機(jī)器學(xué)習(xí)的三階段生成模型可以生成一個(gè)完備有效的數(shù)據(jù)集,但是目前對(duì)生成數(shù)據(jù)集的利用有限。后續(xù)將進(jìn)一步優(yōu)化生成模型,并在相關(guān)的系統(tǒng)平臺(tái)中開(kāi)放相關(guān)數(shù)據(jù)集和模型接口,以便在此基礎(chǔ)上做更多的研究工作。