• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成式對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù)表生成模型

      2019-09-16 02:32:10宋珂慧張江偉袁曉潔
      關(guān)鍵詞:數(shù)據(jù)表原始數(shù)據(jù)訓(xùn)練樣本

      宋珂慧 張 瑩 張江偉 袁曉潔

      1(南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院 天津 300350)2(新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)院 新加坡 117417)

      近年來(lái),在機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)等領(lǐng)域,高質(zhì)量數(shù)據(jù)集的合成問(wèn)題一直以來(lái)是一個(gè)非常重要且充滿挑戰(zhàn)性的問(wèn)題[1-2].合成的高質(zhì)量數(shù)據(jù)集可用于很多場(chǎng)景,例如數(shù)據(jù)庫(kù)性能基準(zhǔn)測(cè)試(performance bench-marking)、降低數(shù)據(jù)挖掘成本以及改進(jìn)模型訓(xùn)練過(guò)程等.其中,合成的高質(zhì)量數(shù)據(jù)集可用來(lái)提升模型,尤其是深度學(xué)習(xí)模型的訓(xùn)練過(guò)程.

      在訓(xùn)練某個(gè)機(jī)器學(xué)習(xí)模型的過(guò)程中,當(dāng)訓(xùn)練樣本數(shù)量不足時(shí),很容易出現(xiàn)過(guò)擬合[3]現(xiàn)象.過(guò)擬合現(xiàn)象往往由訓(xùn)練樣本數(shù)量不足引起,導(dǎo)致模型中的復(fù)雜參數(shù)只能捕捉訓(xùn)練樣本中十分具體的隨機(jī)特征,導(dǎo)致一些細(xì)微的誤差都會(huì)對(duì)其產(chǎn)生巨大影響,因此在訓(xùn)練的過(guò)程中會(huì)出現(xiàn)模型在驗(yàn)證集上表現(xiàn)變差的現(xiàn)象.圖1展示了分類(lèi)器多層感知機(jī)(multi-layer perception, MLP)在數(shù)據(jù)集“Poker Hand”上的預(yù)測(cè)準(zhǔn)確率曲線,從圖1兩條曲線的走向可以看出,在迭代6次之后,在訓(xùn)練集上的準(zhǔn)確率盡管穩(wěn)步上升,但在驗(yàn)證集上的準(zhǔn)確率已經(jīng)開(kāi)始下降,也就是出現(xiàn)了過(guò)擬合現(xiàn)象,2條曲線之間的區(qū)域大小反映了過(guò)擬合現(xiàn)象的嚴(yán)重程度.

      Fig. 1 An example of model performance圖1 模型訓(xùn)練過(guò)程中的預(yù)測(cè)準(zhǔn)確率

      為了防止過(guò)擬合現(xiàn)象發(fā)生,需要將原有的訓(xùn)練集擴(kuò)大.其中一種方法是領(lǐng)域?qū)<沂謩?dòng)標(biāo)注更多的數(shù)據(jù)樣本,但這既浪費(fèi)人力又容易出錯(cuò);另一種自動(dòng)合成更多數(shù)據(jù)樣本的方法更為可行.如圖2所示,原始訓(xùn)練樣本首先作為生成器(generator)的輸入,生成器輸出的合成訓(xùn)練樣本和原始訓(xùn)練樣本一起組成擴(kuò)大后的訓(xùn)練集,最終將這個(gè)擴(kuò)大后的訓(xùn)練集用于分類(lèi)模型的訓(xùn)練.由于合成數(shù)據(jù)集質(zhì)量較高且保留了原始數(shù)據(jù)樣本中的重要特征,用擴(kuò)大后的樣本對(duì)分類(lèi)模型進(jìn)行訓(xùn)練的過(guò)程將更加穩(wěn)定,并能夠解決因訓(xùn)練樣本不足引起的過(guò)擬合問(wèn)題,提升了分類(lèi)模型在驗(yàn)證集上的準(zhǔn)確率.因此,設(shè)計(jì)一個(gè)性能良好的生成器是圖2所示整個(gè)工作流程的重要環(huán)節(jié).

      Fig. 2 The workflow of training classifiers using synthesized datasets圖2 使用合成數(shù)據(jù)集訓(xùn)練分類(lèi)模型的流程圖

      近年來(lái),有不少與生成模型相關(guān)的研究[4-7],其中備受矚目的是生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)[8].生成式對(duì)抗網(wǎng)絡(luò)是Goodfellow等人[8]在2014年提出的一種生成模型,并被廣泛應(yīng)用于對(duì)原始樣本分布特征的無(wú)監(jiān)督式學(xué)習(xí).目前為止,有不少針對(duì)GAN的相關(guān)研究,并衍生出若干GAN模型的變種,如C-GAN[9]和AC-GAN[10]等,都能夠生成高質(zhì)量的圖片數(shù)據(jù).

      關(guān)系數(shù)據(jù)庫(kù)中不具有主外鍵約束的單表被稱為結(jié)構(gòu)化數(shù)據(jù)表.結(jié)構(gòu)化數(shù)據(jù)表包含若干屬性,每個(gè)屬性有自己特有的分布,屬性間也有或強(qiáng)或弱的相關(guān)性,例如身高和體重正相關(guān),身高越高的個(gè)體,體重就越大.屬性的取值具有無(wú)序性(與結(jié)構(gòu)化數(shù)據(jù)表中每條記錄所處的位置無(wú)關(guān))、取值離散等特點(diǎn),與圖片數(shù)據(jù)不盡相同.因此,GAN及其若干變體都無(wú)法直接用于結(jié)構(gòu)化數(shù)據(jù)表的生成.為了解決這個(gè)問(wèn)題,本文主要提出了一個(gè)基于生成式對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù)表生成模型,稱為T(mén)ableGAN.

      該模型為傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)模型GAN的一種變體,由一個(gè)生成器(generator)模型G和一個(gè)判別器(discriminator)模型D組成.生成器G的目的是盡量學(xué)習(xí)原始數(shù)據(jù)的真實(shí)分布,生成讓判別器甄別不出真?zhèn)蔚暮铣蓴?shù)據(jù),而判別器D的目的是盡量提升自己甄別原始數(shù)據(jù)與合成數(shù)據(jù)的判別能力.2個(gè)模型在相互對(duì)抗優(yōu)化的過(guò)程中,不斷提升各自的生成能力與判別能力.最終,生成器能夠生成符合原始數(shù)據(jù)分布特征的合成數(shù)據(jù),和原始數(shù)據(jù)一起用于分類(lèi)模型的訓(xùn)練,從而解決由于訓(xùn)練樣本不足導(dǎo)致的過(guò)擬合問(wèn)題.和其他傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)不同的是,TableGAN修改了優(yōu)化函數(shù),保證了模型有一個(gè)穩(wěn)定的訓(xùn)練過(guò)程,并且為了防止噪聲對(duì)模型穩(wěn)定性的影響,在生成器模型和判別器模型中都添加了L2正則化項(xiàng),還增大了輸入噪聲的多樣性,在一定程度上避免了模式崩潰(mode collapse)情況的發(fā)生.據(jù)我們所知,TableGAN模型是生成式對(duì)抗網(wǎng)絡(luò)在結(jié)構(gòu)化數(shù)據(jù)表生成領(lǐng)域的首次應(yīng)用.

      為了證明TabelGAN的有效性,本文提供了在2個(gè)數(shù)據(jù)集上,針對(duì)3種分類(lèi)器網(wǎng)絡(luò)的一系列實(shí)驗(yàn)結(jié)果和相關(guān)分析.充分的實(shí)驗(yàn)表明TableGAN能夠生成有助于提升分類(lèi)器網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)樣本.為了更好地展示TableGAN生成數(shù)據(jù)的效果,我們選擇了一個(gè)在數(shù)據(jù)挖掘比賽網(wǎng)站Kaggle(1)https://www.kaggle.com/c/sf-crime/discussion/15836上排名最靠前的分類(lèi)模型,實(shí)驗(yàn)證明使用合成的數(shù)據(jù)集訓(xùn)練后,分類(lèi)模型的準(zhǔn)確率仍可以進(jìn)一步提升.

      1 相關(guān)工作

      數(shù)據(jù)合成在機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)等領(lǐng)域有著十分重要的應(yīng)用[11-13].其中一個(gè)在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用就是利用合成的數(shù)據(jù)來(lái)解決過(guò)擬合問(wèn)題.過(guò)擬合問(wèn)題在機(jī)器學(xué)習(xí)領(lǐng)域存在已久,是一個(gè)亟待解決的問(wèn)題.近年來(lái),有不少學(xué)者提出對(duì)這個(gè)問(wèn)題的解決方案,包括合成更多的訓(xùn)練樣本[14]、交叉驗(yàn)證(cross-validation)[15]、正則化(regularization)[16]和提前停止(early stopping)[17]等方法.其中,合成更多的訓(xùn)練樣本是最常使用的方法之一.

      在計(jì)算機(jī)視覺(jué)領(lǐng)域,合成更多訓(xùn)練樣本這一技術(shù)通常被稱為數(shù)據(jù)增強(qiáng)(data augmentation).為了得到更多的訓(xùn)練樣本,需要對(duì)原始訓(xùn)練圖像進(jìn)行簡(jiǎn)單的幾何和外觀方面的轉(zhuǎn)換,包括對(duì)圖片進(jìn)行旋轉(zhuǎn)、扭曲等,但是這些轉(zhuǎn)換都基于一個(gè)很強(qiáng)的假設(shè),即這些細(xì)微的物理轉(zhuǎn)換都不會(huì)改變圖片的類(lèi)別標(biāo)簽.由于此假設(shè)沒(méi)有相關(guān)的理論證明,這種通過(guò)物理轉(zhuǎn)換來(lái)擴(kuò)大訓(xùn)練集的方法具有一定的局限性.

      生成模型是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域最有前景的方法之一,它通過(guò)學(xué)習(xí)并遵從給定數(shù)據(jù)集的概率分布來(lái)生成新的樣本數(shù)據(jù).其中變分自動(dòng)編碼器(variational auto-encoders, VAE)[6]和生成式對(duì)抗網(wǎng)絡(luò)(GAN)[8]是生成模型中眾所周知的代表.

      VAE是一個(gè)概率圖模型,由一個(gè)編碼器(encoder)和一個(gè)解碼器(decoder)構(gòu)成,編碼器將數(shù)據(jù)分布的高級(jí)特征映射到數(shù)據(jù)的低級(jí)表征(latent vector),解碼器接受數(shù)據(jù)的低級(jí)表征,然后輸出同樣數(shù)據(jù)的高級(jí)表征.VAE的訓(xùn)練過(guò)程完全依賴于一個(gè)假設(shè)損失函數(shù)及KL散度,使得生成的數(shù)據(jù)盡可能去接近真實(shí)數(shù)據(jù)的分布.

      然而,GAN為我們提供了一個(gè)對(duì)目標(biāo)函數(shù)更為靈活的定義,其中包括Jensen-Shannon[8]、所有的f-divergences[18]以及一些其他距離度量的組合[19].GAN由一個(gè)生成器G和一個(gè)判別器D組成,它們均由深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn).生成器和判別器相互對(duì)抗進(jìn)行訓(xùn)練,生成器盡可能生成與原始數(shù)據(jù)分布相近的數(shù)據(jù)集,使判別器無(wú)法將其與原始數(shù)據(jù)區(qū)分,而判別器則盡可能提升自己區(qū)分原始數(shù)據(jù)與合成數(shù)據(jù)的能力.經(jīng)過(guò)一段時(shí)間的對(duì)抗訓(xùn)練后,生成器能夠生成接近原始數(shù)據(jù)分布的樣本,用于解決由于訓(xùn)練樣本不足導(dǎo)致的過(guò)擬合問(wèn)題.GAN被證明訓(xùn)練難度大且十分不穩(wěn)定[20],因此不少學(xué)者提出了GAN的若干變體,用于改進(jìn)生成數(shù)據(jù)的質(zhì)量.例如,C-GAN[9]將條件信息,即類(lèi)標(biāo)簽,添加到生成器模型輸入中,用于改進(jìn)原始GAN模型.AC-GAN[10]中的判別器不僅要判別輸入數(shù)據(jù)來(lái)自原始數(shù)據(jù)還是合成數(shù)據(jù),還要判別輸入數(shù)據(jù)的類(lèi)別標(biāo)簽.本文提出了GAN模型的另一個(gè)變體TableGAN,用于生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)表,并將其用來(lái)訓(xùn)練分類(lèi)模型以改善模型的訓(xùn)練過(guò)程.

      2 算法實(shí)現(xiàn)

      本節(jié)主要介紹文中所提出算法的模型推導(dǎo)和理論分析,首先對(duì)模型訓(xùn)練過(guò)程發(fā)生的過(guò)擬合現(xiàn)象進(jìn)行形式化定義和描述,然后回顧生成式對(duì)抗網(wǎng)絡(luò)的基本原理,最后給出基于GAN的結(jié)構(gòu)化數(shù)據(jù)表生成模型TableGAN中算法的相關(guān)理論分析,包括模型推導(dǎo)、算法偽代碼等.

      2.1 問(wèn)題定義

      給定一個(gè)帶標(biāo)簽的訓(xùn)練集Y={yn}N,其中yn=(xn,cn),cn∈{1,2,…,M}是第n行數(shù)據(jù)的標(biāo)簽,xn是除了標(biāo)簽之外的其他屬性.訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)的基本目標(biāo)是,用給定訓(xùn)練集去估計(jì)模型中的所有參數(shù):

      (1)

      結(jié)合貝葉斯公式:

      p(θ|y)=p(θ|x,c)∝p(θ)p(x|θ)p(c|x,θ).

      (2)

      假設(shè)所有的訓(xùn)練樣本均為條件獨(dú)立,可以得到:

      ,

      (3)

      其中,p(θ)為模型所有參數(shù)的先驗(yàn)概率,p(xn|θ)是對(duì)樣本xn的似然估計(jì),p(cn|xn,θ)是對(duì)標(biāo)簽cn在給定xn和θ條件下的似然估計(jì).

      在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),模型中所有參數(shù)通過(guò)梯度下降的方式找到最優(yōu)解.然而,當(dāng)訓(xùn)練樣本Y數(shù)量不足時(shí),往往會(huì)出現(xiàn)過(guò)擬合現(xiàn)象.也就是說(shuō),盡管模型在訓(xùn)練集上效果很好,但在驗(yàn)證集上效果卻很差.因此,我們需要合成更多高質(zhì)量的訓(xùn)練樣本,這些新合成的樣本需要保留原始訓(xùn)練樣本的重要特征,使擴(kuò)大后的樣本能夠更好地訓(xùn)練模型中的參數(shù).本文提出了一個(gè)基于生成式對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù)表生成模型——TableGAN,用來(lái)擴(kuò)大原有的訓(xùn)練樣本并保留原始樣本中的重要特征,為后續(xù)神經(jīng)網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練提供良好保障.

      2.2 生成式對(duì)抗網(wǎng)絡(luò)GAN

      生成式對(duì)抗網(wǎng)絡(luò)GAN是Goodfellow等人[8]在2014年提出的一種生成模型,目前已經(jīng)成為人工智能學(xué)界一個(gè)熱門(mén)的研究方向.GAN的基本思想源于博弈論中的二人零和博弈,即二人的利益之和為零,一方所得正好為另一方所失.因此,GAN由2個(gè)相互博弈的神經(jīng)網(wǎng)絡(luò)模型組成,一個(gè)叫生成器G,另一個(gè)叫判別器D.生成器G的目的是盡量學(xué)習(xí)原始數(shù)據(jù)的真實(shí)分布,生成讓判別器甄別不出真?zhèn)蔚暮铣蓴?shù)據(jù);而判別器D的目的是盡量提升自己甄別原始數(shù)據(jù)與合成數(shù)據(jù)的判別能力.2個(gè)模型在相互對(duì)抗優(yōu)化的過(guò)程中,不斷提升各自的生成能力與判別能力,這個(gè)學(xué)習(xí)優(yōu)化過(guò)程就是尋找二者之間的一個(gè)納什均衡.在訓(xùn)練優(yōu)化一段時(shí)間之后,生成式對(duì)抗網(wǎng)絡(luò)的生成器能夠捕捉原始數(shù)據(jù)的真實(shí)分布,并生成一系列符合同一分布的合成數(shù)據(jù)樣本.

      生成器為了捕捉原始數(shù)據(jù)x的真實(shí)分布pg,使用一個(gè)映射函數(shù)(一般由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)),將一個(gè)已知的分布p(z),例如高斯分布,映射到另一個(gè)數(shù)據(jù)空間G(z,θg),其中z稱之為噪聲(noise),θg表示生成器模型中的所有參數(shù).生成器的目標(biāo)是盡量縮小G(z,θg)與真實(shí)數(shù)據(jù)分布pdata(x)之間的差異.對(duì)于判別器模型來(lái)說(shuō),通過(guò)輸出0或1來(lái)表示判別器對(duì)輸入數(shù)據(jù)真假的判別情況.當(dāng)輸入數(shù)據(jù)采樣于原始數(shù)據(jù)pdata(x)時(shí),判別器輸出為1;而當(dāng)輸入數(shù)據(jù)采樣于合成數(shù)據(jù)集G(z),也就是從生成器中輸出的數(shù)據(jù)時(shí),判別器輸出為0.

      在GAN的訓(xùn)練過(guò)程中,生成器模型和判別器模型進(jìn)行相互對(duì)抗來(lái)進(jìn)行優(yōu)化,因此對(duì)G和D進(jìn)行交替式訓(xùn)練.對(duì)于G而言,需要最小化log(1-D(G(z))),也就是盡可能讓G合成的數(shù)據(jù)集G(z)能夠欺騙D,使得判別器D的輸出D(G(z))接近1.然而對(duì)判別器D而言,需要增強(qiáng)自己判別真假數(shù)據(jù)的能力,即最大化logD(x)與log(1-D(G(z))),也就是當(dāng)輸入數(shù)據(jù)為真實(shí)數(shù)據(jù)x時(shí),判別器的輸出D(x)盡可能接近1,而當(dāng)輸入數(shù)據(jù)為合成數(shù)據(jù)G(z)時(shí),判別器的輸出D(G(z))盡可能接近0.因此,GAN的優(yōu)化問(wèn)題是一個(gè)極小-極大化問(wèn)題,GAN的目標(biāo)函數(shù)可以描述為

      .

      (4)

      2.3 結(jié)構(gòu)化數(shù)據(jù)表生成模型TableGAN

      Fig. 3 The structure of our TableGAN圖3 TableGAN模型示意圖

      本節(jié)主要介紹基于GAN的結(jié)構(gòu)化數(shù)據(jù)表生成模型TableGAN.圖3給出了模型TableGAN的示意圖,TableGAN由一個(gè)生成器G和一個(gè)判別器D組成,符合某種分布的噪聲z與類(lèi)標(biāo)簽c一起作為生成器G的輸入,經(jīng)過(guò)G的變換后生成合成數(shù)據(jù)樣本G(z|c),隨后與真實(shí)數(shù)據(jù)樣本x一起作為判別器D的輸入,判別器的最終輸出又會(huì)進(jìn)一步指導(dǎo)生成器網(wǎng)絡(luò)的訓(xùn)練過(guò)程.

      生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)均由深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)中的所有參數(shù)分別由θ與γ表示.2個(gè)網(wǎng)絡(luò)相互對(duì)抗進(jìn)行訓(xùn)練,目標(biāo)函數(shù)為

      (5)

      式(5)與傳統(tǒng)GAN模型的目標(biāo)函數(shù)對(duì)比而言,增加了類(lèi)別標(biāo)簽c作為生成器的輸入,即給生成器額外的信息指導(dǎo)其更好地生成數(shù)據(jù).然而在訓(xùn)練的過(guò)程中,使用式(5)作為目標(biāo)函數(shù)易出現(xiàn)生成器梯度消失現(xiàn)象,從而導(dǎo)致模型極難訓(xùn)練,文獻(xiàn)[21]中有相關(guān)理論證明.因此,TableGAN模型使用Earth-Mover(EM)距離來(lái)衡量原始樣本與合成樣本之間的距離,即使2個(gè)分布沒(méi)有重疊或重疊的部分非常少,依然能夠反映2個(gè)分布的遠(yuǎn)近,EM距離定義為

      (6)

      其中Π(P1,P2)為P1和P2所有可能的聯(lián)合分布,計(jì)算在此聯(lián)合分布下樣本對(duì)距離的期望,此期望的下界就是EM距離.因此,使用EM距離后的目標(biāo)函數(shù)為

      (7)

      傳統(tǒng)GAN模型在訓(xùn)練過(guò)程中往往會(huì)發(fā)生模式崩潰(mode collapse)的現(xiàn)象,這指的是模型只能捕捉并保留原始數(shù)據(jù)中很少的一部分特征,以致生成的數(shù)據(jù)樣本十分單一.我們的TableGAN則針對(duì)這個(gè)問(wèn)題,使用3個(gè)技巧來(lái)緩解模式崩潰的現(xiàn)象:1)增加生成器輸入噪聲z的多樣性.對(duì)圖片數(shù)據(jù)集來(lái)說(shuō),傳統(tǒng)GAN模型生成器的輸入噪聲服從單峰的正態(tài)分布,而對(duì)于本文需要生成的結(jié)構(gòu)化數(shù)據(jù)表來(lái)說(shuō),輸入多峰分布的噪聲能夠增加合成數(shù)據(jù)的多樣性;2)我們放棄基于動(dòng)量的優(yōu)化方法,例如Adam,而使用RMSProp[22-23];3)在神經(jīng)網(wǎng)絡(luò)模型上增加L2正則化項(xiàng),保證TableGAN訓(xùn)練過(guò)程中的穩(wěn)定.

      TableGAN的訓(xùn)練過(guò)程如算法1所示,針對(duì)參數(shù)θ與γ,使用式(7)給出的目標(biāo)函數(shù)來(lái)分別交替訓(xùn)練生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò),訓(xùn)練過(guò)程收斂后會(huì)得到:

      (8)

      此時(shí),判別器Dγ*已經(jīng)收斂,θ*也已收斂于V(D,G)的最小值,模型已經(jīng)訓(xùn)練至穩(wěn)定狀態(tài).之后,我們使用模型中已訓(xùn)練好的生成器,生成更多的訓(xùn)練樣本,用于分類(lèi)模型的訓(xùn)練過(guò)程.

      算法1.TableGAN訓(xùn)練算法.

      輸入:學(xué)習(xí)率(learning rate)η、剪切參數(shù)(clipping parameter)d、批大小(batch size)m、生成器每迭代1次時(shí)判別器迭代的次數(shù)nd;

      輸出:收斂后生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)的參數(shù)θ與γ.

      ① WHILE 不收斂 DO

      ② FORt=0,1,2,…,nd

      ⑥γ←γ-η×RMSProp(γ,gγ);

      ⑦γ←clip(γ,-d,d) ;

      ⑧ END FOR

      在2.3單因素試驗(yàn)結(jié)果上,對(duì)四氫呋喃用量(X1)、KOH 甲醇溶液質(zhì)量濃度(X2)、提取溫度(X3)3 個(gè)因素進(jìn)行響應(yīng)曲面試驗(yàn)設(shè)計(jì)。設(shè)響應(yīng)曲面因素與水平及編碼值見(jiàn)表2,響應(yīng)曲面法優(yōu)化稻谷中葉黃素提取方法見(jiàn)表3。

      3 實(shí)驗(yàn)與分析

      本節(jié)主要介紹相關(guān)實(shí)驗(yàn)設(shè)置,包括實(shí)驗(yàn)所使用的數(shù)據(jù)集、分類(lèi)模型以及用于比較的基準(zhǔn)算法,之后給出實(shí)驗(yàn)結(jié)果并對(duì)其進(jìn)行分析與討論.實(shí)驗(yàn)代碼已更新至GitHub(2)https://www.kaggle.com/c/sf-crime/data

      針對(duì)每個(gè)數(shù)據(jù)集,我們采取3個(gè)實(shí)驗(yàn)步驟:

      1) 使用原始訓(xùn)練樣本對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,在測(cè)試集上得到分類(lèi)模型預(yù)測(cè)準(zhǔn)確率;

      2) 使用原始訓(xùn)練樣本,對(duì)數(shù)據(jù)庫(kù)領(lǐng)域結(jié)構(gòu)化數(shù)據(jù)表擴(kuò)展方法Dscaler、數(shù)據(jù)匿名化方法k-anonymity與t-closeness、生成式對(duì)抗網(wǎng)絡(luò)C-GAN和我們的模型TableGAN進(jìn)行訓(xùn)練,隨后使用訓(xùn)練好的模型生成合成的數(shù)據(jù)集,與原始訓(xùn)練樣本一起組成了擴(kuò)大后的數(shù)據(jù)集;

      3) 使用步驟2中擴(kuò)大后的數(shù)據(jù)集進(jìn)行訓(xùn)練,在測(cè)試集上得到分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率,和步驟1中得到的準(zhǔn)確率進(jìn)行比較.

      3.1 數(shù)據(jù)集

      本文使用2個(gè)公開(kāi)的數(shù)據(jù)集用于實(shí)驗(yàn).一個(gè)是數(shù)據(jù)挖掘比賽網(wǎng)站Kaggle上公開(kāi)的數(shù)據(jù)集(3)http://archive.ics.uci.edu/ml/datasets/Poker+Hand,另一個(gè)是機(jī)器學(xué)習(xí)倉(cāng)庫(kù)UCI(4)https://www.kaggle.com/c/sf-crime/discussion/15836上公開(kāi)的數(shù)據(jù)集,表1提供了2個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息.

      Table 1 Summaries of the 2 Datasets表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

      1) SF Crime.本數(shù)據(jù)集收集了舊金山市近12年來(lái)的犯罪記錄,共有9個(gè)不同的屬性,其中屬性“Category”為標(biāo)簽,共有39種不同的取值.分類(lèi)模型需要根據(jù)犯罪事件發(fā)生的時(shí)間與地點(diǎn)來(lái)預(yù)測(cè)犯罪的種類(lèi).表2提供了此數(shù)據(jù)集的詳細(xì)信息.

      Table 2 Summaries of the SF Crime Dataset表2 關(guān)于SF Crime數(shù)據(jù)集的描述

      2) Poker Hand.本數(shù)據(jù)集記錄了從52張撲克牌中抽出5張撲克牌的大小與花色,共有11個(gè)不同的屬性,其中屬性“Class”為標(biāo)簽,共有10種不同的取值,包括“同花順”、“同花”、“順子”等.分類(lèi)模型需要根據(jù)5張撲克牌的大小與花色來(lái)預(yù)測(cè)牌型.表3提供了此數(shù)據(jù)集的詳細(xì)信息.

      Table 3 Summaries of the Poker Hand Dataset表3 關(guān)于Poker Hand數(shù)據(jù)集的描述

      3.2 分類(lèi)模型

      1) MLP.這是引言提到的在數(shù)據(jù)挖掘比賽網(wǎng)站Kaggle③上排名最靠前的分類(lèi)模型,它是一個(gè)3層神經(jīng)元感知器,在SF Crime數(shù)據(jù)集下,這個(gè)分類(lèi)模型的性能在所有的公開(kāi)算法中排名前1%.

      2) RF.隨機(jī)森林是通過(guò)集成學(xué)習(xí)的思想將多棵樹(shù)集成的一種算法,它的基本單元是決策樹(shù),而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)(ensemble learning)方法,其輸出的類(lèi)別由個(gè)別樹(shù)輸出的類(lèi)別的眾數(shù)而定.也就是說(shuō),對(duì)于一個(gè)輸入樣本,N棵樹(shù)會(huì)有N個(gè)分類(lèi)結(jié)果,而隨機(jī)森林集成了所有的分類(lèi)投票結(jié)果,將投票次數(shù)最多的類(lèi)別指定為最終的輸出.

      3) DT.決策樹(shù)是一種基本的分類(lèi)方法.決策樹(shù)模型呈樹(shù)形結(jié)構(gòu),表示基于特征對(duì)實(shí)例進(jìn)行分類(lèi)的過(guò)程.它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類(lèi)空間上的條件概率分布,具有可讀性、效率高等優(yōu)點(diǎn).

      本文模型TableGAN由高層神經(jīng)網(wǎng)絡(luò)API——Keras來(lái)實(shí)現(xiàn),基于TensorFlow后端.針對(duì)每個(gè)數(shù)據(jù)集,TableGAN根據(jù)Epochs和D_iters這2個(gè)參數(shù)的不同取值,生成17份不同的合成數(shù)據(jù)樣本.其中,Epochs反映了模型的學(xué)習(xí)程度,如果訓(xùn)練時(shí)的Epochs過(guò)小,由于特征學(xué)習(xí)不夠充分,生成的合成數(shù)據(jù)集不足以大幅提高分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率,反之,如果Epochs過(guò)大,模型會(huì)學(xué)習(xí)數(shù)據(jù)中過(guò)于具體的特征,依舊會(huì)影響分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率,本實(shí)驗(yàn)Epochs的取值在20~90之間.D_iters反映了模型中判別器相對(duì)于生成器的迭代次數(shù),即每當(dāng)生成器迭代1次時(shí)判別器迭代的次數(shù).例如D_iters=5表明每當(dāng)模型生成器訓(xùn)練1次時(shí)判別器訓(xùn)練5次.此參數(shù)表明維持生成器和判別器這2個(gè)模型訓(xùn)練程度的動(dòng)態(tài)平衡具有十分重要的意義.

      3.3 基準(zhǔn)算法

      本文采用10折交叉驗(yàn)證的方式對(duì)提出的TableGAN算法和4個(gè)方法在2個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并將結(jié)果進(jìn)行了比較和分析.

      1) Without scaling up. 未采用任何生成模型,使用原始訓(xùn)練樣本對(duì)分類(lèi)模型進(jìn)行訓(xùn)練.

      2) Dscaler[24]. 數(shù)據(jù)庫(kù)領(lǐng)域較新的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展方法Dscaler,一般針對(duì)多張具有主外鍵關(guān)系的結(jié)構(gòu)化數(shù)據(jù)表,旨在保留主外鍵間參照關(guān)系.而單個(gè)結(jié)構(gòu)化數(shù)據(jù)表的擴(kuò)展方法,只是簡(jiǎn)單在數(shù)據(jù)表中進(jìn)行采樣,以此合成新的數(shù)據(jù)集.

      3) Anonymization. 采用數(shù)據(jù)匿名化方法k-anonymity與t-closeness結(jié)合.參數(shù)k∈{2,10,100},t∈{0.001,0.1,0.5},表4的實(shí)驗(yàn)結(jié)果取這些參數(shù)下最高的準(zhǔn)確率值.

      4) C-GAN[9]. C-GAN是傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)的一種變體,通過(guò)增加額外信息來(lái)提升合成數(shù)據(jù)的質(zhì)量.其在圖片數(shù)據(jù)集MNIST上表現(xiàn)良好,能夠根據(jù)標(biāo)簽生成高質(zhì)量的圖片.

      5) TableGAN為本文提出的算法.

      3.4 實(shí)驗(yàn)結(jié)果分析

      本節(jié)通過(guò)比較使用擴(kuò)大后的訓(xùn)練集與原始訓(xùn)練集對(duì)分類(lèi)模型的訓(xùn)練情況來(lái)證明TableGAN的有效性.我們使用訓(xùn)練后的分類(lèi)模型在驗(yàn)證集上的預(yù)測(cè)準(zhǔn)確率來(lái)量化TableGAN合成數(shù)據(jù)的質(zhì)量.表4呈現(xiàn)了在2個(gè)數(shù)據(jù)集上的所有實(shí)驗(yàn)結(jié)果.可以看出,TableGAN在大部分情況下都可以改進(jìn)分類(lèi)模型的訓(xùn)練情況,并且比Dscaler,Anonymization,C-GAN這3個(gè)模型表現(xiàn)要好.3.4.1和3.4.2節(jié)有對(duì)實(shí)驗(yàn)結(jié)果詳細(xì)的對(duì)比分析,并根據(jù)Epochs和D_iters這2個(gè)參數(shù)的變化情況繪制了分類(lèi)模型對(duì)應(yīng)的預(yù)測(cè)結(jié)果圖.

      Continued (Table 4)

      Notes:“” means the corresponding classifiers using the augmented training data produced by data anonymization algorithms (k-anonymity+t-closeness); “” means the classification results of data produced by Dscaler; “*” means the classification results of data produced by C-GAN;“” means the classification results of data produced by our TableGAN. The best results have been highlighted in bold.

      Fig. 5 Performance comparison using Random Forest classifier on SF Crime dataset圖5 使用隨機(jī)森林在數(shù)據(jù)集SF Crime上的性能對(duì)比

      3.4.1 SF Crime數(shù)據(jù)集上效果對(duì)比

      圖4展示了在SF Crime數(shù)據(jù)集上應(yīng)用分類(lèi)模型MLP的實(shí)驗(yàn)結(jié)果.其中,TableGAN的性能一直優(yōu)于C-GAN的性能,即使這個(gè)分類(lèi)模型已經(jīng)是在此數(shù)據(jù)集下性能排名前1%的分類(lèi)器,TableGAN依舊可以通過(guò)擴(kuò)大訓(xùn)練樣本的方式,進(jìn)一步提升分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率.而數(shù)據(jù)隱私算法擴(kuò)大后的數(shù)據(jù)集,由于隱藏?cái)?shù)據(jù)中部分重要特征,訓(xùn)練分類(lèi)模型的準(zhǔn)確率還不如原始訓(xùn)練樣本對(duì)分類(lèi)模型進(jìn)行訓(xùn)練的準(zhǔn)確率.

      圖5和圖6分別展示了在分類(lèi)模型隨機(jī)森林和決策樹(shù)下的實(shí)驗(yàn)結(jié)果.盡管這2個(gè)傳統(tǒng)分類(lèi)模型的學(xué)習(xí)能力不如MLP強(qiáng),也就是過(guò)擬合現(xiàn)象不夠顯著,但TableGAN依舊能夠提升分類(lèi)模型的準(zhǔn)確率,TableGAN的表現(xiàn)也優(yōu)于C-GAN模型的表現(xiàn).

      Fig. 4 Performance comparison using MLP classifier on SF Crime dataset圖4 使用MLP在數(shù)據(jù)集SF Crime上的性能對(duì)比

      Fig. 6 Performance comparison using Decision Tree classifier on SF Crime dataset圖6 使用決策樹(shù)在數(shù)據(jù)集SF Crime上的性能對(duì)比

      為更好地證明本文方法TableGAN在數(shù)據(jù)集SF Crime上的優(yōu)越性,使用配對(duì)樣本t檢驗(yàn).顯著性檢驗(yàn)表明,TableGAN在置信區(qū)間為0.95的情況下,性能優(yōu)于其他所有算法.

      Fig. 7 Performance comparison using MLP classifier on Poker Hand dataset圖7 使用MLP在數(shù)據(jù)集Poker Hand上的性能對(duì)比

      3.4.2 Poker Hand數(shù)據(jù)集上效果對(duì)比

      圖7展示了在Poker Hand數(shù)據(jù)集上應(yīng)用分類(lèi)模型MLP的實(shí)驗(yàn)結(jié)果.可以看出使用TableGAN擴(kuò)大原始訓(xùn)練樣本之后能夠大幅提升分類(lèi)模型的準(zhǔn)確率,并且TableGAN比C-GAN有著更好的性能.當(dāng)TableGAN訓(xùn)練30輪,且每當(dāng)生成器訓(xùn)練一次后判別器被訓(xùn)練6次時(shí),TableGAN提升分類(lèi)模型的性能最顯著,準(zhǔn)確率由原來(lái)的54.71%提升至60.16%.通過(guò)觀察分類(lèi)模型訓(xùn)練過(guò)程中的loss曲線,使用TableGAN擴(kuò)大訓(xùn)練樣本在很大程度上緩解了過(guò)擬合的問(wèn)題.

      圖8和圖9分別展示了在分類(lèi)模型隨機(jī)森林和決策樹(shù)下的實(shí)驗(yàn)結(jié)果.使用TableGAN擴(kuò)大訓(xùn)練樣本后,能將分類(lèi)模型隨機(jī)森林的準(zhǔn)確率由原來(lái)的56.08%提升至57.68%,并能將分類(lèi)模型決策樹(shù)的準(zhǔn)確率由原來(lái)的47.86%提升至52.73%.從圖8和圖9可以看出TableGAN很大程度上提升了分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率,并總比使用C-GAN的性能好.從圖9可以看出,隨著參數(shù)Epochs和D_iters的變化,分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率變化不大(最上方的曲線較為平緩),也就是說(shuō),我們的模型TabelGAN即使沒(méi)有謹(jǐn)慎選擇參數(shù),仍然可以生成高質(zhì)量的合成數(shù)據(jù)集來(lái)改善分類(lèi)模型的訓(xùn)練過(guò)程,反觀C-GAN,參數(shù)的細(xì)微變化很大程度上影響了分類(lèi)模型的準(zhǔn)確率.

      Fig. 8 Performance comparison using Random Forest classifier on Poker Hand dataset圖8 使用隨機(jī)森林在數(shù)據(jù)集Poker Hand上的性能對(duì)比

      Fig. 9 Performance comparison using Decision Tree classifier on Poker Hand dataset圖9 使用決策樹(shù)在數(shù)據(jù)集Poker Hand上的性能對(duì)比

      為更好地證明本文模型TableGAN在數(shù)據(jù)集Poker Hand上的優(yōu)越性,使用配對(duì)樣本t檢驗(yàn).顯著性檢驗(yàn)表明,TableGAN在置信區(qū)間為0.95的情況下,性能優(yōu)于其他所有算法.

      總之,通過(guò)實(shí)驗(yàn)可以看出我們的模型TableGAN在2個(gè)數(shù)據(jù)集上都能夠生成高質(zhì)量的合成數(shù)據(jù),用于改善分類(lèi)模型的訓(xùn)練過(guò)程,從而提升分類(lèi)模型的預(yù)測(cè)準(zhǔn)確率.

      4 總結(jié)與工作展望

      本文研究了結(jié)構(gòu)化數(shù)據(jù)表的生成問(wèn)題,提出一個(gè)基于生成式對(duì)抗網(wǎng)絡(luò)的生成模型,生成符合原始數(shù)據(jù)樣本分布的合成樣本,以擴(kuò)大訓(xùn)練樣本的方式解決由于訓(xùn)練樣本不足導(dǎo)致的分類(lèi)模型過(guò)擬合問(wèn)題.實(shí)驗(yàn)證明,本文提出的方法能夠生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)表,進(jìn)一步提高分類(lèi)模型的準(zhǔn)確率.

      猜你喜歡
      數(shù)據(jù)表原始數(shù)據(jù)訓(xùn)練樣本
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
      湖北省新冠肺炎疫情數(shù)據(jù)表
      黨員生活(2020年2期)2020-04-17 09:56:30
      人工智能
      基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
      全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      圖表
      南乐县| 米易县| 斗六市| 平山县| 台北市| 平阴县| 古交市| 山西省| 杨浦区| 民权县| 辰溪县| 佛山市| 安丘市| 扎鲁特旗| 邹城市| 法库县| 手游| 西藏| 阿鲁科尔沁旗| 沾化县| 榆中县| 涞水县| 广平县| 孟连| 牡丹江市| 贺州市| 松江区| 莆田市| 乌拉特后旗| 吕梁市| 双峰县| 盈江县| 娄烦县| 金山区| 珠海市| 高淳县| 马山县| 麻江县| 丹寨县| 永兴县| 临夏市|