• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      遺傳算法優(yōu)化時(shí)間卷積網(wǎng)絡(luò)的手機(jī)來(lái)源識(shí)別

      2022-02-24 12:33:42武欽芳吳張倩蘇兆品張國(guó)富
      關(guān)鍵詞:背景噪聲適應(yīng)度種群

      武欽芳,吳張倩,蘇兆品,2,3,4,張國(guó)富,2,3,4

      1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230601

      2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),合肥 230009

      3.工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),合肥 230601

      4.安全關(guān)鍵工業(yè)測(cè)控技術(shù)教育部工程研究中心,合肥 230601

      隨著智能手機(jī)和移動(dòng)互聯(lián)網(wǎng)的普及,人們?cè)絹?lái)越傾向于利用微信、手機(jī)QQ等各種即時(shí)通信應(yīng)用工具進(jìn)行溝通和發(fā)布信息,尤其是通過(guò)發(fā)送語(yǔ)音的方式代替文字編輯,交流更加便捷,因而私錄手機(jī)音頻日益增多。《最高人民法院關(guān)于民事訴訟證據(jù)的若干規(guī)定》中指出:數(shù)字音頻可作為電子證據(jù)出示給法院。尤其是在眾多的民事糾紛中,通過(guò)分辨、鑒定手機(jī)語(yǔ)音中的聲音來(lái)確定使用者身份和交互內(nèi)容,往往能起到關(guān)鍵性的作用。但是手機(jī)語(yǔ)音是否可以作為有效證據(jù)被法庭采納的一個(gè)前提條件是需要對(duì)其真實(shí)性、關(guān)聯(lián)性和合法性進(jìn)行認(rèn)定,而手機(jī)來(lái)源識(shí)別是手機(jī)語(yǔ)音真實(shí)性鑒證的重要環(huán)節(jié)之一,已成為多媒體取證領(lǐng)域中的一個(gè)研究熱點(diǎn)[1-3]。

      1 相關(guān)工作

      目前熱門(mén)的基于語(yǔ)音的手機(jī)來(lái)源識(shí)別方法大都采用人工智能技術(shù),包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。Hanilci和Kinnunen[4]采用信息論的方法提取非語(yǔ)音部分的特征,利用最大互信息訓(xùn)練的高斯混合模型來(lái)表示特定設(shè)備的特征。Aggarwal等[5]從噪聲估計(jì)樣本中提取Mel頻率倒譜系數(shù)(Mel frequency cepstral coeffificient,MFCC),并使用支持向量機(jī)(support vector machine,SVM)進(jìn)行分類。Qi等[6]從背景噪聲中提取語(yǔ)音特征,并對(duì)比分析了在Softmax回歸模型、多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)下的識(shí)別性能。裴安山等[7]將本底噪聲作為手機(jī)的指紋,采用主成分分析法對(duì)本底噪聲特征進(jìn)行降維,并采用SVM進(jìn)行分類。此外,裴安山等[8]使用端點(diǎn)檢測(cè)得到語(yǔ)音的靜音段,然后將靜音段中對(duì)數(shù)域的Mel濾波器組系數(shù)(logarithmic Mel-filter bank coefficients,F(xiàn)bank)按照最佳優(yōu)先原則進(jìn)行交叉驗(yàn)證降維后交給SVM進(jìn)行分類。而且,裴安山等[9]還將語(yǔ)音的頻譜信息量、對(duì)數(shù)譜和相位譜三個(gè)特征進(jìn)行融合,并使用基于徑向基核函數(shù)的SVM進(jìn)行分類。Luo等[10]發(fā)現(xiàn)不同生產(chǎn)商在音頻采集管道上不盡相同,提出了一種基于帶能量描述符(band energy descriptor,BED)特征,可以作為一個(gè)具有顯著鑒別能力的魯棒指紋,表征設(shè)備特征,并在此基礎(chǔ)上基于BED和SVM提出了一種手機(jī)來(lái)源識(shí)別方法(BED+SVM)。Qin等[11]為了解決同一品牌手機(jī)的不同型號(hào)難以有效識(shí)別的難點(diǎn),提出了一種從CQT(constant Q transform,CQT)域的中低頻段提取頻譜分布特征,以有效地體現(xiàn)它們之間的細(xì)微差別,然后通過(guò)實(shí)驗(yàn)驗(yàn)證基于CQT和CNN的設(shè)備識(shí)別方法(CQT+CNN)具有更好的識(shí)別效果和更強(qiáng)的魯棒性。秦天蕓等[12]基于線性預(yù)測(cè)系數(shù)和MFCC特征得到線性預(yù)測(cè)梅爾頻率倒譜系數(shù),然后將這個(gè)新的特征與能量特征組合作為手機(jī)的指紋,最后基于SVM進(jìn)行分類。Jin等[13]利用編碼特征作為記錄設(shè)備的固有指紋,在研究了7個(gè)主流品牌的24款智能手機(jī)的編碼特征基礎(chǔ)上,提取一些重要參數(shù)的統(tǒng)計(jì)特征作為智能手機(jī)識(shí)別的判別特征,并且為了在合理的特征維數(shù)和較高的分類率之間保持平衡,設(shè)計(jì)了方差閾值和SVM相結(jié)合的兩步特征選擇策略來(lái)選擇最優(yōu)特征。Baldini和Amerini[14]在不同頻率下用非語(yǔ)音聲音刺激內(nèi)置麥克風(fēng),利用手機(jī)內(nèi)置麥克風(fēng)的固有物理特性構(gòu)建CNN對(duì)智能手機(jī)進(jìn)行識(shí)別和認(rèn)證。

      總的說(shuō)來(lái),基于語(yǔ)音的手機(jī)來(lái)源識(shí)別主要是挖掘語(yǔ)音信號(hào)中手機(jī)內(nèi)置麥克風(fēng)自身的高斯噪聲特征來(lái)進(jìn)行識(shí)別。上述已有工作雖然取得了不錯(cuò)的識(shí)別效果,但存在如下問(wèn)題:

      (1)已有方法均是采用標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),大都是純凈語(yǔ)音或人工背景噪聲語(yǔ)音,而在司法領(lǐng)域的實(shí)際應(yīng)用場(chǎng)景中,所提取的語(yǔ)音證據(jù)通常復(fù)雜多變,含有很強(qiáng)的環(huán)境背景噪聲,已有方法所提取的語(yǔ)音特征很難避免環(huán)境背景噪聲的干擾,難以反應(yīng)設(shè)備噪聲本身的特性。

      (2)語(yǔ)音信號(hào)具有典型的時(shí)間序列性,而已有工作中采用的深度神經(jīng)網(wǎng)絡(luò)方法很難在時(shí)間維度上進(jìn)行特征提取,難以捕捉時(shí)序上的依賴關(guān)系。

      (3)深度神經(jīng)網(wǎng)絡(luò)的性能高度依賴于其網(wǎng)絡(luò)結(jié)構(gòu),上述已有方法均采用前人經(jīng)驗(yàn)設(shè)置或手工試驗(yàn)調(diào)整,甚至對(duì)于不同背景、內(nèi)容的語(yǔ)音數(shù)據(jù)庫(kù)可能需要重新設(shè)計(jì)、反復(fù)試驗(yàn),不僅耗費(fèi)大量的人力成本,效率低下,而且很難找到一個(gè)高效可行、能夠滿足實(shí)際應(yīng)用需求的通用網(wǎng)絡(luò)結(jié)構(gòu),難以充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的最佳性能。

      基于上述背景,本文首先構(gòu)建了一個(gè)具有環(huán)境背景噪聲的手機(jī)語(yǔ)音數(shù)據(jù)庫(kù):通過(guò)搭建手機(jī)音頻網(wǎng)絡(luò)采集平臺(tái),任一用戶可不受性別、年齡、所處環(huán)境等限制,通過(guò)該平臺(tái)上傳5~15 min的MP3格式手機(jī)語(yǔ)音,并將搜集到的素材經(jīng)過(guò)處理、篩選,構(gòu)建了一個(gè)具有環(huán)境背景噪聲的手機(jī)語(yǔ)音數(shù)據(jù)庫(kù),包括在室內(nèi)、操場(chǎng)、地鐵站、馬路邊等日常場(chǎng)景下的對(duì)話、電影對(duì)白、無(wú)線電廣播等各種內(nèi)容。而且數(shù)據(jù)庫(kù)涵蓋了10個(gè)品牌、47種型號(hào)的不同手機(jī)設(shè)備,共32 900條語(yǔ)音,數(shù)據(jù)集包含的手機(jī)型號(hào)數(shù)目及語(yǔ)音數(shù)目均超過(guò)目前已有的手機(jī)來(lái)源識(shí)別數(shù)據(jù)庫(kù)。其次,本文基于Fbank特征利用時(shí)間卷積網(wǎng)絡(luò)(temporal convolutional network,TCN)[15]進(jìn)行深度語(yǔ)音特征學(xué)習(xí),并利用線性判別分析(linear discriminant analysis,LDA)[16]提取低維深度特征,最后將低維深度特征輸入到LIBSVM[17-18]中進(jìn)行訓(xùn)練和識(shí)別,這樣不僅可以有效提取手機(jī)設(shè)備的高斯噪聲特征,而且能夠很好地反映語(yǔ)音信號(hào)的時(shí)間序列關(guān)系。最后,本文提出一種基于遺傳算法(genetic algorithm,GA)[19]的TCN優(yōu)化方法,并設(shè)計(jì)編碼方式、適應(yīng)度函數(shù)和遺傳操作,不僅節(jié)省了網(wǎng)絡(luò)設(shè)計(jì)效率,而且可以充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的最佳性能。

      2 手機(jī)來(lái)源識(shí)別整體框架

      本文所提的手機(jī)來(lái)源識(shí)別整體框架如圖1所示,總共分為三個(gè)層次:TCN層、LDA層和SVM層。本文利用LibROSA工具包[20]提取手機(jī)語(yǔ)音信號(hào)中的Fbank特征[8]作為識(shí)別框架的輸入,這是因?yàn)榕c經(jīng)典的MFCC特征相比,F(xiàn)bank特征沒(méi)有進(jìn)行去相關(guān)和壓縮處理,保留了語(yǔ)音信號(hào)最原始的信息,擬合了人耳接收的特性,更符合聲音信號(hào)的本質(zhì),可以讓CNN更好地利用不同維度特征之間的相關(guān)性進(jìn)行模型訓(xùn)練[8,21]。

      圖1 手機(jī)來(lái)源識(shí)別整體框架Fig.1 Framework of source cell-phone identification

      為了盡可能地忽略掉環(huán)境背景噪聲的影響,本文讓TCN根據(jù)不同層級(jí)卷積特征的差異性去自主訓(xùn)練Fbank特征,從而暴力提取語(yǔ)音信號(hào)中的設(shè)備噪聲高維深度特征。與其他CNN相比,TCN可以根據(jù)不同任務(wù)的不同特性靈活選擇殘差模塊、激活函數(shù)、優(yōu)化器等結(jié)構(gòu)元素,從而可以靈活決定歷史記憶長(zhǎng)度,更加有利于捕捉時(shí)序上的依賴關(guān)系,從而能夠很好地迎合語(yǔ)音信號(hào)的時(shí)間序列性[15]。而且,還可以在TCN中多次利用加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的BatchNorm算法[22]來(lái)提高TCN的收斂速度和穩(wěn)定性。需要指出的是,對(duì)于常規(guī)的TCN應(yīng)用,通常采用全局平均池化層和softmax層對(duì)最后一個(gè)因果卷積層輸出的高維深度特征進(jìn)行數(shù)據(jù)的強(qiáng)制降維以實(shí)現(xiàn)分類和識(shí)別[15]。但是,通過(guò)大量測(cè)試發(fā)現(xiàn),當(dāng)手機(jī)語(yǔ)音數(shù)據(jù)集規(guī)模較小、訓(xùn)練不夠充分時(shí),這種暴力降維往往會(huì)丟失一些關(guān)鍵設(shè)備噪聲信息,且不能有效抵抗環(huán)境背景噪聲的影響,導(dǎo)致TCN的分類準(zhǔn)確率大幅下降。因此,本文保留了完整的TCN訓(xùn)練結(jié)構(gòu),但并沒(méi)有利用全局平均池化層和softmax層進(jìn)行分類和識(shí)別,而是將最后一個(gè)因果卷積層輸出的高維深度特征送給LDA層進(jìn)行有效的降維來(lái)實(shí)現(xiàn)低維深度特征(low-dimensional deep feature,LDDF)的提取。

      為了充分利用手機(jī)語(yǔ)音中的設(shè)備噪聲主要是高斯噪聲這一特性,本文采用對(duì)滿足高斯分布的數(shù)據(jù)效果特別顯著的LDA[16]對(duì)TCN輸出的高維深度特征進(jìn)行降維和優(yōu)化,去除高維深度特征中的冗余和相關(guān)性,以提取語(yǔ)音信號(hào)中設(shè)備噪聲的LDDF。最后,考慮到SVM在處理小樣本數(shù)據(jù)方面的優(yōu)勢(shì)以及較好的魯棒性,本文利用LIBSVM工具包[17-18]對(duì)提取的LDDF進(jìn)行訓(xùn)練建立手機(jī)設(shè)備多分類模型。

      從上面的介紹可以很容易看出,在圖1的整體框架中,LDA和SVM可以看作是TCN中全局平均池化層和softmax層的有效替代。影響分類效果的主要因素就是通過(guò)TCN層學(xué)習(xí)訓(xùn)練和暴力提取的高維深度特征是否能有效抵抗環(huán)境背景噪聲的干擾和充分反映設(shè)備噪聲信息。更進(jìn)一步的,在TCN層的網(wǎng)絡(luò)結(jié)構(gòu)中,影響TCN學(xué)習(xí)性能的主要因素可概括如下:

      (1)殘差模塊個(gè)數(shù):殘差模塊可以在很大程度上避免梯度爆炸和梯度消失,從而有效解決隨著神經(jīng)網(wǎng)絡(luò)層數(shù)變多擬合效果反而變差的問(wèn)題[15]。通常,每個(gè)殘差模塊包含5個(gè)殘差單元Res_unit。殘差模塊的個(gè)數(shù)在很大程度上決定了網(wǎng)絡(luò)的深度。從理論上來(lái)說(shuō),網(wǎng)絡(luò)越深其學(xué)習(xí)能力越強(qiáng),但容易造成過(guò)擬合,導(dǎo)致模型性能下降。因此,根據(jù)TCN學(xué)習(xí)效果,選擇合適數(shù)量的殘差模塊(即確定圖1中r的值),是需要面臨的第一個(gè)問(wèn)題。

      (2)激活函數(shù)的選擇:激活函數(shù)是為了在TCN中引入非線性因素以避免單純的線性組合,如Sigmoid、Tanh、ReLu、ELU等函數(shù)[23]。每一層的輸出通過(guò)這些激活函數(shù)之后,可以變得更加復(fù)雜,從而提升神經(jīng)網(wǎng)絡(luò)模型的整體表達(dá)能力。在圖1中,總共有6個(gè)位置需要用到激活函數(shù),因?yàn)樵谕痪W(wǎng)絡(luò)中,所有Res_unit通常采用相同的結(jié)構(gòu)。對(duì)于每一個(gè)位置,如何選擇最合適的激活函數(shù),是需要解決的第二個(gè)問(wèn)題。

      (3)優(yōu)化器的選擇:優(yōu)化器是根據(jù)網(wǎng)絡(luò)反向傳播的梯度信息來(lái)更新網(wǎng)絡(luò)的相關(guān)權(quán)重,以起到降低loss函數(shù)計(jì)算值的作用,避免網(wǎng)絡(luò)學(xué)習(xí)進(jìn)入局部最優(yōu)或鞍點(diǎn),如

      RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax、Nadam等算法[24]。不同的優(yōu)化算法其收斂速度和收斂性各不相同。因此,根據(jù)學(xué)習(xí)效果,選擇合適的優(yōu)化器,是需要解決的第三個(gè)問(wèn)題。

      正如前述,傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的手機(jī)來(lái)源識(shí)別方法大都依靠人工經(jīng)驗(yàn)選取相應(yīng)的結(jié)構(gòu)來(lái)解決上述三個(gè)問(wèn)題,效率極其低下。與已有工作不同的是,在圖1中,本文根據(jù)SVM層的分類效果,采用GA[19]來(lái)實(shí)現(xiàn)TCN層網(wǎng)絡(luò)結(jié)構(gòu)的智能和自動(dòng)設(shè)計(jì)。此外,需要強(qiáng)調(diào)的是,模式識(shí)別領(lǐng)域中已有的GA+SVM方法其主要思想是采用SVM分類效果作為GA中的適應(yīng)度函數(shù),從而實(shí)現(xiàn)特征的提取和選擇,以達(dá)到更好的識(shí)別效果,其編碼方式及遺傳操作通常是對(duì)特征進(jìn)行處理和操作。而本文方法則是利用TCN和LDA實(shí)現(xiàn)特征的提取和選擇,GA用來(lái)優(yōu)化TCN的結(jié)構(gòu),其編碼方式以及相應(yīng)的遺傳操作均是針對(duì)TCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行,SVM則直接利用提取的特征進(jìn)行分類。這種GA+TCN+LDA+SVM的優(yōu)勢(shì)在于,不僅能夠充分利用深度網(wǎng)絡(luò)提取更能代表設(shè)備特質(zhì)的低維深度特征,提高了識(shí)別性能,而且不需要對(duì)深度網(wǎng)絡(luò)進(jìn)行大量、繁瑣的調(diào)參工作,提高了網(wǎng)絡(luò)設(shè)計(jì)的效率。

      3 基于GA優(yōu)化TCN結(jié)構(gòu)

      GA[19]是模擬自然界生物進(jìn)化機(jī)制而發(fā)展起來(lái)的一種高效、并行、全局搜索和優(yōu)化方法,可以在搜索過(guò)程中自動(dòng)獲取和積累有關(guān)搜索空間的知識(shí),并自適應(yīng)地控制搜索過(guò)程以求得最佳解。GA通常由三個(gè)部分組成:種群、適應(yīng)度函數(shù)和進(jìn)化機(jī)制。具體來(lái)說(shuō),種群是一組個(gè)體(即候選解),會(huì)在迭代過(guò)程中被更新和維護(hù);適應(yīng)度函數(shù)用于給種群的每個(gè)候選解賦值;進(jìn)化機(jī)制包括精英保留、選擇、交叉和變異等基本算子。有關(guān)GA的更多詳細(xì)信息可參閱文獻(xiàn)[19]。

      與傳統(tǒng)人工智能系統(tǒng)不同,即使輸入發(fā)生了巨大的變化,GA也不會(huì)輕易崩潰,它具有在優(yōu)化過(guò)程中自適應(yīng)搜索的能力,特別適用于具有大狀態(tài)空間、多模態(tài)狀態(tài)空間、多維曲面等問(wèn)題,并已成功應(yīng)用于優(yōu)化各種CNN結(jié)構(gòu)[25-26]。因此,本文采用GA來(lái)智能優(yōu)化圖1中TCN層,其基本流程如圖2所示。首先基于個(gè)體編碼方案對(duì)種群(假設(shè)包含N個(gè)個(gè)體)進(jìn)行初始化。對(duì)于初始種群中的每個(gè)個(gè)體,根據(jù)基因編碼解碼出相應(yīng)的TCN網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行適應(yīng)度評(píng)估,然后利用選擇、交叉和變異三個(gè)遺傳操作產(chǎn)生進(jìn)化種群,再對(duì)進(jìn)化種群進(jìn)行適應(yīng)度評(píng)估。將初始種群和進(jìn)化種群合并,從組合種群中選擇適應(yīng)度值最好的N個(gè)個(gè)體組成新種群。此時(shí),如果算法未達(dá)到最大迭代次數(shù),則重復(fù)上述步驟讓新種群繼續(xù)進(jìn)化,否則從新種群中挑出適應(yīng)度值最大的個(gè)體進(jìn)行解碼,確定最佳的TCN結(jié)構(gòu)。

      圖2 GA優(yōu)化TCN的基本流程Fig.2 Flowchart of GA for optimizing TCN

      為了更加清晰地說(shuō)明GA如何智能優(yōu)化TCN,在下面的章節(jié)中,將詳細(xì)介紹圖2中的一些關(guān)鍵步驟。

      3.1 編碼方案與種群初始化

      從第2章知道,TCN中需要優(yōu)化的結(jié)構(gòu)元素有殘差模塊個(gè)數(shù)、激活函數(shù)和優(yōu)化器的選擇,是一個(gè)典型的組合優(yōu)化問(wèn)題。為了簡(jiǎn)化問(wèn)題的求解,采用一維整數(shù)編碼,如圖3所示。每個(gè)個(gè)體編碼有8個(gè)基因位,第1個(gè)基因位代表殘差模塊個(gè)數(shù),取值為[1,3]之間的一個(gè)隨機(jī)整數(shù);第2個(gè)基因位為優(yōu)化器,取值為[1,7]之間的一個(gè)隨機(jī)整數(shù),分別代表RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax和Nadam這7個(gè)優(yōu)化算法中的一個(gè);后面6個(gè)基因位為圖1中6個(gè)位置的激活函數(shù),取值為[1,4]之間的一個(gè)隨機(jī)整數(shù),分別代表Sigmoid、Tanh、ReLu和ELU這4個(gè)函數(shù)中的一個(gè)。這種編碼方式簡(jiǎn)單、容易理解,從根本上與TCN結(jié)構(gòu)優(yōu)化問(wèn)題的組合本質(zhì)相適應(yīng),從而為問(wèn)題的求解奠定了良好的基礎(chǔ)。

      圖3 個(gè)體編碼方案Fig.3 Encoding scheme of chromosome in GA

      對(duì)于初始種群中的每一個(gè)個(gè)體,按照?qǐng)D3的編碼方式在基因位各自的取值范圍內(nèi)隨機(jī)生成一個(gè)整數(shù),根據(jù)不同整數(shù)代表的含義就可以解碼出這個(gè)個(gè)體對(duì)應(yīng)的TCN采用的結(jié)構(gòu)。

      3.2 個(gè)體適應(yīng)度評(píng)估

      適應(yīng)度是指?jìng)€(gè)體在進(jìn)化過(guò)程中對(duì)環(huán)境的適應(yīng)能力。優(yōu)化TCN結(jié)構(gòu)的最終目的是提高手機(jī)來(lái)源識(shí)別方法的平均識(shí)別準(zhǔn)確率,即預(yù)測(cè)正確的樣本占所有樣本的比例。因此,如圖2所示,對(duì)于每個(gè)個(gè)體來(lái)說(shuō),根據(jù)解碼出的TCN結(jié)構(gòu),首先利用訓(xùn)練樣本對(duì)該TCN進(jìn)行訓(xùn)練,再用測(cè)試樣本進(jìn)行測(cè)試,以SVM層分類結(jié)果對(duì)應(yīng)的平均識(shí)別準(zhǔn)確率作為個(gè)體的適應(yīng)度值。

      3.3 二元錦標(biāo)賽選擇

      如同自然界的進(jìn)化一樣,最優(yōu)秀的個(gè)體應(yīng)該存活下來(lái)并被用來(lái)創(chuàng)造新的后代。也就是說(shuō),個(gè)體越優(yōu)秀,被選中的幾率就應(yīng)該越大。因此,利用二元錦標(biāo)賽選擇法來(lái)選擇當(dāng)前初始種群中的存活個(gè)體。首先從當(dāng)前初始種群中隨機(jī)選擇兩個(gè)候選個(gè)體,然后比較這兩個(gè)候選個(gè)體的適應(yīng)度值,選擇適應(yīng)度值更大的那個(gè)個(gè)體存活下來(lái)放入過(guò)渡種群中。重復(fù)上述步驟,直到這個(gè)過(guò)渡種群的規(guī)模達(dá)到設(shè)定的N。

      3.4 單點(diǎn)交叉

      交叉是將兩個(gè)選定的父代個(gè)體的基因位混合以生成兩個(gè)子代個(gè)體的過(guò)程。交叉通常使用較高的交叉率,一般取值在[0.8,0.95]之間。本文使用最簡(jiǎn)單的單點(diǎn)交叉來(lái)形成交叉種群。從過(guò)渡種群中依次選擇一對(duì)候選個(gè)體作為父代,然后在(0,1)之間生成一個(gè)隨機(jī)數(shù)。如果隨機(jī)數(shù)大于給定的交叉率,則直接將父代的基因位復(fù)制給兩個(gè)子代個(gè)體。否則,在圖3的8個(gè)基因位中隨機(jī)選擇一個(gè)基因位作為交叉點(diǎn),然后將兩個(gè)父代的基因位中超過(guò)交叉點(diǎn)的位在兩個(gè)父代之間交換,形成兩個(gè)子代個(gè)體。也就是說(shuō),從第一個(gè)基因位開(kāi)始到交叉點(diǎn)的所有位都是從一個(gè)父代個(gè)體復(fù)制的,剩下的基因位則是從另一個(gè)個(gè)父代個(gè)體復(fù)制的。這樣處理的好處是交叉后每個(gè)子代個(gè)體的各個(gè)基因位取值仍然能夠滿足各自的取值范圍約束,確保了子代個(gè)體的可行性。重復(fù)上述步驟,可以生成規(guī)模為N的交叉種群。

      3.5 二元變異

      在執(zhí)行交叉后,在交叉種群中對(duì)每個(gè)個(gè)體進(jìn)行變異操作,形成進(jìn)化種群。變異的目的是防止種群中的所有候選解陷入局部最優(yōu),并保持遺傳的多樣性。變異操作是在預(yù)先設(shè)定的變異率下執(zhí)行,其值通常設(shè)得很低。在本文中,采用經(jīng)典的全局二元變異策略,即每個(gè)個(gè)體的每一個(gè)基因位都獨(dú)立的隨變異率進(jìn)行突變,這一方法已廣泛應(yīng)用于各種元啟發(fā)式搜索算法中[27]。具體來(lái)說(shuō),對(duì)于交叉種群中的每個(gè)個(gè)體中的每個(gè)基因位,首先在(0,1)之間生成一個(gè)隨機(jī)數(shù),如果隨機(jī)數(shù)不大于給定的變異率,則在該基因位對(duì)應(yīng)的取值范圍內(nèi)隨機(jī)生成一個(gè)與當(dāng)前取值不同的整數(shù)來(lái)取代當(dāng)前的值。這樣既實(shí)現(xiàn)了基因突變,又能確保個(gè)體的可行性。變異率被設(shè)置為1/nbits,其中nbits是基因位的總位數(shù),在本文中nbits=8。

      3.6 重組與選擇

      將進(jìn)化種群進(jìn)行適應(yīng)度評(píng)估,并與當(dāng)前初始種群結(jié)合,形成大小為2N的組合種群。然后對(duì)組合種群中的個(gè)體適應(yīng)度值按照從大到小進(jìn)行排序,從組合種群中選擇N個(gè)適應(yīng)度值最大的個(gè)體組成下一代新的初始種群。由于以前和現(xiàn)在的所有最佳個(gè)體都被保留在了新種群中,這種精英保留策略確保了算法的收斂性。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 手機(jī)語(yǔ)音庫(kù)的建立

      目前用于手機(jī)來(lái)源識(shí)別的開(kāi)源語(yǔ)音庫(kù)均是在實(shí)驗(yàn)室環(huán)境下構(gòu)建的,且含有的手機(jī)型號(hào)較少。為了搜集盡可能多的具有自然環(huán)境背景噪聲的手機(jī)語(yǔ)音,搭建了一個(gè)手機(jī)音頻網(wǎng)絡(luò)采集平臺(tái),任一用戶可不受性別、年齡、所處環(huán)境等限制,通過(guò)該平臺(tái)上傳5~15 min的MP3格式手機(jī)語(yǔ)音。將搜集到的素材經(jīng)過(guò)處理、篩選,構(gòu)建了一個(gè)具有環(huán)境背景噪聲的手機(jī)語(yǔ)音數(shù)據(jù)庫(kù),包括在室內(nèi)、操場(chǎng)、地鐵站、馬路邊等日常場(chǎng)景下的對(duì)話、電影對(duì)白、無(wú)線電廣播等各種內(nèi)容。數(shù)據(jù)庫(kù)涵蓋了10個(gè)品牌、47種型號(hào)的不同手機(jī)設(shè)備,每種型號(hào)手機(jī)對(duì)應(yīng)不同的ID,如表1所示。其中每個(gè)ID手機(jī)收錄到的語(yǔ)音信號(hào)被平均分割成1 s,每個(gè)ID手機(jī)共收集700條語(yǔ)音片段,其中600條用于訓(xùn)練,其余100條用于測(cè)試。語(yǔ)音數(shù)據(jù)庫(kù)一共包含32 900條語(yǔ)音,其中訓(xùn)練樣本有28 200條語(yǔ)音,測(cè)試樣本包括4 700條語(yǔ)音。本文的所有實(shí)驗(yàn)均是基于以上語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行測(cè)試和分析。

      表1 每種手機(jī)的型號(hào)及其對(duì)應(yīng)的IDTable 1 Model and ID of each mobile phone

      4.2 參數(shù)設(shè)置與評(píng)價(jià)指標(biāo)

      對(duì)于LDA層和SVM層,均采用開(kāi)源包的默認(rèn)參數(shù)。對(duì)于GA,種群規(guī)模N=20,交叉率為0.9,變異率為0.125,最大迭代次數(shù)為50。對(duì)于TCN層,根據(jù)GA的優(yōu)化結(jié)果,最終確定殘差模塊個(gè)數(shù)為3,優(yōu)化器選擇RMSprop,6個(gè)位置的激活函數(shù)分別采用:(1)ELU、(2)Sigmoid、(3)ReLu、(4)ELU、(5)ReLu、(6)ELU。TCN的其他參數(shù)已在圖1的網(wǎng)絡(luò)結(jié)構(gòu)中給出。

      為了充分評(píng)估所提方法的性能,本文引入如下四種在機(jī)器學(xué)習(xí)中常用性能指標(biāo)[7-9]:準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1分?jǐn)?shù)(F1-score)。準(zhǔn)確率表示預(yù)測(cè)正確的樣本占所有樣本的比例,表示了一個(gè)分類器的區(qū)分能力。召回率是指在所有實(shí)際為正例的樣本中,被預(yù)測(cè)為正例的樣本比例。精確率代表的是在所有被分類為正例的樣本中,真正是正例的比例。F1分?jǐn)?shù)為精確率和召回率的諧波均值,兼顧了分類模型的精確率和召回率。

      所有測(cè)試均在Intel?Core?i7-8700 CPU@3.20 GHz 3.19 GHz、RAM16.0 GB、64位操作系統(tǒng)的個(gè)人PC上進(jìn)行。

      4.3 不同特征的對(duì)比

      為了驗(yàn)證GA優(yōu)化TCN的有效性,在第一個(gè)實(shí)驗(yàn)中,將優(yōu)化TCN后提取到的LDDF特征(optimized LDDF,OLDDF),與文獻(xiàn)[15]推薦的默認(rèn)參數(shù)TCN提取的LDDF、文獻(xiàn)[10]的BED特征和文獻(xiàn)[11]的CQT特征進(jìn)行對(duì)比分析。BED特征和CQT特征是分別與SVM和CNN結(jié)合的較好的兩種語(yǔ)音特征,且分別在純凈和人工背景噪聲手機(jī)語(yǔ)音庫(kù)上取得了較好的識(shí)別準(zhǔn)確率。采用流行的t-SNE(t-stochastic neighbor embedding)[28]來(lái)可視化每個(gè)特征,以直觀地查看每個(gè)特征的可分性。t-SNE方法能夠同時(shí)保持原有數(shù)據(jù)的全體與局部結(jié)構(gòu)的特性,可以全面地反應(yīng)不同特征的分類能力。

      圖4分別給出了BED特征、CQT特征、LDDF特征和OLDDF特征的t-SNE可視化結(jié)果。從圖中可以看出,BED和CQT特征的分類效果已經(jīng)較好,且二者的可分性不相上下,大多數(shù)設(shè)備可形成明顯可分離的簇。這是因?yàn)?,BED特征關(guān)注語(yǔ)音信號(hào)的傅里葉變換后的能量值差異,可以很好捕捉到不同品牌手機(jī)設(shè)備之間的細(xì)微差異,而CQT關(guān)注的是中、低頻頻帶的特征,與固定時(shí)頻分辨率的短時(shí)傅里葉變換相比,具有更高的低頻頻率分辨率和高頻時(shí)間分辨率。但是,雖然不同品牌之間手機(jī)設(shè)備的差異較明顯,但同一品牌不同型號(hào)手機(jī)設(shè)備之間的相似度較高,仍然有一些極其相似的手機(jī)設(shè)備無(wú)法分離出來(lái),簇與簇之間非常接近。LDDF特征是基于Fbank的深度特征,其可分性要顯著優(yōu)于BED特征和CQT特征,簇與簇之間的區(qū)別非常的明顯。這是因?yàn)椋現(xiàn)bank特征具有很大的相關(guān)性,充分保留了語(yǔ)音信號(hào)中的有效信息,經(jīng)過(guò)TCN暴力提取,充分挖掘了Fbank保留的有效特征,再經(jīng)過(guò)LDA去除冗余,可分性顯著提升。特別的,OLDDF特征分割出來(lái)的簇要比LDDF特征更加緊湊和平滑。究其原因,經(jīng)過(guò)GA優(yōu)化的TCN其特征學(xué)習(xí)能力進(jìn)一步得到增強(qiáng),讓OLDDF特征的可分性更好。

      圖4 不同特征的t-SNE可視化結(jié)果Fig.4 Visualization results of t-SNE for different features

      4.4 不同識(shí)別方法的對(duì)比

      為了進(jìn)一步驗(yàn)證GA優(yōu)化TCN的有效性,在第二個(gè)實(shí)驗(yàn),將LDDF+SVM、OLDDF+SVM、BED+SVM[10]和CQT+CNN[11]進(jìn)行對(duì)比實(shí)驗(yàn)分析。

      表2給出了不同識(shí)別方法的平均識(shí)別準(zhǔn)確率??梢钥闯觯诃h(huán)境背景噪聲手機(jī)語(yǔ)音庫(kù)上,BED+SVM和CQT+CNN的識(shí)別性能相當(dāng),而LDDF+SVM和OLDDF+SVM識(shí)別準(zhǔn)確率更高,這說(shuō)明本文選擇TCN挖掘設(shè)備深度特征的有效性。特別的,OLDDF+SVM相比LDDF+SVM又有了一定的提升,離完全識(shí)別只差了0.02%。上述實(shí)驗(yàn)結(jié)果表明,用GA優(yōu)化TCN結(jié)構(gòu)確實(shí)能改善手機(jī)來(lái)源的識(shí)別性能,進(jìn)一步降低了出錯(cuò)率。

      表2 不同識(shí)別方法的平均識(shí)別準(zhǔn)確率Table 2 Mean accuracy of different identification methods

      為了更加直觀地展示,圖5給出了OLDDF+SVM的詳細(xì)混淆矩陣[29]分析結(jié)果?;煜仃囍械拿恳恍写碓擃悩颖镜念A(yù)測(cè)結(jié)果,不同位置的值代表被預(yù)測(cè)成相應(yīng)ID的個(gè)數(shù),可以非常容易地可視化出多個(gè)類別是否有混淆,即一個(gè)類別被預(yù)測(cè)成另一個(gè)類別。由圖5可以看出,在47個(gè)手機(jī)ID上,OLDDF+SVM在45種手機(jī)ID上的識(shí)別準(zhǔn)確率達(dá)到了100%,只在ID25、ID38上有1個(gè)分類錯(cuò)誤。

      圖5 OLDDF+SVM的混淆矩陣結(jié)果Fig.5 Confusion matrix results obtained by OLDDF+SVM

      為了進(jìn)一步的對(duì)比,圖6分別給出了BED+SVM、CQT+CNN、LDDF+SVM和OLDDF+SVM四種方法在Recall、Precision和F1-score三個(gè)指標(biāo)上的測(cè)試結(jié)果。從圖中可以看出,在ID25和ID38上,OLDDF+SVM的召回率要稍微低于BED+SVM、CQT+CNN和LDDF+SVM,但超過(guò)98%,在其余45個(gè)不同ID上,OLDDF+SVM的召回率要顯著優(yōu)于BED+SVM和CQT+CNN,而LDDF+SVM在3個(gè)ID上未達(dá)到100%。此外,在所有47個(gè)不同ID上,OLDDF+SVM的精確率和F1分?jǐn)?shù)與LDDF+SVM不相上下,均要明顯好于BED+SVM和CQT+CNN。而且,可以很清楚地看到,在每個(gè)手機(jī)ID上,OLDDF+SVM在三個(gè)指標(biāo)上的綜合表現(xiàn)非常突出,明顯優(yōu)于BED+SVM、CQT+CNN和LDDF+SVM,幾乎在每個(gè)ID上的每個(gè)指標(biāo)都達(dá)到了100%。

      圖6 不同識(shí)別方法在不同指標(biāo)上的實(shí)驗(yàn)結(jié)果Fig.6 Experimental results of different identification methods on different metrics

      綜合分析以上實(shí)驗(yàn)結(jié)果,本文引入TCN來(lái)暴力挖掘手機(jī)語(yǔ)音的深度特征信息,并基于GA優(yōu)化TCN結(jié)構(gòu),提升特征提取的性能。所提方法在環(huán)境背景噪聲下的手機(jī)來(lái)源識(shí)別更為精準(zhǔn),進(jìn)一步降低了出錯(cuò)率,對(duì)司法領(lǐng)域的實(shí)際應(yīng)用具有潛在的價(jià)值。究其原因,本文所提方法利用GA優(yōu)化后的TCN從Fbank特征中學(xué)習(xí)語(yǔ)音信號(hào)中的深度特征,更能充分發(fā)揮TCN的學(xué)習(xí)性能,所提取的OLDDF特征更能反應(yīng)設(shè)備本身特性,而與說(shuō)話人(年齡、性別等)、場(chǎng)景、內(nèi)容(日常對(duì)白、唱歌、廣播等)等環(huán)境背景噪聲無(wú)關(guān),具有更好的魯棒性。

      5 結(jié)束語(yǔ)

      基于手機(jī)語(yǔ)音的來(lái)源設(shè)備識(shí)別是多媒體取證領(lǐng)域中的一個(gè)熱點(diǎn)問(wèn)題,本文針對(duì)司法領(lǐng)域?qū)Νh(huán)境背景噪聲下的手機(jī)語(yǔ)音證據(jù)的鑒真需求,首先提取手機(jī)語(yǔ)音中的Fbank特征以保留完整的設(shè)備噪聲信息,并輸入到TCN中進(jìn)行訓(xùn)練,進(jìn)一步提取能夠表征語(yǔ)音設(shè)備的深度特征,然后利用LDA進(jìn)行降維,去除高維深度特征中的冗余,并交給LIBSVM進(jìn)行分類。特別的,利用GA對(duì)TCN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行智能優(yōu)化和自動(dòng)設(shè)計(jì),以最大化發(fā)揮TCN的學(xué)習(xí)性能。通過(guò)在47種型號(hào)手機(jī)設(shè)備錄制的32 900條環(huán)境背景噪聲語(yǔ)音樣本庫(kù)上的實(shí)驗(yàn)表明,本文所提方法在準(zhǔn)確率、召回率、精確率和F1分?jǐn)?shù)四個(gè)主流指標(biāo)上的整體表現(xiàn)要明顯優(yōu)于已有識(shí)別方法BED+SVM和CQT+CNN,大大降低了出錯(cuò)率,為環(huán)境背景噪聲下的手機(jī)來(lái)源識(shí)別提供了一個(gè)有益的嘗試。但由于實(shí)驗(yàn)條件的限制,本文收錄的手機(jī)型號(hào)覆蓋范圍還不夠廣泛,在未來(lái)仍需進(jìn)一步擴(kuò)充語(yǔ)音庫(kù),而且還需要嘗試其他的手機(jī)語(yǔ)音格式以及受到攻擊的語(yǔ)音。

      猜你喜歡
      背景噪聲適應(yīng)度種群
      邢氏水蕨成功繁衍并建立種群 等
      窄帶電力線通信信道背景噪聲抑制方法
      改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
      山西省發(fā)現(xiàn)刺五加種群分布
      應(yīng)用背景噪聲成像研究祁連山地區(qū)地殼S波速度結(jié)構(gòu)
      地震研究(2017年3期)2017-11-06 23:38:05
      基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
      海上單道地震勘探中船舶等背景噪聲的影響分析及壓制
      青藏高原東北緣背景噪聲特征分析
      地震研究(2014年4期)2014-02-27 09:31:15
      崗更湖鯉魚(yú)的種群特征
      少數(shù)民族大學(xué)生文化適應(yīng)度調(diào)查
      湖南省| 武汉市| 祁东县| 海安县| 牡丹江市| 民县| 托克托县| 卫辉市| 永和县| 西峡县| 镇赉县| 昌宁县| 怀安县| 江津市| 虹口区| 桃园市| 兖州市| 石泉县| 泰顺县| 四子王旗| 永登县| 榆社县| 长沙市| 隆化县| 绥芬河市| 治多县| 临漳县| 慈溪市| 安化县| 东乡族自治县| 龙海市| 玉环县| 高阳县| 如东县| 冷水江市| 灵武市| 霍州市| 阜阳市| 灯塔市| 沿河| 安康市|