潘嘉惠,賈寧
(大連東軟信息學院,遼寧 大連 116023)
在人與人的交流過程中,除了語言、面部和行為所表達的直接的語義信息外,人類的情感也傳遞了重要的信息。對人類情感機理的研究與探索一直是科學研究的重要方向,人類的智能不僅表現(xiàn)為正常的理性思維和邏輯推理能力,也應表現(xiàn)為正常的情感能力。
在日常生活、學習和工作過程中,長時間的勞累很容易為用戶帶來一系列的負面的情緒影響,從而危害用戶的健康。計算機作為現(xiàn)有的核心溝通工具之一,在與其進行交互時,人們希望機器能理解自己的需要和感受,并做出適當?shù)姆磻?/p>
因此,對于用戶情感的識別與調節(jié),具有很大的市場應用前景。未來的個人計算機通過情感識別技術,在對用戶情感進行建模、分析的基礎上,可以對用戶的疲倦程度做出一個合理的判斷。
進而通過語音對話、播放輕松音樂、調節(jié)舒適燈光、控制家居外設等多種形式,調節(jié)用戶的情緒,緩解用戶的疲倦感,提醒用戶合理的休息,提供更健康、更優(yōu)質的和諧人機交互體驗。
現(xiàn)階段的語音識別與生成技術都是基于大規(guī)模語音數(shù)據(jù)庫來實現(xiàn)的,語音數(shù)據(jù)庫的主要實現(xiàn)目標主要有兩個:一是語音的訓練階段,通過統(tǒng)計學方法,深入挖掘大量語音數(shù)據(jù)中所蘊含的規(guī)律與模型二是在語音的生成階段,提供大量的合成基元,通過一定規(guī)律來拼接成語音。
因此,語音庫的構建是語音合成的一個重要組成部分?,F(xiàn)有數(shù)據(jù)庫由于版權、規(guī)模、費用、功能用途等方面原因很難滿足現(xiàn)有的語音合成系統(tǒng)要求,而情感語音庫相關方面的研究更加匱乏,綜合以上原因,建立一個情感表達準確、語音質量高、數(shù)據(jù)規(guī)模大的情感語音數(shù)據(jù)庫是研究情感語音處理的重要前提與基礎。
情緒調節(jié)器分為三個部分:情緒調節(jié)裝置、服務器端和家居外設。通過三者之間的通信和聯(lián)動達到與用戶進行良好的情緒溝通的目。其主要運行順序是通過喚醒模塊進行喚醒可以通過語音和距離,然后用戶的語音通過情緒識別模型從而識別用戶是悲傷開心平靜還是生氣。
識別情緒之后通過情緒對話策略裝置找到緩解用戶情緒的辦法比如通過用戶的情緒來找到一些緩解他情緒的歌曲最后通過語音生成模型來表達裝置分了三種模式:(1)說話者識別模型根據(jù)稱呼和個性化聲紋模型進行識別;(2)語音識別模型根據(jù)語音轉為語音文本然后對文本進行判別后通過硬件反饋內容生成對話文本和相應的情緒調節(jié)文本最后生成了語音模型;(3)情緒識別模型識別情緒反饋應答最終進入到語音模型共同完成情緒文本進行語音應答。模型如圖1所示:
圖1 交互體體系(Interactive Architecture)
情緒調節(jié)裝置由喚醒模塊、情緒識別模型、情緒對話策略和語音生成模塊構成。喚醒模塊用于裝置的語音喚醒,可通過語音喚醒或距離喚醒方式實現(xiàn)。情緒識別模型則利用流行的深度學習算法,在線識別用戶語音中表達的高興、憤怒、悲傷或平靜等情緒。情緒對話策略則注重于用戶特定情緒的反饋,其輸出為調節(jié)用戶的特定情緒表達。
語音生成模塊則根據(jù)生成模型,在線生成指定聲紋特征、指定情感的文字的語音,并使用富有感情的語氣朗讀出來。在針對情緒識別之前,首先需要確定語音信號中的情感特征,本項目針對韻律學特征、基于譜的相關特征、聲學質量特征、融合特征、深度學習下語音特征等進行情感分析,目前,已經(jīng)獲得的聲學特征與情感之間的關聯(lián),如表1所示。
表1 不同情感語音的特征規(guī)律(Characteristics of speech sound with different emotions)
服務器端在獲取語音數(shù)據(jù)后,可以上傳用戶的語音到服務器,可以使用各自的標簽對進行數(shù)據(jù)的提取,針對不同的音頻文件,設計其具有特色的文件名解析規(guī)則,即提供不同的正則表達式模板,在鎖定標簽對所包含的數(shù)據(jù)范圍后,對其進行數(shù)據(jù)拆分,解析目標信息。
家居外設將系統(tǒng)可識別的控制信號送至CPU處理器??刂栖浖M行系統(tǒng)功能識別,在串口向無線模塊發(fā)出相應的操作指令,借助無線模塊,系統(tǒng)控制命令被快速傳送至外設中,從而實現(xiàn)針對家庭內部的各種電器和傳感器進行有效的監(jiān)測活動。操縱家居外設的基本流程如圖2所示:
圖2 家居外設操縱基本流程(Home Peripherals Control Basic Process)
采用低級描述符(LLD)和高級統(tǒng)計功能(HSF)可以獲得語音特征局部信息,但是無法涵蓋語音特征的全局信息,特征提取的維度越高,特征表示越全面,但隨之而來的是更為復雜的深度學習模型,反而無法獲得更高的識別精度。針對韻律學特征、基于譜的相關特征、聲學質量特征、融合特征、深度學習下語音特征等進行情感分析
考慮在傳統(tǒng)的手工制作的基礎上,增加原始語音的全局信號輸入,這樣既保證了手工制作特征的維度適當,又可以得到語音的全局信息?;诖耍蒙窠?jīng)網(wǎng)絡構建手工制作的HSF和CRNN學習特征的聯(lián)合表示,專注于包含強烈發(fā)音信息記錄的特定部分和全局信息,從而實現(xiàn)對語音情感強弱的判定。
具體地,通過隱藏層,將兩種類型的特征一起投影到相同的特征空間中,同時減少原始特征的維度。網(wǎng)絡架構由兩個部分組成,第一部分是卷積特征提取器,它以頻譜圖作為輸入,頻譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數(shù)據(jù)能量。由于其采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的。
對于預先分段的語音,可以獲得每個片段的CNN學習特征。第二部分是BMLSTM,其中每個時間步對應于原始音頻輸入的一段,無需對音頻進行削波或填充,而且可以保留段間的長期依賴性。服務器端主要是Hadoop的分布式存儲架構,HDFS的數(shù)據(jù)存儲方式,基于云服務器的數(shù)據(jù)庫設計基于Hadoop的分布式存儲架構基于HDFS的數(shù)據(jù)存儲方式,自動完成多次備份操作基于云服務器的數(shù)據(jù)庫設計
在獲取語音數(shù)據(jù)后,可以上傳用戶的語音到服務器,可以使用各自的標簽對進行數(shù)據(jù)的提取,針對不同的音頻文件,設計其具有特色的文件名解析規(guī)則,即提供不同的正則表達式模板,在鎖定標簽對所包含的數(shù)據(jù)范圍后,對其進行數(shù)據(jù)拆分,解析目標信息。此部分工作冗余性較強,解析規(guī)則顯得格外重要。
通過最大池化層、最小池化層和平均池化層計算輸出的統(tǒng)計數(shù)據(jù),并將得到的池化向量連接成一體。解析后的數(shù)據(jù)存入HDFS中,并自動完成多次備份操作,此處設置為3個副本,便于后續(xù)數(shù)據(jù)的存儲與查詢。服務器端存儲數(shù)據(jù)的基本流程如圖3所示:
圖3 服務器端存儲數(shù)據(jù)的基本流程(The basic process of storing data on the serve side)
關鍵詞識別算法. 首先采用一種基于度量距離的改進型語音分割算法, 將連續(xù)語音流分割成孤立音節(jié), 再將音節(jié)細分成和音素狀態(tài)聯(lián)系的短時音頻片段, 分割后的音頻片段具有段間特征差異大, 段內特征方差小的特點.接著利用一種改進的矢量量化方法對音頻片段的狀態(tài)特征進行編碼。
實現(xiàn)了關鍵詞集內詞的高精度量化編碼和集外詞的低精度量化編碼. 最后以音節(jié)為識別單位, 采用壓縮的狀態(tài)轉移矩陣作為音節(jié)的整體特征, 送入深度神經(jīng)網(wǎng)絡進行語音識別. 仿真結果表明, 該算法能從自然語音流中較為準確地識別出多個特定關鍵詞。
自相關基音檢測算法是語音信號處理的關鍵技術,算法的效率直接影響語音信號實時處理的質量.在對自相關基音檢測算法基本原理進行分析的基礎上,設計了Matlab算法實現(xiàn)方案,通過對一段具體語音時域信號采樣值進行濾波、分幀、求短時自相關函數(shù)得到了濁音語音的基音周期.試驗結果表明,該算法結構簡單,運算量小,效率高。
聲音作為一種重要的信息媒介,能夠為維修人員提供大量的裝備信息;但實際維修環(huán)境受到車輛啟動噪聲的干擾,難以準確直觀地對聲音進行判斷;為實現(xiàn)對炮控系統(tǒng)各主要聲音部組件啟動過程的識別,提出了一種基于改進譜減法降噪和多類型識別策略的聲音識別算法;通過對炮控系統(tǒng)各部組件與發(fā)動機聲音信號的分析。
利用改進譜減法對聲音樣本進行了降噪處理,并通過實驗優(yōu)化了譜減參數(shù),進一步提升了降噪性能,解決了強噪聲干擾的問題;利用滑窗校正和短時能量同步檢測的方法制定了具體的識別策略,解決了實際應用中識別結果不穩(wěn)定以及多類型過程識別的問題;通過實驗驗證,該聲音識別算法對炮控系統(tǒng)各部件啟動狀態(tài)識別準確率達92.4%,具有較好的識別性能
情緒調節(jié)裝置:深度學習網(wǎng)絡模型情緒識別關鍵詞識別語音聽寫去噪。
系統(tǒng)主要從語音庫中的數(shù)據(jù)提取情感語音的韻律特征并進行建模,其生成的語音質量與語音庫的原始數(shù)據(jù)有直接關系。所以研究情感語音生成技術的首要工作就是建立一個數(shù)據(jù)規(guī)模大、情感表達準確、收錄語音質量高的情感語音庫。情感語音按采集方式不同分為自然語音、誘導語音和表演語音。本數(shù)據(jù)庫是基于自然語音的形式構建真實情感的集合,共收錄高興、憤怒、平靜和悲傷四種情感。
構成語音數(shù)據(jù)庫的文本要求覆蓋盡可能多的語言單元,同時又要求語音數(shù)據(jù)庫的規(guī)模不能過大,因此在建立情感語音數(shù)據(jù)庫時,擬引入改進的貪婪算法,將傳統(tǒng)的文本篩選方式與統(tǒng)計方法相結合。語料形式選擇富有豐富情感的言語,相對不同的語境具有不同的理解形式,話語樣式在一定程度上滿足情感豐富多樣性的需要。錄音文件以wav格式保存,采樣率為4400Hz,精度為16bit,采用單聲道錄制。
實現(xiàn)一個可以在線調節(jié)用戶情緒的裝置,根據(jù)用戶的語音識別情緒,從而對其進行調節(jié),基于此,將智能情緒調節(jié)器分為三個部分:情緒調節(jié)裝置、服務器端和家居外設。通過三者之間的通信和聯(lián)動達到與用戶進行良好的情緒溝通的目。其主要運行順序是通過喚醒模塊進行喚醒可以通過語音和距離,然后用戶的語音通過情緒識別模型從而識別用戶是悲傷開心平靜還是生氣,識別情緒之后通過情緒對話策略裝置找到緩解用戶情緒的辦法比如通過用戶的情緒來找到一些緩解他情緒的歌曲最后通過語音生成模型來表達。
家居外設內部實現(xiàn)向無線模塊發(fā)出相應的操作指令借助無線模塊,系統(tǒng)控制命令被快速傳送至外設中針對家庭內部的各種設備和相關傳感器進行有效的監(jiān)測活動輔助情緒調節(jié)樹莓派設備結合無線模塊,實現(xiàn)服務器與外設通信針對用戶特定情緒,自動播放治愈語音、樂曲多種模式,實現(xiàn)自動喚醒。
智能情緒裝置我們主要用了卷積神經(jīng)網(wǎng)路,韻律學特征,深度學習下語音特征技術,服務器端主要是Hadoop的分布式存儲架構,HDFS的數(shù)據(jù)存儲方式,基于云服務器的數(shù)據(jù)庫設計,家居外設主要是樹莓派開發(fā)板,Wifi通信設備,傳感器。
本項目的創(chuàng)新點1提出傳統(tǒng)語音特征的提取方法、深度學習特征表示的情感語音特定的提取方法2將語音識別、說話者識別、情感識別及個性化語音生成模型相結合,提出一種新型的智慧情緒調節(jié)系統(tǒng)3設計了一種全局特征選擇、局部感受野與注意力機制相結合的多通道神經(jīng)網(wǎng)絡模型,在增加注意力機制的基礎上,構建語音情感分類模型。外設模型如圖4所示:
圖4 外設(Peripheral equipment)
提出傳統(tǒng)語音特征的提取方法、深度學習特征表示的情感語音特定的提取方法設計了一種全局特征選擇局部感受野與注意力機制相結合的多通道神經(jīng)網(wǎng)絡模型,在增加注意力機制的基礎上,構建語音情感分類模型。 將語音識別、說話者識別、情感識別及個性化語音生成模型相結合,提出一種新型的智慧情緒調節(jié)系統(tǒng)。
為用戶提供及時性的情感溝通與家居生活服務,促進用戶生活服務智能化,無線網(wǎng)絡區(qū)域內實現(xiàn)數(shù)字可視化溝通。可用于智能汽車、智慧社區(qū)、智能機器人等產(chǎn)品中;可應用在情緒分析、心理治療、抑郁癥治療等多種應用領域。