趙志軍
(東莞市經(jīng)濟(jì)貿(mào)易學(xué)校 廣東省東莞市 523000)
在時(shí)代不斷發(fā)展的過(guò)程中,語(yǔ)言和聲音識(shí)別功能已經(jīng)引起了社會(huì)各界的廣泛關(guān)注。語(yǔ)言和聲音識(shí)別是在傳統(tǒng)的線性系統(tǒng)理論上,例如隱馬爾可夫模型和動(dòng)態(tài)的時(shí)間規(guī)整技術(shù)創(chuàng)造出來(lái)的一種新型的技術(shù)。在對(duì)語(yǔ)言和聲音識(shí)別功能進(jìn)行深度研究的過(guò)程中可以發(fā)現(xiàn),語(yǔ)言和聲音的信號(hào)屬于非常復(fù)雜的非線性過(guò)程。如果要對(duì)這項(xiàng)功能進(jìn)行完善,就要引進(jìn)更加先進(jìn)的理論方法,促進(jìn)技術(shù)進(jìn)行更好的發(fā)展。例如將人工神經(jīng)的網(wǎng)絡(luò)和混沌的分型應(yīng)用到語(yǔ)言和聲音識(shí)別的過(guò)程中,使得這項(xiàng)功能在使用時(shí)更加的智能。從而滿足人類(lèi)發(fā)展的各項(xiàng)需求,提高機(jī)器人的應(yīng)用水平[1]。
一般來(lái)說(shuō)在進(jìn)行語(yǔ)言和聲音智能系統(tǒng)建設(shè)的過(guò)程中,是由兩個(gè)主要成分組成的,一方面是對(duì)語(yǔ)言和聲音進(jìn)行識(shí)別,另一方面實(shí)現(xiàn)語(yǔ)言和聲音的合成。在進(jìn)行語(yǔ)言和聲音智能系統(tǒng)處理的過(guò)程中,首先要建立一個(gè)語(yǔ)言和聲音數(shù)據(jù)庫(kù),然后對(duì)相應(yīng)的特征進(jìn)行提取,通過(guò)開(kāi)展聲學(xué)模型的訓(xùn)練,建設(shè)一個(gè)完整的聲學(xué)模型。然后對(duì)語(yǔ)言和聲音進(jìn)行解碼,還要搜索算法,從而進(jìn)行文字的輸出。或者建立一個(gè)文本的數(shù)據(jù)庫(kù),開(kāi)展語(yǔ)言的模型訓(xùn)練,從而建設(shè)一個(gè)完整的語(yǔ)言模型,對(duì)語(yǔ)言和聲音進(jìn)行解碼和算法的搜索之后進(jìn)行文本的輸出。也可以通過(guò)字典進(jìn)行語(yǔ)言和聲音的解碼和算法的搜索,進(jìn)而進(jìn)行文本的輸出?;蛘呖梢酝ㄟ^(guò)語(yǔ)言和聲音的輸入進(jìn)行特征的提取,然后進(jìn)行語(yǔ)言和聲音的解碼和算法的搜索,進(jìn)而實(shí)現(xiàn)文本的輸出。在對(duì)語(yǔ)言和聲音進(jìn)行識(shí)別時(shí),是對(duì)輸入的物理性語(yǔ)言和聲音進(jìn)行特征的提取,并且轉(zhuǎn)化為一個(gè)特定的信號(hào)。從物理學(xué)的角度進(jìn)行分析,可以得知聲和音的發(fā)出屬于一種波,被稱(chēng)為聲波。例如壓縮格式下的文件內(nèi)容展開(kāi)之后,就可以轉(zhuǎn)化為不屬于壓縮形式的各種純波性質(zhì)的文件,可以通過(guò)這種性質(zhì)的文件對(duì)各種聲和音進(jìn)行處理。在對(duì)文件內(nèi)容進(jìn)行展開(kāi)之后,形成的波狀圖案內(nèi)部存在很多點(diǎn),每個(gè)點(diǎn)就是一個(gè)具體的象征,可以通過(guò)剪切對(duì)這些聲音和信息進(jìn)行截取[2]。
在進(jìn)行語(yǔ)言和聲音的合成時(shí),屬于文字和語(yǔ)言的一種轉(zhuǎn)換技術(shù)。能夠?qū)⒁恍┎煌?lèi)型的正確文字,隨時(shí)隨地的轉(zhuǎn)化為標(biāo)準(zhǔn)的流暢語(yǔ)言進(jìn)行表達(dá),這就相當(dāng)于讓機(jī)器設(shè)備具備了人類(lèi)的表達(dá)能力。雖然這種表達(dá)能力是按照計(jì)算機(jī)設(shè)備的程序規(guī)則進(jìn)行設(shè)計(jì)的,難以對(duì)語(yǔ)言和聲音及信息進(jìn)行選擇性的回答,自主性特征也比較差。實(shí)際上在對(duì)文字、語(yǔ)言進(jìn)行轉(zhuǎn)化時(shí),建立的系統(tǒng)需要通過(guò)兩個(gè)步驟實(shí)現(xiàn)具體的轉(zhuǎn)換。第1 步需要將文字分開(kāi),形成一個(gè)獨(dú)立的音韻特征,這樣每個(gè)文字就屬于一組單獨(dú)的音韻部分。第2 步是根據(jù)已有音韻組成的序列生成一個(gè)語(yǔ)言和聲音的波形,實(shí)際上這種波形的形成與語(yǔ)言和聲音的識(shí)別存在較大的差異。因?yàn)檎Z(yǔ)言和聲音處理屬于系統(tǒng)的核心環(huán)節(jié),主要是根據(jù)人類(lèi)自身對(duì)所有語(yǔ)言文字的理解,讓計(jì)算機(jī)設(shè)備對(duì)其存在特定的理解。并且對(duì)特定韻律和聲學(xué)進(jìn)行處理,通過(guò)韻律的處理形成一種語(yǔ)言文字的音段特征,然后進(jìn)行聲學(xué)的處理。得出最終的結(jié)果,將語(yǔ)言和信息進(jìn)行輸出。這樣就實(shí)現(xiàn)了語(yǔ)言文字的識(shí)別和處理功能,并且建設(shè)了一個(gè)完整的語(yǔ)言和聲音模型系統(tǒng)[3]。
圖1:語(yǔ)言和聲音合成技術(shù)
語(yǔ)言和聲音識(shí)別技術(shù)也被稱(chēng)為自動(dòng)的語(yǔ)言和聲音識(shí)別技術(shù),這項(xiàng)技術(shù)的應(yīng)用范圍比較廣泛,典型的技術(shù)應(yīng)用形式就是進(jìn)行撥號(hào)和登錄,實(shí)現(xiàn)設(shè)備的控制、語(yǔ)言和聲音文檔的檢索等。與人類(lèi)自身的識(shí)別功能存在較大的差異。這項(xiàng)系統(tǒng)在應(yīng)用的過(guò)程中,可以對(duì)不同人類(lèi)說(shuō)話的聲音進(jìn)行準(zhǔn)確的識(shí)別,還可以對(duì)所表達(dá)的內(nèi)容進(jìn)行改變,這項(xiàng)技術(shù)應(yīng)用的最終目的是將人類(lèi)所表達(dá)出來(lái)的內(nèi)容轉(zhuǎn)化為設(shè)備中的二進(jìn)制編碼或者代碼以及字符序列。語(yǔ)言和聲音識(shí)別技術(shù)在應(yīng)用的過(guò)程中屬于典型的交叉型內(nèi)容,是一種典型的信息類(lèi)技術(shù)。借助這項(xiàng)功能人類(lèi)可以與機(jī)器設(shè)備進(jìn)行直接的交流,并與人類(lèi)交流存在一定的相似之處??梢灾苯酉驒C(jī)器人設(shè)備詢問(wèn)相應(yīng)的信息,機(jī)器人設(shè)備可以根據(jù)問(wèn)題選擇性的提取相應(yīng)的內(nèi)容,并且給予特殊的回答。機(jī)器設(shè)備的系統(tǒng)可以通過(guò)識(shí)別技術(shù)的應(yīng)用,對(duì)說(shuō)話的對(duì)象和展現(xiàn)的內(nèi)容進(jìn)行自動(dòng)的分辨,并且生成特定的指令。在接收到這些指令之后,需要自主的完成相應(yīng)的要求。識(shí)別系統(tǒng)不需要通過(guò)記住固定的口令也可以分辯出來(lái),系統(tǒng)也不會(huì)被錄音等設(shè)備所欺騙。例如微信軟件就具備語(yǔ)言和聲音的登錄功能,可以根據(jù)音韻序列生成聲音的波形對(duì)其進(jìn)行分辯,與機(jī)器人設(shè)備進(jìn)行相應(yīng)的交流。讓機(jī)器人設(shè)備明白自身所表達(dá)的內(nèi)容,然后識(shí)別指令完成相應(yīng)的動(dòng)作,是語(yǔ)言和聲音分析領(lǐng)域所尋找的一項(xiàng)技術(shù)。這項(xiàng)技術(shù)是將說(shuō)出來(lái)的語(yǔ)言轉(zhuǎn)化為聲波的特征進(jìn)行分析,然后提取到相應(yīng)信息之后進(jìn)行儲(chǔ)存,最終轉(zhuǎn)化為文本類(lèi)型的信息[4]。
如圖1所示,在對(duì)智能機(jī)器人的語(yǔ)言和聲音轉(zhuǎn)化過(guò)程進(jìn)行分析時(shí),可以得知合成技術(shù)也被稱(chēng)之為文字語(yǔ)言轉(zhuǎn)換技術(shù)。就是將計(jì)算機(jī)設(shè)備程序生成的或者從外部輸入的類(lèi)似文字的語(yǔ)言信息,例如文本和文檔內(nèi)容中的文字類(lèi)信息,按照語(yǔ)言和聲音處理的方式將其轉(zhuǎn)化為語(yǔ)言,輸出到外部環(huán)境中。所以在進(jìn)行機(jī)器設(shè)備表達(dá)時(shí)與傳統(tǒng)的聲音回放存在較大的區(qū)別,傳統(tǒng)的聲音回放是通過(guò)語(yǔ)言和聲音的錄制然后進(jìn)行回放,例如錄音機(jī)等設(shè)備。傳統(tǒng)的語(yǔ)言和聲音回放技術(shù)在應(yīng)用的過(guò)程中不夠先進(jìn),無(wú)法實(shí)現(xiàn)技術(shù)應(yīng)用的方便性和及時(shí)性,在進(jìn)行信息儲(chǔ)存和傳輸?shù)倪^(guò)程中會(huì)受到各種因素的限制。在進(jìn)行語(yǔ)言和聲音合成技術(shù)應(yīng)用時(shí),操作形式更加的簡(jiǎn)單靈活。但在進(jìn)行文語(yǔ)轉(zhuǎn)換系統(tǒng)建設(shè)時(shí),各項(xiàng)內(nèi)容比較復(fù)雜,需要促進(jìn)技術(shù)的成熟應(yīng)用才能降低錯(cuò)誤率[5]。
當(dāng)前在進(jìn)行機(jī)器人研發(fā)的過(guò)程中已經(jīng)制作出來(lái)了智能型的機(jī)器人,這種機(jī)器人擁有世界較大的智能機(jī)器人云服務(wù)平臺(tái),而且服務(wù)范圍非常的廣,用戶也在逐漸的增多。例如在進(jìn)行相應(yīng)機(jī)器人用的過(guò)程中,可以實(shí)現(xiàn)智能客服和政務(wù)以及語(yǔ)言和聲音等領(lǐng)域的操作。在進(jìn)行智能型機(jī)器人設(shè)備研發(fā)的過(guò)程中所使用的識(shí)別技術(shù),需要采用一種特殊的算法。要對(duì)信息進(jìn)行自動(dòng)的處理和調(diào)節(jié),也就是說(shuō)要對(duì)所有信息數(shù)據(jù)進(jìn)行直接的處理,不需要中間比較復(fù)雜的改變形式。所以處理的速度非常的快,這樣可以給使用者帶來(lái)更加優(yōu)異的體驗(yàn)。在進(jìn)行識(shí)別技術(shù)應(yīng)用的過(guò)程中,可以對(duì)人類(lèi)的聲音特征進(jìn)行分析。在提取到聲音特征的樣本之后,可以對(duì)其進(jìn)行有效的分析和處理,所以這項(xiàng)技術(shù)在應(yīng)用的過(guò)程中更加的準(zhǔn)確,可以提高聲音識(shí)別的正確率。在進(jìn)行這項(xiàng)技術(shù)應(yīng)用的過(guò)程中提高了識(shí)別的速度,可以將這項(xiàng)技術(shù)應(yīng)用到大規(guī)模的商業(yè)化建設(shè)中。這項(xiàng)技術(shù)在應(yīng)用時(shí)可以輕松的完成電子設(shè)備的控制和搜索?,F(xiàn)階段在進(jìn)行一些智能手機(jī)研發(fā)的過(guò)程中,也可以實(shí)現(xiàn)語(yǔ)言和聲音的控制[6]。
智能機(jī)器人中的語(yǔ)言和聲音合成技術(shù)在應(yīng)用時(shí)就是將文本狀態(tài)的文字信息轉(zhuǎn)化為語(yǔ)言和聲音信息處理技術(shù),這項(xiàng)技術(shù)涉及到的內(nèi)容比較多,融合了數(shù)字信號(hào)處理技術(shù)和語(yǔ)言學(xué)等技術(shù)。特別是在進(jìn)行機(jī)器人設(shè)備制作的過(guò)程中,采用了極限元語(yǔ)言和聲音合成引擎,通過(guò)精心設(shè)計(jì)的數(shù)據(jù)庫(kù)進(jìn)行了聲音的模擬和文本處理模型的訓(xùn)練。這樣建設(shè)出來(lái)的模型可以對(duì)各種語(yǔ)言和聲音的特征進(jìn)行深度的挖掘,從而合成一段更加清晰自然的模擬語(yǔ)言和聲音,這種語(yǔ)言和聲音接近人類(lèi)的發(fā)音。在進(jìn)行系統(tǒng)應(yīng)用的過(guò)程中可以將其看作為一個(gè)智能的系統(tǒng)。為了合成更加準(zhǔn)確的語(yǔ)言和聲音,除了要對(duì)各種詞語(yǔ)意義、詞匯和語(yǔ)言和聲音進(jìn)行設(shè)計(jì)融合之外,還必須對(duì)相應(yīng)的文字內(nèi)容進(jìn)行更好的理解。這項(xiàng)系統(tǒng)的建設(shè)涉及到語(yǔ)言理解等方面的問(wèn)題,所以要對(duì)現(xiàn)有的技術(shù)應(yīng)用形式進(jìn)行改造,才能充分發(fā)揮技術(shù)的應(yīng)用效果[7]。
在進(jìn)行智能機(jī)器人設(shè)備應(yīng)用的過(guò)程中,因?yàn)檫@個(gè)機(jī)器人設(shè)備自身就是一個(gè)比較完整的系統(tǒng),系統(tǒng)中的關(guān)鍵技術(shù)包含了比較先進(jìn)的自然語(yǔ)言意義的認(rèn)知和深度語(yǔ)言意義的交互以及語(yǔ)言和聲音的識(shí)別、智能的知識(shí)模型、圖像信息的識(shí)別、人類(lèi)和機(jī)器設(shè)備協(xié)作的學(xué)習(xí)體系、機(jī)器設(shè)備的學(xué)習(xí)和大數(shù)據(jù)等技術(shù)內(nèi)容。這樣創(chuàng)作出來(lái)的設(shè)備進(jìn)行直接的對(duì)話,甚至可以與其他智能設(shè)備進(jìn)行交流。因此這種智能機(jī)器人的應(yīng)用范圍特別的廣,例如可以將其稱(chēng)作為人工的智能客服和在線的電話客服以及智能的語(yǔ)言和聲音導(dǎo)航等[8]。
綜上所述,智能型語(yǔ)言和聲音技術(shù)的應(yīng)用為機(jī)器設(shè)備的交互帶來(lái)了新的發(fā)展前景。將相關(guān)技術(shù)應(yīng)用在語(yǔ)言信息的處理上,不僅為正常的生產(chǎn)生活提供了更多的便利,還可以通過(guò)這項(xiàng)技術(shù)的應(yīng)用進(jìn)行語(yǔ)言和聲音的控制??梢宰寵C(jī)器設(shè)備按照特定的要求完成相應(yīng)的任務(wù),通過(guò)合成技術(shù)將文字轉(zhuǎn)化成語(yǔ)言和聲音形式。在進(jìn)行語(yǔ)言和聲音識(shí)別系統(tǒng)選擇的過(guò)程中,不同的人群可以根據(jù)自身的需要選擇相應(yīng)的識(shí)別系統(tǒng),但是在短時(shí)期內(nèi)實(shí)現(xiàn)智能機(jī)器人的自我意識(shí)存在較大的難度。需要對(duì)語(yǔ)言和聲音識(shí)別系統(tǒng)進(jìn)行持續(xù)的改進(jìn),才能推動(dòng)整個(gè)行業(yè)的發(fā)展。