南拉才讓 完么措
(西藏大學圖書館,西藏 拉薩 850000)
順應我國車輛迅速增加和公路交通網的強大建設, 車載導航系統(tǒng)可以最好地滿足自身車輛的定位以及迅速了解路況信息的需求。 因為在行駛過程中,駕駛者需要隨時隨地注意著路面的狀況, 語音識別技術與車載系統(tǒng)的巧妙結合, 實現了人機交互的過程。 駕駛者雙手就能夠集中在方向盤的操作上, 無需用手去操作車載導航系統(tǒng), 還可以完成其他一系列的后續(xù)操作, 這對于駕駛者已經是目前較為安全的手段之一。在當今嚴謹的交通規(guī)則下, 通過語音技術實現人機交互的方式, 大大降低了一系列駕駛問題, 例如開車時接聽電話、 開車時點擊屏幕操作其他系統(tǒng)等等危險行為。 語音識別技術與車載導航系統(tǒng)的完美結合, 真的是一個利好的消息和應用, 對于語音識別技術發(fā)展也有意味深長的意義。
通過系統(tǒng)性的識別理解把語音信號, 轉化為相應的文本或命令操作的新型技術已經面世, 它就是我們強大的語音識別技術。 語音識別技術應該在多個領域中占有重要地位,例如移動電話、車載導航系統(tǒng)、社會信息服務等行業(yè), 對各行各業(yè)都有一定影響力。 語音識別技術與車載導航系統(tǒng)結合, 也發(fā)揮很大的作用和得到深入應用。 以往比較舊款式的車載導航系統(tǒng)是需要駕駛者手動輸入才能夠確定目的地, 這樣在行駛過程中輸入時非常危險的行為。 隨著先進的技術設備發(fā)展, 現在市面上很多的車載導航系統(tǒng)已經可以進行語音識別, 搭建起了穩(wěn)定的人機交互交流平臺, 深受廣大駕駛者的熱衷。 駕駛過程中, 司機需要在路上高度集中注意力, 但很多時候他們必須把目光轉向汽車才能操作里面的設備。 設備, 所以語音識別技術在車載導航系統(tǒng)中有著至關重要的地位。 雖然車載導航系統(tǒng)是獲取車輛信息的有效渠道, 但是目前很多車載導航系統(tǒng)接收信息還存在一些問題, 他們不太適合司機的習慣和實際需要。 司機正在開車, 如果分散視覺注意力會發(fā)生不堪設想的后果, 這時候聽覺就成為了另一個收取信息的好工具。根據新的交通法,司機在開車時不允許接電話。 這是為防止駕駛員在駕駛過程中發(fā)生意外而建立的措施, 因為車載導航系統(tǒng)的操作遠遠多于接聽電話,這個也是相當危險的信號和威脅。
舉個例子,我們準備出發(fā)到某個酒店,即使酒店是四個字符, 如果在嵌入式系統(tǒng)中使用T9 輸入法, 那么每個漢字需要約4 至5 個鍵,還有進一步的選詞操作。因此,對于您選擇的每個地名,用一只手離開方向盤大約需要10 秒鐘, 但是同時您的注意力和眼睛被分散了,這聽起來非常危險。 相對這些輸入方法,語音識別有非常的優(yōu)勢, 可以說是另外一個概念。 語音識別技術只需要使用者說出具體的地名和操作步驟, 屏幕就會展現出來, 操作者只需要確認信息便完成整個操作過程。 這樣的操作方式不但可以簡化操作, 而且提高了操作者的安全性。 因此, 語音識別技術與車載導航系統(tǒng)的結合應用, 既提高了車載導航系統(tǒng)的使用率,也方便了駕駛者的操作, 對駕駛者者也有很大的幫助。 其實,除了語音識別技術之外,在設計出完美的語音接口后, 還可以實現語音的合成, 這樣駕駛者根本不用低頭留意屏幕上的信息。
針對語音識別技術與車載導航系統(tǒng)的實際應用,主要體現在以下操作:
(1)命令輸入。針對車載導航系統(tǒng)各層界面的各種指令進行控制, 只要車載導航儀啟動菜單、 導航、游戲、音樂等模板及其子菜單名稱進入語音識別庫,通過簡單的輸入指令即可自由操作導航儀。
(2)地名輸入。根據每個城市的主要交通道路或建筑物的名稱,如果系統(tǒng)允許,這些名稱可以并入語音識別庫以直接識別。
(3) 連續(xù)數字串輸入。 根據每條道路上的號牌識別, 或者利用導航儀撥打電話與接聽等功能時, 就可以識別電話號碼或呼叫對象。
(4) 附屬設施查詢。 尋找出地圖中的酒店、 加油站、學校、醫(yī)院等設施。
語音識別技術實現過程主要是系統(tǒng)訓練和系統(tǒng)識別, 大致分為以上兩個步驟。 語音識別主要通過識別聲學模型和文法分析語言模型來實現系統(tǒng)訓練步驟。至于系統(tǒng)識別步驟, 是利用相應的識別算法, 分析語言信號中的特色參數, 然后與系統(tǒng)模型系列對比,最后獲取識別結果。 語音識別技術的重點是對語音信號提煉和比對的模式識別。
預處理環(huán)節(jié)、提取特色參數環(huán)節(jié)、模型匹配和其他環(huán)節(jié),都是語音信號的環(huán)節(jié)。 在預處理環(huán)節(jié)中,通過利用語音識別技術首先去除語音信號中的雜音和氣流等不穩(wěn)定信號。 在預處理后, 就是提取和分析語音信號中的特色參數。 提取特色參數的方法也有很多, 例如梅爾倒譜系數算法、 短時平均能量算法等等。 最后一個環(huán)節(jié)就是參數篩選, 按時間順序對特色參數進行重新排列, 然后把模式表和參考模式進行逐一對比。 根據判定規(guī)則采用最佳參考模式進行識別, 因而得到最后的識別結果。
因為受地理位置限制等原因, 藏區(qū)人民長期處于分散狀態(tài), 藏語也因此出現了各地的差異性, 在藏區(qū)不同的片區(qū)可能就會產生另外一種方言。 隨著綜合國力的提升, 藏區(qū)人民生活水平也隨之帶動起來, 交通和通信問題得到了很大的改善, 打破了藏語受限制的交流。 藏語需要一個具有權威性的參考點, 才能夠形成藏語的規(guī)范化。 在現今信息化的時代中, 通過開發(fā)藏語語音識別系統(tǒng), 不但可以成為地方性方法參考點, 而且能夠形成共同的語言特別, 為藏語語音識別作出一定的貢獻。
(1)逐漸完善藏語語音識別資料庫,通過學習更多的藏語文本, 收集和整理相關資料, 進行相應的語音采集和系統(tǒng)標注。
(2)通過對音節(jié)的研究,結合藏語語言特點,在藏語語音別系統(tǒng)中確定音素作為識別基元。
(3)選取適合藏語語音的系統(tǒng)語言模型,結合聲學提高系統(tǒng)識別能力。
(4)對在特定人和非特定人的藏語中,進行孤立詞語識別和對比, 檢驗藏語特定人對于孤立詞語的識別率,進一步提高藏語的語音系統(tǒng)識別性。
藏語語音識別技術主要面臨著以下困難:(1)基元選取。 語音基元有單詞、音節(jié)和音素,是語音識別的重要工作。 藏文是一種音素拼音文字, 多數都是用音素進行表示。 藏語的音節(jié)最少是由一個字母構成, 最多是七個字母組成, 各個音節(jié)之間都會用音節(jié)符合相隔開。(2)端點位置檢測。端點位置檢測就是找到音節(jié)的起始點和結束點,是語音識別中的關鍵。(3)適應性能不高。 適應性能主要是針對環(huán)境和說話者。 特定環(huán)境下采集的語音可能只是在當時的環(huán)境下應用, 通用性會下降。 對說話者的適應性,主要體現在不同性別、年齡或情感音素情況下的相同語音內容, 都是會存在差異的。 (4)方言影響。 每一個地方都有屬于自己的方言,藏區(qū)按方言劃分為衛(wèi)藏、康巴、安多三塊,而衛(wèi)藏又分“前藏”和“后藏”,可想而知藏語有多復雜。 (5)語料庫資料短缺。 由于藏區(qū)不是一個系統(tǒng)的語音庫,而藏區(qū)的地區(qū)劃分也不是特別清晰, 每個地區(qū)都有其獨立性和特別性, 所以目前收集到的語音資料庫都是非常有限的資源。
藏語其實是一個非常值得深入研究的領域,還是有很多發(fā)展空間和問題有待研究。主要是藏語作為一種小語種,存在一定的復雜度,所以是一個很好的探究方向和目標。 希望藏語語音識別系統(tǒng)得以更加完整,針對日后規(guī)劃,主要還有以下幾個方面的工作探究:
(1)完善和整合語音資料庫。藏語語音資料庫資料尚少且未算很成熟, 若果想提高藏語語音識別系統(tǒng)的識別率, 還是需要繼續(xù)整合和完善語音資料庫, 不斷拓展研究方向, 希望語音資料庫越來越大, 為科學研究提供更多的參考。
(2)研究藏語的各種資料。 因為目前藏語研究都是比較片面和零碎, 希望日后能夠對現存的問題優(yōu)化分析,通過一系列的論證和實際檢驗,總結出更多的藏語語言學知識,提高藏語在語音識別技術中的完整度和整體識別度,讓藏語語言被更多的人所熟悉和認識。
語音識別是以最方便、 自然和快捷的方式聽懂人類語言的一門技術, 也是人機交互重要的一步。 車載導航系統(tǒng)也成為了新的研究熱點, 不但可以為駕駛者提供更多便利功能, 還能大大提高了行駛安全。 許多新技術可以應用到車載導航系統(tǒng)中, 不斷豐富和改進了系統(tǒng)的功能。 語音識別在車載導航系統(tǒng)的完美結合,造福廣大人們群眾。 相信在未來,通過多方的合作開發(fā),互相提供技術支持,語音識別技術的逐漸強化,加上語言的多樣性研究, 各種語言的識別準確度和精準度都會在語音識別技術中不斷呈現和進步。 而藏語也可以作為一個很好的研究點, 因為其獨特性和多元化是值得深究。