侯勇, 王錚, 舒喬曄, 傅山
(1.國家電網(wǎng)有限公司華東調度分中心, 上海 200120;2.上海交通大學 電子信息與電氣工程學院, 上海 200240)
電力系統(tǒng)在社會生產(chǎn)活動中起著舉足輕重的作用。隨著國民經(jīng)濟的不斷增長,當前社會無論是工業(yè)生產(chǎn)還是居民生活對電網(wǎng)供電的穩(wěn)定性與質量的要求不斷提高,而對電網(wǎng)事故特別是停電事故的容忍度則越來越低,這就對電網(wǎng)的安全管理水平提出了更嚴峻的挑戰(zhàn)。因此,如何進一步提高電網(wǎng)的安全管理水平,減少電網(wǎng)事故的發(fā)生是當前電力系統(tǒng)研究工作的熱點問題之一[1]。
在電力系統(tǒng)中,電力調度通信中心肩負著電網(wǎng)的安全運行的重要工作,是電網(wǎng)運行的神經(jīng)中樞,同時也是影響著電網(wǎng)順利運行和資源高效優(yōu)化配置的關鍵因素。盡管隨著科技的進步,目前電力系統(tǒng)的自動化技術水平與可靠性已經(jīng)大幅提高,但人在電力系統(tǒng)中依舊發(fā)揮著不可或缺的重要作用,例如處理日常事故和下達調度操作命令等重要工作仍依賴調度員人工完成。而人作為一個隨機系統(tǒng),其行為帶有較大的隨機性與不確定性,可靠性遠低于設備的可靠性[2-6]。
隨著我國社會用電總需求的提升,電網(wǎng)規(guī)模越來越大,電網(wǎng)調度中心的工作量也隨之增加。由于調度員每天都需要進行大量的語音交互,即便訓練有素、經(jīng)驗豐富的調度員也很有可能會失誤,例如因工作疲勞而導致的口誤,進而導致由人因失誤引起的電網(wǎng)事故的發(fā)生。而在現(xiàn)有的電網(wǎng)調控系統(tǒng)中,目前還沒有較好的措施對調度員因語音通話產(chǎn)生的人因失誤來加以記錄和防范,因此急需一種語音輔助系統(tǒng)幫助調度員預防并及時糾正語音交互過程中產(chǎn)生的失誤。
針對上述問題,本文對用于電網(wǎng)調度系統(tǒng)的語音輔助系統(tǒng)進行了研究。該系統(tǒng)利用語音識別技術對調度員的口令進行語音識別,并根據(jù)電網(wǎng)調度規(guī)范用語建立專門的詞庫,以提高語音識別準確率,并通過將語音信息轉化為文本信息,方便了對調度命令正確性和規(guī)范性的校驗,從而為有效防范電網(wǎng)調度員在語音通話過程中因人因失誤而導致電網(wǎng)事故的發(fā)生提供可能,進一步確保了電力系統(tǒng)的安全性。
電網(wǎng)調度員是電力系統(tǒng)的重要守護者,肩負著確保電網(wǎng)安全運行的重要使命。電網(wǎng)調度員最主要的工作之一就是通過撥打電話的方式,將操作票、電能計劃修改等信息傳達給地方電站進行執(zhí)行[7]。在每年的用電高峰期,調度員每天都需要接打大量的電話,在此過程,調度員因工作負荷的增加更易于引起人因失誤的發(fā)生,從而傳達了錯誤的信息而導致電網(wǎng)事故。因此,語音識別的任務就是對調度員的通話內容進行識別,發(fā)現(xiàn)語音信息中出現(xiàn)的錯誤,從而避免人因失誤的發(fā)生。
電網(wǎng)調度員下達電網(wǎng)操作票的典型過程為:
(1) 通調度員提前擬好操作票的內容;
(2) 將擬好的操作票提前發(fā)送給需要執(zhí)行的地方電站;
(3) 調度員通過電話呼叫地方電站,并將之前發(fā)送過去的操作票的內容通過語音口述給地方電站來執(zhí)行。
通過對電網(wǎng)調度員日常語音通話情況的分析發(fā)現(xiàn),調度員在口述操作票的過程中,難免會因為發(fā)生口誤、看錯操作票中的文字、看串行等失誤,從而將錯誤的信息傳達給對方。為了避免調度員在口述操作票時產(chǎn)生的人因失誤,語音輔助系統(tǒng)應能將調度員口述的語音內容中的錯誤信息準確地識別出來,從而使調度員能夠及時發(fā)現(xiàn)錯誤并加以糾正。
語音識別技術是使機器通過識別和理解的過程,把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。語音識別技術主要包括語音識別單元選取、特征參數(shù)提取技術、模式匹配準則及模型訓練技術三個方面[8]。語音識別方法主要是模式匹配法。在訓練階段,需要采集大量的用戶語音數(shù)據(jù),將其特征矢量作為模板建立模板庫。在識別階段,將輸入語音的特征矢量與模板庫中的各個模板進行匹配,將匹配度最高者作為識別結果輸出。
近幾年來,借助機器學習領域深度學習研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術得到突飛猛進的發(fā)展。采用深度神經(jīng)網(wǎng)絡后,可以充分描述特征之間的相關性,逐級地進行信息特征抽取,進而形成適合模式分類的較理想特征[9]。隨著互聯(lián)網(wǎng)的快速發(fā)展,獲取大量文本或語音方面的語料愈加方便,使得構建通用大規(guī)模語言模型和聲學模型成為可能。這極大地促進了語音識別技術的發(fā)展,突破了某些實際應用場景下對語音識別性能要求的瓶頸,市面上出現(xiàn)了越來越多直接或間接嵌入語音識別技術的產(chǎn)品[10]。
由于語音是人與人之間進行信息交互的主要手段,而計算機擅長于處理文本信息,因此許多探究實體如微軟、IBM、科大訊飛等均投入巨大精力對語音轉化文本的技術進行研究。得益于近年的技術進步,語音識別技術逐漸成熟,已經(jīng)逐步邁向實際應用。
科大訊飛是中國最大的智能語音技術提供商,專業(yè)從事智能語音及語言技術研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務及電子政務系統(tǒng)集成。經(jīng)過多年的積累,訊飛在語音識別的專業(yè)性和準確率方面具有國內領先水平。通過訊飛開放平臺提供的接口,用戶可以自行開發(fā)各種應用。本研究所開發(fā)的語音輔助系統(tǒng)便是基于訊飛語音開放平臺。
訊飛開放平臺主要提供語音聽寫和命令詞識別兩種語音識別功能。其中語音聽寫基于自然語言處理,將用戶語音轉化為文字,能夠識別包含常見詞語的句子并自動斷句。命令詞識別基于提前定義的語法結構,識別包含特定的關鍵詞的句子組合,來判斷用戶是否下達了某項命令從而完成相應的工作。
對于電網(wǎng)調度系統(tǒng)的應用,由于主要目的在于識別出調度員語音信息中各種各樣的錯誤信息,而訊飛開放平臺中的命令詞識別功能只能識別有限組的句子,不能滿足要求,因此本研究選擇了訊飛開放平臺中的語音聽寫功能作為開發(fā)平臺。另外,由于語音聽寫功能更適用于對常見詞語的識別,而對不常見詞語的識別效果不太理想,例如對“文嶺變電站”的識別可能會識別為“溫嶺變電站”。因此,為了避免這種情況的發(fā)生,本研究通過對大量操作票內容的分析,提取出了可能導致識別系統(tǒng)出錯的詞語并建立了相應的詞語庫,從而顯著提升了識別的準確率。
基于訊飛開放平臺搭建的電網(wǎng)調度語音輔助系統(tǒng)的識別流程如下:
(1) 分析操作票內容建立識別詞庫,將該詞庫編制成熱詞文件上傳發(fā)布;
(2) 初始化系統(tǒng),建立并配置對象:使用int MSPAPI MSPLogin (const char *usr, const char *pwd, const char *params)登入系統(tǒng),并傳入用戶名、密碼和附加參數(shù)。用戶名和密碼均傳NULL即可,附加參數(shù)用于指定請求業(yè)務類型、語言、方言等信息;
(3) 語音輸入:用戶口述操作票,通過麥克風錄入系統(tǒng);
(4) 語音識別:調用訊飛語音聽寫識別用戶說的內容,優(yōu)先返回包含在2)建立的識別詞庫中的詞語;
(5) 結果檢測:顯示識別結果至屏幕,引導用戶比對;
(6) 結束識別,調用int MSPAPI MSPLogout ()退出。
用戶界面是用戶與系統(tǒng)間的接口,是用戶使用系統(tǒng)的重要手段。本文采用微軟基礎類庫(Microsoft Foundation Classes,MFC)來實現(xiàn)用戶界面。MFC提供了面向對象的框架,將大部分的Windows API封裝到C++類中,以類的成員函數(shù)的形式提供給程序開發(fā)人員調用。MFC包含了大量的Windows句柄封裝類和很多Windows的內建控件和組件的封裝類,并且包含一個應用程序框架,從而降低了開發(fā)人員的工作量[11]。
本研究所開發(fā)的語音輔助系統(tǒng)的界面及識別結果的示例如圖1所示。
圖1 語音輔助系統(tǒng)界面及識別結果
點擊開始識別按鈕后,語音識別模塊開始工作,等待用戶輸入語音。識別完成后,識別結果顯示在結果框中,用戶可以點擊結束識別按鈕結束語音識別過程。
為了檢驗語音輔助系統(tǒng)的識別效果,本研究以不同操作票為樣本進行了100次的測試,并對識別準確率進行了統(tǒng)計。測試中所采用的典型操作票內容的示例如表1所示。
表1 典型操作票內容示例
同時,為了體現(xiàn)建立語音輔助系統(tǒng)自定義專用詞語庫的重要性,本研究對系統(tǒng)未使用和使用自定義專用詞庫的表現(xiàn)進行了對比測試,識別結果如表2所示。在使用自定義詞庫后,系統(tǒng)語音識別的準確率得到了顯著提高,如表2所示。
如對于表1中所示的操作票,通過對語音輔助系統(tǒng)易混淆名詞的分析,將城都、文嶺收錄到易混地名詞庫中;,通過引入電網(wǎng)領域的先驗知識和詞典,將5052開關、5053開關、5062開關、5063開關收錄到用電設備詞庫中;將冷備用、熱備用收錄到設備狀態(tài)與操作詞庫中。通過該方式建立的自定義詞庫大幅地提高了識別準確率。
表2 識別結果準確率
通過將所識別的內容與操作票的內容進行比對,進行一致性的判斷,可以實現(xiàn)對調度員語音口令中出現(xiàn)的失誤進行識別,并及時對調度員進行提醒。
在對調度員的日常發(fā)令過程進行觀察后發(fā)現(xiàn),調度員在口述操作票的過程中通常會發(fā)生以下兩類失誤:
(1) 口誤。調度員下意識地說錯了操作票中的相關信息,如地名、票號、操作指令等;
(2) 漏步。對于執(zhí)行步驟較多的操作票,調度員存在不小心跳過其中某一操作步驟而遺漏操作信息的情況。
下文將分別針對這兩類失誤,通過設計對應的兩個典型場景來展現(xiàn)語音輔助系統(tǒng)在識別這兩類失誤時的情況。
3.2.1 調度員語音指令內容有誤
在本場景中,調度員需要下達的操作票內容如表2所示。
表3 口誤場景操作票內容示例
在實際下達操作票的過程中,調度員故意出現(xiàn)2次失誤:
(1) 在讀到第2個步驟的內容后,誤將“5023開關”讀成“5022開關”;
(2) 在讀到第3個步驟的內容后,故意將“文嶺線”讀成“文雙線”。
此時,當語音輔助系統(tǒng)將所識別的內容與操作票內容的比對后發(fā)現(xiàn)了這2次失誤,并對調度員進行及時提醒,調度員得到提示后重新發(fā)出了正確的指令,避免了失誤的發(fā)生。語音輔助系統(tǒng)的識別結果顯示如圖2所示。
3.2.2 調度員語音指令出現(xiàn)漏步
在本場景中,調度員需要下達的操作票內容如表4所示。
在實際下達操作票的過程中,調度員在讀完第3個步驟的內容后,故意漏掉了第4步的內容,直接跳到第5個步驟。此時,語音輔助系統(tǒng)發(fā)現(xiàn)了漏步現(xiàn)象情況后,對調度員進行及時提醒,調度員隨后發(fā)出了更正后的指令,避免了失誤的發(fā)生。語音輔助系統(tǒng)的識別結果顯示如圖3所示。
圖2 口誤場景識別結果顯示
序號電站步驟操作內容十一文都1文雙5347線從冷備用改為線路檢修2城都線/文雙線5062開關從冷備用改為開關檢修3文雙線5063開關從冷備用改為開關檢修4文嶺5348線從冷備用改為線路檢修5皋文線/文嶺線5052開關從冷備用改為開關檢修6文嶺線5053開關從冷備用改為開關檢修
圖3 漏步場景識別結果顯示
為了防范電網(wǎng)調度員在語音通話過程中因人因失誤而導致電網(wǎng)事故的發(fā)生,本文研究了用于電網(wǎng)調度語音交互的輔助系統(tǒng),得到以下結論。
(1) 通過將語音識別技術應用于電網(wǎng)調度系統(tǒng),并將語音信息轉化為文本,使調度員能夠及時發(fā)現(xiàn)語音交互過程中的失誤。
(2) 應用訊飛開放平臺搭建了語音識別系統(tǒng),根據(jù)任務特點設計了識別流程,提供了人機交互界面,并通過分析調度規(guī)范用語建立語音識別詞庫,提高了識別的準確率。
(3) 所開發(fā)的語音輔助系統(tǒng)能夠將所識別的內容與操作票的內容進行一致性判斷,對調度員語音口令中出現(xiàn)的錯誤信息以及漏步錯誤進行識別并提醒。
(4) 實驗結果表明,該系統(tǒng)識別準確率較高,識別結果能夠為調度員提供參考,有助于對電網(wǎng)調度員在語音通話過程中產(chǎn)生的人因失誤進行防范,從而避免電網(wǎng)事故的發(fā)生。