摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語(yǔ)言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語(yǔ)音識(shí)別系統(tǒng)的原理、語(yǔ)音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語(yǔ)音識(shí)別系統(tǒng);非句;分詞算法
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語(yǔ)音識(shí)別理論的“所說(shuō)即所得”的語(yǔ)音電子查詢系統(tǒng)的需要越來(lái)越強(qiáng)烈。但已有的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語(yǔ)音識(shí)別結(jié)果里識(shí)別出來(lái)的文本無(wú)法構(gòu)成完整語(yǔ)句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語(yǔ)法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無(wú)法用正常的自然語(yǔ)言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語(yǔ)音識(shí)別系統(tǒng)
語(yǔ)言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語(yǔ)音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的原理圖見(jiàn)圖1:
圖1 語(yǔ)音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語(yǔ)音識(shí)別后的文本,采用自然語(yǔ)言理解的方法從語(yǔ)法、語(yǔ)義和語(yǔ)用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語(yǔ)音識(shí)別后處理系統(tǒng)圖見(jiàn)圖2:
圖2 語(yǔ)音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語(yǔ)言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語(yǔ)文本中有許多切分歧義字段。歧義字段是指在分詞過(guò)程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見(jiàn)的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語(yǔ)句可以切分為“火車(chē)\站”或“火\車(chē)站”兩種,字段“火車(chē)站”為交集型歧義型字段。而語(yǔ)句“景區(qū)區(qū)間車(chē)”可以切分為“景區(qū)\區(qū)間\車(chē)”和“景區(qū)\區(qū)間車(chē)”兩種,字段“區(qū)間車(chē)”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語(yǔ)句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無(wú)歧義,是正確的;如果得到的結(jié)果不一樣,說(shuō)明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語(yǔ)義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語(yǔ)言查詢系統(tǒng)按照語(yǔ)句含義分成住宿、就餐、景點(diǎn)、問(wèn)路、加油站、停車(chē)場(chǎng)6類(lèi)。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語(yǔ)句進(jìn)行錄音,生成語(yǔ)言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語(yǔ)音查詢系統(tǒng)的普及,人們對(duì)這種“所說(shuō)即所得”的要求越來(lái)越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語(yǔ)自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語(yǔ)言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語(yǔ)言模型的語(yǔ)音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.
摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語(yǔ)言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語(yǔ)音識(shí)別系統(tǒng)的原理、語(yǔ)音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語(yǔ)音識(shí)別系統(tǒng);非句;分詞算法
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語(yǔ)音識(shí)別理論的“所說(shuō)即所得”的語(yǔ)音電子查詢系統(tǒng)的需要越來(lái)越強(qiáng)烈。但已有的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語(yǔ)音識(shí)別結(jié)果里識(shí)別出來(lái)的文本無(wú)法構(gòu)成完整語(yǔ)句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語(yǔ)法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無(wú)法用正常的自然語(yǔ)言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語(yǔ)音識(shí)別系統(tǒng)
語(yǔ)言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語(yǔ)音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的原理圖見(jiàn)圖1:
圖1 語(yǔ)音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語(yǔ)音識(shí)別后的文本,采用自然語(yǔ)言理解的方法從語(yǔ)法、語(yǔ)義和語(yǔ)用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語(yǔ)音識(shí)別后處理系統(tǒng)圖見(jiàn)圖2:
圖2 語(yǔ)音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語(yǔ)言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語(yǔ)文本中有許多切分歧義字段。歧義字段是指在分詞過(guò)程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見(jiàn)的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語(yǔ)句可以切分為“火車(chē)\站”或“火\車(chē)站”兩種,字段“火車(chē)站”為交集型歧義型字段。而語(yǔ)句“景區(qū)區(qū)間車(chē)”可以切分為“景區(qū)\區(qū)間\車(chē)”和“景區(qū)\區(qū)間車(chē)”兩種,字段“區(qū)間車(chē)”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語(yǔ)句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無(wú)歧義,是正確的;如果得到的結(jié)果不一樣,說(shuō)明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語(yǔ)義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語(yǔ)言查詢系統(tǒng)按照語(yǔ)句含義分成住宿、就餐、景點(diǎn)、問(wèn)路、加油站、停車(chē)場(chǎng)6類(lèi)。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語(yǔ)句進(jìn)行錄音,生成語(yǔ)言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語(yǔ)音查詢系統(tǒng)的普及,人們對(duì)這種“所說(shuō)即所得”的要求越來(lái)越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語(yǔ)自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語(yǔ)言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語(yǔ)言模型的語(yǔ)音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.
摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語(yǔ)言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語(yǔ)音識(shí)別系統(tǒng)的原理、語(yǔ)音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語(yǔ)音識(shí)別系統(tǒng);非句;分詞算法
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語(yǔ)音識(shí)別理論的“所說(shuō)即所得”的語(yǔ)音電子查詢系統(tǒng)的需要越來(lái)越強(qiáng)烈。但已有的語(yǔ)音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語(yǔ)音識(shí)別結(jié)果里識(shí)別出來(lái)的文本無(wú)法構(gòu)成完整語(yǔ)句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語(yǔ)法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無(wú)法用正常的自然語(yǔ)言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語(yǔ)音識(shí)別系統(tǒng)
語(yǔ)言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語(yǔ)音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的原理圖見(jiàn)圖1:
圖1 語(yǔ)音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語(yǔ)音識(shí)別后的文本,采用自然語(yǔ)言理解的方法從語(yǔ)法、語(yǔ)義和語(yǔ)用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語(yǔ)音識(shí)別后處理系統(tǒng)圖見(jiàn)圖2:
圖2 語(yǔ)音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語(yǔ)言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語(yǔ)文本中有許多切分歧義字段。歧義字段是指在分詞過(guò)程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見(jiàn)的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語(yǔ)句可以切分為“火車(chē)\站”或“火\車(chē)站”兩種,字段“火車(chē)站”為交集型歧義型字段。而語(yǔ)句“景區(qū)區(qū)間車(chē)”可以切分為“景區(qū)\區(qū)間\車(chē)”和“景區(qū)\區(qū)間車(chē)”兩種,字段“區(qū)間車(chē)”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語(yǔ)句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無(wú)歧義,是正確的;如果得到的結(jié)果不一樣,說(shuō)明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語(yǔ)義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語(yǔ)言查詢系統(tǒng)按照語(yǔ)句含義分成住宿、就餐、景點(diǎn)、問(wèn)路、加油站、停車(chē)場(chǎng)6類(lèi)。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語(yǔ)句進(jìn)行錄音,生成語(yǔ)言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語(yǔ)音查詢系統(tǒng)的普及,人們對(duì)這種“所說(shuō)即所得”的要求越來(lái)越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語(yǔ)自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語(yǔ)言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語(yǔ)言模型的語(yǔ)音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.