語音文摘研究綜述

2013-06-25 09:00:36張劍潘曉衡鄧見光

東莞理工學院學報 2013年3期

張劍潘曉衡鄧見光，2

(1. 東莞理工學院工程技術(shù)研究院，廣東東莞 523808;2. 華南理工大學計算機科學與工程學院，廣州 510006)

語音交流是人們?nèi)粘Ｉ钪凶钪饕妥畋憷男畔贤浇?。每天人們通過互聯(lián)網(wǎng)和手持設(shè)備，接觸到大量的多媒體信息，比如:電話語音信息、廣播和電視節(jié)目、視頻課程、各類電話視頻會議等。通過直接收聽語音或收看視頻來獲取自己所需信息，是非常費時和低效的。為了幫助人們能快捷地從這些信息當中抽取感興趣的部分，越來越多的研究者將研究興趣放在自動語音理解與組織的任務上面［1］:比如:語音識別［2］、語音文檔檢索［3］、語音文摘［4］、語音文檔信息抽?。?］、主題分析與組織［6］等。

自動語音理解與摘要技術(shù)作為語音文檔理解與管理系統(tǒng)的核心技術(shù)之一，主要完成從大量的原始語音中抽取出含有最有信息量或者與用戶最“感興趣”的語音部分的任務。語音文摘抽取與書面文檔文摘抽取相比，是一個新興和待發(fā)展研究領(lǐng)域。早在20 世紀50年代，書面文檔文摘抽取技術(shù)的研究就已經(jīng)開始發(fā)展，現(xiàn)已拓展出更多新的方向，如:多文檔、多語言、和多媒體文摘抽?。?］。文摘抽取大體上可以分為摘取式文摘抽取(Extractive Summarization)和概括式文摘抽取(Abstractive Summarization)兩類。摘取式文摘抽取是按照目標壓縮率從原始文檔中選取最重要的或最有指示性的部分來構(gòu)成簡略版本的過程;而概括式摘要的提取，是根據(jù)原始語音文檔的主要意思，重新組織語句，生成一個概括性的簡略版本。概括式文摘因其沒有包含足夠的信息量，無法滿足人們的需求［8］。相比之下，抽取式摘要能幫助人們更準確地理解整個文檔，并且更快地定位到感興趣的信息。現(xiàn)今文檔理解與摘要的研究主要集中在抽取式摘要上。

論文將從兩個方面即:1)書面文檔文摘技術(shù)在語音文檔文摘提取的應用研究;2)新興的基于結(jié)構(gòu)建模的語音理解與文摘的研究，對自動語音摘要領(lǐng)域現(xiàn)有的研究成果進行綜述。

1 從書面文檔文摘到語音文摘

1.1 書面文檔摘要提取方法的應用

對于目前有一些研究者把用于書面文檔摘要提取的方法應用到語音文檔理解與摘要任務中［9－13］。

Christensen 等［9］提出了如何將報刊新聞摘要提取技術(shù)應用于新聞廣播語音摘要的提取。首先，他們同樣把語音文摘的提取問題看作是一個二元分類問題，即:先用特征向量來表示每一段語音，再通過二元分類器對每一語音段進行判斷，認定該語音段是或者不是文摘中的語句。他們發(fā)現(xiàn)與在報刊新聞摘要任務中的作用相比，語音段在文檔中的位置特征對于新聞廣播語音摘要提取的作用不是那么大。同時發(fā)現(xiàn)，沒有任何一組特征的作用特別突出，而包括結(jié)構(gòu)特征如:句子位置、長度等和詞匯特征如:詞條權(quán)重、專有名詞等在內(nèi)的特征組合的作用最大。另外，他們還發(fā)現(xiàn)語音識別的錯誤給人們閱讀所生成摘取式文摘造成了相當大的困難，尤其是抽取出的摘要沒有段落和標準語句的停頓，給人們理解文摘帶來了很大的挑戰(zhàn)。

Zhu ＆ Penn［10］提出使用最大邊界相關(guān)(Maximal Marginal Relevance，MMR)權(quán)重［14］作為單一的特征來表示每一語音段，然后再訓練摘要提取模型，以提高摘要提取性能。他們首先計算候選語音段與待生成文摘的語音文檔核心主題的相關(guān)度，以及候選語音段與已選語音段間的相似度，進而計算出該候選語音段的MMR 值，即:

Hori ＆ Furui［11］提出了對每個語音段進行摘要權(quán)重計算的方法來抽取摘要，這種摘要權(quán)重包含了語音段中每個詞的重要權(quán)重的累加以及從語音段中抽取出的各類詞法或句法特征的權(quán)重。

Kolluru et al.［12］提出了一種基于多層感知器網(wǎng)絡(luò)的文摘提取算法。首先，他們根據(jù)語音識別器生成的語音段對應抄本語句以及識別置信值，來刪除一些置信值低的候選語音段;然后，根據(jù)剩余的語音段所對應的詞條權(quán)重和專有名詞特征來訓練多層感知器網(wǎng)絡(luò)，用于文摘提取。他們發(fā)現(xiàn)該系統(tǒng)生成的摘要，在用疑問－回答(question－answering)評測準則和ROUGE 分析評測準則評判時，性能表現(xiàn)良好;但如果用主觀流暢度準則評判時，摘要稍顯不暢。

Chen et al.［13］提出了一種摘取式文摘算法:首先計算語音文檔對應的口語文本中潛在主題信息的概率，并以此作為文檔的一個有效特征;然后對于同一語音文檔和候選文摘用傳統(tǒng)的向量空間模型與潛在語義索引模型以及隱馬爾可夫模型(Hidden Markov Model，HMM)等模型進行表示，再通過比較不同的模型，來判定該候選文摘對此語音文檔的概括程度。并在臺灣收集的中文廣播新聞文檔上進行了驗證實驗，結(jié)果表明該潛在主題信息概率能提高文摘提取的準確度。

以上這些算法都是傳統(tǒng)的書面文摘抽取方法在語音文檔方面的遷移應用，而語音文檔所對應的識別口語抄本中，語句邊界不清晰，表達意思不連貫，含有不少語音識別錯誤;并且摘要本身沒有包含結(jié)構(gòu)信息，不易理解。如果只是應用那些書面文摘抽取方法處理語音文檔，所得到的文摘是無法讓人滿意的。如何利用語音文檔中所特有的語音信息，成為了研究者關(guān)注的熱點。

1.2 語音特征在語音文摘抽取的應用

有研究者［4，12，15－20］發(fā)現(xiàn)，從語音文檔的語音信息當中，可以提取出能幫助抽取摘要的語音特征，比如:能量，F(xiàn)0，韻律等。這些現(xiàn)有的語音文摘系統(tǒng)已經(jīng)表明:語音文檔中，說話人的講話語氣、方式與講話內(nèi)容在整個文檔中的重要程度有緊密聯(lián)系。

Hori ＆ Furui［16］提出了一種基于有限狀態(tài)轉(zhuǎn)換器的多級語音文摘抽取算法。將語音識別的解碼過程與摘要抽取過程綜合在單一的有限狀態(tài)轉(zhuǎn)換器完成，并在演講語音數(shù)據(jù)庫上進行了驗證實驗。

Inoue et al.［15］提出了基于詞法特征和語音特征來表示語音文檔中的各個詞匯的方法，并通過統(tǒng)計算法來判斷每個詞匯是否屬于文摘。并且在日文廣播新聞語料庫上進行了驗證實驗。

Mckeown et al.［4］對書面文檔摘要提取的研究進行了綜述，并討論了如何將書面文檔摘要提取的方法應用于語音文檔中。對抽取廣播新聞和會議錄音這兩種不同類型的語音文檔摘要過程中出現(xiàn)的挑戰(zhàn)進行了描述，并比較了各特征在摘要抽取的作用。發(fā)現(xiàn)對于會議錄音，韻律特征(prosodic)和詞法特征與會議主題的轉(zhuǎn)換相關(guān)。還發(fā)現(xiàn)其中貢獻最大的特征是語音的停頓和關(guān)鍵短語，而這兩類特征同時也可以幫助多人對話語音文檔中的語音分割。

Maskey ＆ Hirschberg［17］提出了將語音特征與句法特征，詞法特征結(jié)合起來，進行語音理解并抽取摘要，并且在英文廣播新聞語音進行了驗證實驗，發(fā)現(xiàn)最好性能的摘要抽取模型是用所有特征的組合來表示語音段所訓練出來的。所用的語音特征包括音調(diào)(pitch)，能量(energy)，語速(speaking rate)以及語句持續(xù)時間等。最好的文摘抽取F－measure 為0.544(滿分為1.0)。將語音特征與結(jié)構(gòu)特征(structural features)相結(jié)合訓練而成的文摘系統(tǒng)，其文摘抽取性能為:ROUGE scores 介于0.68 到0.76。

Maskey ＆ Hirschberg［18］進一步提出了無需識別語音文檔，直接應用語音信息進行文摘抽取的基于隱馬爾科夫模型算法。模型中的隱狀態(tài)的值表示語音段包括或不包括在文摘中，而表示各語音段的語音特征向量是模型中的觀測向量。模型解碼的最佳序列對應的就是語音文檔的摘要。實驗結(jié)果表明:單用語音特征向量表示語音段來進行語音文摘的抽取，是可行的。這就避免了語音識別的錯誤對語音摘要抽取的影響。

2 結(jié)構(gòu)信息在語音文摘抽取的應用

目前大多數(shù)研究者沒有充分利用隱藏在語音文檔中的結(jié)構(gòu)信息來幫助抽取文摘，下面將對結(jié)構(gòu)信息在文摘抽取的應用進行介紹。

2.1 結(jié)構(gòu)信息在書面文摘抽取的應用

有研究者［21－22］提出了如何從書面文檔中提取結(jié)構(gòu)特征，并將特征用于文檔的主題分割和文摘的抽取。

Barzilay et al.［21］提出了一種無監(jiān)督學習算法用于特定領(lǐng)域書面文檔的內(nèi)容導航，即文檔主題選擇以及結(jié)構(gòu)組織。同時將算法應用于信息重要性排序和文摘抽取。實驗表明:抽取具有結(jié)構(gòu)組織信息的文摘，比傳統(tǒng)文摘抽取算法所得無結(jié)構(gòu)摘要，要更易讓人理解。

Branavan et al.［22］提出了一種結(jié)構(gòu)化區(qū)分性(structured discriminative)算法用于書面文檔目錄的生成。它使用了大量基于習語和語料庫的文本特征。目錄作為一種導航性文摘，非常適合用于檢索長篇書面文檔。典型的目錄主要是列舉出目標文檔中的所有主題，并提供各個主題在文檔中所處的位置。

有研究者［23－25］提出了主題建模算法用于提取書面文檔庫的摘要，如:電子郵件、科技論文和報紙等。

Blei et al.［23］提出了Latent Dirichlet Allocation(LDA)算法，一種非監(jiān)督學習生成式概率模型，并用于書面文檔庫的文摘提取。LDA 是一種三級層次的貝葉斯模型。文檔庫相關(guān)的每一主題都由主題詞集合的主題間相關(guān)度加權(quán)的向量表示。每一個主題又由一關(guān)鍵詞列表來表示。每篇文檔由主題詞集合的概率分布來表示。在對書面文檔上下文進行建模時，各主題的概率分布就用于表示該文檔的主題。Blei＆ Lafferty 進一步提出了LDA 的兩種擴展算法:the Dynamic Topic Model(DTM)［24］和the Correlated Topic Model(CTM)［25］。

以上主題分割算法如果用于對語音文檔所對應的口語抄本進行處理，有如下兩個缺陷:1)忽略了語音文檔中各個主題出現(xiàn)次序和所展現(xiàn)的故事流(story flow);2)自動語音識別生成抄本中的識別錯誤對于算法性能有明顯的影響。

鑒于此，有研究者［18，26－28］提出了針對語音文檔或者其口語抄本的結(jié)構(gòu)信息建模，實驗結(jié)果表明:有效的結(jié)構(gòu)建模信息有助于主題分割和文摘提取。下面將對這一類研究成果進行介紹。

2.2 基于結(jié)構(gòu)建模的語音文摘的抽取

Eisenstein et al.［26］提出了新的基于無監(jiān)督學習詞匯粘連驅(qū)動的貝葉斯算法，用于口語抄本的主題分割。該算法能將詞匯粘連特征與關(guān)鍵短語特征相結(jié)合。并且在口語抄本語料庫上進行了驗證實驗。

Tatar et al.［27］和Kawahara et al.［28］都提出了應用Hearst 算法［29］對長篇的口語抄本進行主題分割，并運用主題信息幫助進行文摘抽取以及語音識別系統(tǒng)的主題適應性訓練。

Hirohata et al.［18］考慮到在演講語音當中，人們總是把重要的部分放在演講的介紹部分和總結(jié)部分，提出了一種基于結(jié)構(gòu)特征的文摘提取算法。首先應用Hearst 算法［29］找到介紹部分和總結(jié)部分的邊界，然后通過計算各語句與演講的介紹部分和總結(jié)部分之間的相似度，來判斷語句是否作為文摘語句。

語音文檔及由語音識別系統(tǒng)產(chǎn)生的口語抄本信息，提供了文本信息和語音信息［30］，而之前所提的算法當中，都沒有考慮語音信息。目前已有少數(shù)研究者已經(jīng)開始考慮同時使用語音信息和文本信息，來對語音文檔中的結(jié)構(gòu)信息進行建模。而提取出的結(jié)構(gòu)信息同時又可以幫助文摘的抽取。

有研究者發(fā)現(xiàn)語音特征能用于對語音文檔結(jié)構(gòu)的建模［30－32］。Hirschberg ＆ Nakatani［33］研究了講話風格(書面語和口語)對語音文檔主題分割算法的性能影響。并且比較了在同一講話片段的開始、中間、結(jié)尾部分語音特征的不同。

3 結(jié)語

本文對近年來語音文摘領(lǐng)域所取得的研究成果進行了全面的綜述。一方面，由于語音識別系統(tǒng)所產(chǎn)生口語抄本含有不可避免的錯誤，對傳統(tǒng)書面文檔摘要提取方法在語音文檔的應用，造成了不小的挑戰(zhàn)。另一方面，語音文檔中含有豐富的語音信息，而這些信息對于語音文檔的結(jié)構(gòu)乃至文摘的提取都有重要的作用，而如何充分運用這些語音信息，則是更具有挑戰(zhàn)性的任務。

基于結(jié)構(gòu)建模的語音理解和文摘提取，能夠幫助人們從語音文檔中抽取出隱含的結(jié)構(gòu)信息，更快速準確地理解語音。在未來幾年中，它將成為本領(lǐng)域研究熱點和前沿。如何分析深層次語音文檔結(jié)構(gòu);尋找對抽取語音文檔結(jié)構(gòu)幫助更大的新特征;應用不同的機器學習算法，提高抽取語音文檔結(jié)構(gòu)的性能，并運用抽取的結(jié)構(gòu)信息，改善語音理解與文摘抽取的性能等都將成為研究者關(guān)注的主要方向。

［1］Lee L，Chen B. Spoken document understanding and organization［J］. Signal Processing Magazine，IEEE，2005，22(5):42－60.

［2］Rabiner L. A tutorial on hidden Markov models and selected applications in speech recognition［J］. Proceedings of the IEEE，1989，77(2):257－286.

［3］Schauble P. Multimedia information retrieval:content-based information retrieval from large text and audio databases［M］. Springer，1997.

［4］McKeown K，Hirschberg J，Galley M，et al. From text to speech summarization［C］.Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing(ICASSP’05)，2005，5:997－1000.

［5］Furui S. Automatic speech recognition and its application to information extraction［C］. Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics，Association for Computational Linguistics，1999:11－20.

［6］Kurimo M. Thematic indexing of spoken documents by using self-organizing maps［J］. Speech Communication，2002，38(1):29－45.

［7］Mani I，Maybury M. Advances in automatic text summarization［M］. MIT Press，1999:293.

［8］Teufel S，Moens M. Summarizing scientific articles:experiments with relevance and rhetorical status［J］. Computational Linguistics，2002，28(4):409－445.

［9］Christensen H，Gotoh Y，Kolluru B，et al. Are extractive text summarization techniques portable to broadcast news?［C］. Proceedings of the 2003 IEEE Workshop on Automatic Speech Recognition and Understanding，IEEE，2003:489－494.

［10］Zhu X，Penn G. Comparing the roles of textual，acoustic and spoken language features on spontaneous－conversation summarization［C］. Proceedings of the Human Language Technology Conference of the NAACL，Companion Volume:Short Papers on XX. Association for Computational Linguistics，2006:197－200.

［11］Hori C，F(xiàn)urui S. Advances in automatic speech summarization［J］. Proc Eurospeech 2001，2001，3:1771－1774.

［12］Kolluru B，Christensen H，Gotoh Y. Multi－stage compaction approach to broadcast news summarization［C］. Proc of Eurospeach 2005，2005.

［13］Chen B，Yeh Y M，Huang Y M，et al. Chinese Spoken Document Summarization Using Probabilistic Latent Topical Information［C］. Proceedings of the IEEE Insternational Conterence 2006 on Acousties，Speech and Signal Proccssing，IEEE，2006，I:969－972.

［14］Inoue A，Mikami T，Yamashita Y. Improvement of speech summarization using prosodic information［C］. Proceedings of the International Conterence 2004 on Speech Prosody，2004.

［15］Hori C，F(xiàn)urui S. A new approach to automatic speech summarization［J］. IEEE Transactions on Multimedia，2003，5(3):368－378.

［16］Maskey S，Hirschberg J. Comparing lexical，acoustic/prosodic，structural and discourse features for speech summarization［J］. Proceeding of Interspeech 2005，2005:621－624.

［17］Maskey S，Hirschberg J. Summarizing speech without text using hidden markov models［C］. Proceedings of the Human Language Technology Conference of the NAACL，Companion Volume:Short Papers，Association for Competation Linguistics，2006:89－92.

［18］Hirohata M，Shinnaka Y，Iwano K，et al. Sentence extraction－based presentation summarization techniques and evaluation metrics［C］. Proceedinging of the ICASSP 2005，2005，I:1065－1068.

［19］Chen Y T，Chiu H S，Wang H M. A unified probabilistic generative framework for extractive spoken document summarization［C］. Proceedings of the Europcan Conterence on Speech Communteation Technology，2007:2805－2808.

［20］Zhang J，Chan H Y，F(xiàn)ung P. Improving lecture speech summarization using rhetorical information［C］. Proceeding of the IEEE Workshop 2007 on Automatic Speech Recognition ＆ Understanding，IEEE，2007:195－200.

［21］Barzilay R，Lee L. Catching the drift:Probabilistic content models，with applications to generation and summarization［C］. Proceedings of HLT-NAACL，2004:113－120.

［22］Branavan S R K，Deshpande P，Barzilay R. Generating a table-of-contents［C］. Proceedings of the Annual Meeting-Association For Computational Linguistics 2007，2007，45(1):544.

［23］Blei D M，Ng A M，Jordan M I. Latent dirichlet allocation［J］. The Journal of Machine Learning Research，2003，3:993－1022.

［24］Blei D M，Lafferty J D. Dynamic topic models［C］. Proceedings of the 23rdinternational conference on Machine learning，ACM，2006:113－120.

［25］Blei D M，Lafferty J M. A correlated topic model of science［J］. The Annals of Applied Statistics，2007，1(1):17－35.

［26］Eisenstein J，Barzilay R. Bayesian unsupervised topic segmentation［C］. Proceedings of the Conference on Empirical Methods in Natural Language Processing，Association for Computational Linguistics，2008:334－343.

［27］Tatar D，Tamaianu-Morita E，Mihis A，et al. Summarization by logic segmentation and text entailment［J］. Advances in Natural Language Processing and Applications，2008:15 –26.

［28］Alota N，Nemoto Y，Kawahara T. PLSA-based topic detection in meetings for adaptation of lexicon and language mode［C］. Proceeding of Interspeech 2007，2007:602－605.

［29］Hearst M A. TextTiling:Segmenting text into multi-paragraph subtopic passages［J］.Computational Linguistics，1997，23(1):33－64.

［30］Garofolo J，Auzanne C G P，Voorhees E M. The TREC spoken document retrieval track:A success story［J］. NIST Special Publication SP，2000(246):107－130.

［31］Halliday M A K. Intonation and grammar in British English［M］. The Hague:Mouton，1967.

［32］Ladd D R. Intonational Phonology［M］. Cambridge University Press，2008.

［33］Hirschberg J，Nakatani C H. A prosodic analysis of discourse segments in direction-giving monologues［C］. Proceedings of the 34th annual meeting on Association for Computational Linguistics，Association for Computational Linguistics，1996:286－293.