• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      新聞節(jié)目導(dǎo)語(yǔ)中關(guān)鍵詞自動(dòng)提取方法研究

      2014-07-02 00:29:33何曉華朱津津
      電視技術(shù) 2014年20期
      關(guān)鍵詞:詞頻導(dǎo)語(yǔ)新聞節(jié)目

      何曉華,朱津津,凌 堅(jiān)

      (浙江傳媒學(xué)院 電子信息學(xué)院,浙江 杭州 310018)

      新聞節(jié)目導(dǎo)語(yǔ)中關(guān)鍵詞自動(dòng)提取方法研究

      何曉華,朱津津,凌 堅(jiān)

      (浙江傳媒學(xué)院 電子信息學(xué)院,浙江 杭州 310018)

      利用詞語(yǔ)在文本中的特征信息衡量詞語(yǔ)與文本主題相關(guān)程度,提出了一種在新聞節(jié)目導(dǎo)語(yǔ)中提取關(guān)鍵詞的方法,該方法綜合了詞頻、位置分布等特征,組合詞方案,并在詞頻、位置分布特征時(shí)考慮了同義詞的影響,在實(shí)際使用中取得較好效果。

      提??;節(jié)目導(dǎo)語(yǔ);同義詞;詞語(yǔ)特征;組合詞

      隨著新媒體和網(wǎng)絡(luò)技術(shù)的發(fā)展,視頻新聞節(jié)目從無(wú)差別的廣播方式逐步向個(gè)性化、自主化的點(diǎn)播方式轉(zhuǎn)變。為了讓受眾從海量視頻新聞節(jié)目中檢索到感興趣的節(jié)目,系統(tǒng)必須提供有效的檢索方式。直接視頻檢索存在著諸多的問(wèn)題,關(guān)鍵詞檢索是目前廣泛采用的有效方法。為了實(shí)現(xiàn)利用關(guān)鍵詞檢索新聞節(jié)目,首先要為每個(gè)節(jié)目提取合適的關(guān)鍵詞,人工方法是通過(guò)觀看整個(gè)節(jié)目或閱讀節(jié)目文稿,根據(jù)個(gè)人理解提取節(jié)目的關(guān)鍵詞,需要耗費(fèi)大量的人力。因此,研究采用計(jì)算機(jī)從新聞節(jié)目中自動(dòng)提取關(guān)鍵詞的方法具有重要的實(shí)際意義。

      國(guó)內(nèi)外對(duì)關(guān)鍵詞提取方法做了大量的研究,直接通過(guò)分析文本語(yǔ)義確定關(guān)鍵詞目前還有著諸多困難,基本方法主要分為兩大類(lèi):基于統(tǒng)計(jì)信息和機(jī)器學(xué)習(xí)。基于統(tǒng)計(jì)信息的方法選取單詞或詞組在文中的某些特征作為統(tǒng)計(jì)依據(jù),常用的特征包括詞頻、TF-IDF、N-Gram、詞長(zhǎng)、出現(xiàn)位置等[1-2],此類(lèi)方法簡(jiǎn)單易行,在單主題短文中有比較好的效果。在機(jī)器學(xué)習(xí)方法中,借助大量已標(biāo)注的語(yǔ)料庫(kù)作為訓(xùn)練集,通過(guò)訓(xùn)練特征參數(shù)構(gòu)造分類(lèi)模型,將關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,或者將關(guān)鍵詞視為一篇文章中重要且語(yǔ)義聚集的詞語(yǔ)的代表,將關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化為聚類(lèi)問(wèn)題。例如基于支持向量機(jī)、最大熵模型、相對(duì)熵算法、基于聚類(lèi)的文本摘要等[3]。此類(lèi)算法不需要訓(xùn)練集,通用性較好,但此類(lèi)方法對(duì)輸入樣本的類(lèi)別及聚類(lèi)的類(lèi)別數(shù)具有較高要求,很難完全覆蓋整個(gè)樣本空間,影響關(guān)鍵詞提取質(zhì)量。

      此外,針對(duì)中文的語(yǔ)言特點(diǎn)提出了一些關(guān)鍵詞提取方法,如條件隨機(jī)場(chǎng)抽取、中文關(guān)鍵詞Text Rank模型和同義詞鏈等方法[4-5],已取得了較好的結(jié)果。目前,度量詞語(yǔ)和內(nèi)容關(guān)聯(lián)程度、劃分和組合詞語(yǔ)等是關(guān)鍵詞抽取方法的研究重點(diǎn)。本文針對(duì)新聞內(nèi)容的特點(diǎn),提出了一種在新聞視頻節(jié)目導(dǎo)語(yǔ)中提取關(guān)鍵詞的方法。該方法利用新聞視頻中內(nèi)容文本的特點(diǎn),以詞頻、詞性和詞語(yǔ)位置為詞語(yǔ)特征,計(jì)算詞語(yǔ)和文本主題的相關(guān)程度,給出了組合詞處理方法。

      1 整體框架

      關(guān)鍵詞分析的對(duì)象是文本,因此,首先要從視頻新聞節(jié)目中獲取內(nèi)容相關(guān)的文本,其主體是播音員播報(bào)的語(yǔ)言,稱為導(dǎo)語(yǔ)。利用新聞節(jié)目制作時(shí)的文稿或通過(guò)語(yǔ)音識(shí)別、人工編目等方式獲得新聞節(jié)目的導(dǎo)語(yǔ)。獲取節(jié)目導(dǎo)語(yǔ)文本后,先對(duì)文本進(jìn)行分詞、確定詞性,并過(guò)濾掉文本中與主題無(wú)關(guān)的詞語(yǔ),這些詞語(yǔ)只用于語(yǔ)法結(jié)構(gòu),如“的”、“但是”等,稱為停用詞,剩下的詞語(yǔ)作為關(guān)鍵詞的候選詞;然后通過(guò)對(duì)候選詞的詞頻、詞性和位置等信息的統(tǒng)計(jì)分析,確定各詞匯與文本內(nèi)容的相關(guān)程度。視頻新聞節(jié)目的關(guān)鍵詞提取的主體框架如圖1所示。

      圖1 關(guān)鍵詞提取的過(guò)程

      2 詞語(yǔ)特征選取和權(quán)重設(shè)置

      基于統(tǒng)計(jì)信息提取關(guān)鍵詞是利用詞語(yǔ)某些統(tǒng)計(jì)特性與文本主題之間的相關(guān)性,把相關(guān)程度最高的詞語(yǔ)作為文本的關(guān)鍵詞。通過(guò)對(duì)新聞節(jié)目的分析統(tǒng)計(jì),一個(gè)新聞單元一般只包含一個(gè)主題,導(dǎo)語(yǔ)文本經(jīng)過(guò)分詞和停用詞過(guò)濾后的候選詞不超過(guò)100個(gè),相對(duì)比較短小。選用詞頻、詞性位置作為統(tǒng)計(jì)特性,綜合確定詞語(yǔ)的權(quán)重。

      2.1 詞頻權(quán)重

      如果某個(gè)詞語(yǔ)在文本中出現(xiàn)的次數(shù)越多,即詞頻越高,就越有可能成為關(guān)鍵詞,但實(shí)際上因?yàn)橹形谋磉_(dá)中同義詞的存在,比如“電腦”、“計(jì)算機(jī)”等詞表示的是同一個(gè)或是十分相近的意思。有些詞雖然在文中只出現(xiàn)了一次,但卻也表達(dá)了比較重要的概念,根據(jù)常規(guī)的詞頻統(tǒng)計(jì)的方法,這個(gè)詞很可能不會(huì)出現(xiàn)在關(guān)鍵詞表中,但同時(shí)文中又出現(xiàn)了其同義詞,因此,考慮把文中某個(gè)詞的同義詞一起統(tǒng)計(jì)計(jì)算該詞的詞頻。這樣就可以把一部分低頻詞語(yǔ)通過(guò)語(yǔ)義關(guān)系整理形成一些新的高頻項(xiàng)。

      本文中同義詞依據(jù)《同義詞詞林?jǐn)U展版》,《同義詞詞林》原版是梅家駒等人編寫(xiě)構(gòu)造的,哈工大信息檢索研究室在《同義詞詞林》的基礎(chǔ)上對(duì)其進(jìn)行了擴(kuò)展。對(duì)經(jīng)過(guò)分詞并去除停用詞等以后的文本進(jìn)行處理,對(duì)處理后文本中的詞,查找文中是否存在同義詞,把第一個(gè)出現(xiàn)的同義詞作為候選關(guān)鍵詞并統(tǒng)計(jì)詞頻。本文采用一個(gè)歸一化的詞頻計(jì)算方法,公式如下

      式中:ni為候選詞i的在文中出現(xiàn)的次數(shù)(含i的同義詞出現(xiàn)的次數(shù));freqi為候選詞i的歸一化詞頻。顯然,詞頻權(quán)重和詞頻成正比是合理的。

      2.2 詞性

      詞語(yǔ)的詞性對(duì)一個(gè)詞能否成為關(guān)鍵詞的影響很大。一般情況下,名詞和動(dòng)詞成為關(guān)鍵詞的可能性最大,地點(diǎn)和人物姓名也是非常重要的詞語(yǔ)?;谶@樣的判斷,設(shè)置詞性權(quán)重計(jì)算公式為

      式中:location和people指表示地點(diǎn)或人物,具體權(quán)重值可以按實(shí)際結(jié)果做相應(yīng)調(diào)整。

      2.3 詞語(yǔ)出現(xiàn)位置

      詞語(yǔ)首次出現(xiàn)的位置和分布也能在一定程度上反映該詞語(yǔ)與文本主題的關(guān)聯(lián)程度,越靠前、分布范圍大的詞語(yǔ)則越是重要。由于詞語(yǔ)在文本中的分布比較復(fù)雜,為簡(jiǎn)化計(jì)算,用該詞在文中首次出現(xiàn)和末次出現(xiàn)的跨度來(lái)表示詞語(yǔ)的分布,定義詞語(yǔ)位置特征的權(quán)重為

      式中:f_loci為詞i在正文中首次出現(xiàn)的位置;N為文本中的詞數(shù)總數(shù);l_loci為詞i末次出現(xiàn)位置。該公式考慮了詞語(yǔ)或其同義詞在文中首次位置和跨度。顯然,首次出現(xiàn)越靠前、在文字中分布跨度越大,則該詞與新聞主題關(guān)聯(lián)越強(qiáng),權(quán)重就越大。

      2.4 組合詞生成

      關(guān)鍵詞并不局限于單個(gè)詞語(yǔ),也可以是詞語(yǔ)組合,事實(shí)上,詞組往往更能反映文本主題。如果在文本中詞相鄰出現(xiàn)多次,很有可能是具有完整語(yǔ)義的詞組的拆分。提取關(guān)鍵詞是應(yīng)該考慮把這樣的詞組合起來(lái),得到一個(gè)意義表達(dá)更為豐富完整的組合詞。例如,“索契冬奧會(huì)”一詞在文本中同時(shí)出現(xiàn)多次,而分詞系統(tǒng)將其拆分為“索契”和“冬奧會(huì)”。很明顯,組合詞表達(dá)了更為豐富的含義。組合詞中的各個(gè)詞語(yǔ)具有相似的權(quán)重,如果有多個(gè)相鄰的詞語(yǔ)具有相似的權(quán)重,應(yīng)該將這些詞語(yǔ)組合成一個(gè)關(guān)鍵詞,并且以這些詞語(yǔ)中最大權(quán)重為該詞組的權(quán)重,參與關(guān)鍵詞的選擇。

      3 關(guān)鍵詞選擇算法

      綜合以上各個(gè)特征和權(quán)重的分析,得到最終的權(quán)重計(jì)算公式如下

      式中:α,β,γ為各個(gè)特征權(quán)重的比例因子,用以調(diào)整不同特征權(quán)重在最終權(quán)重的貢獻(xiàn)度大小,一般可以通過(guò)實(shí)際效果決定,比如α=1.5,β=0.8,γ=0.6。

      至此,本文設(shè)計(jì)了關(guān)鍵詞提取的算法,該算法在為多家電視臺(tái)存檔的新聞視頻節(jié)目進(jìn)行編目處理中得到了應(yīng)用,進(jìn)行自動(dòng)關(guān)鍵詞提取,取得較好效果。算法過(guò)程如下:

      1)輸入視頻,如果視頻有對(duì)應(yīng)的文稿,取文稿數(shù)據(jù)中的導(dǎo)語(yǔ),轉(zhuǎn)步驟3)。

      2)分離伴音數(shù)據(jù),調(diào)用語(yǔ)音識(shí)別模塊,將語(yǔ)音識(shí)別內(nèi)容作為導(dǎo)語(yǔ)。

      3)利用分詞模塊,對(duì)導(dǎo)語(yǔ)文本進(jìn)行分詞,并對(duì)照停用詞表,過(guò)濾停用詞,確定詞匯詞性,生成候選詞集。

      4)按式(4)計(jì)算各個(gè)詞匯的權(quán)重。

      5)分析可能存在的組合詞。

      6)按權(quán)重大小排序,取最大的N個(gè)作為該新聞節(jié)目的關(guān)鍵詞。

      算法在計(jì)算詞匯統(tǒng)計(jì)特征時(shí)考慮了同義詞對(duì)關(guān)鍵詞提取的影響,避免了遺漏合適的關(guān)鍵詞或同義詞同時(shí)選入的情況,對(duì)關(guān)鍵詞選取的合理性有提高。

      4 結(jié)束語(yǔ)

      本文在分析視頻新聞節(jié)目特點(diǎn)的基礎(chǔ)上,提出了一種基于詞語(yǔ)特征信息統(tǒng)計(jì)的關(guān)鍵詞提取算法。首先通過(guò)綜合詞頻、詞性和詞語(yǔ)的位置等典型的詞語(yǔ)特征,計(jì)算詞語(yǔ)和文本主題的相關(guān)程度,在分析詞頻和詞語(yǔ)位置時(shí)考慮了同義詞的影響,并提出了組合詞的處理方法。算法在為多家電視臺(tái)存檔的新聞視頻節(jié)目進(jìn)行編目處理中得到應(yīng)用,進(jìn)行自動(dòng)關(guān)鍵詞提取,有效地減輕了人工勞動(dòng)強(qiáng)度,降低了視頻資源再利用的成本。

      [1]李靜月,李培峰,朱巧明.一種改進(jìn)的TFIDF網(wǎng)頁(yè)關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):25-27.

      [2]馬穎華,王永成,蘇貴洋,等.一種基于字同現(xiàn)頻率的漢語(yǔ)文本主題抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2003,40(6):874-878.

      [3] 蔣昌金,彭宏,陳建超,等.基于組合詞和同義詞集的關(guān)鍵詞提取算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2853-2856.

      [4] 張穎穎,謝強(qiáng),丁秋林.基于同義詞鏈的中文關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2010,36(19):93-95.

      [5]索紅光,劉玉樹(shù),曾淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006,20(6):25-30.

      Research on Automatic Keywords Extraction M ethod in News Programs Leads

      HE Xiaohua,ZHU Jinjin,LING Jian
      (School of Electronics and Information,Zhejiang University of Media and Communications,Hangzhou 310018,China)

      A method of extracting keywords in news leads is proposed in this paper using multi-feature information of the words in the text as a measure of the relationship between the text topic and the words,and these features inclus statistical feature,position feature which considering the influence of synonyms and POS(Part of Speech)feature.In practice use,the method achieves better results.

      extraction;news leads;synonym;words characteristic;compound words

      TN948

      A

      何曉華(1975—),女,副教授,主要從事數(shù)字通信、視頻處理的研究;

      ??健男

      2014-04-06

      【本文獻(xiàn)信息】何曉華,朱津津,凌堅(jiān).新聞節(jié)目導(dǎo)語(yǔ)中關(guān)鍵詞自動(dòng)提取方法研究[J].電視技術(shù),2014,38(20).

      浙江廣播電視技術(shù)研究所2013年科研項(xiàng)目

      朱津津(1980—),女,實(shí)驗(yàn)師,主要從事電視技術(shù)的研究和應(yīng)用;

      凌 堅(jiān)(1968—),副教授,主要從事智能多媒體、視頻處理的研究。

      猜你喜歡
      詞頻導(dǎo)語(yǔ)新聞節(jié)目
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      導(dǎo)語(yǔ)
      陽(yáng)光
      本期專欄導(dǎo)語(yǔ)
      新聞節(jié)目中主持人的“可為”與“不可為”
      新聞傳播(2018年8期)2018-12-06 09:03:00
      地方電視臺(tái)如何辦好新聞節(jié)目
      新聞傳播(2018年11期)2018-08-29 08:15:30
      導(dǎo)語(yǔ)
      戲曲研究(2017年2期)2017-11-13 03:10:03
      如何做好電視新聞節(jié)目編排
      新聞傳播(2016年10期)2016-09-26 12:15:03
      方言新聞節(jié)目探索
      新聞傳播(2015年9期)2015-07-18 11:04:11
      詞頻,一部隱秘的歷史
      潍坊市| 平泉县| 金寨县| 沧源| 五常市| 永胜县| 钦州市| 巫山县| 酉阳| 哈密市| 富川| 兰坪| 荃湾区| 贺兰县| 麻栗坡县| 富宁县| 息烽县| 台山市| 都江堰市| 寻乌县| 阿勒泰市| 福建省| 万全县| 潞西市| 社旗县| 宣恩县| 邓州市| 涡阳县| 东方市| 拉孜县| 莆田市| 阿克苏市| 韶山市| 万安县| 大埔区| 垣曲县| 毕节市| 肇东市| 罗江县| 神木县| 平阳县|