• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種新詞自動提取方法*

      2014-02-07 06:18:13李亞松王玉龍
      電信工程技術與標準化 2014年12期
      關鍵詞:字數(shù)新詞置信度

      李亞松, 王玉龍

      (1 北京郵電大學網(wǎng)絡與交換技術國家重點實驗室,北京 100876; 2 東信北郵信息技術有限公司,北京 100191)

      一種新詞自動提取方法*

      李亞松1,2, 王玉龍1,2

      (1 北京郵電大學網(wǎng)絡與交換技術國家重點實驗室,北京 100876; 2 東信北郵信息技術有限公司,北京 100191)

      當前網(wǎng)絡語料會不斷出現(xiàn)大量新詞已經(jīng)成為一種普遍的趨勢,這里面包含大量網(wǎng)友創(chuàng)造的新詞,以及一些社會熱點形成的新詞。同時社交網(wǎng)絡產(chǎn)生的社交性語料存在大量口語化、簡稱和隨意的表達。這些都對中文分詞的準確性造成了困擾。本文提出了一種新詞自動提取方法,旨在能準確快速地在特定的語料里提取新詞,生成特定領域詞典,更準確地對網(wǎng)絡語料進行中文分詞。通過從語料中提取候選詞,計算候選詞的支持度和置信度,通過閾值刷選出新詞,從而實現(xiàn)從海量文本中準確且快速的提取新詞。

      新詞提取;支持度;置信度;離散度;GINI指數(shù)

      隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)民規(guī)模不斷膨脹,新詞大量出現(xiàn)在網(wǎng)絡并迅速滲入人們的日常生活,這已經(jīng)成為一種語言現(xiàn)象。網(wǎng)絡輿情監(jiān)控的一個基本任務就是從大量的網(wǎng)絡語料數(shù)據(jù)中快速地識別大量出現(xiàn)的攜帶新詞的新話題、熱點話題、突發(fā)事件[1]。同時,在諸如信息檢索、自動分詞、詞典編纂以及機器翻譯等眾多中文信息處理領域,新詞提取的效果,在很大程度上影響著這些中文信息處理領域的效果,由于中文自身的特點,它不像英文那樣在詞與詞之間有明顯的空格間隔,如何將不斷涌現(xiàn)的新詞準確提取出來已經(jīng)是中文信息處理中至關重要的一步。因此,有效的提取新詞,將對提高中文信息處理相關領域的效果起到重要的作用。

      文獻[2]提到基于監(jiān)督方法提取候選新詞,包括基于隱馬爾可夫模型、決策樹、支持向量機模型。這些方法一方面需要人工標注的訓練語料,一方面模型本身比較復雜,所以難以應用于大規(guī)模語料的新詞提取。文獻[3]公開了一種結合內部聚合度和外部離散信息熵的網(wǎng)絡新詞發(fā)現(xiàn)方法,包括對網(wǎng)絡語料庫包含的所有文本句子進行切詞處理,并將切分出來的所有互不相同的字串作為候選字串;對在網(wǎng)絡語料庫中出現(xiàn)的頻率超過固定閾值的候選字串,計算其內部聚合度和外部離散信息熵,并根據(jù)該候選字串的內部聚合度和外部離散信息熵進一步判斷候選目標詞串是否為網(wǎng)絡新詞。該技術方案實現(xiàn)較復雜,當判斷一個候選字串是否為新詞時需考慮兩個因素:內部聚合度和外部離散信息熵。當針對于互聯(lián)網(wǎng)上的海量文本時,該技術方案所產(chǎn)生的計算量較大,并不能快速、有效的發(fā)現(xiàn)和提取新詞。

      因此,如何從海量文本中準確且快速的提取新詞,仍是一個值得深入研究的技術問題。

      1 方法思路

      本文提出的新詞自動提取方法基本思路是從語料中提取所有的候選詞,再結合候選詞的支持度,置信度和離散度篩選出新詞。具體如下。

      (1)對文本句子進行切詞處理,并將其中字數(shù)長度不大于S+1的候選詞提取出來,然后將提取出的所有互不相同的候選詞保存在候選詞庫中。

      (2)計算候選詞庫中每個候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構成一個頻繁詞組。

      (3)為頻繁詞組中的每個候選詞構建一個子詞組,并將候選詞和頻繁詞組中的所有其它候選詞相比較,如果候選詞中包含有其它候選詞時,則將其它候選詞保存在該候選詞的子詞組中,然后根據(jù)候選詞和子詞組中每個子詞在知識庫中出現(xiàn)的頻數(shù),計算候選詞的置信度,當候選詞的置信度大于置信度閾值時,則保留該候選詞。

      (4)最后結合候選詞的離散度進行刷選,當候選詞的離散度大于離散度閾值時,則候選詞是提取的新詞。

      2 主要流程

      根據(jù)上面所述的基本思路,本文所設計的新詞自動提取方法包括如下步驟。

      步驟1:對語料庫包含的所有文本句子進行切詞處理,可以通過標點符號,將語料庫中的所有文本句子分割成多個短句,并將每個短句中字數(shù)長度不大于S+1的候選詞提取出來,然后將提取出的所有互不相同的候選詞保存在候選詞庫中,其中,S是預先設定的新詞的字數(shù)長度上限;由于新詞的字數(shù)長度上限一般為4,所以可以優(yōu)選S=4。

      例如對于短句“小說劇情精彩”來說,當截詞窗口的寬度width為1時,所截取的字數(shù)長度為1的候選詞有小、說、劇、情、精、彩;當截詞窗口的寬度width為2時,所截取的字數(shù)長度為2的候選詞有小說、說劇、劇情、情精、精彩;當截詞窗口的寬度width為3時,所截取的字數(shù)長度為3的候選詞有小說劇、說劇情、劇情精、情精彩;當截詞窗口的寬度width為4時,所截取的字數(shù)長度為4的候選詞有小說劇情、說劇情精、劇情精彩;當截詞窗口的寬度width為5時,所截取的字數(shù)長度為5的候選詞有小說劇情精、說劇情精彩。

      步驟2:根據(jù)候選詞在知識庫中出現(xiàn)的頻數(shù)與相同字數(shù)長度的所有候選詞在知識庫中出現(xiàn)的頻數(shù)的比值,計算候選詞庫中每個候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構成一個頻繁詞組。

      步驟3:為頻繁詞組中的每個候選詞C構建一個子詞組Z(C),并將候選詞C和頻繁詞組中的所有其它候選詞相比較,如果候選詞C中包含有其它候選詞時,則將其它候選詞保存在候選詞C的子詞組Z(C)中,然后根據(jù)候選詞C以及子詞組Z(C)中每個子詞在知識庫中出現(xiàn)的頻數(shù),計算頻繁詞組中的每個候選詞C的置信度,當候選詞C的置信度大于置信度閾值時,則候選詞 C是提取的新詞。

      例如,當候選詞C是“電影院”時,其字數(shù)長度n(C) =3,從頻繁詞組中找到其子詞:電影、影院,即候選詞C的子詞組Z(C):{電影,影院}。

      計算候選詞C的置信度:

      其中,p(C)是候選詞C在知識庫中出現(xiàn)的頻數(shù),F(xiàn)是Z(C)中的子詞數(shù),z(C)1,z(C)2… z(C)F分別是候選詞C的子詞組Z(C)中包含的所有子詞,p(z(C)1,p(z(C)2…p(z(C)F分別是z(C)1,z(C)2… z(C)F在知識庫中出現(xiàn)的頻數(shù),分別是候選詞C與其子詞的置信度,從候選詞C與其子詞的置信度中挑選出最小值作為候選詞C的置信度conf(C)。

      步驟4:從候選詞庫中找出候選詞C的所有左鄰字和右鄰字,并根據(jù)候選詞C的每個左或右鄰字在所有左或右鄰字中的出現(xiàn)概率,計算候選詞C的離散度,然后判斷候選詞C的離散度是否大于離散度閾值,如果是,則說明候選詞C是提取的新詞。

      根據(jù)候選詞C的字數(shù)長度n(C),從候選詞庫中挑選出所有字數(shù)長度為n(C)+1且以候選詞C為前綴或后綴的其它候選詞,如果候選詞C是挑選出的候選詞的前綴,則將挑選出的候選詞中的最后一個字保存到候選詞C的右鄰字組中,如果候選詞C是挑選出的候選詞的后綴,則將挑選出的候選詞中的最前一個字保存到候選詞C的左鄰字組中。

      例如,對于候選詞“劇情”來說,從候選詞庫中找到其它候選詞“說劇情”、“劇情精”,則將“說”保存到候選詞的左鄰字組中,將“精”保存到候選詞的右鄰字組中。

      比較候選詞C的左鄰字和右鄰字的GINI指數(shù)值大小,并將其中的最小值作為候選詞C的離散度。

      還值得一提的是,支持度閾值、置信度閾值或離散度閾值可以預先設置,或者根據(jù)候選詞C的字數(shù)長度來分別計算。當根據(jù)候選詞C的字數(shù)長度來分別計算時,支持度閾值、置信度閾值或離散度閾值的計算公式是:

      為了進一步提高新詞提取的準確度,當候選詞C的字數(shù)長度為2時,支持度閾值、置信度閾值或離散度閾值還可以在上述計算公式的基礎上,進一步調整:,其中,是候選詞的字數(shù)長度為2時的支持度、置信度或離散度閾值, M2是候選詞庫中字數(shù)長度為2的候選詞的總數(shù),α2(k)是第k個字數(shù)長度為2的候選詞的支持度、置信度或離散度, k是區(qū)間[1,M2]范圍內的一個整數(shù)。

      步驟5:將步驟4提取的新詞和現(xiàn)有詞庫進行比較,當所述提取的新詞不存在于現(xiàn)有詞庫中時,所述提取的新詞是系統(tǒng)最終自動提取的新詞。

      3 實驗結果

      使用中國移動手機閱讀的用戶評論文本數(shù)據(jù)(大小為350 MB),運用本文方法進行測試,通過調試支持度、置信度、離散度閾值,最終得到的結果示例如表1所示。

      表1為提取出的兩字詞示例,可見該方法能很容易識別“蕭炎”、“若曦”、“林暮”等電子圖書中出現(xiàn)的人名,同時也能識別出“腹黑”、“蘿莉”、“坑爹”、“淚奔”等網(wǎng)絡流行詞,在未展示的提取出的新詞里,還發(fā)現(xiàn)了“菇?jīng)觯ü媚铮?、“雞凍(激動)”等網(wǎng)友大量使用的帶錯別字的新詞,以及“威5”、“宮1”這種漢字與數(shù)字或英文的組詞。從實驗結果上看,該方法能識別的新詞非常豐富,并且準確性很高。

      表1 候選詞示例

      續(xù)表

      4 結束語

      與現(xiàn)有技術相比,本文提出的方法簡單可行,且計算量小。在考慮置信度的基礎上,還可以進一步結合離散度,從而大大提高了新詞提取的準確度。支持度閾值、置信度閾值或離散度閾值還可以根據(jù)候選詞的字數(shù)長度以及所有相同字數(shù)長度的候選詞的支持度、置信度或離散度來靈活設置,從而使得該方法在各個應用場景中更具有通用性。

      [1] 王偉,徐鑫. 基于聚類的網(wǎng)絡輿情熱點發(fā)現(xiàn)和分析[J]. 現(xiàn)在圖書情報技術, 2009(3):74-79.

      [2] 張海軍,史樹敏,朱朝勇,等.中文新詞識別技術綜述[J].計算機科學,2010,37(3):6-16.

      CDCC AWARDS數(shù)據(jù)中心年度大獎揭曉

      11月28日,由中國工程建設標準化協(xié)會信息通信專業(yè)委員會主辦,中國數(shù)據(jù)中心工作組(CDCC)、綜合布線工作組聯(lián)合承辦的2014中國數(shù)據(jù)中心年度論壇在北京新云南皇冠假日酒店勝利閉幕。

      論壇中揭曉了“2014年度中國優(yōu)秀數(shù)據(jù)中心評選”活動中各大獎項。參評數(shù)據(jù)中心項目共65個,其中15個數(shù)據(jù)中心獲得中國數(shù)據(jù)中心標準化示范項目獎,7個數(shù)據(jù)中心獲得中國數(shù)據(jù)中心標準化示范項目入圍獎。相對于2013年度評選,2014年度各大獎項競爭更為激烈,在申報項目總數(shù)大大增加的情況下(2013年度為46個,2014年度為65個),獲獎項目數(shù)量和去年相同。

      其中,憑借出色表現(xiàn),百度M1數(shù)據(jù)中心獲得了數(shù)據(jù)中心年度能效獎。中國移動國際信息港一期數(shù)據(jù)中心、中國聯(lián)通呼和浩特基地數(shù)據(jù)機房樓A-2樓及油機樓C-2樓提出的基礎設施代維服務獲得了年度運維獎。國家超級計算機廣州中心、京東商城華東云數(shù)據(jù)中心分別獲得了數(shù)據(jù)中心專業(yè)設計獎和數(shù)據(jù)中心設計理念獎。優(yōu)秀金融數(shù)據(jù)中心獎花落中國農(nóng)業(yè)銀行河北省分行數(shù)據(jù)中心、臨商銀行生產(chǎn)數(shù)據(jù)中心。云基地深圳鹽田港數(shù)據(jù)中心、Telehouse BDA 數(shù)據(jù)中心二期工程獲得了數(shù)據(jù)中心施工質量獎。優(yōu)秀企業(yè)數(shù)據(jù)中心獎在2014年度評選中再度空缺。

      評選委員會主席由中國工程標準化協(xié)會專家技術委員會委員、中國數(shù)據(jù)中心工作組組長、中國數(shù)據(jù)中心專家委員會主任委員鐘景華先生擔任,評選委員會委員由來自于設計院、行業(yè)用戶在內的100多位資深專家組成。評選委員會自4月起專門召開了多次會議,商討評選方案及評估模型。評選以大量的數(shù)據(jù)采集為依據(jù),以完善的評估模型為基礎,在深度分析報告基礎上對部分數(shù)據(jù)中心項目進行現(xiàn)場實際考核,并先后召開了初評會、專家現(xiàn)場答辯會,最終評選出2014年度中國各大優(yōu)秀數(shù)據(jù)中心,以確保評選過程完整全面,真正凝聚不同領域內精英的專業(yè)智慧。

      亨通亮相國際線纜展

      近日在寧波舉行的2014國際電線電纜及材料設備展上,江蘇亨通線纜科技有限公司攜綜合布線、4G基站、數(shù)據(jù)中心、電梯電纜、軌道交通用線纜五大解決方案搶灘全球市場,成為展會一大亮點。

      亨通線纜是亨通集團旗下一家專業(yè)生產(chǎn)和銷售線纜產(chǎn)品的高新技術企業(yè)。此次參展,亨通線纜通過樣品展示、資料分發(fā)以及技術人員的現(xiàn)場講解及交流互動等方式,詳細介紹了亨通線纜的最新產(chǎn)品及解決方案,進一步提升了公司品牌的知名度和影響力。同時,該公司還充分利用本次參展機會,與前來參觀的客戶和經(jīng)銷商充分交流與洽談,了解同行先進企業(yè)的產(chǎn)品特點,以便更好地完善自身產(chǎn)品結構,發(fā)揮自身優(yōu)勢。

      Polycom推出云媒體框架三大解決方案

      日11月25日,Polycom公司再度推出實時會議、云跨界和云媒體中心三大解決方案,以一站式的方式將視頻在云技術框架下的應用和功能提升到一個全新高度,給用戶帶來更大價值,并推動企業(yè)云平臺的更多潛能。

      云媒體解決方案是繼實時會議解決方案和云視頻解決方案的又一次革命性突破,可以為企業(yè)級實時安全會議協(xié)作、內部及外部應用以及全面深入的資源和知識管理分享,提供一站式解決方案以及跨界的應用。在知識分享方面,云媒體能夠實現(xiàn)企業(yè)賦予授權的員工將工作相關的視頻上傳,以讓其他人觀看學習。云媒體還能提供在線培訓、在線答疑、線上考試、證書頒發(fā)等,通過全媒體、嵌入式的應用,將信息嵌入到用戶的網(wǎng)站,還可以與企業(yè)的OA等內部系統(tǒng)集成,實現(xiàn)資源共享最大化,真正體現(xiàn)云時代的應用和體驗。

      小米公司采用Avaya技術打造全新客戶體驗平臺

      經(jīng)過嚴格的篩選,Avaya為小米公司部署了Avaya Aura Contact Center解決方案,涵蓋了Avaya Open Queue網(wǎng)絡服務、Avaya Aura Workforce Optimization人力優(yōu)化應用、Avaya Experience Portal,以及統(tǒng)一通信客戶端Avaya one-X communicator。Avaya專業(yè)服務部門還提供了系統(tǒng)部署和開發(fā)支持服務,涉及統(tǒng)一通信客戶端與第三方軟電話的整合,以及社交媒體的整合,包括小米即時通信系統(tǒng)“米聊”和匯聚了大批米粉的官方社區(qū)。

      小米公司高級客服總監(jiān)楊京津說:“與傳統(tǒng)的呼叫中心模式不同,小米的客服中心是一個綜合了業(yè)務、產(chǎn)品和服務的平臺,整合了硬件產(chǎn)品、軟件產(chǎn)品和售后服務,因此需要一個穩(wěn)定的、強有力的系統(tǒng)提供保障。Avaya解決方案為我們提供了出色的跨渠道客戶體驗管理,系統(tǒng)的開放性還為小米的自主創(chuàng)新提供了有力支持?!?/p>

      愛立信攜手IBM開展5G天線設計

      愛立信與IBM日前宣布,將合作研究5G相控陣天線設計,使網(wǎng)絡能夠為客戶提供的數(shù)據(jù)傳輸速率較現(xiàn)在提升多個數(shù)量級。

      愛立信與IBM將合作研究利用相控陣天線技術開發(fā)原型系統(tǒng),服務更多移動用戶,在同一頻段上提供更多的新增服務,同時提供高出今天多個數(shù)量級的數(shù)據(jù)傳輸速率。這些技術革新實現(xiàn)后,將可以把100個無線接收器高度集成在一張信用卡大小的芯片上,從而極大促進這些技術應用于室內及人口密集城區(qū)的高容量小蜂窩網(wǎng)絡。

      2014年度中國綜合布線十大品牌揭曉

      11月28日,中國綜合布線工作組宣布,“2014年度中國綜合布線十大品牌”評選活動正式落幕。最終,康普公司、美國康寧公司、羅格朗中國、耐克森綜合布線系統(tǒng)(亞太區(qū))、美國泛達網(wǎng)絡、南京普天天紀樓宇智能有限公司、羅森伯格亞太電子有限公司、施耐德電氣(中國)有限公司、美國西蒙公司、泰科電子(上海)有限公司安普布線系統(tǒng)等10家企業(yè)榮獲“2014年度中國綜合布線十大品牌”稱號。

      在當日舉行的“2014年度數(shù)據(jù)中心工程標準化建設年度論壇”上,綜合布線工作組組長、中國移動通信集團設計院有限公司數(shù)據(jù)所副所長張曉微女士揭曉了十大品牌評選活動結果。十家獲獎企業(yè)的高層代表蒞臨論壇,并就綜合布線市場發(fā)展、數(shù)據(jù)中心布線之道、布線技術創(chuàng)新等話題,進行了交流。

      本次論壇活動,由中國工程建設標準化協(xié)會信息通信專業(yè)委員會主辦,中國數(shù)據(jù)中心工作組、綜合布線工作組聯(lián)合承辦。包括協(xié)會領導、設計院專家、數(shù)據(jù)中心領域技術專家、領導廠商專家、新聞媒體等在內的1000名代表出席了本次論壇。

      2014年中國|全球光通信最具競爭力企業(yè)10強榜單出爐

      11月20日,“2014(第八屆)中國光通信發(fā)展與競爭力論壇暨2014中國|全球光通信最具競爭力企業(yè)10強評選活動頒獎典禮(ODC)”在北京隆重舉行。ODC論壇由中國通信學會光通信委員會、亞太光通信委員會主辦,已經(jīng)成功舉辦了8屆,影響力已經(jīng)得到業(yè)界同仁的廣泛認同。

      在今年的評選活動中,華為、烽火、長飛、亨通、DSM等眾多企業(yè)分別在全球及中國光纖光纜、光傳輸、光器件和品牌榜單中榮獲獎項。

      本屆論壇圍繞“面向下一代光網(wǎng)絡”主題,工信部科技委常務副主任韋樂平、中國通信學會副理事長兼秘書長張新生、工信部通信科技委專職常委、亞太光通信委員會主任委員、《網(wǎng)絡電信》雜志社主編毛謙、北京郵電大學原校長林金桐、運營商高層代表張成良、唐雄燕、武漢郵科院副院長、中國通信學會光通信委員會主任委員余少華、華為傳送網(wǎng)副總裁王麗彪等各企業(yè)高層代表發(fā)表了各自在不同角度的觀點,并在圓桌論壇中與業(yè)內同仁展開熱烈討論。

      此次評選由NTR網(wǎng)絡電信信息研究院、亞太光通信委員會共同主辦,由國內通信領域和經(jīng)濟學、管理學、統(tǒng)計學等領域的權威專家組成。各項大獎根據(jù)參評企業(yè)的生產(chǎn)規(guī)模、市場表現(xiàn)、產(chǎn)品性能、售后服務、增長速度和企業(yè)管理及文化等方面共73項要素指標進行評選,對參選企業(yè)的競爭力進行了客觀、系統(tǒng)的分析,為光通信行業(yè)競爭力分析提供了參考依據(jù)。

      New method for the auto-extraction of new words

      LI Ya-song1,2, WANG Yu-long1,2
      (1 Beijing University of Posts and Telecommunications Networking and Switching Technology, State Key Laboratory, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing 100191, China)

      It has been a widespread tendency that large amount of new words are emerging in web text corpus. Among these are many new words created by netizens or arising from social focuses, and are also many colloquial expressions, abbreviations in the social intercourse corpus created by SNS. All the above cases together make it diff cult for words segmentation. In this essay a new extraction method for new words is proposed, aiming to extract new words in a certain corpus, to generate a dictionary and to segment the Chinese expressions more accurately. The new method f rstly extracts candidate words from the corpus, and then calculates its support and conf dence, sifts the new words out, and f nally extracts new words accurately and rapidly from huge text data.

      new words extraction; support; conf dence; dispersion; GINI index

      TN915

      A

      1008-5599(2014)12-0083-04

      2014-11-01

      國家973計劃項目(編號:2013CB329102);國家自然科學基金資助項目(No. 61372120, 61271019, 61101119, 61121001);長江學者和創(chuàng)新團隊發(fā)展計劃資助(編號:IRT1049);教育部科學技術研究重點(重大)項目資助(編號:MCM20130310);北京高等學校青年英才計劃項目(編號:YETP0473)。

      猜你喜歡
      字數(shù)新詞置信度
      字數(shù)變多 有妙招
      硼鋁復合材料硼含量置信度臨界安全分析研究
      《微群新詞》選刊之十四
      正負關聯(lián)規(guī)則兩級置信度閾值設置方法
      計算機應用(2018年5期)2018-07-25 07:41:26
      “字數(shù)多”不等于“具體”
      快樂語文(2016年32期)2016-04-10 10:47:25
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      小議網(wǎng)絡新詞“周邊”
      語文知識(2014年12期)2014-02-28 22:01:18
      填字數(shù)獨游戲
      外教新詞堂
      當代新詞“微X”詞族的多維考察
      利川市| 尼勒克县| 白河县| 太湖县| 铜鼓县| 莎车县| 石渠县| 临汾市| 高淳县| 镇巴县| 鄂托克前旗| 美姑县| 湖口县| 金阳县| 明溪县| 武义县| 衡阳市| 宜丰县| 乌拉特中旗| 孟村| 华坪县| 咸丰县| 阿拉善左旗| 新和县| 浠水县| 南陵县| 台东市| 天长市| 鄂托克前旗| 仙桃市| 阿勒泰市| 阳春市| 民权县| 洮南市| 饶阳县| 高阳县| 嵊泗县| 汉川市| 湘潭市| 敦化市| 湖州市|