• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向電力的智能分詞方法

      2021-09-11 08:41:44江蘇省電力有限公司張首魁仇晨光李藝豐崔占飛梁文騰李彥柳
      電力設(shè)備管理 2021年8期
      關(guān)鍵詞:詞庫分詞語句

      江蘇省電力有限公司 張首魁 仇晨光 李藝豐 曹 帥 崔占飛 梁文騰 李彥柳

      隨著信息化水平的不斷提升,搜索引擎的不斷發(fā)展,作為其基礎(chǔ)的各種中文分詞算法的應(yīng)用越來越成熟和廣泛。目前主流的中文分詞方法很多,算法也各不相同。但成功將分詞方法應(yīng)用于電網(wǎng)調(diào)度的案例很少,這一方面是由于電網(wǎng)信息系統(tǒng)的安全要求很高,不能直接連接到信息外網(wǎng),導致很多依賴于互聯(lián)網(wǎng)的分詞算法無法得到應(yīng)用;另一方面是因為電網(wǎng)調(diào)度中所使用到的很多電力詞匯、設(shè)備命名無法被大眾化的分詞算法所解析。

      1 主流中文分詞方法

      1.1 主流中文分詞現(xiàn)狀

      中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,目前主流的中文分詞方法主要包括三種:

      基于規(guī)則的分詞方法是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串則匹配成功。其常用的方法包括正向最大匹配法、逆向最大匹配法、最少切分法、雙向匹配法等。然而在這種模式下的分詞結(jié)果精度還遠不能滿足實際需要,在此基礎(chǔ)上還需使用一系列的方法來改進,如特征掃描或標志切分或詞類標注輔助決策等,這是目前使用較多的分詞方法。

      基于理解的分詞方法是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象,通常包括分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)模擬了人對語句的理解過程。這種分詞方法需使用大量語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,很難將語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

      基于統(tǒng)計的分詞方法按照字與字相鄰共現(xiàn)的頻率或概率反映成詞的可信度,從而可對語句中相鄰共現(xiàn)的各個字組合的頻度進行統(tǒng)計,計算它們按照指定順序共同出現(xiàn)概率,然后提取出出現(xiàn)概率最高的詞匯,進一步完成分析。為減少在此過程中識別的無意義詞匯,統(tǒng)計分詞系統(tǒng)要使用一部基本的分詞詞典進行串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將統(tǒng)計和串匹配結(jié)合,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了統(tǒng)計分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。目前任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需綜合不同的算法[1]。

      1.2 主流中文分詞電力應(yīng)用

      目前,以上所描述的幾種主流中文分詞方法不能很好的應(yīng)用于電力系統(tǒng)中,這一方面是由于電力系統(tǒng)的安全性要求,電力分詞只能是在局域網(wǎng)的范圍內(nèi)實現(xiàn);另一方面電力詞庫是不定的、無意義的、可擴展的,同時分詞效率要求很高。以調(diào)控智能操作票系統(tǒng)中所使用到的針對電網(wǎng)操作術(shù)語為例。以常見的電網(wǎng)操作術(shù)語“德安1234線由運行轉(zhuǎn)熱備用”進行分詞說明,為支撐后續(xù)的電網(wǎng)操作校核,需將本術(shù)語按照規(guī)則“{線路}由{初始狀態(tài)}轉(zhuǎn){末狀態(tài)}”解析出其中所包含的設(shè)備、狀態(tài)、動作信息。

      在綜合使用常見的分詞方法后,在不使用設(shè)備庫的情況下其分詞結(jié)果是“德/安/1234/線/由/運行/轉(zhuǎn)/熱備用”,設(shè)備信息存在錯誤,這是由于德安1234線是設(shè)備名稱,并不是常用詞匯。在使用設(shè)備庫作為詞庫后可得到正確分詞結(jié)果。然而由于設(shè)備庫的詞匯量太大,一般都在10W 級,造成了分詞的效率較低或內(nèi)存使用率太高,這些都是不合理的,基本不能滿足當前電力系統(tǒng)的使用需要。同時,在進行相應(yīng)的分詞后無法對分詞的結(jié)果進行語義化的分析,獲取出其中所需的設(shè)備等信息,所以還不足以很好支撐后續(xù)的智能化應(yīng)用[2]。因此需研究一種面向電力的智能分詞方法,在電力內(nèi)網(wǎng)范圍內(nèi)進行智能分詞的同時,獲取分詞結(jié)果中各個詞匯的語義結(jié)果,從而進行后續(xù)的分析。

      2 電力智能分詞實現(xiàn)

      2.1 實現(xiàn)目標

      本文提出一種基于規(guī)則庫進行電力語義分析的智能分詞方法,在準確、高效的前提下使分詞結(jié)果中的內(nèi)容帶有語義識別,可在后期進行理解,從而支撐后續(xù)的智能化應(yīng)用。按照電力系統(tǒng)的場景要求,這種智能分詞必須做到:

      高效。效率是智能分詞算法的一個重要評價指標。目前在電力應(yīng)用環(huán)境下,智能分詞作為一系列高級應(yīng)用的基礎(chǔ),在詞庫無法精確確定的情況下也要求分詞結(jié)果能在毫秒級實現(xiàn);設(shè)備庫可擴展兼容。隨著電網(wǎng)的快速發(fā)展,越來越多的設(shè)備在進行投運、退運等。按照電網(wǎng)設(shè)備的命名規(guī)則,設(shè)備名稱基本上都是新的,沒有辦法在現(xiàn)有任何詞庫中找到。這是一個持續(xù)性的過程,這就需要在本智能分詞方法中提供一種設(shè)備庫的擴展規(guī)則,并在設(shè)備庫擴展變化的同時,對分詞的效率基本不能造成影響。

      生詞自動提醒。在電網(wǎng)進行智能分詞的過程中,對一些可能的生詞需及時進行提醒,從而促進詞庫的更新。如“將AB 線由運行轉(zhuǎn)熱備用”,在分詞完成后需提示用戶“AB 線”是否是一個新的設(shè)備,如確認后需自動將其作為一個新詞進行處理;分詞結(jié)果含語義。對于智能分詞的結(jié)果,各個詞匯段需要包含其含義,比如操作術(shù)語“將AB 線由運行轉(zhuǎn)熱備用”進行分詞之后,需在結(jié)果中將“AB 線”作為設(shè)備,“運行”、“熱備用”作為狀態(tài),“轉(zhuǎn)”作為動作進行處理,從而為后續(xù)的模擬演示、高級校核等功能提供更好的支撐。

      2.2 分詞設(shè)計

      在電力系統(tǒng)中,與外部系統(tǒng)很不相同的是各種術(shù)語都是規(guī)范化的、有規(guī)律的。因此,在本文中基于電力系統(tǒng)的語言規(guī)則設(shè)計出一種智能分詞方法。分詞的步驟如下:讀取電力語言規(guī)則庫,并將其以樹形結(jié)構(gòu)進行表達;預(yù)處理階段按照電力規(guī)范化詞匯將語句中的各類別名等替換成為標準命名,同時將待分詞的段落按標點符號打散成句子;將各個句子在樹狀結(jié)構(gòu)中遍歷,進行關(guān)鍵詞匹配,從而找到該句所對應(yīng)的規(guī)則;按照該電力規(guī)則對語句進行分段,從而得到詞匯組,以及該組中各個詞匯的屬性含義。在這種分詞設(shè)計中,其字符匹配效率是線性的,同時也是可以隨時進行擴展的,分詞的結(jié)果中各個詞匯也都能具備各自的含義。

      2.3 分詞關(guān)鍵點

      2.3.1 電力規(guī)則樹

      在電力語言的智能分詞過程中,需讀取電力語言的規(guī)則庫,建立規(guī)則樹。電力規(guī)則的語言描述是使用術(shù)語結(jié)構(gòu),如:“將{線路}由{初始狀態(tài)}改為{末狀態(tài)}”、“{開關(guān)}由{初始狀態(tài)}轉(zhuǎn){末狀態(tài)}”、“斷開{開關(guān)}”等。其中“{線路}”、“{開關(guān)}”是設(shè)備;“{初始狀態(tài)}”、“{末狀態(tài)}”是狀態(tài);“轉(zhuǎn)”是動作等規(guī)則各個分段的含義已經(jīng)適用分詞屬性庫進行描述。上述規(guī)則可以讀入到規(guī)則樹中,規(guī)則樹的根節(jié)點是一個虛擬節(jié)點,第一層子節(jié)點則是各個規(guī)則的第一個部分,后面依次是各個部分。這三條規(guī)則在規(guī)則樹中可以描述如圖1。

      圖1 規(guī)則樹建立

      圖1所示,在電力規(guī)則庫讀取完成后可形成完整的規(guī)則樹。在這個樹中包含了所有需使用到的電力術(shù)語規(guī)則,所有的電力系統(tǒng)中需使用到的術(shù)語都可在這個樹中找到對應(yīng)的節(jié)點路徑。

      2.3.2 規(guī)則匹配

      在規(guī)則樹建立完成后,可將具體的電力語句與規(guī)則樹中的規(guī)則進行匹配。匹配的規(guī)則是使用遞歸的形式進行實現(xiàn),具體如下:首先讀取規(guī)則樹的第一層節(jié)點,與語句的開頭進行比較,如果相同,則將語句的開頭部分去除之后與該相同節(jié)點的子樹進行比較。如果沒有找到相同項目,則讀取規(guī)則樹中以不規(guī)則項如“{線路}”等開頭的節(jié)點的子樹的第二層節(jié)點,找到固定項并與本語句中的內(nèi)容進行比較,找到所有對應(yīng)項并對每一個對應(yīng)項的子樹與子語句的對應(yīng)關(guān)系進行比較,直到找到最接近項,從而最終實現(xiàn)語句與規(guī)則之間的對應(yīng)。2.3.3 按規(guī)則分詞

      在規(guī)則與語句間實現(xiàn)了對應(yīng)后,可按照規(guī)則實現(xiàn)對語句的分詞。在此分詞的實現(xiàn)過程中可按照關(guān)鍵字進行分段分詞,也可與現(xiàn)有依賴于詞庫的主流中文分詞方法進行結(jié)合,從而得到對應(yīng)的分詞結(jié)果。由于在規(guī)則庫中已描述了具體規(guī)則的每一個分段的含義,所以,分詞的同時已完成了生詞的識別及分段中內(nèi)容屬性含義的識別。因此分詞的結(jié)果中已能夠包含設(shè)備、狀態(tài)、動作等具體的情況描述,從而更好的支撐電網(wǎng)系統(tǒng)中的各個高級應(yīng)用[3]。

      綜上,隨著信息化水平的不斷提高,電力產(chǎn)品需要實現(xiàn)智能化,但主流中文分詞方法在效率、詞庫建設(shè)等方面不能完全滿足電力系統(tǒng)的智能化的基礎(chǔ)需要。本文提出一種面向電力的智能分詞的實現(xiàn),貼近電力系統(tǒng)的要求,更加高效的為電力系統(tǒng)中的高級智能化應(yīng)用提供支撐,但該方法的成效還需與實際結(jié)合不斷進行完善和應(yīng)用。

      猜你喜歡
      詞庫分詞語句
      重點:語句銜接
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      精彩語句
      值得重視的分詞的特殊用法
      詞庫音系學的幾個理論問題芻議
      英語知識(2016年1期)2016-11-11 07:07:54
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      如何搞定語句銜接題
      語文知識(2014年4期)2014-02-28 21:59:52
      高考分詞作狀語考點歸納與疑難解析
      QQ手機輸入法如何導入分類詞庫
      電腦迷(2012年15期)2012-04-29 17:09:47
      論英語不定式和-ing分詞的語義傳承
      外語學刊(2011年3期)2011-01-22 03:42:20
      新平| 和林格尔县| 弥勒县| 长春市| 榆中县| 凌源市| 云龙县| 邮箱| 运城市| 桃源县| 镇坪县| 绥德县| 石屏县| 玉龙| 民乐县| 洞头县| 柳林县| 克山县| 永顺县| 石棉县| 遵义县| 喜德县| 寻甸| 嘉鱼县| 甘洛县| 蒙山县| 弥勒县| 浠水县| 榕江县| 衡山县| 烟台市| 菏泽市| 岳西县| 南阳市| 陕西省| 平乡县| 桐梓县| 泸水县| 泗洪县| 乡宁县| 韶山市|