• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向智能電網(wǎng)的文本分類研究綜述

    2020-02-02 03:25:36楊波王瓊楊仕博
    電子技術(shù)與軟件工程 2020年17期
    關(guān)鍵詞:分詞電網(wǎng)分類

    楊波 王瓊 楊仕博

    (1.國網(wǎng)甘肅省電力公司信息通信公司 甘肅省蘭州市 730050 2.甘肅同興智能科技發(fā)展有限責(zé)任公司 甘肅省蘭州市 730030)

    智能電網(wǎng)是以新能源戰(zhàn)略與國家地毯經(jīng)濟為發(fā)展要義提出的“電網(wǎng)2.0”,旨在基于集成且高速雙向通信網(wǎng)絡(luò),并通過各類傳感測量設(shè)備、技術(shù)、方法、系統(tǒng)支持建成的電力資源優(yōu)化配置管理平臺[1]。自2009年國家電網(wǎng)發(fā)布智能電網(wǎng)計劃以來,我國的智能電網(wǎng)發(fā)展已開啟人工智能風(fēng)口下的高速發(fā)展。隨之而來的數(shù)據(jù)規(guī)模井噴式增長對智能電網(wǎng)環(huán)境下的電力信息快速挖掘利用、科學(xué)精準管理提出了高要求。

    電網(wǎng)企業(yè)作為信息資源密集型企業(yè),其企業(yè)數(shù)據(jù)雖具備規(guī)模大、類型復(fù)雜、價值密度低、變化快的大數(shù)據(jù)典型特征,但電網(wǎng)企業(yè)積累了大量文本數(shù)據(jù)及其參考價值高的特點為開展智能化電網(wǎng)信息管理提供了數(shù)據(jù)來源可靠性與體量充分性,并具有良好的應(yīng)用前景。

    此外,目前先進的自然語言處理、深度學(xué)習(xí)技術(shù)以及電力行業(yè)成熟的評估、指導(dǎo)、管理標準為實現(xiàn)電力文本數(shù)據(jù)挖掘與管理提供了自動化電網(wǎng)數(shù)據(jù)管理,同時就運行監(jiān)測、業(yè)務(wù)評估、人員培訓(xùn)、企業(yè)管理給出關(guān)鍵性解決方案。雖然,文本分類技術(shù)暫時未在我國電力行業(yè)中獲得廣泛性推廣應(yīng)用,但其在傳媒[2]、醫(yī)療[3]、行政[4]事務(wù)中的成熟應(yīng)用為該技術(shù)在電力行業(yè)的發(fā)展提供了重要參考意義。

    本文擬對相關(guān)研究進行概述,分析電力文本分類的技術(shù)特點、常見應(yīng)用、現(xiàn)存問題,并基于此,預(yù)測智能電網(wǎng)環(huán)境下的電力文本分類發(fā)展趨勢。

    1 電力文本分類技術(shù)概述

    1.1 文本分類技術(shù)

    作為自然語言處理以及數(shù)據(jù)挖掘中的重要子任務(wù)之一,文本分類(Text classification 或Text Categorization)是按照一定的分類標準或需求對大量的文本通過高效自動分類技術(shù)實現(xiàn)的,突破基于經(jīng)驗的傳統(tǒng)手工限制的針對海量電力文本的標準化快速管理,即將一篇包含信息的文本映射到某一類或某幾類主題的過程。而主題的設(shè)置常根據(jù)業(yè)務(wù)需求、應(yīng)用場景進行預(yù)設(shè)。目前,文本分類的主要研究內(nèi)容之一是探索高性能的分類模型。而在電力方面,文本分類的研究則主要在于以業(yè)務(wù)為導(dǎo)向的技術(shù)應(yīng)用和模型優(yōu)化的理論探索。但是,面向智能電網(wǎng)的文本分類研究依舊遵循一般性文本分類處理流程,主要涉及文本數(shù)據(jù)預(yù)處理,特征提取以及特征表示,分類器訓(xùn)練等[5]。電力文本分類系統(tǒng)如圖1所示。

    1.2 電力文本分類難點

    在調(diào)研了大量電力業(yè)務(wù)以及文本后,從數(shù)據(jù)和方法兩方面入手,我們發(fā)現(xiàn)電力文本分類主要存在以下幾個難點。

    圖1:電力文本分類系統(tǒng)

    1.2.1 數(shù)據(jù)缺乏

    各類文本分類器的訓(xùn)練大多依賴于大量的訓(xùn)練數(shù)據(jù)。然而,由于電力工業(yè)也安全時國家安全的重要組成部分,電力企業(yè)對于文本數(shù)據(jù)的管理制度以及保密要求非常嚴格。這為電力文本分類技術(shù)研究帶來了巨大的挑戰(zhàn)以及更高的要求。

    1.2.2 電力文本特點

    和一般性文本相比,電力文本具有其獨有的文本特點。

    專業(yè)性,電力文本涉及大量專業(yè)性詞匯,如果不進行模型訓(xùn)練或是詞典擴充,那么大量的專業(yè)性詞匯是無法被識別并被表示為文本特征的。

    語言學(xué)弱顯性,電力行業(yè)高效快速的行業(yè)特征,使得在文本書寫階段,更多考慮內(nèi)容傳達,而相對忽略語言學(xué)規(guī)則,因此在某些情況下,無法采用一些基于語法或是上下文的分類方法進行處理。

    電力文本形式多樣性。電力文本常為了實現(xiàn)快速的信息傳遞,在一篇文本中出現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)混合問題。這種無確定形式表達且缺乏機器可理解語言的問題為自動化文本特征抽取與分類提出了更高的要求。

    電力文本內(nèi)容缺陷性。電力設(shè)備的日志在電力文本中的占比較大。然而這類文本由于本身由設(shè)備或者系統(tǒng)自動生成等原因造成缺陷性文本數(shù)目龐大。比如文本中常常缺失設(shè)備編號、位置信息、時間等各類問題。在文本分類過程中,這類數(shù)據(jù)是必須處理的。因此,專門針對電力缺陷文本的處理也是一項非常有意義的課題。

    設(shè)備運行負載及成本。文本分類技術(shù)在電力行業(yè)的應(yīng)用必須按照電網(wǎng)工業(yè)生產(chǎn)和安全標準提出的要求。如何使用少量的計算資源、設(shè)備資源和存儲資源,在最短的時間內(nèi)實現(xiàn)快速準確的自動化文本分類是自然語言處理在電力場景下應(yīng)用的重要課題之一。

    2 電力文本分類關(guān)鍵技術(shù)

    2.1 電力文本的中文分詞

    圖2:Bi-LSTM 結(jié)構(gòu)圖

    圖3:TextRNN 流程

    中文分詞[6]作為人機自然語言交互的基礎(chǔ)性工作,是將一個由漢字序列組成的電力文本從語言理解的角度切分成單獨的詞塊。由于中文文本沒有詞界限,因此比起英文來說,分詞的工作就顯得尤為重要。而分詞效果的好壞會直接影響到包括磁性、句法樹在內(nèi)的后續(xù)工作。常用的中文分詞手段主要有基于詞典的分詞算法、基于統(tǒng)計的機器學(xué)習(xí)分詞算法、基于深度學(xué)習(xí)的分詞器以及混合方法的分詞手段。

    早期基于詞典的分詞算法主要依賴已建成的充分完善的詞典進行詞語匹配,若匹配一致,則識別文本中出現(xiàn)的詞語。常見的具體方法由正向最大匹配、逆向最大匹配以及雙向匹配。這種分詞方法的分詞速度最快,但無法完全滿足電力文本的分詞處理需求。

    基于傳統(tǒng)機器學(xué)習(xí)的方法是目前較為常用的,在Stanford[7]等眾多廣普性分詞工具中獲得了大量的應(yīng)用。常用的機器學(xué)習(xí)模型則包括隱馬爾科夫模型、條件隨機場模型、支持向量機模型等。這些方法的思路是通過對訓(xùn)練數(shù)據(jù)的標注,從詞頻和時間序列兩個角度進行分詞,從一定程度上解決歧義詞以及未收入詞的識別[8]。

    近年來,隨著深度學(xué)習(xí)的理論探索,基于深度學(xué)習(xí)和機器學(xué)習(xí)的混合模型受到了越來越多的應(yīng)用,如基于雙向LSTM 和CRF 的分詞器[9]取得了良好的效果,且已被驗證該模型同樣適用于中文分詞任務(wù)。

    而由于電力文本存在專業(yè)性強、語言學(xué)特征弱顯性等領(lǐng)域性文本常見問題,以及電網(wǎng)運行安全性、高效性、可用性的業(yè)務(wù)要求,主要提倡采用基于機器學(xué)習(xí)或者深度學(xué)習(xí)的分詞模型和詞典結(jié)合的形式。

    2.2 電力文本的特征工程

    實現(xiàn)對電力文本的特征提取及表示,實現(xiàn)特征到類別的映射是文本分類的關(guān)鍵性模塊。特征抽取的四類主要方法分別是基于詞袋模型的特征表示,以循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)為代表的基于字符的特征抽取,以Word2Vec 嵌入、神經(jīng)網(wǎng)絡(luò)嵌入和圖嵌入為代表的基于embedding 的特征表示,以及基于BagOfWord 的特征抽取方法。

    基于詞袋的特征表示方法主要采用TF-IDF,通過統(tǒng)計一個詞語在文本中的出現(xiàn)次數(shù),即詞頻,判評估一個詞的重要程度。這種方法簡單直觀,但無法處理詞義融合問題,如在電網(wǎng)中,某些情況下,“設(shè)備”和“計算機”這類意同詞不同的情況。

    基于embedding 的特征表示的主要原理是將現(xiàn)有的特征表示營收達到一個新的向量空間中。其訓(xùn)練方法分為無監(jiān)督和有監(jiān)督。其中Mikolov 提出word2vec[10]方法是一種可不依賴手工提取特征的無監(jiān)督方法。常用的TextCNN 和TextRNN 會根據(jù)任務(wù)需要進行選取。其中TextCNN 是通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取文本中n-gram 信息,引入對詞性的考慮,實現(xiàn)對文本關(guān)鍵局部信息的捕捉。TextRNN 則主要通過雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)實現(xiàn)雙向n-gram 信息捕捉,解決TextCNN 無法關(guān)注長序列的信息的問題。Bi-LSTM 結(jié)構(gòu)圖如圖2所示,TextRNN 流程如圖3所示。

    針對智慧電網(wǎng)中出現(xiàn)的電力文本特征抽取,除了從模型本身的性能考慮,還需要考慮電網(wǎng)業(yè)務(wù)需求,電力行業(yè)特殊性,電力運行安全性可靠性,設(shè)備運行壓力,運行時間綜合考慮,進行選取調(diào)整,并做改進優(yōu)化。

    3 文本分類技術(shù)在智能電網(wǎng)中的研究現(xiàn)狀及挑戰(zhàn)

    3.1 電力文本分類研究現(xiàn)狀

    目前,文本分類技術(shù)的應(yīng)用研究主要集中于電力設(shè)備缺陷,電力檢修,基建施工,客服工單,電力審計,電力調(diào)度,電企輿情等方面。

    其中,針對電力設(shè)備缺陷的文本分類關(guān)鍵技術(shù)研究是重要的課題之一。浙江大學(xué)通過引入BiLSTM-Attention 神經(jīng)網(wǎng)絡(luò)的方法實現(xiàn)對電力設(shè)備缺陷文本的自動精準高效分類[11]。張晗等人則重點針對輸變電設(shè)備缺陷文本采用4 層神經(jīng)網(wǎng)絡(luò)的形式進行分類[12]。

    除此之外,文本分類技術(shù)在客服工單上的應(yīng)用也很廣泛。廖勝蘭等人根據(jù)電力業(yè)務(wù)定義里35 中業(yè)務(wù)類別標簽,構(gòu)建了包含9577條用戶問詢語句的數(shù)據(jù)集[13]。天津信通公司則從層次語義理解的角度入手,以準確定位客服工單內(nèi)容中的客戶需求為任務(wù)導(dǎo)向,采用深度學(xué)習(xí)的方法實現(xiàn)了對工單文本中詞和字符的建模[14]。顧斌等人則通過詞典擴充的方法結(jié)合word2vec 以客服工單中的情感傾向為分類依據(jù)展開研究[15]。

    而針對電力審計領(lǐng)域的文本具有行業(yè)特征明顯、文本特征相似度高、分類邊界模糊的特性,陳平等人提出了增強領(lǐng)域特征的電力審計文本分類方法。通過此方法,垂直領(lǐng)域的文本細粒度分類性能也獲得了顯著提升[16]。

    甘肅信通公司還展開了文本分類技術(shù)在電企輿情方面的研究[17],通過搭建的基于文本分類技術(shù)的企業(yè)輿情主題識別實驗平臺幫助電力企業(yè)進一步加強輿情管控。

    也有越來越多的工作以構(gòu)建客服人機對話系統(tǒng),客服問詢知識圖譜為最終任務(wù),前期采用文本分類技術(shù)幫助實現(xiàn)知識圖譜或是構(gòu)建電力設(shè)備缺陷用戶畫像。

    3.2 電力文本分類挑戰(zhàn)

    3.2.1 基于電力文本詞典構(gòu)建

    針對電力領(lǐng)域的本體詞典構(gòu)建具有重要科研意義。它的構(gòu)建將不止服務(wù)于文本分類任務(wù),而是幫助各類自然語言處理技術(shù)引入到對電力文本的應(yīng)用和研究中。當然此類詞典的構(gòu)建工作量龐大,涉及內(nèi)容多,專業(yè)要求高。業(yè)務(wù)部門繁多,工種繁多,電企內(nèi)部體系復(fù)雜以及電企所處地理位置的習(xí)慣性表達等原因造成的內(nèi)容表述方式多樣化也為詞典的構(gòu)建帶來了巨大的挑戰(zhàn)。

    3.2.2 基于數(shù)據(jù)融合的知識圖譜構(gòu)建

    近年來,知識圖譜技術(shù)已引入到醫(yī)療、傳媒等各個領(lǐng)域,也帶來了良好的效果。隨著電網(wǎng)2.0 概念的落實,智能電網(wǎng)背景下的知識圖譜的構(gòu)建勢在必行。然而,電力知識圖譜的構(gòu)建還處在初步嘗試階段,常見的是針對某一業(yè)務(wù)的圖譜構(gòu)建,如設(shè)備故障、智能客服故障問詢。事實上,在電網(wǎng)體系中,多平臺,多系統(tǒng),多類型表達的現(xiàn)狀對知識圖譜的構(gòu)建提出了更高的基于數(shù)據(jù)融合的要求。這項工作的展開需要文本分類技術(shù)的支撐。

    因此,在電網(wǎng)文本問題解決過程中,與自然語言處理相關(guān)的各項子任務(wù)并非獨立存在的且完全割裂的,而是相互提供技術(shù)支持。

    4 結(jié)語

    近年來,隨著自然語言處理技術(shù)的發(fā)展為電力文本自動化分類與標準化管理的實現(xiàn)提供了技術(shù)條件。以語義理解為基礎(chǔ),以專業(yè)知識為前期支撐,文本分類技術(shù)將為我國智能電網(wǎng)的發(fā)展提供支持。數(shù)據(jù)集的構(gòu)建,針對電力領(lǐng)域的定制化文本分類技術(shù)將成為自然語言處理技術(shù)在電網(wǎng)行業(yè)應(yīng)用的重要課題之一。

    猜你喜歡
    分詞電網(wǎng)分類
    穿越電網(wǎng)
    分類算一算
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    分類討論求坐標
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    值得重視的分詞的特殊用法
    電網(wǎng)也有春天
    河南電力(2016年5期)2016-02-06 02:11:32
    一個電網(wǎng)人的環(huán)保路
    河南電力(2015年5期)2015-06-08 06:01:46
    電網(wǎng)環(huán)保知多少
    河南電力(2015年5期)2015-06-08 06:01:46
    哈尔滨市| 奉化市| 陆川县| 惠安县| 达州市| 泊头市| 临邑县| 内黄县| 阆中市| 新兴县| 福清市| 辽中县| 苏尼特左旗| 武汉市| 江孜县| 滕州市| 青海省| 陇西县| 辽源市| 云安县| 方山县| 田阳县| 兰坪| 四平市| 江门市| 德阳市| 南木林县| 西林县| 丰宁| 正蓝旗| 云霄县| 治多县| 小金县| 融水| 麻栗坡县| 洱源县| 抚州市| 河津市| 大荔县| 都兰县| 绥宁县|