• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計算及大數(shù)據(jù)技術(shù)的電力搜索引擎技術(shù)研究

      2016-03-03 05:52:34樓鳳丹裴旭斌王志強紀德良
      電網(wǎng)與清潔能源 2016年12期
      關(guān)鍵詞:全文檢索分詞搜索引擎

      樓鳳丹,裴旭斌,王志強,紀德良

      (1.國網(wǎng)浙江省電力公司信息通信分公司,浙江杭州 310007;2.浙江華云信息科技有限公司,浙江杭州 310008)

      基于云計算及大數(shù)據(jù)技術(shù)的電力搜索引擎技術(shù)研究

      樓鳳丹1,裴旭斌1,王志強1,紀德良2

      (1.國網(wǎng)浙江省電力公司信息通信分公司,浙江杭州 310007;2.浙江華云信息科技有限公司,浙江杭州 310008)

      電力營銷經(jīng)過多年的信息化發(fā)展,企業(yè)內(nèi)部已經(jīng)建立大量異構(gòu)型應(yīng)用系統(tǒng),產(chǎn)生了大量分散的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。基于云計算及大數(shù)據(jù)技術(shù)的電力"求索"搜索引擎技術(shù),構(gòu)建集中式數(shù)據(jù)中心全文檢索的索引,實現(xiàn)對大規(guī)模不同業(yè)務(wù)功能和業(yè)務(wù)數(shù)據(jù)的統(tǒng)一檢索,滿足用戶從大量異構(gòu)業(yè)務(wù)系統(tǒng)和海量數(shù)據(jù)中進行快速檢索的要求。電力"求索"搜索引擎技術(shù)基于開源的Elastic Search,利用分布式索引、分布式檢索、分布式緩存技術(shù),實現(xiàn)分布式全文檢索平臺,提供對大規(guī)模索引數(shù)據(jù)的高效管理與快速、靈活的訪問能力。通過搜索引擎技術(shù),綜合利用文本挖掘、自然語言處理、信息檢索等領(lǐng)域的技術(shù),進一步提高全文檢索的查準率、查全率。該技術(shù)的應(yīng)用,可以滿足大規(guī)模不同業(yè)務(wù)數(shù)據(jù)的統(tǒng)一檢索的需求;并同時滿足大規(guī)模數(shù)據(jù)檢索請求的快速響應(yīng)要求。

      Elastic Search;電力;云計算;大數(shù)據(jù);分布式全文檢索;單點登錄

      隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)以極快的速度增長,形成了文本數(shù)據(jù)、圖片以及聲音視頻等多媒體數(shù)據(jù)在內(nèi)的海量數(shù)字資源。電力企業(yè)也不可避免地面臨著大數(shù)據(jù)信息浪潮的沖擊。

      經(jīng)過多年的信息化發(fā)展,電力企業(yè)內(nèi)部已經(jīng)建立起很多以SG186營銷業(yè)務(wù)應(yīng)用系統(tǒng)、用電信息采集系統(tǒng)、電力生產(chǎn)調(diào)度系統(tǒng)等為代表的應(yīng)用系統(tǒng),并產(chǎn)生了大量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)分散在各個業(yè)務(wù)系統(tǒng),無法被有效的快速檢索。為了解決企業(yè)信息系統(tǒng)間的數(shù)據(jù)孤島問題,需要構(gòu)建集中、統(tǒng)一、穩(wěn)定、高效的檢索平臺,形成覆蓋電力企業(yè)各門類的信息資源共享體系[1-2]。

      通常用關(guān)系數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),再用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(例如ORACLE)管理這些數(shù)據(jù),性能一般能滿足用戶檢索要求。但是關(guān)系數(shù)據(jù)庫在存儲大量非結(jié)構(gòu)化數(shù)據(jù)和稀疏數(shù)據(jù)時,暴露出一系列問題,其查詢速度也很慢[3-5]。而全文檢索技術(shù)能快速高效的查詢這些數(shù)據(jù)。隨著電力企業(yè)業(yè)務(wù)的發(fā)展和企業(yè)規(guī)模的壯大,企業(yè)內(nèi)的數(shù)據(jù)量的不斷增長,電力企業(yè)急需搭建自己的全文檢索平臺,如何快速定位所需資料以及如何從大量文本資料中快速找到關(guān)鍵信息成為一個難題。由于內(nèi)涵和外延的深刻變化,全文檢索系統(tǒng)已成為新一代管理信息系統(tǒng)的代名詞,衡量全文檢索系統(tǒng)的基本指標也逐漸形成規(guī)范[6-8]。

      本文根據(jù)Elastic Search的特點和大數(shù)據(jù)時代的大量搜索問題,利用云計算及大數(shù)據(jù)技術(shù),基于Elastic Search,實現(xiàn)以“求索”搜索引擎為核心的電力企業(yè)級分布式全文檢索系統(tǒng),并確保全文檢索系統(tǒng)的高性能、可擴展和可維護的特性。

      1 技術(shù)綜述

      1.1 云計算及大數(shù)據(jù)技術(shù)

      云計算(cloud computing)是繼個人電腦、互聯(lián)網(wǎng)之后電子信息技術(shù)領(lǐng)域又一次重大變革。其通過虛擬化有效地聚合各類資源;通過網(wǎng)絡(luò)化按需供給資源,通過專業(yè)化提供豐富的應(yīng)用服務(wù);這種新型的計算資源組織、分配和使用模式,有利于合理配置計算資源并提高利用率、降低成本、促進節(jié)能減排,實現(xiàn)綠色計算。大數(shù)據(jù)是一系列信息技術(shù)的集合,包括數(shù)據(jù)采集、數(shù)據(jù)管理、計算處理、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)5個關(guān)鍵技術(shù)環(huán)節(jié)[9-10]。

      電力“求索”搜索引擎,利用阿里大數(shù)據(jù)計算服務(wù)ODPS,實現(xiàn)原始內(nèi)容數(shù)據(jù)和索引結(jié)果的存儲。大數(shù)據(jù)計算服務(wù)ODPS(open data processing service,簡稱ODPS)是由阿里云自主研發(fā),提供針對TB/PB級數(shù)據(jù)、實時性要求不高的分布式處理能力,應(yīng)用于數(shù)據(jù)分析、挖掘、商業(yè)智能等領(lǐng)域[11-13]。

      1.2 分布式技術(shù)

      隨著業(yè)務(wù)的發(fā)展,電力企業(yè)內(nèi)部數(shù)據(jù)量與日俱增,電力企業(yè)希望搭建一個分布式全文檢索系統(tǒng),需要用到分布式技術(shù)。

      分布式技術(shù)主要包含分布式計算和分布式存儲2個方面。電力“求索”搜索引擎是分布式存儲的數(shù)據(jù)源基礎(chǔ)上進行的分布式全文檢索,因此需要研究分布式技術(shù)。elastic search是一個實時的分布式搜索和分析引擎,支持云服務(wù)。它是基于Apache Lucene搜索引擎的類庫創(chuàng)建的,提供了全文搜索能力、多語言支持、專門的查詢語言、支持地理位置服務(wù)、基于上下文的搜索建議、自動完成以及搜索片段(snippet)的能力。

      1.3 全文檢索技術(shù)

      1.3.1 檢索技術(shù)

      檢索技術(shù)就是檢查并索取所需要的文字或資料,從網(wǎng)絡(luò)信息、文獻資料等信息集合中查找到所需信息和資料技術(shù)。為了進行快速檢索,通常需要對資料中的關(guān)鍵詞進行索引。而全文檢索因為其包含信息檢索的徹底性、原始性等特點獲得快速發(fā)展,已經(jīng)發(fā)展為目前特別高效的檢索技術(shù)[14-17]。

      1.3.2 全文檢索技術(shù)

      全文檢索技術(shù),就是以文字文本、音頻、圖片、視頻等數(shù)據(jù)作為主要處理對象,用以檢索信息的內(nèi)容,而不是其外表特征的一種檢索技術(shù),它是一種面向全文內(nèi)容進行搜索的新技術(shù)。簡單的全文檢索可以用于進行字符串匹配的,高級全文檢索技術(shù)可以開發(fā)出一個對超大文本、音頻、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)進行綜合管理的大型軟件。隨著對全文檢索技術(shù)研究的不斷深入和應(yīng)用的推廣,全文檢索系統(tǒng)已逐漸成為高效企業(yè)管理信息系統(tǒng)的典范。

      1.3.3 全文檢索平臺

      全文檢索平臺是利用全文檢索技術(shù)開發(fā)的系統(tǒng)。全文檢索平臺是基于全文檢索技術(shù)的服務(wù)系統(tǒng),它主要用于提供全文檢索服務(wù)。如圖1所示為一個全文檢索平臺結(jié)構(gòu)圖,其中全文檢索引擎,它是全文檢索平臺的關(guān)鍵部分與核心。由圖1可以看出,全文檢索引擎主要包括文本分析,創(chuàng)建索引和查詢索引3大模塊。其中,首先對各種格式的文檔信息以及數(shù)據(jù)庫數(shù)據(jù)進行信息抽取,然后根據(jù)文件類型選擇不同的文本分析器進行文本分析,再創(chuàng)建索引,生成索引數(shù)據(jù)庫,即創(chuàng)建索引模塊。檢索模塊當用戶輸入查詢條件時,首先也是進行文本分析,然后從索引數(shù)據(jù)庫查詢索引,最后將得到的結(jié)果返回給用戶。除此之外,一個設(shè)計良好的全文檢索系統(tǒng)還應(yīng)該便于擴展與維護,應(yīng)能支持形如進行中文處理、日志記錄、支持WORD文檔處理和下載等操作,所以在保證全文檢索高效率的同時,還應(yīng)該具有開放的框架和體系結(jié)構(gòu)。

      圖1 全文檢索平臺結(jié)構(gòu)圖Fig.1 Structure diagram of full-text search platform

      1.4 單點登錄技術(shù)

      單點登錄(single sign on),簡稱為SSO,是目前比較流行的企業(yè)業(yè)務(wù)整合的解決方案之一。SSO的定義是在多個應(yīng)用系統(tǒng)中,用戶只需要登錄一次就可以訪問所有相互信任的應(yīng)用系統(tǒng)。

      單點登錄技術(shù),可以應(yīng)用于檢索結(jié)果的展現(xiàn)。檢索結(jié)果的信息來源于各業(yè)務(wù)系統(tǒng),例如,電力用戶檔案資料來源于電力SG186營銷業(yè)務(wù)系統(tǒng),可以利用單點登錄,實現(xiàn)檢索結(jié)果在電力營銷業(yè)務(wù)系統(tǒng)的展現(xiàn),實現(xiàn)良好的用戶體驗。

      1.5 自然語言處理技術(shù)

      由于文本數(shù)據(jù)以及用戶檢索輸入基本由自然語言構(gòu)成,因此自然語言處理技術(shù)是輔助檢索應(yīng)用的重要組成部分。自然語言處理技術(shù)包括分詞、詞性標注、句法分析、命名實體識別等,這些技術(shù)的應(yīng)用有助于提高檢索系統(tǒng)對數(shù)據(jù)和用戶檢索語義的理解,從而進一步提高檢索指標如查準率、查全率等。

      1.6 Elastic Search

      Elastic Search(簡稱ES)是一個基于lucene構(gòu)建的開源、分布式、RESful搜索引擎。在云計算中,ES能夠達到實時搜索,穩(wěn)定,可靠,快速,支持通過HTTP使用JSON進行數(shù)據(jù)索引。

      ES索引采用倒排索引機制構(gòu)建索引。倒排索引與正排序索引不同,正排序索引面向文檔,倒排索引面向單詞,存儲的是由一組鍵值對組成的索引項。ES索引數(shù)據(jù)結(jié)構(gòu)包括項、域、文檔和段,如圖2所示。

      圖2 ES索引的數(shù)據(jù)結(jié)構(gòu)圖Fig.2 ES index data structure diagram

      1)項(term):最小的索引單位,直接代表一個關(guān)鍵詞以及其在源文檔中的出現(xiàn)位置和出現(xiàn)次數(shù)等信息。

      2)域(field):一個關(guān)聯(lián)的元組,包括域名和域值。域名是一個字符串,域值是一個項。

      3)文檔(document):包括所有域信息。

      4)段(segment):包含若干文檔,若干段組成子索引或索引。

      2 設(shè)計與實現(xiàn)

      文中敘述了云計算及大數(shù)據(jù)技術(shù)、分布式技術(shù)、全文檢索技術(shù)、單點登錄技術(shù)、自然語言處理技術(shù)以及開源Elastic Search搜索引擎。文中利用上述研究成果,設(shè)計和開發(fā)基于云計算及大數(shù)據(jù)技術(shù)的電力“求索”搜索引擎全文檢索系統(tǒng),實現(xiàn)elastic search搜索引擎在電力企業(yè)的應(yīng)用。

      當前主要實現(xiàn)電力企業(yè)級數(shù)據(jù)中心對大規(guī)模不同業(yè)務(wù)數(shù)據(jù)的統(tǒng)一檢索的需求,并對搜索結(jié)果,基于原始數(shù)據(jù)所在系統(tǒng)的不同業(yè)務(wù)功能,利用單點登錄技術(shù)進行展現(xiàn)。

      檢索模塊通過模擬百度、Google等搜索引擎,以電力一線班組關(guān)鍵信息檢索為例,達到如圖3所示效果,其中包括對“杭州”、“服務(wù)”、“電費回收”等關(guān)鍵詞文本的檢索,高亮顯示關(guān)鍵詞以及分頁查詢等。

      2.1 總體設(shè)計

      根據(jù)功能需求,本文研究開發(fā)以開源軟件elastic search為基礎(chǔ),以hadoop技術(shù)為主,基于阿里的ODPS,應(yīng)用struts2、spring框架建立一個適用于電力企業(yè)全文檢索引擎系統(tǒng),能做到對企業(yè)內(nèi)不同業(yè)務(wù)系統(tǒng)的全文檢索。同時本系統(tǒng)提供一個簡易的管理界面,管理員登錄可查看索引數(shù)據(jù)庫,也可以選擇對新增文檔進行增量索引,然后合并到主索引庫中。

      電力“求索”搜索引擎全文檢索系統(tǒng)基于elasticsearch,同時利用部分開源的、功能強大和擴展性強的第三方控件進行封裝和二次開發(fā),如hadoop、spark、kafka等。

      圖3 檢索效果圖Fig.3 Retrieval effect diagram

      為了更好地用戶體驗,本系統(tǒng)還設(shè)計了一套簡單美觀的查詢界面。電力“求索”搜索引擎全文檢索系統(tǒng)總體設(shè)計如圖4所示。

      圖4 搜索引擎全文檢索系統(tǒng)總體設(shè)計圖Fig.4 Search engine full-text search system design

      2.2 功能設(shè)計

      針對用戶輸入的關(guān)鍵字進行全文檢索,找到最匹配用戶需求的記錄,并針對用戶的輸入及可獲取的其他信息如用戶屬性等,對查詢結(jié)果按相關(guān)性大小進行排序。系統(tǒng)考慮的主要指標包括:查準率、查全率、響應(yīng)時間(計算復(fù)雜度)等。因此要提供的系統(tǒng)能力包括:

      1)對數(shù)據(jù)的快速全文檢索能力。利用倒排索引,基于反向索引以加速在大規(guī)模文本數(shù)據(jù)定位相關(guān)信息的能力。

      2)檢索相關(guān)性。衡量檢索能力的基礎(chǔ)指標是查準率和查全率。查準率標志著檢索系統(tǒng)的精確度,即檢出的結(jié)果中正確的數(shù)據(jù)所占的百分比;查全率標志著檢索系統(tǒng)檢出相關(guān)信息的能力,即檢出的相關(guān)結(jié)果與全部相關(guān)結(jié)果的百分比。

      根據(jù)業(yè)務(wù)和數(shù)據(jù)等的不同,可以綜合應(yīng)用多種實現(xiàn)技術(shù)以提高檢索指標,如以下常用技術(shù):

      1)基于文本的向量空間模型或者概率模型計算數(shù)據(jù)與用戶檢索輸入的相關(guān)性。

      2)基于用戶顯式反饋或者偽反饋迭代計算相關(guān)性。

      3)基于語義聯(lián)想(如基于本體或者LDA模型)以提高檢索的查準率和查全率,

      4)基于文本挖掘技術(shù)如聚類等提高檢索結(jié)果的直觀性。

      電力“求索”搜索引擎全文檢索系統(tǒng)功能設(shè)計如圖5所示。

      2.3 集成設(shè)計

      電力“求索”搜索引擎全文檢索系統(tǒng)包括以下獨立子系統(tǒng):索引數(shù)據(jù)同步系統(tǒng)、檢索應(yīng)用、分布式檢索平臺。其內(nèi)外部之間的集成關(guān)系如圖6所示。

      數(shù)據(jù)源來自阿里ODPS、RDS等,通過數(shù)據(jù)批量抽取工具進行數(shù)據(jù)批量抽取,利用分布式消息系統(tǒng)kafka進行數(shù)據(jù)實時同步,分別實現(xiàn)索引批量構(gòu)建和索引實時構(gòu)建。檢索應(yīng)用系統(tǒng)是整個系統(tǒng)的核心,利用分布式數(shù)據(jù)分析平臺實現(xiàn)分析結(jié)果導(dǎo)入、分析數(shù)據(jù)加載;通過配置ES的jdbc-datasource.xml、odpsdatasource.xml配置文件,實現(xiàn)數(shù)據(jù)源管理;通過任務(wù)管理調(diào)度,進行索引構(gòu)建。

      2.4 分詞和字典實現(xiàn)

      2.4.1 分詞實現(xiàn)

      全文檢索最關(guān)鍵的就是把用戶最想要的相關(guān)度最高的結(jié)果放在最前面,也就是優(yōu)先考慮查準率,再考慮查全率。單漢字分詞在索引和檢索中保證查全率較好,但為了取得更好的相關(guān)度,詞典分詞檢索效果更好。分詞應(yīng)實現(xiàn):1)支持對中文、英文、數(shù)字混合語句進行較正確的分詞;2)支持根據(jù)需要選擇多種分詞技術(shù),如一元分詞、N元分詞、基于中文詞典的分詞、基于中文統(tǒng)計模型的分詞等。

      圖5 搜索引擎全文檢索系統(tǒng)功能設(shè)計圖Fig.5 Search engine full-text retrieval system functional design

      圖6 搜索引擎全文檢索系統(tǒng)集成設(shè)計圖Fig.6 Search engine full-text retrieval system integration design

      2.4.2 字典實現(xiàn)

      全文檢索需要一個詞庫,而詞典需要實時更新和維護,如果不維護,隨著業(yè)務(wù)的發(fā)展,詞典遲早會跟不上企業(yè)的內(nèi)部需求。因此,應(yīng)實現(xiàn)分詞的維護管理?;赪eb,實現(xiàn)對詞典的分類、批量管理,包括:多詞典分類管理、批量增加單詞(支持一個輸入框輸入多個單詞,每個單詞以空格間隔);刪除單詞、分頁展示、搜索、按詞典類別批量導(dǎo)入(支持基于文本形式)。

      利用elastic search默認的分詞詞庫構(gòu)建基本分詞詞庫,主要包括主詞典詞庫、介詞詞庫、量詞詞庫、停用詞詞庫、后綴詞詞庫,姓氏詞庫。此外還可以擴增加基本分詞詞庫擴展、敏感詞詞庫、語義擴展詞詞庫、同義詞詞庫等,并可以自動完成詞詞庫。

      Elastic search本身的中文分詞插件效果有待改進,手動添加詞典可以在一定程度上進行彌補。mmseg的分詞機制采用正向最長匹配算法,例如,針對“小時代”這個單詞,其自帶的詞典中沒有包含該詞,故當用戶搜索小時代時,檢索不到任何結(jié)果。手動添加新單詞到mmseg的詞庫中,有2種方法:一是將該詞加入到自帶的某個詞典中(非停頓詞詞典),如words-my.dic;二是新建一個自定義詞典,將其放入默認詞庫文件夾下,編碼格式為UTF-8。

      2.5 索引模塊構(gòu)建

      由于涉及多個不同系統(tǒng)之間的數(shù)據(jù)同步,為了滿足檢索系統(tǒng)對數(shù)據(jù)的一致性、實效性的要求,需要提供不同的數(shù)據(jù)采集及索引構(gòu)建策略:

      1)數(shù)據(jù)全量抽取及索引構(gòu)建。為了保證索引數(shù)據(jù)與業(yè)務(wù)系統(tǒng)數(shù)據(jù)之間的一致性,系統(tǒng)需要定期對全部索引數(shù)據(jù)進行重建。

      2)實時同步。對于需要實時(準實時)被檢索到的業(yè)務(wù)數(shù)據(jù),需要進行實時索引數(shù)據(jù)構(gòu)建。

      3)定期增量同步。由于索引系統(tǒng)獨立于業(yè)務(wù)系統(tǒng)或者消息中間件,需要保證異構(gòu)系統(tǒng)之間的數(shù)據(jù)一致性。

      ES是基于lucene的全文檢索技術(shù),其索引技術(shù)的底層實現(xiàn)和lucene—樣。因此將創(chuàng)建索引的過程分為4步:從存放元數(shù)據(jù)的oracle數(shù)據(jù)庫獲取數(shù)據(jù);解析生成field對象;構(gòu)建document對象;index writer建立索引。其中field對象的生成是按照oracle數(shù)據(jù)庫字段和ES索引中字段的對應(yīng)方式進行,流程如圖7所示。

      圖7 ES索引數(shù)據(jù)庫構(gòu)建流程圖Fig.7 ES index database construction flow chart

      按照以上方法和步驟,構(gòu)建了基于云計算及大數(shù)據(jù)技術(shù)的電力“求索”搜索引擎全文檢索系統(tǒng)的索引,如圖8所示。

      圖8 “求索”搜索引擎全文檢索系統(tǒng)索引圖Fig.8 The“Search”search engine full-text indexing system

      2.6 檢索模塊構(gòu)建

      索引創(chuàng)建設(shè)計是為了檢索做準備,利用ES提供的檢索功能,結(jié)合電力特點,進行良好的界面設(shè)計,實現(xiàn)用戶體驗良好的簡潔搜索頁面。檢索模塊包括檢索分析處理和檢索結(jié)果處理。檢索頁面如圖9所示。

      圖9 ES檢索頁面圖Fig.9 ES retrieves the page map

      2.6.1 檢索分析處理

      通過對檢索條件進行分析,如通過分詞、主題提取、語義擴展等技術(shù)手段,從文本上最大限度地獲取用戶真實需求,構(gòu)建相應(yīng)的檢索條件,從而在索引庫里搜索到最可能滿足用戶需求的數(shù)據(jù)記錄。

      檢索分析處理時,基于預(yù)建的詞庫,根據(jù)用戶的部分輸入,自動提示可能的后續(xù)的未完成部分。如用戶輸入“電”,系統(tǒng)自動提示“電費”、“電量”等一系列可能的輸入。

      2.6.2 檢索結(jié)果處理

      綜合利用結(jié)果聚類、自動摘要、數(shù)據(jù)去重、信息過濾等技術(shù)手段,對檢索結(jié)果進行處理,以滿足用戶對檢索結(jié)果的人性化反饋的需求。

      為了更好地展現(xiàn)檢索結(jié)果,通過合適的排序,采用單點登錄技術(shù),在對應(yīng)的業(yè)務(wù)系統(tǒng)里展現(xiàn)搜索結(jié)果。

      3 實施效果

      基于云計算及大數(shù)據(jù)技術(shù)的電力“求索”搜索引擎全文檢索系統(tǒng)部署完成后,我們對業(yè)務(wù)高峰期系統(tǒng)搜索請求量較大的業(yè)務(wù)查詢成功量進行了統(tǒng)計。在部署前后一天中選擇了5個業(yè)務(wù)高峰時段,分別提取了該5個時間段相同時間點5 s搜索成功量的數(shù)據(jù),并計算出每秒搜索成功速率。

      經(jīng)分析得出,系統(tǒng)部署后平均速率達到了每秒496條,相比部署前每秒不足260條的效率提升了近1倍。同時,對數(shù)據(jù)庫服務(wù)器的資源消耗情況也進行了分析。部署ES之前,在業(yè)務(wù)高峰時段,數(shù)據(jù)庫服務(wù)器的CPU平均使用率20%以上,內(nèi)存消耗控制在40%以上;部署ES之后,同等條件下CPU使用率和內(nèi)存使用率均降到了10%以內(nèi)。由此可見,ES系統(tǒng)不僅大大提高了搜索效率和用戶滿意度,同時也降低了數(shù)據(jù)庫服務(wù)器資源的消耗,降低了維護成本,保障了系統(tǒng)的穩(wěn)定運行。ES系統(tǒng)性能監(jiān)控如圖10所示。

      圖10 ES系統(tǒng)性能監(jiān)控圖Fig.10 ES system performance monitoring chart

      4 結(jié)語

      本文在深入研究云計算及大數(shù)據(jù)技術(shù)、分布式技術(shù)、全文檢索技術(shù)、單點登錄技術(shù)、分詞技術(shù)和全面剖析elastic search相關(guān)技術(shù)的基礎(chǔ)上,實現(xiàn)了基于云計算及大數(shù)據(jù)技術(shù)的電力“求索”搜索引擎全文檢索系統(tǒng)。結(jié)合文本挖掘、自然語言處理、信息檢索和單點登錄等領(lǐng)域的技術(shù),進一步提高全文檢索的查準率、查全率,創(chuàng)新檢索結(jié)果在各業(yè)務(wù)系統(tǒng)的展現(xiàn)效果。本技術(shù)的應(yīng)用,可以滿足大規(guī)模不同業(yè)務(wù)數(shù)據(jù)的統(tǒng)一檢索的需求;并同時滿足大規(guī)模數(shù)據(jù)檢索請求的快速響應(yīng)要求。

      [1]劉峰.大數(shù)據(jù)時代下的數(shù)據(jù)插補與預(yù)測研究[D].蘭州:蘭州大學,2015.

      [2]劉曉萌.電力云計算平臺資源調(diào)度策略的研究 [D].北京:華北電力大學,2015.

      [3]李愛軍,王海濱,鄭曉波.基于推理控制策略的智能型電力搜索引擎的研究[J].西華大學學報(自然科學版),2008,27(6):34-37.LI Aijun,WANG Haibin,ZHENG Xiaobo.Research on intelligent electric power search engine based on inferential control strategy[J].Journal of Xihua University(Natural Science Edition),2008,27(6):34-37(in Chinese).

      [4]王德文.基于云計算的電力數(shù)據(jù)中心基礎(chǔ)架構(gòu)及其關(guān)鍵技術(shù)[J].電力系統(tǒng)自動化,2012,36(11):67-71.WANG Dewen.Basic architecture and key technologies of power data center based on cloud computing[J].Automation of Electric Power Systems,2012,36(11):67-71(in Chinese).

      [5]張蓮梅,陳世鴻,陳紅梅,等.基于分布式電力資源庫的搜索引擎框架[J].高電壓技術(shù),2005,31(8):66-68.ZHANG Lianmei,CHEN Shihong,CHEN Hongmei,et al.High Voltage Technology,2005,31(8):66-68(in Chinese).

      [6]李江華,宋瑋,盧巖,等.基于云技術(shù)的整定計算數(shù)據(jù)中心的構(gòu)建[J].南方電網(wǎng)技術(shù),2013,6(5):53-56.LI Jianghua,SONG Wei,LU Yan,et al.The construction of cloud computing data center[J].China Southern Power Grid Technology,2013,6(5):53-56(in Chinese).

      [7]萬勇.一種基于云計算技術(shù)的SCADA系統(tǒng)設(shè)計[J].高壓電器,2013,49(7):89-91.WAN Yong.A design of SCADA system based on cloud computing technology[J].High Voltage Electrical Equipment,2013,49(7):89-91(in Chinese).

      [8]王健,宋述停,蘭俊美,等.電力需求側(cè)大數(shù)據(jù)應(yīng)用模型的建立[J].電力與能源,2014,35(3):283-286.WANG Jian,SONG Shuting,LAN Junmei,et al.Establishment of large data application model for power demand side[J].Electric Power and Energy,2014,35(3):283-286(in Chinese).

      [9]白紅偉,馬志偉,朱永利.基于云計算的絕緣子狀態(tài)監(jiān)測數(shù)據(jù)的處理[J].電瓷避雷器,2011(4):19-22.BAI Hongwei,MA Zhiwei,ZHU Yongli.Insulator condition monitoring data based on cloud computing[J].Insulators and Surge Arresters,2011(4):19-22(in Chinese).

      [10]張根周.大數(shù)據(jù)在智能電網(wǎng)領(lǐng)域的應(yīng)用[J].電網(wǎng)與清潔能源,2016,32(6):114-117.ZHANG Genzhou.Application of big data in smart grid[J].Power Grid and Clean Energy,2016,32(6):114-117(in Chinese).

      [11]唐慧.云計算大數(shù)據(jù)運行控制技術(shù)對智能配電網(wǎng)影響的評價研究[J].電力科學與工程,32(4):32-35.TANG Hui.Cloud computing large data operation control technology impact on intelligent distribution network evaluation[J].Power Science and Engineering,32(4):32-35(in Chinese).

      [12]曲朝陽,熊澤宇,顏佳,等.基于空間分割的電力大數(shù)據(jù)三維全景可視化場景管理方法[J].華北電力大學學報:自然科學版,2016,43(2):23-29.QU Zhaoyang,XIONG Zeyu,YAN Jia,et al.A 3D panoramic scene management method for large power data based on spatial segmentation[J].Journal of North China Electric Power University:Natural Science Edition,2016,43(2):23-29(in Chinese).

      [13]孫大雁,丁杰,彭林,等.面向多級調(diào)度管理的云搜索體系架構(gòu)研究[J].江蘇電機工程,2013(6):5-7.SUN Dayan,DING Jie,PENG Lin,et al.Research on cloud search architecture for multilevel scheduling management[J].Jiangsu Electric Engineering,2013(6):5-7(in Chinese).

      [14]荀挺,張珂珩,薛浩然,等.電網(wǎng)調(diào)控數(shù)據(jù)綜合智能分析決策架構(gòu)設(shè)計[J].電力系統(tǒng)保護與控制,2015,43(11):121-127.XUN Ting,ZHANG Keheng,XUE Haoran,et al,Integrated smart grid control data analysis and decision framework design[J].Power System Protection and Control,2015,43(11):121-127(in Chinese).

      [15]熊小伏,陳星田,翁世杰.支撐大數(shù)據(jù)分析的發(fā)電廠變電站全息錄波方法[J].電力系統(tǒng)保護與控制,2015(22):17-22.XIONG Xiaofu,CHEN Xingtian,WENG Shijie.The power plant substation to support large data analysis of holographic recording method[J].Power System Protection and Control,2015(22):17-22(in Chinese).

      [16]衡星辰,周力.分布式技術(shù)在電力大數(shù)據(jù)高性能處理中的應(yīng)用[J].電力信息與通信技術(shù),2013.HENG Xingchen,ZHOU Li.Application of distributed technology in high power data processing[J].Power Information and Communication Technology,2013(in Chinese).

      [17]徐創(chuàng)學,溫新明,周建武,等.基于云計算工業(yè)視頻級聯(lián)的生產(chǎn)實時監(jiān)控管理系統(tǒng)開發(fā)與應(yīng)用[J].熱力發(fā)電,2014(1):27.XU Chuangxue,WEN Xinming,ZHOU Jianwu,et al.Development and application of real-time monitoring and management system based on cloud computing industrial video cascade[J].Thermal Power Generation,2014(1):27(in Chinese).

      Research on Power Search Engine Technology Based on Cloud Computing and Large Data

      LOU Fengdan1,PEI Xubin1,WANG Zhiqiang1,JI Deliang2
      (1.State Grid Zhejiang Information&Telecommunication Company,Hangzhou 310007,Zhejiang,China;2.Zhejiang Huayun Information Technology Co.,Ltd.,Hangzhou 310008,Zhejiang,China)

      After years of information technology development,the enterprise has established a large number of heterogeneous applications,resulting in a large number of distributed structured,semi-structured,unstructured data.Based on the cloud computing and large data technology,the“Search”search engine technology builds a centralized data center full-text index,achieving large-scale business functions and business data of the unified search to meet the user from a large number of heterogeneous business systems and mass data for rapid retrieval requirements.The search engine technology is based on the open source Elastic Search,with the use of distributed index,distributed search,distributed cache technology to achieve distributed full-text search platform to provide largescale index data,efficient management and fast,flexible access.With the help of search engine technology,text search,natural language processing and information retrieval are combined to improve the precision and recall of full-text retrieval.The application of this technology can meet the needs of largescale unified search of different business data,and can meet simultaneously the rapid response request of large-scale data retrieval request.

      Elastic Search;power;cloud computing;large data;distributed full-text retrieval;single sign-on

      2016-04-18。

      樓鳳丹(1963—),女,碩士研究生,高級工程師,主要從事電力系統(tǒng)及其自動化技術(shù)研究工作。

      (編輯 張曉娟)

      國網(wǎng)浙江省電力公司信息化建設(shè)項目(7111XT150 015)。

      Project Supported by The State Grid Zhejiang Electric Power Company Information Construction(7111XT150015).

      1674-3814(2016)12-0086-07

      TM64;TM743

      B

      猜你喜歡
      全文檢索分詞搜索引擎
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      值得重視的分詞的特殊用法
      Oracle數(shù)據(jù)庫全文檢索性能研究
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
      廣告主與搜索引擎的雙向博弈分析
      特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計
      高考分詞作狀語考點歸納與疑難解析
      論英語不定式和-ing分詞的語義傳承
      外語學刊(2011年3期)2011-01-22 03:42:20
      新安县| 东乡族自治县| 商丘市| 泽普县| 南充市| 商河县| 永年县| 望都县| 永和县| 巴林右旗| 东宁县| 华阴市| 于田县| 松原市| 射洪县| 盐津县| 阳山县| 阜宁县| 华池县| 宿州市| 赤峰市| 嘉黎县| 丹阳市| 惠州市| 抚远县| 澄城县| 德格县| 乐昌市| 台湾省| 阳泉市| 广灵县| 祁连县| 南木林县| 镇江市| 香河县| 台南县| 崇礼县| 怀宁县| 中江县| 宿松县| 旺苍县|