尹文婷
【摘要】 本文主要以大數(shù)據(jù)相關(guān)概述作為出發(fā)點(diǎn),分析了電力信息大數(shù)據(jù)高速存儲方案和技術(shù),以及檢索關(guān)鍵技術(shù),以期為提高電力企業(yè)信息技術(shù)水平提供一些參考和意見。
【關(guān)鍵詞】 電力信息 大數(shù)據(jù) 高速存儲 檢索
隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,電力企業(yè)涉及的數(shù)據(jù)信息更加廣泛、數(shù)據(jù)形式更加多元化。這就需要電力企業(yè)根據(jù)數(shù)據(jù)信息的發(fā)展規(guī)模,加快智能電網(wǎng)的建設(shè)進(jìn)程,提高數(shù)據(jù)檢索關(guān)鍵技術(shù)和數(shù)據(jù)存儲技術(shù)。
一、大數(shù)據(jù)相關(guān)概述
所謂大數(shù)據(jù)是指在一個數(shù)的幾何體對各項數(shù)據(jù)以及信息進(jìn)行儲存、查詢、計算、整合等。大數(shù)據(jù)具有4V特征:其一,容量大(Volume)。數(shù)據(jù)規(guī)模從TB級別躍升到EB級別,新數(shù)據(jù)以每天2.5EB的量級高速增長。其二,類型眾多(Variety)。大數(shù)據(jù)的結(jié)構(gòu)形式具有多樣化特點(diǎn),不僅能涵蓋了文本形式,還涵蓋了圖片、音頻、視頻、網(wǎng)絡(luò)日記和地理位置等多種半結(jié)構(gòu)化形式、數(shù)據(jù)結(jié)構(gòu)形式和非結(jié)構(gòu)化形式。就結(jié)構(gòu)化數(shù)據(jù)而言,在數(shù)據(jù)結(jié)構(gòu)體系中占據(jù)的比例為15%;就非結(jié)構(gòu)化數(shù)據(jù)而言,非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)體系中占據(jù)85%。其三,速度更快(Velocity)。由于大數(shù)據(jù)具有規(guī)模大、容量信息較大等特點(diǎn),這就要求數(shù)據(jù)處理的效率要高。一旦數(shù)據(jù)信息沒有得到及時有效的處理,就會失去數(shù)據(jù)原本的價值,還會導(dǎo)致大量有效數(shù)據(jù)信息淹沒在海量數(shù)據(jù)規(guī)模體系中。其四,價值密度低(Value)。由于大數(shù)據(jù)規(guī)模巨大,信息容量大,因此數(shù)據(jù)價值容易被隱藏。因此需要通過綜合的分析方法在海量數(shù)據(jù)中體驗具有價值的數(shù)據(jù)信息。
二、基于電力信息大數(shù)據(jù)高速存儲方案和技術(shù)
第一,“先進(jìn)先出”緩存形式。這類緩存形式應(yīng)用的核心設(shè)備是FIFO存儲器。資料由儲存器的開端輸入存儲器的末端,資料輸出的時間與資料送入儲存器的時間成正比。這套緩存方法主要包含兩套數(shù)據(jù)線,無論是數(shù)據(jù)資料還是其他信息都可以在存儲器中進(jìn)行順序運(yùn)用。因該類型數(shù)據(jù)緩存方法具有信息傳遞效率高、節(jié)約時間等優(yōu)勢。此種技術(shù)的缺點(diǎn)在于過于死板。一旦出現(xiàn)容量較大的數(shù)據(jù)信息或者資料,就容易導(dǎo)致數(shù)據(jù)讀取時間過慢。第二,“雙口PAM”緩存形式。該技術(shù)擁有兩套相互獨(dú)立的地址、數(shù)據(jù)總線。因此在讀取容量較大的數(shù)據(jù)信息時,可以在控制器的兩端同時讀取數(shù)據(jù)、采集信息等。該技術(shù)具有信息傳遞速度快、可以同時讀取和采集信息等優(yōu)勢。但是雙口PAM控制器價格較貴。第三,“高速SRAM”切換緩存形式。該技術(shù)只有一套數(shù)據(jù)總線,可以以三態(tài)緩沖門作為數(shù)據(jù)傳輸?shù)目刂破鳎?shí)現(xiàn)ADC轉(zhuǎn)換器與緩沖門之間的數(shù)據(jù)切換和數(shù)據(jù)自由傳遞。完成數(shù)據(jù)存儲、數(shù)據(jù)傳遞、數(shù)據(jù)讀取之后,就可以在ADC控制器中展開數(shù)據(jù)讀寫程序。該技術(shù)具有隨著隨地操作與讀取數(shù)據(jù)的優(yōu)勢,其缺點(diǎn)在于數(shù)據(jù)集成化水平相對較低。且占用內(nèi)存的面積大。
三、基于電力信息大數(shù)據(jù)高速檢索技術(shù)
1、對內(nèi)容進(jìn)行檢索。搜索引擎需要對用戶輸送的關(guān)鍵信息進(jìn)行檢驗、細(xì)致分析與歸類。一般來說,對搜索內(nèi)容進(jìn)行檢測的形式主要包含以下三種:?字符串檢索與分析。借助字符串可以正向分析、逆向分析、切分分析用戶檢索的關(guān)鍵詞類別。?先理解、再匹配分析。搜索引擎模擬人們的思考模式,人們總是對檢索信息或者詞匯進(jìn)行歸類之后再進(jìn)行信息的還原與匹配。基本原理是一致的。即在分詞過程中把語言歧義部分進(jìn)行分類整理,主要以語法、語義體系和總控制體系三部分構(gòu)成。?先統(tǒng)計,再匹配分析。根據(jù)調(diào)查得知,鄰近字在搜索引擎中出現(xiàn)的頻率較高,對鄰近詞進(jìn)行統(tǒng)計后再分詞、匹配。需要注意的是,在檢索期間,類似“的”、“嗎”等詞語在分詞時會被去除。
2、并行采樣技術(shù)。對于高速數(shù)據(jù)采集體系來講,是系統(tǒng)最核心的指標(biāo)。要想實(shí)現(xiàn)高采樣頻率這一目的,可以借助單片高度數(shù)據(jù)轉(zhuǎn)化其芯片。該芯片具有分辨率低、價格高等特點(diǎn)。因此可以通過交叉時間采樣方法提高數(shù)據(jù)收集效率,達(dá)到采集效果。ADC是并行采用技術(shù)的一種主要轉(zhuǎn)換器,其主要形式有閃電式的ADC轉(zhuǎn)換器,以及逐次逼近形式的轉(zhuǎn)換器,這兩類轉(zhuǎn)換器的優(yōu)缺點(diǎn)見表1。
3、搜索請求進(jìn)行檢索與匹配。對用戶搜索請求進(jìn)行細(xì)致分析與匹配是在搜索引擎接受到檢索內(nèi)容之后展開的主要任務(wù)。分析完用戶輸入的檢索內(nèi)容之后,對名稱進(jìn)行匹配,并在系統(tǒng)中顯示匹配的內(nèi)容。這就需要遵照匹配程度對其進(jìn)行排序。如此一來,用戶就可以減少搜索等待的時間,從而達(dá)到提高信息檢索效率和工作質(zhì)量的目的。結(jié)束語:隨著市場競爭的日趨激烈,電力企業(yè)要想在殘酷的市場競爭中站穩(wěn)腳跟,就需要改進(jìn)傳統(tǒng)管理方法和管理技術(shù),不斷借鑒發(fā)達(dá)國家的智能化管理技術(shù)和管理方法,提高大數(shù)據(jù)的存儲和檢索效率,從而更好地為社會服務(wù)。
參 考 文 獻(xiàn)
[1]馬義松,武志剛.基于Neo4j的電力大數(shù)據(jù)建模及分析[J].電工電能新技術(shù),2016,02:24-30.
[2]周文瓊.大數(shù)據(jù)環(huán)境下的電力客戶服務(wù)數(shù)據(jù)分析系統(tǒng)[J].計算機(jī)系統(tǒng)應(yīng)用,2015,04:51-57.
[3]祝恩國,竇健.用電信息采集系統(tǒng)雙向互動功能設(shè)計及關(guān)鍵技術(shù)[J].電力系統(tǒng)自動化,2015,17:62-67.