孫猛,鄧志成,丁剛
(上海發(fā)電設(shè)備成套設(shè)計研究院有限責(zé)任公司,上海 200240)
智慧電站是現(xiàn)代數(shù)字化科技與電力行業(yè)不斷發(fā)展與不斷融合的產(chǎn)物。數(shù)據(jù)中臺是通過數(shù)據(jù)技術(shù),采集、計算、存儲、加工海量數(shù)據(jù)的同時,統(tǒng)一標(biāo)準(zhǔn)和口徑。隨著人工智能技術(shù)、互聯(lián)網(wǎng)技術(shù)、信息化技術(shù)等現(xiàn)代技術(shù)的不斷發(fā)展與延伸,其已經(jīng)融入多個行業(yè)領(lǐng)域中,實(shí)現(xiàn)“智慧”建設(shè)與發(fā)展[1]。在創(chuàng)新型“數(shù)字中國、智慧社會”建設(shè)道路中,利用數(shù)據(jù)中臺統(tǒng)一智慧電站數(shù)據(jù),形成標(biāo)準(zhǔn)數(shù)據(jù)并存儲,進(jìn)而為電力工業(yè)提供高效服務(wù)。電力工業(yè)作為國民經(jīng)濟(jì)的重要領(lǐng)域,電力工業(yè)的發(fā)展水平可以反映出一個國家生產(chǎn)力的水平,同時也是判斷國民經(jīng)濟(jì)發(fā)展水平的一個重要依據(jù)。因此,無論是從社會發(fā)展角度還是國家發(fā)展角度,智慧電站建設(shè)都是電力行業(yè)目前以及未來發(fā)展的主要方向。
近幾年圍繞“智慧電站”建設(shè)也開展了大量的研究工作,相關(guān)領(lǐng)域研究學(xué)者以及專家學(xué)者針對如何建設(shè)智慧電站以及如何開發(fā)智慧電站平臺,提出了大量的研究方案和建議。智慧電站具有多項功能,其中最為重要的一項就是檢索功能,能夠?qū)﹄娬旧a(chǎn)信息、設(shè)備信息、人員信息等所有信息進(jìn)行綜合性檢索。文獻(xiàn)[2]提出基于圖數(shù)據(jù)庫和知識圖譜的電力設(shè)備質(zhì)量綜合管理系統(tǒng),根據(jù)圖數(shù)據(jù)庫的數(shù)據(jù)存儲和遍歷機(jī)理,設(shè)計領(lǐng)域知識圖譜模型,利用知識圖譜算法,設(shè)計高效分析檢索方法,采用數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,分類分層組織電力數(shù)據(jù),實(shí)現(xiàn)電力綜合管理。雖然該方法有了明確的技術(shù)理論作為理論支撐,能夠有效提高數(shù)據(jù)檢索查詢效率,但是該方法的數(shù)據(jù)檢索結(jié)果匹配度值較小,導(dǎo)致檢索精度較低的問題,已經(jīng)無法滿足智慧電站信息檢索需求,為此,提出基于哈希算法的數(shù)據(jù)中臺在智慧電站中的檢索應(yīng)用。
哈希算法是一種具有代表性的最近鄰檢索技術(shù),該算法可以滿足大規(guī)模數(shù)據(jù)檢索對數(shù)據(jù)存儲空間和檢索精度的特殊要求,通過迭代計算的方式,逐漸挖掘與用戶檢索意愿相符合的信息,由于哈希算法具有收斂性高、檢索精度高、計算過程簡單等優(yōu)點(diǎn),已經(jīng)被應(yīng)用到多個領(lǐng)域中,并且也受到了研究者的密切關(guān)注[4]。哈希算法是根據(jù)信息長度等特征為檢索目標(biāo)進(jìn)行數(shù)據(jù)檢索的,將數(shù)據(jù)信息表示成一組長度一定的二值編碼,也就是哈希碼,并利用固定數(shù)值表示數(shù)據(jù)信息的比特值[5]。哈希算法在計算過程中最基本的步驟就是哈希函數(shù)的構(gòu)造,哈希函數(shù)可以是線性形式也可以是非線性形式,該函數(shù)的構(gòu)造精度將直接關(guān)系到數(shù)據(jù)信息檢索準(zhǔn)確度和檢索速度,因此在哈希算法應(yīng)用中如何構(gòu)建一個有效的哈希函數(shù)是信息檢索的關(guān)鍵性問題。
哈希算法最早是由英國Gionis等學(xué)者提出的,簡稱LSH(Locality Sensitive Hashing),最早哈希算法被稱之為經(jīng)典數(shù)據(jù)不依賴哈希算法,最初的哈希算法存在一定的局限性,后來經(jīng)過不斷對哈希算法研究,得到了編碼長度更短、檢索效果更好的哈希函數(shù)以及二值碼,從海量數(shù)據(jù)中提取到有價值的哈希碼,并將哈希算法與人工智能算法進(jìn)行了融合,衍生了一系列哈希算法的變種算法,變種算法包括了非監(jiān)督哈希算法和監(jiān)督哈希算法兩種,其中非監(jiān)督哈希算法在計算過程中沒有使用到監(jiān)督信息,其主要利用數(shù)據(jù)信息的分布特征和數(shù)據(jù)流行結(jié)構(gòu)等生成較短的哈希碼,而監(jiān)督哈希算法是在計算中應(yīng)用到了監(jiān)督信息,將哈希算法求解過程簡化為一個平衡圖劃分問題,利用二維拉普拉伸特征函數(shù)對數(shù)據(jù)信息進(jìn)行不斷計算,求出哈希碼[6]。無論是非監(jiān)督哈希算法還是監(jiān)督哈希算法后來都被統(tǒng)稱為哈希算法,并且哈希算法還有嚴(yán)格的實(shí)驗(yàn)數(shù)據(jù)保證哈希算法對數(shù)據(jù)信息檢索的效果[7]。哈希算法由于具有良好的計算功能,并且具有良好的檢索效果,為了更好地發(fā)揮其功能,被引用到數(shù)據(jù)中臺搭建中,通過數(shù)據(jù)中臺對海量數(shù)據(jù)信息進(jìn)行計算,提高了哈希算法對信息檢索的匹配度。
在對智慧電站信息檢索之前,必須要對智慧電站中的信息進(jìn)行準(zhǔn)確描述,并提取到智慧電站數(shù)據(jù)信息的基本特征。在智慧電站中,數(shù)據(jù)信息多以數(shù)學(xué)表達(dá)式的方式表示,而數(shù)據(jù)信息的特征屬性主要包含普遍性、客觀性、依附性、共享性等特征屬性,這些特征屬性是描述智慧電站信息的關(guān)鍵參數(shù)[8]。此次采用數(shù)字信息描述方法對智慧電站信息進(jìn)行描述,將智慧電站信息視為二維空間的f(x,y)連續(xù)函數(shù),其中x坐標(biāo)表示智慧電站信息的橫向連續(xù)構(gòu)圖,y坐標(biāo)表示智慧電站信息的縱向連續(xù)結(jié)構(gòu)圖,運(yùn)用該連續(xù)函數(shù)對智慧電站信息的物理層、邏輯層、語義層三方面進(jìn)行描述,其中物理層包括智慧電站信息的大小特征以及輪廓特征;邏輯層主要包含智慧電站信息的數(shù)字邏輯關(guān)系和邏輯屬性;語義層描述主要用于表達(dá)智慧電站信息的主要內(nèi)容、信息主題等[9]。通過以上對信息三個屬性的描述表示出智慧電站信息,將所有描述信息構(gòu)建成一個智慧電站信息描述集合N,將其作為智慧電站信息的標(biāo)簽,以此完成對智慧電站信息的描述。
智慧電站中每一個數(shù)據(jù)信息的空間維度是不同的,為了更加精準(zhǔn)地檢索到智慧電站信息,本文根據(jù)對智慧電站信息的描述,建立智慧電站信息的加權(quán)圖模型,加權(quán)圖模型的建立主要是反映出智慧電站數(shù)據(jù)信息的空間特征向量,為后續(xù)基于哈希算法的數(shù)據(jù)中臺的計算提供依據(jù)[10]。加權(quán)圖模型建立的好與壞將直接關(guān)系到智慧電站信息檢索精度,因此本文在對智慧電站數(shù)據(jù)信息加權(quán)圖模型構(gòu)建過程中,考慮了數(shù)據(jù)節(jié)點(diǎn)與對應(yīng)邊的連接方式,以及定義數(shù)據(jù)信息相關(guān)邊的權(quán)值度量,將智慧電站全部節(jié)點(diǎn)數(shù)據(jù)組成一個n×m向量空間,其中n表示為智慧電站中已經(jīng)描述完成的數(shù)據(jù)節(jié)點(diǎn)的數(shù)量;m表示智慧電站中各個數(shù)據(jù)節(jié)點(diǎn)的屬性個數(shù),即智慧電站信息描述集合N中的子集數(shù)量。智慧電站中數(shù)據(jù)信息映射到加權(quán)圖模型中表現(xiàn)的是相互分散的數(shù)據(jù)點(diǎn),為了能夠保證各個數(shù)據(jù)點(diǎn)之間有足夠的連接,并且還能保留加權(quán)圖的稀疏性,此次采用臨近圖來構(gòu)建智慧電站數(shù)據(jù)信息加權(quán)圖模型。
首先根據(jù)對智慧電站數(shù)據(jù)信息的描述,計算出各個數(shù)據(jù)節(jié)點(diǎn)最鄰近的數(shù)據(jù)點(diǎn),在數(shù)據(jù)描述集合N中,查看最鄰近的幾個智慧電站數(shù)據(jù)信息的流行結(jié)構(gòu)屬性,如果數(shù)據(jù)信息的流行結(jié)構(gòu)屬性特征相一致,那么幾個數(shù)據(jù)點(diǎn)創(chuàng)建一個連接邊,表示該幾個智慧電站數(shù)據(jù)信息相似,這樣可以獲取到由多個連接邊組成的單獨(dú)集群[11]。在整個加權(quán)圖模型中,利用智慧電站數(shù)據(jù)節(jié)點(diǎn)之間所連接邊上權(quán)值表示出檢索數(shù)據(jù)之間的關(guān)聯(lián)度,連接邊權(quán)值越大,則表示數(shù)據(jù)關(guān)聯(lián)程度越高,因此,在對加權(quán)圖模型構(gòu)建中,還需要計算出各個連接邊的權(quán)值大小,此次利用智慧電站各個數(shù)據(jù)節(jié)點(diǎn)之間的距離,計算連接邊權(quán)值大小,假設(shè)智慧電站數(shù)據(jù)信息節(jié)點(diǎn)之間的距離函數(shù)為d(x,y),利用歐式距離表示出智慧電站數(shù)據(jù)節(jié)點(diǎn)之間的距離,其計算公式如下:
公式(1)中,n表示智慧電站數(shù)據(jù)信息的空間維數(shù);xi表示智慧電站中在節(jié)點(diǎn)i的數(shù)據(jù);xj表示智慧電站中在節(jié)點(diǎn)j的數(shù)據(jù)[12]。計算完各個數(shù)據(jù)節(jié)點(diǎn)之間的歐式距離后,利用高斯核函數(shù)定義數(shù)據(jù)xi與數(shù)據(jù)xj連接邊權(quán)重,其計算公式如下:
公式(2)中,w表示智慧電站數(shù)據(jù)xi與數(shù)據(jù)xj連接邊權(quán)重;δ表示高斯系數(shù),通常情況下該系數(shù)值為0.1[13]。利用上述公式計算出智慧電站數(shù)據(jù)與數(shù)據(jù)連接邊權(quán)重值,并將其復(fù)制到由多個連接邊組成的單獨(dú)集群圖上,以此完成對智慧電站數(shù)據(jù)加權(quán)圖模型的構(gòu)建。
在上文構(gòu)建的加權(quán)圖模型基礎(chǔ)上,引入基于哈希算法的數(shù)據(jù)中臺,對智慧電站中數(shù)據(jù)進(jìn)行檢索計算。計算過程主要包括三部分,首先在數(shù)據(jù)中臺中設(shè)計一個哈希函數(shù),然后使用哈希函數(shù)對加權(quán)圖模型上的數(shù)據(jù)集進(jìn)行哈希編碼,最后利用哈希編碼對智慧電站中的數(shù)據(jù)信息進(jìn)行檢索,其具體計算過程如下。
根據(jù)智慧電站數(shù)據(jù)信息檢索需求,并結(jié)合數(shù)據(jù)信息描述內(nèi)容,在數(shù)據(jù)中臺中,選擇線性哈希函數(shù)作為智慧電站數(shù)據(jù)信息哈希碼的計算函數(shù),并在數(shù)據(jù)中臺中選擇非線性映射形式,將線性哈希函數(shù)與非線性映射形式結(jié)合,就可以表示出哈希函數(shù)的非線性形式,其用公式表示如下:
公式(2)中,f表示智慧電站數(shù)據(jù)信息的非線性映射;q、b表示數(shù)據(jù)中臺中哈希函數(shù)所需要學(xué)習(xí)的參數(shù),其中q表示智慧電站數(shù)據(jù)信息的映射參數(shù),b表示加權(quán)圖模型中數(shù)據(jù)信息的截距項參數(shù)[14]。利用哈希函數(shù)對加權(quán)圖模型上的智慧電站數(shù)據(jù)信息進(jìn)行不斷的訓(xùn)練和學(xué)習(xí),學(xué)習(xí)哈希函數(shù)中的參數(shù)q、b,就可以得到用0或者1表示的哈希碼。
在數(shù)據(jù)中臺中,利用哈希函數(shù)計算到智慧電站數(shù)據(jù)哈希碼后,就可以在數(shù)據(jù)中臺中根據(jù)哈希碼對智慧電站數(shù)據(jù)集進(jìn)行編碼,對智慧電站數(shù)據(jù)集中每一個數(shù)據(jù)賦予一個哈希二值碼M。為了節(jié)省基于哈希算法的數(shù)據(jù)中臺的存儲空間,使用四位的哈希二值碼對智慧電站數(shù)據(jù)集進(jìn)行編碼,這樣還可以提高哈希算法的計算速度[15]。得到哈希二值碼M后,在基于哈希算法的數(shù)據(jù)中臺將哈希二值碼M組織成一個倒排的哈希表,以哈希桶作為表格的單元名稱,代表一個二維的哈希碼,為后續(xù)智慧電站數(shù)據(jù)檢索提供方便。
在上述兩個步驟基礎(chǔ)上,利用智慧電站數(shù)據(jù)集的哈希表對智慧電站最鄰近數(shù)據(jù)進(jìn)行檢索,將檢索關(guān)鍵詞或者檢索圖片在基于哈希算法的數(shù)據(jù)中臺中轉(zhuǎn)化為哈希碼,將該哈希碼與智慧電站數(shù)據(jù)集的哈希碼進(jìn)行比較,得到智慧電站數(shù)據(jù)與檢索詞的漢明距離;按照哈希表上智慧電站數(shù)據(jù)的排序,返回與檢索關(guān)鍵詞最相近的數(shù)據(jù)信息,即哈希表上最上端的數(shù)據(jù),將其作為檢索結(jié)果在數(shù)據(jù)中臺上顯示,以此完成基于哈希算法的數(shù)據(jù)中臺在智慧電站中的檢索設(shè)計。
實(shí)驗(yàn)選取某智慧電站數(shù)據(jù)集作為實(shí)驗(yàn)對象,該數(shù)據(jù)集名稱為HDKD502,數(shù)據(jù)樣本數(shù)量為10000000個,數(shù)據(jù)集維度數(shù)為3642,存儲空間為765M。實(shí)驗(yàn)利用IIJS軟件,分別采用此次設(shè)計方法與文獻(xiàn)[2]方法對該智慧電站數(shù)據(jù)集進(jìn)行檢索,測試出檢索結(jié)果與關(guān)鍵詞的匹配度值。實(shí)驗(yàn)中對該數(shù)據(jù)集描述信息為236M,構(gòu)建的加權(quán)圖模型中數(shù)據(jù)節(jié)點(diǎn)連接邊數(shù)量為1369652條,在基于哈希算法的數(shù)據(jù)中臺中計算得到的哈希碼為1。實(shí)驗(yàn)設(shè)計了8個檢索關(guān)鍵詞,其哈希碼分別為0.95、0.36、0.58、0.46、0.95、0.21、0.52、0.55,記錄兩個檢索方法所得到的檢索結(jié)果,并對匹配度值以量化后的形式表示,其范圍在0-1之間,匹配度值越接近1,則表示檢索結(jié)果與檢索關(guān)鍵詞的相符程度越高,檢索精度越高;匹配度值越接近0,則表示檢索結(jié)果與檢索關(guān)鍵詞的相符程度越低,檢索精度越低。實(shí)驗(yàn)將匹配度值作為檢索結(jié)果,其實(shí)驗(yàn)結(jié)果如表1所示。
表1 兩種方法檢索結(jié)果匹配度值對比
從表1中的數(shù)據(jù)可以看出,文獻(xiàn)[2]方法檢索結(jié)果與檢索關(guān)鍵詞的匹配度值在0.168-0.593之間,匹配度值較小,接近0,而設(shè)計方法檢索結(jié)果與檢索關(guān)鍵詞的匹配度值在0.989~0.999之間,匹配度值較大,接近1,由此可知,設(shè)計檢索方法檢索精度較高,匹配度值較大。
本文對基于哈希算法的數(shù)據(jù)中臺在智慧電站中的檢索應(yīng)用進(jìn)行了研究,采用哈希算法,結(jié)合數(shù)據(jù)中臺技術(shù),針對智慧電站數(shù)據(jù)檢索現(xiàn)狀,提出了一套新的智慧電站數(shù)據(jù)檢索方法,并利用實(shí)驗(yàn)驗(yàn)證了基于哈希算法的數(shù)據(jù)中臺在智慧電站中具有良好的應(yīng)用價值,提高了智慧電站信息檢索精度,為電站運(yùn)營管理提供高水平、高質(zhì)量智慧電站平臺。但由于智慧電站建設(shè)研究涉及的范圍比較廣泛,此次僅針對智慧電站檢索功能的設(shè)計與開發(fā)進(jìn)行了研究,對智慧電站建設(shè)方面的研究在內(nèi)容上和深度上還不夠,今后有待對智慧電站建設(shè)進(jìn)行進(jìn)一步的探究,促進(jìn)電力工業(yè)不斷發(fā)展。