胡 萍
(銅仁學(xué)院 信息工程學(xué)院,貴州 銅仁 554300 )
閃存數(shù)據(jù)庫(kù)磨損均衡控制中數(shù)據(jù)元模型設(shè)計(jì)研究
胡萍
(銅仁學(xué)院 信息工程學(xué)院,貴州 銅仁 554300 )
Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元是信息提取與優(yōu)化研究的重要內(nèi)容。本文主要從閃存數(shù)據(jù)庫(kù)磨損切分技術(shù)和磨損特征提取與特征表示兩方面入手,對(duì)最大閃存磨損匹配法和閃存磨損向量空間模型(VSM)進(jìn)行研究改進(jìn),以實(shí)現(xiàn)閃存磨損均衡控制中數(shù)據(jù)元模型的優(yōu)化設(shè)計(jì)。
閃存數(shù)據(jù)庫(kù);磨損;均衡控制;數(shù)據(jù)元
隨著信息技術(shù)的發(fā)展,Web數(shù)據(jù)信息的利用率越來(lái)越高,越來(lái)越多團(tuán)體、機(jī)構(gòu)和個(gè)人利用Web路徑獲取信息。從Web自身特點(diǎn)看,其具有動(dòng)態(tài)化、無(wú)結(jié)構(gòu)的特點(diǎn)。因此人們?cè)谕ㄟ^(guò)Web獲取信息的過(guò)程中,很難準(zhǔn)確得到,有時(shí)像大海撈針一樣。為解決這一問(wèn)題,需要Web技術(shù)和數(shù)據(jù)元技術(shù)結(jié)合在一起,對(duì)閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息進(jìn)行優(yōu)化提取,提高數(shù)據(jù)信息獲取效率。
從目前看,人們對(duì)數(shù)據(jù)信息的數(shù)據(jù)元越來(lái)越重視。因 Internet呈現(xiàn)數(shù)據(jù)信息的多樣化,一個(gè) Web數(shù)據(jù)信息里面包括多種數(shù)據(jù)類型,比如文章、詞匯、數(shù)據(jù)、歌詞、數(shù)字圖書館、新聞報(bào)道、微博、郵件等。對(duì)此類非結(jié)構(gòu)化的數(shù)據(jù)信息挖掘非常重要,此類數(shù)據(jù)信息的信息源都是數(shù)據(jù)元。數(shù)據(jù)元在Web系統(tǒng)中表達(dá)了豐富的數(shù)據(jù)信息,同時(shí)也包含了很多文本信息之外的知識(shí)。面對(duì)豐富多彩的數(shù)據(jù)信息,傳統(tǒng)文本數(shù)據(jù)信息提取方式無(wú)法滿足需求,需要通過(guò)Web技術(shù)和數(shù)據(jù)元工具結(jié)合在一起,滿足用戶數(shù)據(jù)信息獲取需要。
Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元是信息提取與優(yōu)化研究的重要內(nèi)容,可以發(fā)現(xiàn)Web中各種數(shù)據(jù)信息知識(shí)。Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元主要利用一些智能算法對(duì)數(shù)據(jù)信息進(jìn)行優(yōu)化,主要包括案例推理算法、蜂群算法、神經(jīng)網(wǎng)絡(luò)、可能性推理等。把此類算法和數(shù)據(jù)元提取技術(shù)結(jié)合在一起,對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)信息進(jìn)行優(yōu)化,建立關(guān)鍵詞和文字之間的關(guān)系,同時(shí)對(duì)文檔內(nèi)容進(jìn)行分類,滿足不同用戶需求,提取有價(jià)值的閃存數(shù)據(jù)庫(kù)磨損。Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元流程設(shè)計(jì)如圖1所示。
通過(guò)Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元過(guò)程分析,可以對(duì)文本數(shù)據(jù)信息進(jìn)行初步提取。因此Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息優(yōu)化預(yù)處理流程設(shè)計(jì)如圖2所示。
Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息特征提取過(guò)程中,需要對(duì)閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息進(jìn)行預(yù)處理,主要是對(duì)的詞條進(jìn)行模式優(yōu)化,實(shí)現(xiàn)對(duì)的詞條切分。
閃存數(shù)據(jù)庫(kù)磨損切分過(guò)程中,需要對(duì)中文句子中各個(gè)分隔符進(jìn)行分析;設(shè)計(jì)過(guò)程中需要對(duì)詞頻進(jìn)行計(jì)算。分詞在計(jì)算過(guò)程中需要從分隔符開(kāi)始,在各個(gè)文本之間加上相應(yīng)的分隔符,保證文本數(shù)據(jù)信息符合數(shù)據(jù)元格式要求。閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息處理過(guò)程中需要從連續(xù)和離散兩種形式出發(fā)。
圖1 Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)元流程設(shè)計(jì)
圖2 Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息的預(yù)處理
Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息處理領(lǐng)域,需要對(duì)中文自動(dòng)分詞設(shè)計(jì)方法進(jìn)行研究,提出了一種閃存數(shù)據(jù)庫(kù)磨損分詞方法。通過(guò)對(duì)最大分詞匹配算法的研究,可以優(yōu)化數(shù)據(jù)信息數(shù)據(jù)元。最大閃存數(shù)據(jù)庫(kù)磨損匹配法的思想有:從中文數(shù)據(jù)信息流中取最大字符串(本文取8個(gè)字符串),在Web中文字典中查找,如果匹配成功產(chǎn)生數(shù)據(jù)輸出,繼續(xù)進(jìn)行數(shù)據(jù)信息提取,獲取后返回,繼續(xù)在文本中查找,直到數(shù)據(jù)信息的長(zhǎng)度為1,此種情況下需要在輸入流中前進(jìn)一格,直到整個(gè)數(shù)據(jù)信息流輸入完畢。
通過(guò)對(duì)此算法進(jìn)行分析,可以看出需要不斷地進(jìn)行數(shù)據(jù)庫(kù)訪問(wèn),導(dǎo)致數(shù)據(jù)信息提取效率低下?,F(xiàn)對(duì)方法進(jìn)行以下改進(jìn):
Step1:對(duì)閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息庫(kù)建索引,并且把數(shù)據(jù)信息輸入到相應(yīng)的字符串fstr中。
Step2:按照數(shù)據(jù)元設(shè)計(jì)方法,在數(shù)據(jù)信息記錄集rs中進(jìn)行數(shù)據(jù)信息匹配,確保數(shù)據(jù)信息匹配能夠進(jìn)行合理搭配,進(jìn)入輸入流進(jìn)行移動(dòng)。
Step3:按照最大匹配算法,在記錄集rs中進(jìn)行數(shù)據(jù)信息匹配,按照數(shù)據(jù)信息集的要求進(jìn)行匹配,產(chǎn)生相應(yīng)輸入流進(jìn)行流動(dòng)。
Step4:重復(fù)第二步,輸入流結(jié)束之后,整個(gè)循環(huán)退出。
面向Web閃存數(shù)據(jù)庫(kù)磨損分詞算法分割的因素中,需要對(duì)信息庫(kù)進(jìn)行優(yōu)化,信息庫(kù)對(duì)整個(gè)數(shù)據(jù)元分解會(huì)產(chǎn)生重要的影響。
閃存數(shù)據(jù)庫(kù)磨損主要是針對(duì)Web文檔,有的時(shí)候是計(jì)算機(jī)文檔。技術(shù)文檔需要對(duì)其特征進(jìn)行綜合分析,識(shí)別專業(yè)詞匯,因此不需要對(duì)普通詞匯進(jìn)行詞頻統(tǒng)計(jì)和切分。系統(tǒng)設(shè)計(jì)過(guò)程中需要解決系統(tǒng)運(yùn)行效率和實(shí)時(shí)性問(wèn)題,需要避免大型通用詞典的使用,需要建立相應(yīng)的專業(yè)詞條庫(kù),對(duì)Web文本進(jìn)行切分。專業(yè)詞典設(shè)計(jì)過(guò)程中需要利用本領(lǐng)域的詞條,比如說(shuō)“雖然”、“的”、“但是”等。
Web閃存數(shù)據(jù)庫(kù)磨損特征提取需要對(duì)每個(gè)特征項(xiàng)進(jìn)行分析,特征項(xiàng)可以代表文檔,用詞條或者描述方式進(jìn)行分析。特征項(xiàng)處理過(guò)程中可以采取文本分類和聚類模式處理,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化Web閃存數(shù)據(jù)庫(kù)磨損進(jìn)行處理。系統(tǒng)設(shè)計(jì)中聚類和分類是核心,Web閃存數(shù)據(jù)庫(kù)磨損數(shù)據(jù)信息提取算法的優(yōu)劣對(duì)文檔聚類和分類會(huì)產(chǎn)生直接的效果。Web閃存數(shù)據(jù)庫(kù)磨損特征提取模型有多種,常見(jiàn)的有概率型、布爾邏輯型、向量空間型等。本文將對(duì)向量空間模型(VSM)進(jìn)行研究。
Web閃存數(shù)據(jù)庫(kù)磨損的優(yōu)點(diǎn)可實(shí)現(xiàn)文本內(nèi)容的轉(zhuǎn)化,最終通過(guò)數(shù)學(xué)手段對(duì)向量進(jìn)行表述,按照各種相似預(yù)算的規(guī)則進(jìn)行計(jì)算,保證閃存數(shù)據(jù)庫(kù)磨損排序成為可能。閃存數(shù)據(jù)庫(kù)磨損檢索、文本摘要提取、文本過(guò)濾都會(huì)用到文本向量,當(dāng)前已經(jīng)取得良好效果。
Web閃存數(shù)據(jù)庫(kù)磨損向量空間模型設(shè)計(jì)中需要對(duì)詞間關(guān)系進(jìn)行設(shè)定,形成正交假設(shè),此種方式在實(shí)際處理中很難滿足多樣性文本需求,因此文本中各種詞之間存在相關(guān)性,即會(huì)出現(xiàn)“斜交”現(xiàn)象。比如說(shuō)“電腦”、“微機(jī)”、“計(jì)算機(jī)”三個(gè)詞可以表示成一個(gè)概念。如果不能從這個(gè)角度進(jìn)行詞條分析,那么提取過(guò)程中會(huì)造成特征不明顯現(xiàn)象,甚至出現(xiàn)特征集龐大的問(wèn)題。Web閃存數(shù)據(jù)庫(kù)磨損信息提取過(guò)程中為了解決語(yǔ)言多樣性問(wèn)題,需要在信息庫(kù)上進(jìn)行設(shè)置。
Web閃存數(shù)據(jù)庫(kù)磨損提取過(guò)程中設(shè)置 3個(gè)信息庫(kù),分別為同義詞信息庫(kù)、主詞信息庫(kù)、蘊(yùn)含信息庫(kù),同時(shí)需要對(duì)信息庫(kù)詞頻進(jìn)行統(tǒng)計(jì),根據(jù)詞頻特征進(jìn)行信息提取,按照主詞信息庫(kù)中詞條進(jìn)行信息優(yōu)化。詞條頻率統(tǒng)計(jì)公式為:
其中Tf表示信息庫(kù)中主詞條f的詞頻;TM f表示信息庫(kù)中主詞條f的詞頻權(quán)值;TTfi表示信息庫(kù)中同義詞條f的詞頻權(quán)值,通過(guò)設(shè)計(jì)其共有m1個(gè)同義詞;TIfi表示信息庫(kù)中蘊(yùn)含詞條f的詞頻權(quán)值,通過(guò)設(shè)計(jì)其共有m2個(gè)蘊(yùn)含詞; e表示加權(quán)值。該公式表示W(wǎng)eb中文詞條在數(shù)據(jù)文檔中出現(xiàn)的頻數(shù)由三部分之和組成,即為同義詞詞條、主詞條、蘊(yùn)含詞詞條三個(gè)部分詞頻數(shù)的權(quán)值相加獲取。
在VSM中,將文本文檔視為由一組詞條(T1,T2,……,Tn)構(gòu)成,每一詞條都賦以一定的權(quán)值Wi,通過(guò)對(duì)Web閃存數(shù)據(jù)庫(kù)磨損文檔數(shù)據(jù)映射,可以對(duì)某一個(gè)組詞的矢量結(jié)構(gòu)進(jìn)行分析,同時(shí)產(chǎn)生相應(yīng)的向量空間。Web閃存數(shù)據(jù)庫(kù)磨損匹配過(guò)程中需要對(duì)向量空間進(jìn)行處理,確保向量空間符合數(shù)據(jù)元信息優(yōu)化的要求。
Web閃存數(shù)據(jù)庫(kù)磨損設(shè)計(jì)中需要對(duì)詞、詞組、短語(yǔ)進(jìn)行分析,形成文檔的基本元素,確保元素在中文文檔中出現(xiàn)的頻率具有規(guī)律性,以適應(yīng)Web文檔特征項(xiàng)的要求。Web文檔中不同的詞條在文檔中表示不同的功能,比如“的”、“和”等虛詞在文檔中出現(xiàn)的頻數(shù)較多,而稀有詞在整個(gè)訓(xùn)練文檔中出現(xiàn)的次數(shù)很少,這些詞在文檔中計(jì)算頻數(shù)是有一定難度的,通常把其稱為不確定特征項(xiàng),設(shè)計(jì)系統(tǒng)時(shí)把其濾除。
[1] 湯顯,孟小峰,梁智超,盧澤萍.基于代價(jià)的閃存數(shù)據(jù)庫(kù)緩沖區(qū)置換算法[J].軟件學(xué)報(bào),2011,22(12):2951-2964.
[2] 邢玉鋼,王曼麗,王翰虎,陳梅.基于列式存儲(chǔ)的閃存數(shù)據(jù)庫(kù)查詢優(yōu)化策略[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(12):131-134.
[3] 鮑程鋒,楊小虎.基于影子頁(yè)面和混合日志的MMDB恢復(fù)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(7):2373-2376.
[4] 邵璐,費(fèi)洪曉.內(nèi)存數(shù)據(jù)庫(kù)技術(shù)在移動(dòng)實(shí)時(shí)累加系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(8):169-173.
[5] 邢玉鋼,王翰虎,馬丹,陳梅.一種改進(jìn)的閃存數(shù)據(jù)庫(kù)Sort-Merge-Join算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(2):614-616,620.
Research on Design of Data Element Model in Flash Memory Database Wear Balanced Control
HU Ping
( School of Information, Tongren University, Tongren, Guizhou 554300, China )
Web flash memory database wear data element is the important content of research on information extraction and optimization. From two aspects: flash memory database wear segmentation technology and wear characteristic extraction and characteristic presentation, research is made on maximum flash memory wear matching method and flash memory wear vector space model (VSM) to optimize the data element model in flash memory database wear balanced control.
flash memory database,wear,balanced control,data element
TP301
A
1673-9639 (2015) 04-0114-03
(責(zé)任編輯 毛志)(責(zé)任校對(duì) 徐松金)(英文編輯 田興斌)
2014-12-12
胡萍(1983-),女,貴州江口人,講師,碩士,研究方向:閃存數(shù)據(jù)庫(kù)、計(jì)算機(jī)應(yīng)用技術(shù)。