王延田,肖少輝,姜傳鑫
(1.中國(guó)電力工程顧問(wèn)集團(tuán)公司,北京 100120 2.北京洛斯達(dá)數(shù)字遙感技術(shù)有限公司,北京 100120)
在大型企業(yè)中,日常處理的業(yè)務(wù)數(shù)據(jù)按類型可分為為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)通常是指可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),如目前管理信息系統(tǒng)中最常使用的關(guān)系型數(shù)據(jù)庫(kù)就屬于結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)通常是相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用二維表結(jié)構(gòu)來(lái)表現(xiàn)的數(shù)據(jù),包括以WORD、PDF、EXCEL和JPG等格式組成的各類辦公文檔、報(bào)表憑證,以及圖像和音頻/視頻等數(shù)據(jù)文件均為非結(jié)構(gòu)化數(shù)據(jù)。也有將介于界定嚴(yán)格的結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)形式稱之為半結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)有HTML頁(yè)面、XML、XBRL等。
在企業(yè)信息化應(yīng)用過(guò)程中產(chǎn)生的數(shù)據(jù),能夠采用關(guān)系型數(shù)據(jù)庫(kù)處理的結(jié)構(gòu)化數(shù)據(jù)約占企業(yè)數(shù)據(jù)總量的20%,而其他80%的非結(jié)構(gòu)化數(shù)據(jù)無(wú)法完全采用關(guān)系型數(shù)據(jù)庫(kù)來(lái)處理。
科學(xué)管理和合理應(yīng)用這些非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為企業(yè)正確決策、增強(qiáng)核心競(jìng)爭(zhēng)力的關(guān)鍵。2010 年,由中央辦公廳、國(guó)務(wù)院辦公廳聯(lián)合下發(fā)《電子文件暫行管理辦法》(廳字[2009]39號(hào)),明確要求大型企業(yè)電子文件管理需要滿足統(tǒng)一管理、全程管理、規(guī)范標(biāo)準(zhǔn)、便于利用、安全保密五大要求。
以上要求為企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)中心的建立提出了明確的指導(dǎo)方向,如何設(shè)計(jì)和構(gòu)建一套滿足非結(jié)構(gòu)化數(shù)據(jù)中心統(tǒng)一管理、面向服務(wù)的數(shù)據(jù)存儲(chǔ)組織形式,成為亟待研究和解決的問(wèn)題。該組織形式的研究直接影響到數(shù)據(jù)中心面對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的承載能力、擴(kuò)展能力以及面向多業(yè)務(wù)系統(tǒng)的服務(wù)能力。
針對(duì)以上的需求描述,此次的研究目標(biāo)以現(xiàn)有成熟存儲(chǔ)技術(shù)為基礎(chǔ),結(jié)合現(xiàn)有非結(jié)構(gòu)化數(shù)據(jù)理論知識(shí),最終形成非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)規(guī)劃,建立非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)模型、屬性關(guān)系模型以及分類對(duì)象模型。通過(guò)這些模型的建立,優(yōu)化非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),方便數(shù)據(jù)的快速檢索和有效管理。
根據(jù)研究建設(shè)目標(biāo),采用先期調(diào)研、方案設(shè)計(jì)和原形系統(tǒng)建設(shè)的研究路線推進(jìn)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案的研究,驗(yàn)證存儲(chǔ)方案的有效性和易用性。
圖1 課題研究路線
(1)先期調(diào)研階段:首先調(diào)研企業(yè)現(xiàn)有基礎(chǔ)設(shè)施、存儲(chǔ)能力以及非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)應(yīng)用情況。然后收集現(xiàn)有非結(jié)構(gòu)化數(shù)據(jù)處理理論和成熟技術(shù),結(jié)合本企業(yè)實(shí)際情況,制定數(shù)據(jù)存儲(chǔ)的初步方案。
(2)方案設(shè)計(jì)階段:基于先期調(diào)研及數(shù)據(jù)存儲(chǔ)初步方案的基礎(chǔ)上,重點(diǎn)研究非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)規(guī)劃、元數(shù)據(jù)模型、屬性關(guān)系模型以及分類對(duì)象模型等關(guān)鍵技術(shù)。利用這些知識(shí)體系支撐非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、檢索和對(duì)外標(biāo)準(zhǔn)服務(wù)應(yīng)用。
(3)原形系統(tǒng)建設(shè)階段:根據(jù)先期確定的研究目標(biāo),按照方案設(shè)計(jì)階段形成的技術(shù)方案,進(jìn)行原形系統(tǒng)建設(shè)。原形系統(tǒng)能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)物理存儲(chǔ)、屬性檢索、全文檢索和對(duì)外標(biāo)準(zhǔn)化服務(wù)功能,實(shí)現(xiàn)并驗(yàn)證方案設(shè)計(jì)階段所建立的存儲(chǔ)規(guī)劃理論和各種模型理論。
存儲(chǔ)規(guī)劃主要考慮將非結(jié)構(gòu)化數(shù)據(jù)的物理存儲(chǔ)與邏輯存儲(chǔ)進(jìn)行分離,因此采用SAN網(wǎng)絡(luò)存儲(chǔ)與數(shù)據(jù)庫(kù)存儲(chǔ)相配合的模式進(jìn)行,并將檢索與文本內(nèi)容進(jìn)行有效分離、合理分布。每一個(gè)非結(jié)構(gòu)化數(shù)據(jù)分配一個(gè)唯一ID,將其對(duì)應(yīng)的邏輯信息,如文件名稱、文件大小、所屬分類、文件存放路徑等,一并存儲(chǔ)到數(shù)據(jù)庫(kù)中。而文件的存放的路徑盡量縮短,由過(guò)去的樹狀存儲(chǔ)模式轉(zhuǎn)換為扁平模式,以提高海量文件訪問(wèn)速度。同時(shí),生成伴生文件,存儲(chǔ)數(shù)據(jù)庫(kù)中存放的邏輯信息,便于文件的日后遷移和索引處理。
圖2 存儲(chǔ)規(guī)劃圖
通過(guò)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析,可以得出數(shù)據(jù)擁有系統(tǒng)屬性和擴(kuò)展屬性兩類。系統(tǒng)屬性即為文件自身所包含的自然屬性,例如名稱、大小、創(chuàng)建日期、創(chuàng)建人等。但非結(jié)構(gòu)化數(shù)據(jù)除了自然屬性外還會(huì)有業(yè)務(wù)擴(kuò)展屬性,例如會(huì)議紀(jì)要就包含了會(huì)議時(shí)間、會(huì)議地點(diǎn)、議題、參會(huì)人員等。同時(shí),元數(shù)據(jù)和擴(kuò)展屬性的數(shù)量也會(huì)隨著人們對(duì)事物認(rèn)識(shí)的不斷提升而增加,因此需要增加元數(shù)據(jù)描述文件對(duì)元數(shù)據(jù)進(jìn)行定義,在數(shù)據(jù)分類中增加擴(kuò)展屬性描述的信息。對(duì)元數(shù)據(jù)模型的認(rèn)識(shí)是屬性關(guān)系模型和分類對(duì)象模型的基礎(chǔ),也決定了非結(jié)構(gòu)化信息提取的方式和解析算法。
在系統(tǒng)元數(shù)據(jù)和擴(kuò)展屬性中,屬性之間存在一定的關(guān)聯(lián)關(guān)系,這些關(guān)系相互結(jié)合形成關(guān)系網(wǎng)絡(luò),在每個(gè)關(guān)系上設(shè)置權(quán)重,便可構(gòu)成以任一節(jié)點(diǎn)為中心橫向親屬網(wǎng)絡(luò)圖。通過(guò)該模型以及計(jì)算機(jī)圖形學(xué)與人工智能理論可以提供給非結(jié)構(gòu)化數(shù)據(jù)查詢者一個(gè)建議的搜索路徑,便于其快速找到所關(guān)注的內(nèi)容。例如,通過(guò)會(huì)議地點(diǎn)來(lái)查詢資料的用戶很可能同樣系統(tǒng)通過(guò)會(huì)議時(shí)間來(lái)進(jìn)行進(jìn)一步檢索。同時(shí),通過(guò)該模型還可以提供查詢結(jié)果的動(dòng)態(tài)展示,突出顯示查詢者重點(diǎn)關(guān)注的屬性信息。
圖4 屬性關(guān)系模型圖
因企業(yè)內(nèi)部應(yīng)用的需要,非結(jié)構(gòu)化數(shù)據(jù)有著明顯的業(yè)務(wù)分類需要。該分類可能影響到文件數(shù)據(jù)的存儲(chǔ)位置,分類也代表著某些屬性的聚合。例如文件分類包含了系統(tǒng)屬性,會(huì)議分類除了包含系統(tǒng)屬性外包含了與會(huì)議相關(guān)的屬性集合。因此,分類對(duì)象模型是一個(gè)倒金字塔形的分類模型,位于上部的分類繼承位于下部分類的部分或者全部屬性。該金字塔結(jié)構(gòu)反映了人類對(duì)事物認(rèn)識(shí)演化過(guò)程,隨著認(rèn)識(shí)的逐步深入而是分類更加細(xì)化,構(gòu)成了屬性關(guān)系的縱向網(wǎng)絡(luò)。
圖5 分類對(duì)象模型示意圖
隨著原形系統(tǒng)的實(shí)施和應(yīng)用,正逐漸成為某企業(yè)非結(jié)構(gòu)化數(shù)據(jù)中心,并且相繼接入了門戶系統(tǒng)、OA系統(tǒng)、生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)平臺(tái)、電網(wǎng)規(guī)劃平臺(tái)等多個(gè)業(yè)務(wù)系統(tǒng)。原形系統(tǒng)為上述業(yè)務(wù)系統(tǒng)提供了內(nèi)容存儲(chǔ)服務(wù)、內(nèi)容訪問(wèn)服務(wù)和內(nèi)容管理及挖掘服務(wù)等。降低其他系統(tǒng)在非結(jié)構(gòu)化數(shù)據(jù)管理方面的開發(fā)費(fèi)用和時(shí)間成本,更專注于其自身業(yè)務(wù)需求。進(jìn)一步提升了非結(jié)構(gòu)化數(shù)據(jù)中心的應(yīng)用價(jià)值,形成了很好的集約效益。
本次課題研究成果很好地解決了企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)組織形式問(wèn)題,使得非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)內(nèi)部得到高效存儲(chǔ)和便捷應(yīng)用,也為企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)中心進(jìn)行數(shù)據(jù)集中存儲(chǔ)、統(tǒng)一管理、標(biāo)準(zhǔn)服務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),已成為企業(yè)信息化建設(shè)的重要組成部分。
[1]張志剛,姚偉.海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)問(wèn)題初探[J].中國(guó)檔案,2009,(8).
[2]陳靜,尚鮮連,顧晨宇.基于SOA的非結(jié)構(gòu)化信息檢索的模型研究[J].自動(dòng)化術(shù)與應(yīng)用,2009,(11).
[3]程志華,倪時(shí)龍,黃文思,龔賀.企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)研究及實(shí)踐[J].電力信息化,2012,(03).
[4]李未,浪波.一種非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的四面體數(shù)據(jù)模型[J].中國(guó)科學(xué),2010,40(8).