楊紅,周小蕙,郝淼,,陶衡(通信作者)
1.貴州貴科大數(shù)據(jù)有限責(zé)任公司,貴州 貴陽(yáng) 550000;2.貴州省分析測(cè)試研究院,貴州 貴陽(yáng) 550000
在數(shù)字經(jīng)濟(jì)、信息化社會(huì)的大環(huán)境下,存在嚴(yán)重的“信息孤島”現(xiàn)象,為使不同部門(mén)如采購(gòu)、設(shè)計(jì)、生產(chǎn)、銷(xiāo)售之間實(shí)現(xiàn)信息共享、數(shù)據(jù)暢通,需要通過(guò)信息資源規(guī)劃來(lái)梳理業(yè)務(wù)流程,治理目前較為混亂的數(shù)據(jù)環(huán)境。由此構(gòu)建主題數(shù)據(jù)庫(kù),而不是按照各種單一的報(bào)表原樣只建立所謂的“數(shù)據(jù)庫(kù)”。
主題數(shù)據(jù)庫(kù)是信息資源共享和數(shù)據(jù)利用的基礎(chǔ)體系,其構(gòu)建是為了匯聚常規(guī)信息系統(tǒng)的業(yè)務(wù)數(shù)據(jù)、人員數(shù)據(jù)、項(xiàng)目數(shù)據(jù)、研究數(shù)據(jù)等,夯實(shí)數(shù)據(jù)資源,為實(shí)現(xiàn)數(shù)據(jù)的整合、挖掘、共享交換和應(yīng)用奠定基礎(chǔ)。在主題數(shù)據(jù)庫(kù)的支撐下,實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)、政策方案、科學(xué)研究、項(xiàng)目情況等數(shù)據(jù)的深度匯總和挖掘分析,充分利用數(shù)據(jù)帶來(lái)業(yè)務(wù)價(jià)值的提升,實(shí)現(xiàn)業(yè)務(wù)高效化、規(guī)范化的目的。
構(gòu)建主題數(shù)據(jù)庫(kù)可滿足多方用戶需求,涉及多方領(lǐng)域、多種資源,較為全面。通過(guò)建立主題數(shù)據(jù)庫(kù),簡(jiǎn)易、科學(xué)地實(shí)現(xiàn)了應(yīng)用系統(tǒng)的集成,能夠?yàn)榭蒲性核?、企業(yè)和各級(jí)政府部門(mén)的戰(zhàn)略決策、研究成果等提供數(shù)據(jù)支持。
主題數(shù)據(jù)庫(kù)面向相應(yīng)的學(xué)科或是應(yīng)用領(lǐng)域,由眾多邏輯相關(guān)的數(shù)據(jù)資源按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范整合形成,具備系統(tǒng)性和完整性,并通過(guò)統(tǒng)一的系統(tǒng)以提供一站式服務(wù),是科學(xué)大數(shù)據(jù)的一種主要形式,作為某一類(lèi)別基礎(chǔ)數(shù)據(jù)搜集、保存和分享的工具。在往昔的探索中,主題數(shù)據(jù)庫(kù)的研究同樣不羈于一種門(mén)類(lèi),而是在全行業(yè)廣泛研究和應(yīng)用。
王玉書(shū)和董丕明[1]在其研究成果中闡述了主題數(shù)據(jù)庫(kù)的概念,并給出關(guān)于企業(yè)的抽象化描述,認(rèn)為主題數(shù)據(jù)庫(kù)是與企業(yè)主題有關(guān)、與常規(guī)計(jì)算應(yīng)用無(wú)關(guān)的長(zhǎng)期穩(wěn)定的數(shù)據(jù)構(gòu)成,如產(chǎn)品數(shù)據(jù)庫(kù)就是一種主題數(shù)據(jù)庫(kù)。
針對(duì)產(chǎn)品制造商面臨的業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)異構(gòu)、產(chǎn)品數(shù)據(jù)管理與企業(yè)整體需求脫節(jié)等問(wèn)題,分析企業(yè)層面產(chǎn)品數(shù)據(jù)資源模型的優(yōu)勢(shì),研究復(fù)雜產(chǎn)品主題數(shù)據(jù)庫(kù)規(guī)劃的主要方法,形成基于主題集成和復(fù)雜產(chǎn)品數(shù)據(jù)全局管理的概念。經(jīng)由過(guò)程建立繁雜產(chǎn)品主題數(shù)據(jù)庫(kù)模型,利用數(shù)據(jù)適配器成立雙源數(shù)據(jù)與產(chǎn)品主題數(shù)據(jù)庫(kù)之間的聯(lián)系,可實(shí)現(xiàn)繁雜產(chǎn)品數(shù)據(jù)的集成和全局處理。
經(jīng)理信息系統(tǒng)(Executive Information System,EIS)[2]主要針對(duì)企業(yè)高管,由于暫時(shí)沒(méi)有“不變”的數(shù)據(jù)基礎(chǔ)而沒(méi)有施展出應(yīng)當(dāng)具有的效力。建立以EIS主題數(shù)據(jù)庫(kù)為核心的面向“主題”的數(shù)據(jù)剖析環(huán)境,所謂“主題”實(shí)則就是在較大、較高的層次將數(shù)據(jù)歸類(lèi)為標(biāo)準(zhǔn),將分析對(duì)象抽象化的表現(xiàn)。每一個(gè)“主題”對(duì)應(yīng)一個(gè)“實(shí)體”,如人員、設(shè)施、產(chǎn)品等,其中各類(lèi)數(shù)據(jù)都可集約化,設(shè)計(jì)為一種主題數(shù)據(jù)庫(kù),在相對(duì)宏觀的數(shù)據(jù)分析領(lǐng)域中對(duì)數(shù)據(jù)有效管理,滿足查詢等需求。
科學(xué)數(shù)據(jù)網(wǎng)格(Scientific Data Grid,SDG)[3]的目的是在科學(xué)數(shù)據(jù)庫(kù)的數(shù)據(jù)資源基礎(chǔ)上,通過(guò)高性能調(diào)度技術(shù)、資源管理技術(shù)、數(shù)據(jù)網(wǎng)格技術(shù)[4]等進(jìn)行網(wǎng)格計(jì)算,解決大量數(shù)據(jù)廣泛分布的異構(gòu)問(wèn)題,并以此為基點(diǎn)研討、建立對(duì)科學(xué)探索有啟迪作用的應(yīng)用系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)資源共享。數(shù)據(jù)挖掘中的數(shù)據(jù)分析、處理和計(jì)算能力可用來(lái)分析數(shù)據(jù)的關(guān)聯(lián)和數(shù)據(jù)聚類(lèi),發(fā)現(xiàn)數(shù)據(jù)隱藏的模式和關(guān)系過(guò)程,挖掘數(shù)據(jù)中的“內(nèi)容”??茖W(xué)主題數(shù)據(jù)庫(kù)的建立,特別是以業(yè)務(wù)為導(dǎo)向、數(shù)據(jù)融合應(yīng)用為目標(biāo)的科學(xué)大數(shù)據(jù)主題庫(kù),對(duì)于服務(wù)特色學(xué)科發(fā)展、為科技大數(shù)據(jù)多維度下的應(yīng)用服務(wù)提供了有力的數(shù)據(jù)支撐。早期的相關(guān)研究對(duì)主題數(shù)據(jù)庫(kù)的定義、概念及構(gòu)建具有重要的啟發(fā),對(duì)此,本文將繼續(xù)從橫向視角對(duì)主題數(shù)據(jù)庫(kù)的發(fā)展進(jìn)行論述。
隨著大數(shù)據(jù)時(shí)代的到來(lái),主題數(shù)據(jù)庫(kù)的數(shù)據(jù)管理方式和規(guī)劃方法發(fā)生了一定的轉(zhuǎn)變。王井樂(lè)[5]通過(guò)信息資源規(guī)劃梳理業(yè)務(wù)流程,進(jìn)行了信息資源規(guī)劃研究,主要從以下三個(gè)角度出發(fā)。
(1)戰(zhàn)略角度。大數(shù)據(jù)時(shí)代下的信息資源能夠被概述為數(shù)以百計(jì)的業(yè)務(wù)類(lèi)數(shù)據(jù),即使再?gòu)?fù)雜的信息系統(tǒng)也勢(shì)必要以信息資源作為其本源,因此信息資源規(guī)劃具有關(guān)鍵的戰(zhàn)略性地位。
(2)應(yīng)用角度。信息資源按來(lái)源可以分為內(nèi)部和外部資源,即與之內(nèi)部業(yè)務(wù)相關(guān)聯(lián)的資源和在外產(chǎn)生的,以及與內(nèi)部發(fā)展密切聯(lián)系的外部資源。從內(nèi)部資源角度看,企業(yè)的空間跨度越大,對(duì)信息共享的要求就越高;反之,從外部資源角度看,合理整合、利用外部資源可以明顯增強(qiáng)企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
(3)方法模型角度。 很多學(xué)者從方法模型角度研討了信息資源規(guī)劃及其管理模型和管理框架。目前的主流理論將信息資源管理分為七大模塊研究,即數(shù)據(jù)管理、電子通信、圖書(shū)館、技術(shù)情報(bào)中心、文書(shū)和記錄管理、辦公系統(tǒng)研究、信息服務(wù)以及統(tǒng)計(jì)信息管理。
事實(shí)上,主題數(shù)據(jù)庫(kù)還未被大規(guī)模地普及到實(shí)踐應(yīng)用中,更多的是對(duì)其特征和技術(shù)環(huán)境等方面的摸索。周炎濤等人[6]對(duì)主題數(shù)據(jù)庫(kù)的技術(shù)進(jìn)行了親合性分析方法研究,將主題數(shù)據(jù)庫(kù)作為高檔次的數(shù)據(jù)環(huán)境,其設(shè)計(jì)目的是能夠加速應(yīng)用項(xiàng)目的開(kāi)發(fā),其邏輯結(jié)構(gòu)是獨(dú)立于當(dāng)前的計(jì)算機(jī)軟硬件實(shí)現(xiàn)過(guò)程,并具有以下基本特征[7]:①面向業(yè)務(wù)主題,與科研、政府及企業(yè)管理待解決的主要問(wèn)題有關(guān);②咨詢分享,在不同的應(yīng)用系統(tǒng)中“共建共用”主題資料庫(kù);③一次一處輸入系統(tǒng),數(shù)據(jù)直接獲得、利用、存儲(chǔ)和傳輸;④由基本表(Base Table)組成,即主題數(shù)據(jù)庫(kù)的科學(xué)數(shù)據(jù)結(jié)構(gòu)由“基本表”規(guī)范的數(shù)據(jù)實(shí)體構(gòu)成。
按照關(guān)系模式的觀點(diǎn),現(xiàn)實(shí)世界中有聯(lián)系的數(shù)據(jù)對(duì)象就構(gòu)成了一個(gè)“實(shí)體”[8],每一個(gè)主題相對(duì)應(yīng)一個(gè)“實(shí)體”,數(shù)據(jù)庫(kù)則是由無(wú)數(shù)的“實(shí)體”匯聚而成,“實(shí)體”間存在一定的關(guān)系,把“實(shí)體”聚合成主題數(shù)據(jù)庫(kù)需遵循如下原則:①極弱的聯(lián)系,必須在不同的大組中;②較弱聯(lián)系或不常使用的聯(lián)系,可以在不同的大組中;③一般聯(lián)系,是否在一個(gè)大組中沒(méi)有影響;④較強(qiáng)聯(lián)系或經(jīng)常使用的聯(lián)系,可以在同一個(gè)大組中;⑤極強(qiáng)聯(lián)系,必須在一個(gè)大組中。
現(xiàn)階段主題數(shù)據(jù)庫(kù)的研究還包括專(zhuān)題數(shù)據(jù)庫(kù),李娟等人[9]提出如何構(gòu)建“一帶一路”專(zhuān)題數(shù)據(jù)庫(kù),并且將其分為4步:①面向不同用戶開(kāi)展需求分析,制定數(shù)字資源建設(shè)規(guī)劃;②篩選數(shù)字資源內(nèi)容,涵蓋多樣化資源類(lèi)型;③多渠道開(kāi)展資源獲取,保障高質(zhì)量數(shù)據(jù)資源;④數(shù)字資源加工與整合揭示。
事實(shí)上,主題數(shù)據(jù)庫(kù)和專(zhuān)題數(shù)據(jù)庫(kù)在某一層面的確有共通之處,對(duì)專(zhuān)題數(shù)據(jù)庫(kù)的研究更是進(jìn)一步探索了主題數(shù)據(jù)庫(kù)的構(gòu)建及其構(gòu)建意義。
主題數(shù)據(jù)庫(kù)的一種集約化數(shù)據(jù)環(huán)境,能很好地解決由于信息系統(tǒng)缺乏總體規(guī)劃,分散開(kāi)發(fā),數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致數(shù)據(jù)大量冗余,信息綜合利用率低,信息共享和反饋困難等問(wèn)題。關(guān)于主題數(shù)據(jù)庫(kù)的構(gòu)建方法和評(píng)估機(jī)制,陳勇躍等人[10]同樣指出主題數(shù)據(jù)庫(kù)的設(shè)計(jì)是面向“主題”設(shè)計(jì),對(duì)“實(shí)體”進(jìn)行“主題”的劃分,形成一個(gè)“主題”的“實(shí)體”組合,后在此基礎(chǔ)上進(jìn)行概念、邏輯、物理等類(lèi)似“主題”數(shù)據(jù)庫(kù)的策劃和實(shí)行?!爸黝}”的合理區(qū)分對(duì)制定主題數(shù)據(jù)庫(kù)具有決定性作用。
主題數(shù)據(jù)庫(kù)的規(guī)劃是對(duì)需求進(jìn)行梳理,對(duì)業(yè)務(wù)進(jìn)行分析,以構(gòu)建模型。主題數(shù)據(jù)庫(kù)的建模過(guò)程(圖1)主要是采集信息、收集數(shù)據(jù)、編制標(biāo)準(zhǔn)、建立體系。其中,制定概念數(shù)據(jù)庫(kù)和邏輯數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)是主題數(shù)據(jù)庫(kù)建立時(shí)的準(zhǔn)則和依據(jù)。
圖1 主題數(shù)據(jù)庫(kù)建模過(guò)程
國(guó)際上,縱觀數(shù)據(jù)庫(kù)的發(fā)展歷程,早在20世紀(jì)50年代左右,美國(guó)國(guó)防部就將其在國(guó)內(nèi)外的兵隊(duì)部署、設(shè)備設(shè)施和戰(zhàn)略補(bǔ)給等相關(guān)數(shù)據(jù)集中起來(lái)用計(jì)算機(jī)進(jìn)行相應(yīng)處理和傳送,稱(chēng)之為“數(shù)據(jù)庫(kù)”[11],數(shù)據(jù)庫(kù)即具有多目的性文件的“集合體”。在后來(lái)的發(fā)展中,為確保相同數(shù)據(jù)統(tǒng)一管理,規(guī)范收集并處理數(shù)據(jù),從而構(gòu)建了有相應(yīng)邏輯和概念的“主題”數(shù)據(jù)庫(kù),對(duì)主題數(shù)據(jù)庫(kù)的研究更多指向不同領(lǐng)域,如醫(yī)學(xué)試驗(yàn)、信息系統(tǒng)、企業(yè)管理等。
Andre Pinho等人[12]研究科學(xué)主題數(shù)據(jù)庫(kù)以應(yīng)對(duì)臨床試驗(yàn)存在的許多挑戰(zhàn),包括對(duì)適當(dāng)研究對(duì)象的招募和登記。每年全世界花費(fèi)數(shù)十億美元用于藥物開(kāi)發(fā)和相關(guān)的臨床試驗(yàn),贊助臨床試驗(yàn)的制藥公司需要確保其數(shù)據(jù)的準(zhǔn)確性和及時(shí)性。因此探索了一個(gè)全球監(jiān)管合規(guī)數(shù)據(jù)庫(kù)的開(kāi)發(fā),該數(shù)據(jù)庫(kù)收集研究對(duì)象的歷史確切信息,以發(fā)現(xiàn)多種潛在的缺陷和違反方案,這將對(duì)加強(qiáng)臨床試驗(yàn)數(shù)據(jù)準(zhǔn)確性有不可估量的好處。臨床試驗(yàn)驗(yàn)證(Verified Clinical Trials,VCT)是世界上最大、最全面的研究性主題數(shù)據(jù)庫(kù)。通過(guò)利用VCT,發(fā)起者可以確保他們的受試者得到了驗(yàn)證,既沒(méi)有參加另一個(gè)臨床試驗(yàn),也沒(méi)有處于洗脫期,更沒(méi)有違反任何其他方案標(biāo)準(zhǔn)。
Trachtengerts Michael[13]演示了一種方法,以更好地收集科學(xué)專(zhuān)題數(shù)據(jù)中心的數(shù)據(jù)。對(duì)于大多數(shù)主題數(shù)據(jù)庫(kù)來(lái)說(shuō),收集新發(fā)表的數(shù)據(jù)是一個(gè)長(zhǎng)期且耗費(fèi)人力的過(guò)程,因此改進(jìn)數(shù)據(jù)收集方法在學(xué)科數(shù)據(jù)中心的內(nèi)部活動(dòng)中具有一定的優(yōu)先地位。他們中的許多人在相似的科學(xué)領(lǐng)域做著幾乎相同的工作,從相同的來(lái)源中選擇數(shù)據(jù),根據(jù)采用的規(guī)則設(shè)置信息、打字、精確控制等。
收集效率的提高依賴(lài)于科學(xué)技術(shù)的進(jìn)步,基于數(shù)據(jù)揭示新發(fā)現(xiàn)、新事實(shí)等。主題數(shù)據(jù)庫(kù)中相關(guān)資源的分配是一個(gè)難題,因?yàn)樗鼈兺ㄟ^(guò)多種信息來(lái)源廣泛傳播。較早的解決辦法是將各個(gè)有關(guān)中心的小組聯(lián)合在網(wǎng)絡(luò)上,為它們之間的信息交換制訂統(tǒng)一的格式。這一做法在組織活動(dòng)時(shí)造成一系列障礙,并常常使這種聯(lián)系的結(jié)果無(wú)效。
Trachtengerts Michael[13]還以某課題熱物理中心的局部BD系統(tǒng)為例,重點(diǎn)介紹了一種能夠方便地將VLIS(Very Large Information Systems)的搜索結(jié)果轉(zhuǎn)換為局部BD系統(tǒng)的方法,并揭示需要有權(quán)威可靠的數(shù)據(jù)來(lái)源以構(gòu)建主題數(shù)據(jù)庫(kù)。
M.S.Trakhtengerts[14]則在其研究成果中提及使用全球信息檢索系統(tǒng)作為生成主題數(shù)據(jù)中心集合來(lái)源的方法。
隨著大數(shù)據(jù)時(shí)代的到來(lái)和快速發(fā)展,數(shù)據(jù)庫(kù)的應(yīng)用也在向各個(gè)領(lǐng)域拓展。在當(dāng)前時(shí)代及不遠(yuǎn)的未來(lái),數(shù)據(jù)庫(kù)有著更強(qiáng)的社會(huì)性和領(lǐng)域廣泛性,能夠更好地為大眾服務(wù)??茖W(xué)大數(shù)據(jù)的發(fā)展,使得數(shù)據(jù)庫(kù)也呈現(xiàn)出多樣化的趨勢(shì),科學(xué)主題數(shù)據(jù)庫(kù)便是其中更具有深度、專(zhuān)業(yè)性和綜合性的一類(lèi)數(shù)據(jù)庫(kù)。
由于信息處于爆發(fā)式增長(zhǎng),科研機(jī)構(gòu)、政府、企業(yè)每天處理的數(shù)據(jù)量高達(dá)上百萬(wàn),而龐大的數(shù)據(jù)量呈現(xiàn)出不統(tǒng)一、不全面、不清晰等特征,如何有效處理信息,已成為當(dāng)代面臨的重大難題。因此,數(shù)據(jù)挖掘作為主題數(shù)據(jù)庫(kù)應(yīng)用中重要的技術(shù)之一,綜合了機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和數(shù)據(jù)庫(kù)技術(shù),為數(shù)據(jù)庫(kù)中數(shù)據(jù)的決策型使用提供服務(wù),在海量及復(fù)雜的數(shù)據(jù)中索取隱性且有用的信息和知識(shí)。
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和廣泛應(yīng)用,各種數(shù)據(jù)參差不齊等現(xiàn)象都對(duì)主題數(shù)據(jù)庫(kù)的應(yīng)用提出了挑戰(zhàn)。在大數(shù)據(jù)背景下,主題數(shù)據(jù)庫(kù)技術(shù)占有重要地位,并具有廣闊的發(fā)展前景。
大數(shù)據(jù)的利用已遍及到越來(lái)越多的學(xué)科和范疇中,受到廣泛關(guān)注??茖W(xué)數(shù)據(jù)作為國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展和科技創(chuàng)新的重要資源,從科研申報(bào)、科研啟動(dòng)、研究過(guò)程的實(shí)施、研究成果提煉、成果轉(zhuǎn)化應(yīng)用,到產(chǎn)生經(jīng)濟(jì)價(jià)值等過(guò)程,涉及科研基礎(chǔ)數(shù)據(jù)、科研技術(shù)數(shù)據(jù)、科研資料、環(huán)境數(shù)據(jù)、研究數(shù)據(jù)等。隨著科學(xué)數(shù)據(jù)的爆發(fā)式增長(zhǎng),匯聚全方位的科學(xué)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行深度挖掘,提煉科研數(shù)據(jù)趨勢(shì)、決策分析報(bào)告,對(duì)于促進(jìn)科學(xué)研究和產(chǎn)業(yè)發(fā)展具有重大意義。例如生態(tài)資源普查、生物多樣性保護(hù)、臨床試驗(yàn)等,都急需建立主題數(shù)據(jù)庫(kù),并投入到處理數(shù)據(jù)、資源規(guī)劃等應(yīng)用中。
研究表明,每個(gè)主題數(shù)據(jù)庫(kù)和實(shí)體集合都反映了實(shí)體之間的關(guān)系,通過(guò)實(shí)體聯(lián)系分析、實(shí)體聚合分析形成主題數(shù)據(jù)庫(kù)并對(duì)其進(jìn)行規(guī)劃。研究主題數(shù)據(jù)庫(kù)在各領(lǐng)域的應(yīng)用,并提出專(zhuān)題數(shù)據(jù)庫(kù)的構(gòu)建過(guò)程,對(duì)于大數(shù)據(jù)時(shí)代下數(shù)據(jù)的進(jìn)一步匯總和挖掘分析具有重要意義,有利于提升數(shù)據(jù)價(jià)值。同時(shí),相關(guān)研究也解決了主題數(shù)據(jù)庫(kù)中關(guān)于資源分配的難題,揭示需要有權(quán)威、可靠且大量的數(shù)據(jù)來(lái)源,才得以構(gòu)建全方位的主題數(shù)據(jù)庫(kù)。