孫海英 陳秀峰
(佳木斯大學(xué)圖書館 佳木斯 154007)
黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫研究
孫海英 陳秀峰
(佳木斯大學(xué)圖書館 佳木斯 154007)
數(shù)據(jù)庫管理系統(tǒng)是21世紀誕生的典型信息化管理系統(tǒng),通過數(shù)據(jù)庫管理系統(tǒng)能從根本上提高管理效率,并方便用戶使用。本文就黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)展開研究,結(jié)合當(dāng)前現(xiàn)狀找出需要改進之處,并提出改進設(shè)想,提高該搜索引擎管理效率。
黑龍江省墾區(qū) 知青人立方 數(shù)據(jù)庫
黑龍江省農(nóng)墾總局的所在地,在20世紀六七十年代的全國性知識青年上山下鄉(xiāng)的大運動中,成為當(dāng)時無數(shù)青年人的人生轉(zhuǎn)折點,知青文化的重要發(fā)源地之一。建立一個人際關(guān)系型數(shù)據(jù)庫,是搶救和發(fā)掘知青文化的重要保證和基本手段。
1.建設(shè)有自身特色的數(shù)據(jù)庫系統(tǒng)。提高黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)管理效益必須對該數(shù)據(jù)庫進行地方特色建設(shè)。所謂地方特色首先需要結(jié)合當(dāng)?shù)厝宋臍庀ⅲU现鄬ふ胰藛T日常使用習(xí)慣。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)建設(shè)需要根據(jù)當(dāng)?shù)厝宋幕?xí)性設(shè)置與之相應(yīng)的使用方法。其次該系統(tǒng)需要結(jié)合當(dāng)前我國人們交友方式及家族聯(lián)系方式。當(dāng)前我國人立方系統(tǒng)在進行人員尋找時信息系統(tǒng)構(gòu)建方式仍舊不夠完善,很多信息并非有用,沒有結(jié)合尋找人員當(dāng)?shù)靥厣?,尋找人員關(guān)系較為繁雜。
2.拓寬服務(wù)空間。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)服務(wù)于社會,因此不可像高校數(shù)據(jù)庫一樣僅僅服務(wù)于學(xué)生,而是要建立服務(wù)于社會的綜合性數(shù)據(jù)庫系統(tǒng)。由于該系統(tǒng)需要服務(wù)于社會,因此必須提高其服務(wù)層次。建立黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)時需要采用新的信息服務(wù)模式,建立人性化服務(wù)功能點,便于社會民眾在查找知青人員關(guān)系時簡便操作,以此吸引更多民眾,有效拓展人立方數(shù)據(jù)庫服務(wù)空間。與此同時還便于數(shù)據(jù)庫管理人員及時收集相關(guān)信息,了解用戶需求,不斷改進以便提高服務(wù)水平。通過黑龍江省墾區(qū)知青人立方特色數(shù)據(jù)庫系統(tǒng)能夠?qū)I(yè)數(shù)據(jù)進行有效加工,用戶可以在該系統(tǒng)中自由檢索,通過不斷增加檢索點能夠有效提高檢索效率,提高用戶體驗,查找資料時間被進一步縮短。
3.實現(xiàn)黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)與其他數(shù)據(jù)庫系統(tǒng)資源共享。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)屬于地方數(shù)據(jù)庫系統(tǒng),其擁有知青信息有限,僅通過該數(shù)據(jù)庫難以查到與要尋找知青對象相關(guān)信息,因此必須將各個地區(qū)人立方數(shù)據(jù)庫系統(tǒng)連接起來,建立人立方共享體系。人立方關(guān)系網(wǎng)是其賴以生存的根本,通過數(shù)據(jù)庫共享系統(tǒng)能夠?qū)⑺腥肆⒎綌?shù)據(jù)庫連接起來,使得訊息傳遞網(wǎng)絡(luò)化,便于實現(xiàn)數(shù)據(jù)傳遞,讓用戶在不同地區(qū)可查閱到自己想要的人員信息,以此建立完善且兼具特色的數(shù)據(jù)庫管理系統(tǒng),用戶不需要踏遍所有地區(qū)尋找自己需要的人員信息,僅在一個地區(qū)便可查詢。實現(xiàn)黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)與其他數(shù)據(jù)庫的信息共享,有助于其長期發(fā)展,不斷壯大。
1.數(shù)據(jù)訪問控制。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)雖然是個開放式系統(tǒng),供社會民眾通過該系統(tǒng)瀏覽及查詢相關(guān)信息,但是黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)在系統(tǒng)開放同時需要保護數(shù)據(jù)庫系統(tǒng)安全性。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)僅可由內(nèi)部管理人員對數(shù)據(jù)進行管理,不可由外人入侵內(nèi)部系統(tǒng),外人僅可瀏覽開放信息,不可更改?;诖?,必須保證黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)具備一定開放性外,還需做好防入侵系統(tǒng),即防止外部非法人員入侵黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng),防止其修改數(shù)據(jù)。要做到數(shù)據(jù)庫系統(tǒng)不被侵犯首先要做好存取控制。數(shù)據(jù)存取控制可分為三個層次,第一為決定用戶是否具備訪問權(quán)限,第二為決定用戶可以訪問那些資源,第三為決定用戶是否具備更改資源的權(quán)限。要實現(xiàn)該種功能需要建立科學(xué)操作系統(tǒng)。根據(jù)需求將系統(tǒng)設(shè)置為九個用戶組,用戶可根據(jù)不同需求注冊與之相應(yīng)的用戶組,并在其中注冊自己的用戶名和密碼。此后用戶即是數(shù)據(jù)庫系統(tǒng)用戶,每位用戶都對應(yīng)了一個系統(tǒng)單元。在進行權(quán)限限制時,從虛擬和實體兩個方面保證系統(tǒng)安全。用戶在訪問相關(guān)數(shù)據(jù)時該操作均需通過中央處理系統(tǒng),判斷其身份可靠后方可訪問信息。
2.黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)工作流程分析。
(1)信息收集方式。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)工作原理是首先將知青人信息收集并輸入數(shù)據(jù)庫,該部分在人立方中被稱作信息采集器。信息采集器是一個計算機集中程序,它日夜不停地運行,進行信息收集,并在引入新信息時過濾掉無用舊信息,因此人立方上雖然信息眾多,但其中并未有常見無效鏈接。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)采集信息有兩種方式,一種是從一個URL開始根據(jù)一定規(guī)律不停衍生,尋找與之相關(guān)聯(lián)的信息。另一種是將WEB按照域名、IP地址等進行劃分。信息采集器收集信息有多種格式,并處于不斷更新狀態(tài)。
(2)信息搜索方式。與其他搜索類似,黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)亦是采用索引進行信息抓取。數(shù)據(jù)庫中自帶索引器,索引器從采集到的信息中識別關(guān)鍵詞生成索引表。索引項又可分為客觀索引和內(nèi)容索引。顧名思義,客觀索引與內(nèi)容關(guān)系不大,主要為作者名、編碼、時間、鏈接等。內(nèi)容索引與內(nèi)容息息相關(guān),主要為關(guān)鍵詞、重要短語、句子等。索引器生成索引算法主要有集中式和分布式兩種,信息量較大時必須使用索引,否則將無法跟上信息增加速度,導(dǎo)致很多內(nèi)容無法被發(fā)現(xiàn)。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)主要使用“人名”、“出生年”、“原居住地”、“原學(xué)?!?、“下鄉(xiāng)(農(nóng)場)年份”、“目標(biāo)鄉(xiāng)村(農(nóng)場)”、“保送或考入的上一級學(xué)校”、“返城時間”、“曾工作單位和職務(wù)”、“現(xiàn)居住地”十個標(biāo)引項為字段。在“人名”下設(shè)“現(xiàn)用名”、“曾用名”為子字段,在“曾工作城市”下設(shè)“曾工作城市1”、“曾工作城市2”、“曾工作城市3”為子字段,在“曾工作單位和職務(wù)”下設(shè)“曾工作單位和職務(wù)1”、“曾工作單位和職務(wù)2”、“曾工作單位和職務(wù)3”為子字段,將各字段通過“加權(quán)法”以提高人立方關(guān)系的可靠性。另外,改進該關(guān)系型數(shù)據(jù)庫的檢索方式,以加權(quán)檢索代替邏輯檢索,賦予檢索者自由修改權(quán)值與權(quán)重的功能,在檢索過程中根據(jù)需要設(shè)置以權(quán)重值為核心的逐層關(guān)系分散型網(wǎng)絡(luò),以確定人物之間的關(guān)系。
(3)查詢及結(jié)果。黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)擁有查詢搜索器和結(jié)果排序器。查詢搜索器主要是根據(jù)索引快速牽引出相關(guān)內(nèi)容,用戶設(shè)置搜索條件,并對彈出的信息進行過濾,從而得出有效信息。結(jié)果排序器是對得出的有效信息進行顯示排序,排序方式主要是根據(jù)被搜索頻率以及反轉(zhuǎn)文檔頻率進行區(qū)分。
黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)工作流程見圖1。
圖1 黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫系統(tǒng)工作流程
以上闡述黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫工作方式。眾所周知,在20世紀六七十年代的全國性知識青年上山下鄉(xiāng)的大運動中,黑龍江省墾區(qū)成為當(dāng)時無數(shù)青年人的人生轉(zhuǎn)折點,知青文化的重要發(fā)源地之一。近半個世紀過去,作為知青文化的重要載體,當(dāng)年的知青多已年過花甲,有的已經(jīng)離開人世,因此僅僅能夠?qū)ζ溥M行數(shù)據(jù)收集遠遠不夠。為提高搜尋效率必須提高信息抽取準確性。評價信息抽取準確性,主要有召回率和準確率兩個指標(biāo)。召回率為測量被正確抽取信息比例,準確率表示抽取信息準確信息比例。有如下公式:
召回率(R)=抽出正確信息數(shù)量/所有正確信息數(shù)量
準確率(P)=抽出正確信息數(shù)量/所有抽出信息數(shù)量
從定義可知R和P數(shù)值均處于0-1之間,且二者呈反比。數(shù)據(jù)被抽取時需綜合考慮R和P,由此誕生綜合指標(biāo)度量值F,計算公式為:
其中B為精度偏重量,為預(yù)設(shè)值,一般設(shè)置為1。
黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫對知青信息檢索主要通過人物社會關(guān)系展開,下表列舉較為簡單關(guān)系網(wǎng)絡(luò),以展示黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫信息間聯(lián)系。
表1 關(guān)系示例
隨著科技不斷發(fā)展,當(dāng)前各項管理已經(jīng)從傳統(tǒng)純?nèi)斯まD(zhuǎn)變?yōu)樾畔⒒芾?。?shù)據(jù)庫也是如此。本文就黑龍江省墾區(qū)知青人立方數(shù)據(jù)庫展開研究,為尋找知青信息展開研究,為后續(xù)相關(guān)工作奠定基礎(chǔ)。
[1]王山甲.“人立方”關(guān)系搜索引擎[J].網(wǎng)絡(luò)新知,2014(5).
[2]iFei.肉搜索之微軟人立方[J].網(wǎng)行天下,2012(4).
佳木斯大學(xué)人文社會科學(xué)研究面上項目(13Sh201543)。
孫海英,佳木斯大學(xué)圖書館副研究館員,研究方向為圖書情報。
G25
A
2016-12-26