內(nèi)存數(shù)據(jù)管理技術在族譜信息系統(tǒng)中的應用

2014-10-31 06:54:34張文杰彭智勇彭煜瑋

華東師范大學學報(自然科學版) 2014年5期

張文杰，彭智勇，彭煜瑋

（武漢大學計算機學院，武漢 430072）

0 引言

族譜又稱為家譜、宗譜，是一種記錄家族世代繁衍和重要人物事跡的圖文體裁.族譜文獻對于我們了解人文歷史有很大的幫助，并且在政治經(jīng)濟學、地理學、群體遺傳學等方面都有著潛在的研究價值［1］.傳統(tǒng)的中國式族譜通常以紙質(zhì)、布質(zhì)等形式的譜書為承載形式，各族、各家擁有自己獨立的譜書.這些譜書在存在形式上相互獨立，但是在內(nèi)容上卻有很強的相關性.傳統(tǒng)的譜書式族譜在信息交互和共享方面存在著先天不足，且實體的譜書不便于后續(xù)的修改（續(xù)修）以及保存.因此，近年來族譜數(shù)字化受到了社會的廣泛關注.

數(shù)字化族譜系統(tǒng)除了能提供給用戶錄入族譜信息、利用族譜信息的功能之外，還需要兼顧中國式族譜的特殊需求——譜書.家族在編修族譜時，通常都需要以采集好的族譜數(shù)據(jù)為基礎，通過編輯、排版形成內(nèi)容豐富、圖文并茂、樣式美觀的譜書，然后將其印刷成冊并分發(fā)給族人.目前，國內(nèi)外在數(shù)字化族譜系統(tǒng)方面已有一些研究和開發(fā)工作.著名的族譜網(wǎng)站FamilySearch［2］中，用戶可以方便地創(chuàng)建和管理個性化族譜空間，但沒有提供族譜數(shù)據(jù)紙質(zhì)化輸出功能.文獻［3－4］都實現(xiàn)了基于單機形式的族譜錄入軟件：將族譜的制作工作分割成多個任務，由多位制作人員分別完成這些任務并以文件存儲任務中的族譜數(shù)據(jù)，最后將多個數(shù)據(jù)文件合并，編輯形成最終的族譜.但是這種數(shù)據(jù)管理方式不利于信息的共享，而且多個數(shù)據(jù)文件之前存在較多的冗余以及沖突，無法自動完成數(shù)據(jù)文件合并.為了加快族譜數(shù)字化進程，結合實際的應用需求，本文設計并實現(xiàn)了一個基于B／S架構的族譜信息系統(tǒng)，該系統(tǒng)提供了族譜數(shù)據(jù)的錄入、查詢服務、紙質(zhì)化輸出等功能.結合族譜信息系統(tǒng)中的實際需求，本系統(tǒng)的數(shù)據(jù)存儲采用了分布式結構和內(nèi)存數(shù)據(jù)管理技術，大大加快了族譜信息錄入和檢索的速度.

本文內(nèi)容組織如下：第1節(jié)介紹族譜信息數(shù)據(jù)的特點；第2節(jié)介紹系統(tǒng)功能，并分析引入內(nèi)存數(shù)據(jù)管理技術的必要性；第3節(jié)將簡單介紹本系統(tǒng)中所涉及的相關內(nèi)存數(shù)據(jù)管理技術；第4節(jié)介紹內(nèi)存數(shù)據(jù)管理技術在族譜信息系統(tǒng)中的具體應用；第5節(jié)對本文工作進行總結并對未來工作進行展望.

1 族譜數(shù)據(jù)簡介

族譜數(shù)據(jù)通常由三部分構成：世系數(shù)據(jù)、文檔數(shù)據(jù)以及多媒體數(shù)據(jù).

（1）世系數(shù)據(jù)包括人物數(shù)據(jù)和人物之間的親緣關系數(shù)據(jù).其中親緣關系主要分為父子（父女）、母子（母女）、配偶、過繼（從親屬中收養(yǎng)子女）、兼祧（一位男子同時繼承多家）.世系數(shù)據(jù)是族譜數(shù)據(jù)中最重要的部分.

（2）文檔數(shù)據(jù)包括在族譜中家族大事件的文字記錄和重要的人物傳記，族譜中的文檔數(shù)據(jù)除文本之外還包含圖表等，呈現(xiàn)一種圖文并茂的形式.

（3）多媒體數(shù)據(jù)包括族譜中記錄人物或者家族大事件的圖像、音頻、視頻，這里的多媒體數(shù)據(jù)并不包括文檔數(shù)據(jù)中含有的圖表.

族譜數(shù)據(jù)中的文檔數(shù)據(jù)、多媒體數(shù)據(jù)和一般的文檔數(shù)據(jù)、多媒體數(shù)據(jù)在組織和存儲形式上并無明顯區(qū)別，而世系數(shù)據(jù)作為族譜數(shù)據(jù)中的核心數(shù)據(jù)，其特點鮮明.

如果把世系數(shù)據(jù)中每個人物作為節(jié)點，人物之間的關系作為邊，則世系數(shù)據(jù)就構成了一種類似樹的結構，下文中也把這種結構稱為世系樹，如圖1所示.

如果考慮更廣泛的親緣關系（如聯(lián)姻），很多世系數(shù)據(jù)就會聯(lián)系在一起構成類似森林的結構，這和社會網(wǎng)絡［5］數(shù)據(jù)非常相似.但是世系數(shù)據(jù)比社會網(wǎng)絡數(shù)據(jù)所表達的人物群體更加特定，人物之間的關系更加明確.

總結起來，世系數(shù)據(jù)具有以下特點：

（1）表達對象是特定的人物“群體”——家族（或者支系），人物關系是親緣關系，相比其他人際關系要更加緊密和牢固.

（2）如果把人物視作節(jié)點，把人物之間的關系視作邊，世系數(shù)據(jù)構成了一種特殊的層次結構—世系樹.

（3）如果把多個世系樹用聯(lián)姻關系聯(lián)系在一起，會構成一種特殊的圖結構，類似于森林和社會化網(wǎng)絡數(shù)據(jù).

圖1 世系樹示例圖Fig.1 The tree structure of genealogy data

2 族譜信息系統(tǒng)

傳統(tǒng)族譜信息系統(tǒng)采用的是單機管理不易于擴展功能，數(shù)據(jù)分散且有大量冗余，無法利用這些族譜數(shù)據(jù)向公眾用戶提供服務.為了更好地收集和利用族譜數(shù)據(jù)，我們設計并開發(fā)了一款基于B／S架構的族譜信息系統(tǒng).該系統(tǒng)支持多用戶并行錄入同一族譜中的數(shù)據(jù)，并統(tǒng)一對族譜數(shù)據(jù)進行管理，同時通過本系統(tǒng)還可向公眾用戶提供對已錄入族譜數(shù)據(jù)的檢索.

族譜信息系統(tǒng)的主要功能包括數(shù)據(jù)錄入、數(shù)據(jù)服務和數(shù)據(jù)輸出.

2.1 數(shù)據(jù)錄入

數(shù)據(jù)錄入功能主要包括三部分：世系數(shù)據(jù)錄入、文檔數(shù)據(jù)錄入、多媒體數(shù)據(jù)錄入.其中世系數(shù)據(jù)錄入是指錄入人物的基本數(shù)據(jù)以及錄入人物之間的聯(lián)系數(shù)據(jù).

2.2 數(shù)據(jù)服務

數(shù)據(jù)服務功能主要包括數(shù)據(jù)展示、統(tǒng)計檢索、一鍵尋祖和一鍵尋親.

（1）數(shù)據(jù)展示

數(shù)據(jù)展示功能包括族譜展示和對照預覽.族譜展示功能主要顯示一個族譜的基本信息.對照預覽則用于在正式輸出紙質(zhì)化族譜之前以各種不同的樣式來預覽輸出的效果.

（2）統(tǒng)計檢索

統(tǒng)計檢索提供了對系統(tǒng)中的族譜數(shù)據(jù)進行統(tǒng)計和檢索的功能.族譜統(tǒng)計是顯示整個族譜的統(tǒng)計信息，如總人數(shù)、男女比例、生死狀況等.簡單檢索和組合檢索是在某些族譜屬性或者人物屬性上進行檢索的功能.

（3）一鍵尋祖和一鍵尋親

一鍵尋祖可以從族譜中根據(jù)人物之間的親緣關系得到指定人物在指定范圍內(nèi)（比如限定世代數(shù)）的祖先.一鍵尋親則是指在族譜數(shù)據(jù)中找到兩個指定人物之間的親緣關系鏈（即兩人是通過哪些人關聯(lián)在一起）.

2.3 數(shù)據(jù)輸出

為了滿足用戶傳統(tǒng)紙質(zhì)譜書的需求，族譜信息系統(tǒng)中提供了數(shù)據(jù)輸出功能，主要包括族譜編排、族譜生成.

（1）族譜編排

譜志編排功能是通過用戶的個性化需求對譜書的樣式、數(shù)據(jù)出現(xiàn)的順序、名詞的表達方式等進行設置.

（2）族譜生成

族譜生成功能主要是在族譜編排過后，按照用戶的個性化需求從原始族譜數(shù)據(jù)中轉換生成電子版的譜書以供印刷.

2.4 應用內(nèi)存數(shù)據(jù)管理技術的必要性

通過對族譜信息系統(tǒng)的功能分析，族譜信息系統(tǒng)具有以下特點.

（1）數(shù)據(jù)源單一.在數(shù)據(jù)錄入過程中，對每個錄入用戶來說，只能操作自己參與錄入的族譜數(shù)據(jù).同時，數(shù)據(jù)輸出過程中，只需要去訪問要生成電子族譜的特定族譜的數(shù)據(jù).（2）數(shù)據(jù)量較大.每個族譜都存有數(shù)量和容量龐大的世系數(shù)據(jù)、文檔數(shù)據(jù)、多媒體數(shù)據(jù).（3）實時性要求高.由于本系統(tǒng)基于B／S模式設計，無論是數(shù)據(jù)錄入、數(shù)據(jù)服務還是數(shù)據(jù)輸出功能，系統(tǒng)響應時間都應該很短.

族譜信息系統(tǒng)的大數(shù)據(jù)量和高實時性的特點對系統(tǒng)實現(xiàn)提出了挑戰(zhàn).而隨著主存的成本顯著降低，許多成熟的內(nèi)存數(shù)據(jù)管理技術為族譜信息系統(tǒng)的實現(xiàn)提供了解決方案［6］.

3 內(nèi)存數(shù)據(jù)管理技術

內(nèi)存數(shù)據(jù)管理［7］的關鍵技術包括存儲結構［8］、索引結構［9］、并發(fā)控制［10］、同步策略［11］、故障恢復［12］等.本節(jié)將重點介紹系統(tǒng)中用到的索引結構和同步策略.

3.1 索引結構

內(nèi)存數(shù)據(jù)庫由于其工作的主版本保存在內(nèi)存中，所以內(nèi)存數(shù)據(jù)庫的索引選擇應結合存儲介質(zhì)的特點，從而通過索引的建立來保證內(nèi)存數(shù)據(jù)庫查詢操作的高效性.目前在內(nèi)存數(shù)據(jù)庫中經(jīng)常選用的索引結構有hash索引和T樹索引.

（1）hash索引［13］定義了一個hash函數(shù)，通過將關系表的索引項傳入到hash函數(shù)可以計算出相應的hash值，從而在索引項和hash值之間建立起對應關系，通過hash索引查找數(shù)據(jù)只需常數(shù)時間的復雜度.

（2）在內(nèi)存數(shù)據(jù)庫中目前較廣泛使用的一種樹是結合B樹［14］和AVL樹進化而來的T樹［14］.T樹的單個節(jié)點有多個數(shù)據(jù)，因此擁有良好的修改和存儲特性.由于T樹屬于AVL樹的一種演進，具有AVL樹的平衡特性，從而進一步提升了樹的搜索性能.因此T樹在時間和空間兩者間具備較好的平衡性.

hash索引在進行定值的查找時效率很高，而T樹索引一方面具有樹的二叉性而且其設計符合內(nèi)存數(shù)據(jù)庫存儲介質(zhì)的特性，所以當前主流的內(nèi)存數(shù)據(jù)庫都至少提供了這兩種索引結構.

3.2 同步策略

內(nèi)存數(shù)據(jù)管理的數(shù)據(jù)同步更新技術大致可以分為表復制技術、事務復制技術、觸發(fā)器技術和影子表技術.這里主要介紹表復制技術和事務復制技術［15］.

（1）表復制技術：采用把某一時刻源數(shù)據(jù)表的內(nèi)容通過網(wǎng)絡發(fā)送到復制的副本，因為復制的內(nèi)容是表的某一時刻的狀態(tài)，所以又被形象地稱為表快照.表快照的復制不是以事務為基礎，所以副本缺乏基本的關系完整性.基于表復制技術不需依賴特別的機制，不占用額外的系統(tǒng)資源，管理和操作也非常容易，而且在同步初始化和崩潰恢復時是必須的.但是全表更新效率很低.

（2）事務復制技術：事務復制技術是把修改源數(shù)據(jù)的事務通過網(wǎng)絡發(fā)送到復制的副本，復制可以是修改的表項事務或事務日志.復制的時間可根據(jù)應用需求而確定.副本接收到復制內(nèi)容后，要重復一遍接收到的事務操作來實現(xiàn)與數(shù)據(jù)源的一致.一般是基于數(shù)據(jù)庫日志通過分析日志的信息來獲得數(shù)據(jù)的差異，最后達到數(shù)據(jù)同步.

4 內(nèi)存數(shù)據(jù)管理技術在系統(tǒng)中的應用

在族譜信息系統(tǒng)中需要大量的遞歸查詢操作，而且系統(tǒng)對數(shù)據(jù)存取的實時性要求比較高，只依靠基于磁盤的傳統(tǒng)數(shù)據(jù)庫系統(tǒng)無法滿足族譜信息系統(tǒng)的要求.為了保證數(shù)據(jù)處理的實時性和可靠性，族譜信息系統(tǒng)中采用內(nèi)存和外部存儲設備（如磁盤）共同作為數(shù)據(jù)的存儲介質(zhì).族譜信息系統(tǒng)將實時或關鍵性數(shù)據(jù)的操作放在內(nèi)存數(shù)據(jù)庫中進行，由于內(nèi)存的數(shù)據(jù)存取速度比磁盤快，引入內(nèi)存數(shù)據(jù)管理技術會使族譜信息系統(tǒng)更高效，更迅捷.

4.1 族譜信息系統(tǒng)結構

在族譜信息系統(tǒng)的業(yè)務邏輯中，系統(tǒng)的運營商負責分配錄入任務給各個代理商，各代理商再將任務分割為多個子任務，并組織多位錄入人員進行錄入.為了增加子系統(tǒng)的可靠性和靈活性，族譜信息系統(tǒng)采用分布式結構［16］（如圖2所示）.系統(tǒng)中包括了一個中心數(shù)據(jù)節(jié)點和多個分布數(shù)據(jù)節(jié)點.中心數(shù)據(jù)節(jié)點儲存了所有的族譜數(shù)據(jù)；而每個代理商擁有一個分布數(shù)據(jù)節(jié)點，存儲了本代理商代理錄入完成的族譜數(shù)據(jù).

每個分布數(shù)據(jù)節(jié)點都是由一個磁盤數(shù)據(jù)庫和一個內(nèi)存管理單元組成.其中內(nèi)存管理單元包括內(nèi)存數(shù)據(jù)庫、用戶請求處理模塊、接收隊列、發(fā)送隊列、節(jié)點狀態(tài)管理模塊、資源管理模塊和數(shù)據(jù)同步模塊，內(nèi)存數(shù)據(jù)庫采用列存儲模型來實現(xiàn)存儲.用戶請求處理模塊主要是接收用戶請求，并根據(jù)用戶請求進入不同的處理分支.接收隊列用于接收用戶提交的新增的數(shù)據(jù)或者是修改的數(shù)據(jù).發(fā)送隊列用于發(fā)送給用戶所要求的查詢結果數(shù)據(jù).數(shù)據(jù)同步模塊用來維持分布數(shù)據(jù)節(jié)點和中心數(shù)據(jù)節(jié)點的數(shù)據(jù)同步.資源管理模塊主要是對內(nèi)存資源進行分配和回收.

4.2 數(shù)據(jù)錄入功能的內(nèi)存管理策略

在數(shù)據(jù)錄入功能中，每個錄入用戶登錄之后首先會選擇自己要錄入的族譜，系統(tǒng)自動連接該族譜隸屬的代理商的分布數(shù)據(jù)節(jié)點.

分布數(shù)據(jù)節(jié)點中的用戶請求處理模塊會識別用戶數(shù)據(jù)錄入請求，把用戶選擇的族譜數(shù)據(jù)作為熱點數(shù)據(jù)存入到內(nèi)存數(shù)據(jù)庫當中.由于數(shù)據(jù)錄入功能的主要操作是插入新元組，所以元組集合在內(nèi)存數(shù)據(jù)庫中采用堆組織以便高效地插入新元組；同時按照鍵值建立哈希索引，其中重名的會依次放在指針數(shù)組中.

圖2 族譜信息系統(tǒng)架構Fig.2 The structure of the genealogy information system

當用戶插入新元組時，新元組會加入到系統(tǒng)的接收隊列，分布數(shù)據(jù)節(jié)點會把新增元組加入到內(nèi)存中存儲；當用戶需要請求檢索數(shù)據(jù)時，對應分布數(shù)據(jù)節(jié)點會根據(jù)索引快速定位數(shù)據(jù)位置并返回給用戶；當用戶修改數(shù)據(jù)時會把修改后的數(shù)據(jù)加入到系統(tǒng)的接收隊列，分布數(shù)據(jù)節(jié)點會把接收隊列中的數(shù)據(jù)依次更新；當用戶刪除數(shù)據(jù)的時候，分布數(shù)據(jù)節(jié)點會通過索引定位到該數(shù)據(jù)并執(zhí)行刪除，同時內(nèi)存資源管理模塊進行內(nèi)存資源回收.

4.3 數(shù)據(jù)服務功能的內(nèi)存管理策略

由于在數(shù)據(jù)服務功能中主要是對世系數(shù)據(jù)的大量結構化查詢，分布數(shù)據(jù)節(jié)點采用T樹索引結構來存儲元組信息.其中每個節(jié)點的數(shù)據(jù)中都含有人物對象的詳細信息和分別指向父親、母親、過繼或兼祧父親、過繼或兼祧母親的四個指針.同時建立哈希索引（同第4.2節(jié)）.

當數(shù)據(jù)錄入導致本族譜世系數(shù)據(jù)發(fā)生改變的時候，會對內(nèi)存T樹索引和哈希索引進行更新，分為以下幾種情況.

（1）如果需要增加新的元組，系統(tǒng)會對T樹索引做插入操作并更新哈希索引；

（2）如果需要更新某個元組，系統(tǒng)會通過T樹索引找到舊元組直接進行更新如需要則同時更新哈希索引；

（3）如果需要刪除某個元組，系統(tǒng)會先通過T樹索引找到該元組然后刪除該元組，更新T樹索引和哈希索引，同時資源管理模塊進行內(nèi)存資源回收.

在數(shù)據(jù)服務功能中，當用戶請求一鍵尋祖的時候輸入要尋祖的人物譜名和祖先的世代數(shù)（可以不輸入，默認為族譜中最小的世代數(shù)），分布數(shù)據(jù)節(jié)點會首先通過哈希索引找到T樹索引中對應的人物對象元組節(jié)點.如果存在多個重名的人物對象則會返回幾個人物對象的具體信息供用戶選擇；如果該譜名只對應一個人物對象或者用戶從重名人物中選擇了一個人物對象，則分布數(shù)據(jù)節(jié)點會從世系樹中該人物對象節(jié)點開始循環(huán)地通過父親或兼祧父親指針尋找祖先節(jié)點；當該祖先的世代數(shù)等于用戶輸入的值，則停止循環(huán)并返回該祖先節(jié)點元組給用戶.

4.4 數(shù)據(jù)輸出功能的內(nèi)存管理策略

在數(shù)據(jù)輸出功能中，每個用戶需要首先選擇族譜，分布數(shù)據(jù)節(jié)點把對應的族譜數(shù)據(jù)作為熱點數(shù)據(jù)載入到內(nèi)存數(shù)據(jù)庫中，在后續(xù)的族譜編排和族譜生成中可以直接訪問分布數(shù)據(jù)節(jié)點的內(nèi)存，并建立T樹索引（同第4.2節(jié)）.

當用戶對世系數(shù)據(jù)進行分組（可以按照個人或者是世代分組）時，分布數(shù)據(jù)節(jié)點會通過T樹索引檢索對應人物更新其分組號；當用戶按照需求對世系和文檔進行分卷時，會對世系分組和文檔數(shù)據(jù)進行排序用于生成對應的電子族譜，同時分布數(shù)據(jù)節(jié)點會按照用戶的編排順序對內(nèi)存中的數(shù)據(jù)進行排序；當用戶選擇相應的模板請求族譜生成的時候，分布數(shù)據(jù)節(jié)點會根據(jù)模板的格式生成族譜并返回給用戶.

4.5 數(shù)據(jù)同步策略

在族譜信息系統(tǒng)中，每個分布數(shù)據(jù)節(jié)點的內(nèi)存數(shù)據(jù)庫保存著實時數(shù)據(jù)，但是內(nèi)存屬易失性存儲，為了提高數(shù)據(jù)的可靠性，必須和外存數(shù)據(jù)庫進行數(shù)據(jù)同步.同時中心數(shù)據(jù)節(jié)點作為所有分布數(shù)據(jù)節(jié)點族譜數(shù)據(jù)的副本也需要和分布數(shù)據(jù)節(jié)點進行數(shù)據(jù)同步.

4.5.1 分布數(shù)據(jù)節(jié)點內(nèi)外存數(shù)據(jù)同步

分布數(shù)據(jù)節(jié)點內(nèi)外存數(shù)據(jù)同步屬于單向同步，除了內(nèi)存數(shù)據(jù)初始化外，數(shù)據(jù)都是從內(nèi)存數(shù)據(jù)庫傳輸?shù)酵獯鏀?shù)據(jù)庫當中.

在族譜信息系統(tǒng)中，分布數(shù)據(jù)節(jié)點的內(nèi)外存數(shù)據(jù)同步是由常駐后臺進程MMSyn來實現(xiàn)的.分布數(shù)據(jù)節(jié)點啟動后，MMSyn進程就會自動啟動.MMSyn進程啟動時需要初始化系統(tǒng)設置的同步周期時間和進程數(shù)閥值.MMSyn進程在上次同步操作完成和下次同步操作開始之間會休眠一個同步周期.每次MMSyn進程被喚醒之后，會通過事務日志來檢測是否存在數(shù)據(jù)更新，如果有而且當前的進程數(shù)低于閥值就進行數(shù)據(jù)更新，否則MMSyn進程繼續(xù)休眠.MMSyn進程在數(shù)據(jù)更新過程前會讀取存儲的上次完成同步的事務日志序列號，從下一事務日志開始在外存里重做事務操作從而完成同步.

4.5.2 分布數(shù)據(jù)節(jié)點與中心數(shù)據(jù)節(jié)點的數(shù)據(jù)同步

分布數(shù)據(jù)節(jié)點分散存儲著各個代理商代理錄入的族譜信息，而中心數(shù)據(jù)節(jié)點作為穩(wěn)定的中心數(shù)據(jù)備份必須和分布數(shù)據(jù)節(jié)點進行數(shù)據(jù)同步.分布數(shù)據(jù)節(jié)點與中心數(shù)據(jù)節(jié)點的數(shù)據(jù)同步屬于單向同步，除了分布數(shù)據(jù)節(jié)點崩潰從中心數(shù)據(jù)節(jié)點恢復以外，數(shù)據(jù)都是從分布數(shù)據(jù)節(jié)點傳輸?shù)街行臄?shù)據(jù)節(jié)點當中.

在族譜信息系統(tǒng)中，分布數(shù)據(jù)節(jié)點與中心數(shù)據(jù)節(jié)點的數(shù)據(jù)同步是由分布數(shù)據(jù)節(jié)點常駐后臺進程DSyn和中心數(shù)據(jù)節(jié)點常駐后臺進程CSyn來實現(xiàn)的.在族譜信息系統(tǒng)啟動后，CSyn和DSyn進程會自動啟動.

和MMsyn進程相似，DSyn進程在啟動時需要初始化系統(tǒng)設置的同步周期時間和進程數(shù)閥值.每次DSyn進程被喚醒之后，會讀取存儲的上次完成同步的事務日志序列號n，如果當前最大的日志序列號m＞n（日志序列號是遞增的），則將n＜日志序列號＞m的日志發(fā)送給中心數(shù)據(jù)節(jié)點.

中心數(shù)據(jù)節(jié)點一旦啟動，就會開啟CSyn進程.當分布數(shù)據(jù)節(jié)點發(fā)送過來日志序列時，CSyn重做事務操作從而完成同步.

5 結論

本文設計并實現(xiàn)的族譜信息系統(tǒng)采用了B／S架構，能更好地支持族譜數(shù)據(jù)的分散錄入以及集中共享的現(xiàn)實需求.在族譜數(shù)據(jù)管理方面采用了分布式結構，其中包括中心數(shù)據(jù)節(jié)點和分布數(shù)據(jù)節(jié)點.中心數(shù)據(jù)節(jié)點存儲全部族譜的數(shù)據(jù)，分布數(shù)據(jù)節(jié)點存儲對應代理商錄入的族譜數(shù)據(jù)，通過同步策略實現(xiàn)中心數(shù)據(jù)節(jié)點和各個分布數(shù)據(jù)節(jié)點的數(shù)據(jù)同步，大大加強了系統(tǒng)的可靠性和靈活性.

分布數(shù)據(jù)節(jié)點引入了內(nèi)存數(shù)據(jù)管理技術，采用列存儲模型存儲結構，并根據(jù)用戶具體的請求初始化熱點數(shù)據(jù)，建立索引.用戶的操作在分布數(shù)據(jù)節(jié)點內(nèi)存中進行，加快了系統(tǒng)的響應速度.同時，系統(tǒng)利用事務日志進行分布數(shù)據(jù)節(jié)點的內(nèi)外存同步和內(nèi)存數(shù)據(jù)庫恢復，增強了系統(tǒng)的可靠性.

未來的工作還需要考慮熱點數(shù)據(jù)的優(yōu)化選擇、分布數(shù)據(jù)節(jié)點負載均衡等問題.

［1］張卓.開發(fā)利用族譜檔案的意義［J］.云南檔案，2006（3）：32－33.

［2］ FamilySearch［EB／OL］.http：／／familysearch.org.

［3］啟航宗譜［EB／OL］.http：／／www.qhzprj.com.

［4］中根網(wǎng)［EB／OL］.http：／／www.zongen.com.

［5］ GRANOVETTER M.Economic action and social structure：the problem of embeddedness［J］.American Journal of Sociology，1985，19（3）：481－510.

［6］ FREITAS R F，WILCKE W W.Storage－class memory：The next storage system technology［J］.IBM Journal of Research and Development，2008，52（4／5）：439－447.

［7］ LEHMAN T J，CAREY M J.A study of index structures for main memory database management systems［C］／／Conference on Very Large Data Bases.1986，294.

［8］ ABADI D J，MADDEN S R，HACHEM N.Column－stores vs.row－stores：how different are they really？［C］／／Proceedings of the 2008 ACM SIGMOD international conference on Management of data.ACM，2008：967－980.

［9］ GRAEFE G，IDREOS S，KUNO H，et al.Benchmarking adaptive indexing［M］／／Performance Evaluation，Measurement and Characterization of Complex Systems.Berlin：Springer，2011：169－184.

［10］ ALCANTARA D A，SHARF A，ABBASINEJAD F，et al.Real－time parallel hashing on the GPU［C］／／ACM Transactions on Graphics（TOG）.ACM，2009，28（5）：154.

［11］ DEWITT D J，KATZ R H，OLKEN F，et al.Implementation techniques for main memory database systems［M］.ACM，1984.

［12］ OUSTERHOUT J，AGRAWAL P，ERICKSON D，et al.The case for RAMClouds：scalable high－performance storage entirely in DRAM［J］.ACM SIGOPS Operating Systems Review，2010，43（4）：92－105.

［13］ LEHMAN T J，CAREY M J.A study of index structures for main memory database management systems［C］／／Conference on Very Large Data Bases.1986，294.

［14］ LU H J，Yuet Yeung Ng，Tian Z P.T－tree or b－tree：Main memory database index structure revisited［C］／／Database Conference，2000.ADC2000.Proceedings.11th Australasian.IEEE，2000：65－73.

［15］ LEE S W，MOON B.Design of flash－based DBMS：an in－page logging approach［C］／／Proceedings of the 2007 ACM SIGMOD international conference on Management of data.ACM，2007：55－66.

［16］ KALLMAN R，KIMURA H，NATKINS J，et al.H－store：a high－performance，distributed main memory transaction processing system［J］.Proceedings of the VLDB Endowment，2008，1（2）：1496－1499.