紀(jì)風(fēng)穎, 于 婷,2, 董明媚,3, 梁建鋒(.國家海洋信息中心,天津 3007;2. 中國海洋大學(xué),山東 青島 26600; 3.天津大學(xué),天津3007)
?
技術(shù)報告
WOD與Argo數(shù)據(jù)集的排重方法與軟件實現(xiàn)?
紀(jì)風(fēng)穎1, 于 婷1,2, 董明媚1,3, 梁建鋒1
(1.國家海洋信息中心,天津 300171;2. 中國海洋大學(xué),山東 青島 266100; 3.天津大學(xué),天津300171)
海水的溫度和鹽度是描述海水性質(zhì)的重要物理量,其時空分布和變化幾乎與海洋中所有現(xiàn)象都有密切的聯(lián)系。因此世界各國都非常重視對海水溫度和鹽度的觀測。自1772年第一個海水溫度觀測數(shù)據(jù)記錄在案,截至目前全球已經(jīng)積累了2 000多萬站次的溫鹽數(shù)據(jù)。由于目前海洋調(diào)查中儀器自動觀測、衛(wèi)星傳輸數(shù)據(jù)的特點,導(dǎo)致同一個觀測數(shù)據(jù)會被重復(fù)定位和傳送接收多次,而國際上不同的數(shù)據(jù)收集計劃,導(dǎo)致同一個數(shù)據(jù)也被不同的數(shù)據(jù)集所收集。這些被重復(fù)收集的數(shù)據(jù),可能會造成錯誤的海洋特性的研究與分析結(jié)果。針對多來源重復(fù)收集的國際海洋數(shù)據(jù)問題,首先根據(jù)觀測儀器精度、觀測頻率,研究設(shè)定了不同儀器重復(fù)數(shù)據(jù)判斷參數(shù)?;诤A刻幚砉δ芎腿斯そ换ナ讲僮鞯男枨螅赪indows平臺,在Win32體系架構(gòu)下,選用VisualC++ 6.0作為項目開發(fā)工具,圖形顯示部分則直接調(diào)用圖形顯示功能比較強大MATLAB的圖形函數(shù)庫完成,使用窗口嵌入技術(shù)將MATLAB圖形庫生成的圖形完美融合到VC開發(fā)的界面中,實現(xiàn)了海量溫鹽數(shù)據(jù)的準(zhǔn)確排重。對目前應(yīng)用最為廣泛的海洋數(shù)據(jù)集(WorldOceanDatabase,WOD)數(shù)據(jù)集、Argo浮標(biāo)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間的排重,為溫鹽數(shù)據(jù)集的整合奠定了基礎(chǔ)。
Argo;WOD; 排重; 排序
海水的溫度和鹽度是描述海水性質(zhì)的重要物理量,其時空分布和變化幾乎與海洋中所有現(xiàn)象都有密切的聯(lián)系?,F(xiàn)有的數(shù)值同化模型、海平面高度變化和業(yè)務(wù)化海氣耦合模式都迫切需要海洋溫度和鹽度數(shù)據(jù),從而改進(jìn)模式的初始場和邊界約束條件。由于對于全球海洋溫鹽數(shù)據(jù)的需求,海洋觀測儀器不斷更新?lián)Q代,從最早的顛倒溫度計、機(jī)械式溫深計(Mechanical Bathythermograph,MBT)、溫鹽深自計儀(Conductivity-Temperature-Depth,CTD),到今天的自持式拉格朗日環(huán)流剖面觀測(Argo)浮標(biāo)、水下滑翔機(jī)(Glider)等,獲取數(shù)據(jù)方式也從人工讀數(shù)發(fā)展到今天的衛(wèi)星定位和自動傳輸。由于任何一個國家都不可能單獨完成全球海洋數(shù)據(jù)的觀測工作,為此,眾多全球/區(qū)域海洋觀測、資料收集計劃應(yīng)運而生,如世界海洋環(huán)流實驗(WOCE)、全球溫鹽剖面計劃(GTSPP)、全球Argo浮標(biāo)陣列觀測計劃等等,這些觀測計劃為海洋研究和管理提供了大量的溫鹽數(shù)據(jù)。但是新的觀測儀器和數(shù)據(jù)收集機(jī)制也帶來了重復(fù)數(shù)據(jù)的問題。
對于Argo、Glider和浮標(biāo)等自動觀測并由衛(wèi)星進(jìn)行定位和傳輸觀測數(shù)據(jù)的海洋調(diào)查儀器,雖然精度高,時效性強,但是同一個觀測站的數(shù)據(jù)需要向衛(wèi)星重復(fù)傳送多次,以保證數(shù)據(jù)接收完整。在向衛(wèi)星傳輸數(shù)據(jù)的過程中觀測儀器本身仍在運動,衛(wèi)星繼續(xù)定位,加之部分衛(wèi)星系統(tǒng)定位誤差可以達(dá)到數(shù)百米,這樣同一個觀測站數(shù)據(jù)所對應(yīng)的定位時間和定位位置存在很大差異。多次傳輸過程也存在數(shù)據(jù)接收不完整,不完整數(shù)據(jù)和完整數(shù)據(jù)以不同觀測站數(shù)據(jù)發(fā)布,從而造成了重復(fù)數(shù)據(jù)。
對于全球溫鹽數(shù)據(jù)的收集與發(fā)布,以美國國家海洋大氣局/國家海洋數(shù)據(jù)中心(NOAA/NODC)的海洋氣候?qū)嶒炇?OCL)制作的世界海洋數(shù)據(jù)集WOD[1]最為著名,其數(shù)據(jù)時間序列長,其海水溫度數(shù)據(jù)可以上溯至1772年,鹽度數(shù)據(jù)的最早觀測時間為1803年;覆蓋范圍廣,數(shù)據(jù)來源眾多,包括Argo計劃、GTSPP和WOCE等300多個全球或區(qū)域海洋觀測/數(shù)據(jù)收集計劃。更新頻率也較快,每隔3~4個月,美國NODC網(wǎng)站都會發(fā)布WOD收集到的最新數(shù)據(jù),截至2013年6月該WOD數(shù)據(jù)集已經(jīng)發(fā)布了2 000多萬站次的溫鹽數(shù)據(jù)。
另外,法國和美國2個全球Argo數(shù)據(jù)中心也實時(逐日更新)發(fā)布自1998年全球Argo觀測計劃的開始實施后獲取的100多萬個高精度的溫鹽剖面數(shù)據(jù)。由上可見,眾多的觀測項目由不同的國際機(jī)構(gòu)發(fā)起,數(shù)據(jù)收集渠道不同,導(dǎo)致同一個數(shù)據(jù)會被不同的數(shù)據(jù)集所收集,而全球資料中心沒有實施嚴(yán)格的排除重復(fù)數(shù)據(jù)工作[2-4](以下簡稱排重)。
在數(shù)據(jù)集的綜合利用中,如果簡單的合并使用,這些重復(fù)接收和重復(fù)收集造成的重復(fù)數(shù)據(jù),勢必會影響海洋氣候和變化趨勢的研究與分析結(jié)果。排除數(shù)據(jù)集中的重復(fù)數(shù)據(jù)成為數(shù)據(jù)處理工作中的一個重要組成部分。美國海洋數(shù)據(jù)中心也指出了排重工作的重要性,并提出了重復(fù)數(shù)據(jù)和“準(zhǔn)重復(fù)數(shù)據(jù)(near-duplicate data)”的定義,但并沒有介紹WOD數(shù)據(jù)集排重工作進(jìn)展和結(jié)果,發(fā)布的數(shù)據(jù)中也沒有相應(yīng)的標(biāo)識。全球Argo數(shù)據(jù)中心同樣沒有相應(yīng)的排重工作報告。
為了保障海洋數(shù)據(jù)分析與相關(guān)研究的嚴(yán)謹(jǐn)性和正確性,本文根據(jù)儀器觀測周期、精度和傳輸頻率確定了判斷重復(fù)數(shù)據(jù)的關(guān)鍵信息項以及對應(yīng)的臨界值,制定了排重處理流程,開發(fā)出相應(yīng)的軟件,對WOD和Argo數(shù)據(jù)集進(jìn)行了數(shù)據(jù)集內(nèi)和數(shù)據(jù)集之間的精細(xì)化排重。排重結(jié)果表明這2個數(shù)據(jù)集本身存在不同程度的重復(fù)數(shù)據(jù),而2個數(shù)據(jù)集也不是簡單的包含關(guān)系,而是交叉重復(fù)。
排重工作的關(guān)鍵是重復(fù)數(shù)據(jù)的判斷。重復(fù)數(shù)據(jù)從字面上可以簡單地定義為完全相同的數(shù)據(jù)。這個概念容易理解但不容易實現(xiàn)。目前所有的溫鹽數(shù)據(jù)基本采用計算機(jī)進(jìn)行采集存儲,而計算機(jī)只能用固定的存儲位寬來存儲數(shù)據(jù),因此計算機(jī)存儲的浮點類型數(shù)據(jù)能夠表示的實際數(shù)值不僅有限,而且離散。即使完全相同的數(shù)據(jù)在不同的計算機(jī)操作系統(tǒng)下存儲也有所差異。而對于觀測數(shù)據(jù)的背景信息項,如調(diào)查儀器、航次號、調(diào)查船等需要用字符串表示的信息,若編碼規(guī)則、寫法順序不同,結(jié)果數(shù)據(jù)都不可能完全一樣。因此對于WOD這種來源眾多的數(shù)據(jù)集,采用完全相同來判斷重復(fù)數(shù)據(jù)具有很大的局限性,其結(jié)果與實際情況相差很遠(yuǎn)。
而對于Argo、Glider和浮標(biāo)等自動觀測并由衛(wèi)星進(jìn)行定位和傳輸獲取的觀測數(shù)據(jù),單純采用完全相同方法也無法解決多次傳輸,多次定位造成的重復(fù)數(shù)據(jù)問題。
針對以上2種情況,必須根據(jù)儀器觀測和傳輸數(shù)據(jù)的屬性,精確判斷重復(fù)數(shù)據(jù)。而這個處理過程中需要首先確定表征數(shù)據(jù)的信息項,這些信息項不能太多,太多容易丟失重復(fù)數(shù)據(jù);也不能太少,這樣會造成誤判。通過以上對造成重復(fù)數(shù)據(jù)的原因的分析,確定表征數(shù)據(jù)的關(guān)鍵信息項(Key item)為觀測儀器、觀測時間、觀測經(jīng)緯度、觀測數(shù)據(jù),輔助說明信息項為國家、調(diào)查機(jī)構(gòu)、調(diào)查項目,其余信息在目前的排重工作中忽略不計。
根據(jù)已確定的判斷重復(fù)數(shù)據(jù)的關(guān)鍵信息項,本文對重復(fù)數(shù)據(jù)的定義為:關(guān)鍵信息項都相同的數(shù)據(jù)。在計算機(jī)判定中即為關(guān)鍵信息項的差異不大于設(shè)定的重復(fù)數(shù)據(jù)臨界值。
目前WOD數(shù)據(jù)集中包含11種海洋觀測儀器獲取的溫鹽數(shù)據(jù),具體為:大面測站、CTD、MBT、拋棄式溫深儀(Expendable Bathythermograph,XBT)、海表面記錄儀、自治式生物攜帶溫鹽計、錨系浮標(biāo)、Argo浮標(biāo)、漂流浮標(biāo)、走航CTD以及Glider等。這些儀器觀測方式和精度各不相同,WOD也按照儀器將數(shù)據(jù)存放于不同文件中進(jìn)行發(fā)布。因此目前只對同種儀器獲取的數(shù)據(jù)進(jìn)行排重工作。
除了觀測儀器,關(guān)鍵信息項又可以分為2部分:測站的位置和時間,以及水下1~5000個層次上對應(yīng)的層深、溫度和鹽度數(shù)據(jù)。測站時間和位置比較即為測站之間時間間隔與空間距離的比較,因此在重復(fù)數(shù)據(jù)判斷中需設(shè)定測站的時間間隔和空間距離臨界值。針對目前儀器的海洋觀測方式、傳輸方式、儀器的精度,以及數(shù)據(jù)集的制作方式,確定如下完全重復(fù)數(shù)據(jù)臨界值[5-10],并根據(jù)數(shù)據(jù)的時空分布情況和排重結(jié)果對其進(jìn)行了后期調(diào)整。
(1)觀測儀器完全相同。
(2)目前基本所有觀測儀器采用全球定位系統(tǒng)(Global Position System,GPS)進(jìn)行定位,因此距離臨界值都設(shè)定為10m;
(3)采用如下規(guī)則來確定測站時間間隔的臨界值:
(a)對于人工下放觀測的大面測站、CTD、MBT和XBT,其時間間隔臨界值為完成一個測站觀測所需的最少時間;
(b)對于自動觀測的Argo浮標(biāo)、漂流浮標(biāo)、Glider、和走航CTD,則時間間隔臨界值為完成一次觀測所需時間的最小值,以Glider為例,其完成一次觀測基本為3~9h,因此對于Glider,重復(fù)數(shù)據(jù)的時間臨界值為3h;
(c)對于生物攜帶溫鹽傳感器,根據(jù)生物下潛和上浮時間一般情況,目前主觀定為時間臨界值為1min;(d)海表面記錄儀來源于志愿船走航觀測,根據(jù)常規(guī)觀測頻率并瀏覽相應(yīng)的觀測數(shù)據(jù),時間間隔臨界值為10s;
(e)由于WOD中錨系浮標(biāo)數(shù)據(jù)為日平均數(shù)據(jù),因此其時間間隔臨界值為24h;
(4)考慮到目前水深測量的精度,確定層深數(shù)據(jù)重復(fù)的臨界值為不大于1m;
(5)對于同一測站數(shù)據(jù)接收不完整的情況,做如下處理:假定A、B兩個測站的水下數(shù)據(jù),并且A的層深個數(shù)≥B的層深個數(shù)情況,首先按照規(guī)則(3)找到A、B中相同層深數(shù)據(jù)組成新的測站C、D,若D的層深個數(shù)小于B總層次數(shù)的95%,則不進(jìn)行進(jìn)一步比較,否則對同層溫鹽數(shù)據(jù)進(jìn)行逐一比較;
(6)對于觀測主體為CTD的下放式CTD、拋棄式CTD(XCTD)、走航CTD(UCTD)、漂流浮標(biāo)(在WOD中漂流浮標(biāo)為漂流的溫度鏈或CTD鏈)、Argo、Glider、生物攜帶CTD,觀測數(shù)據(jù)的重復(fù)標(biāo)準(zhǔn)為同層觀測數(shù)據(jù)溫度差異不大于0.01℃,鹽度差異不大于0.01。對于觀測主體為BT的MBT、XBT和海面浮子,重復(fù)數(shù)據(jù)的標(biāo)準(zhǔn)為同層溫度差異不大于0.1℃。具體判定重復(fù)數(shù)據(jù)的臨界值見表1。
對于準(zhǔn)重復(fù)數(shù)據(jù),參考WOD09的說明文檔,從2個方面定義準(zhǔn)重復(fù)數(shù)據(jù):觀測經(jīng)緯度和時間相同,觀測數(shù)據(jù)不同;觀測數(shù)據(jù)相同而時間和位置不同。鑒于目前計算機(jī)的計算和存儲能力,在軟件設(shè)計與實現(xiàn)中,對于準(zhǔn)重復(fù)數(shù)據(jù)只限定為測站位置和時間小于重復(fù)數(shù)據(jù)臨界值,觀測數(shù)據(jù)不同的一種情況進(jìn)行了處理。
表1 WOD中不同儀器判別重復(fù)數(shù)據(jù)的臨界值Table1 Duplicate threshold values of different instruments in WOD
注:1深度數(shù)據(jù)相差小于1 m時視為同層。Depth differnece is less than 1 m.2PSS-78鹽標(biāo)。Practical Salinity Scale 1978.
對于2 000萬站次、所需存儲空間高達(dá)42GB的WOD數(shù)據(jù)集,每一個測站數(shù)據(jù)關(guān)鍵信息項都包含了觀測時間、觀測位置、觀測數(shù)據(jù)(一般大于10層),2 000萬站次數(shù)據(jù)的比較,實際工作量是2億多個數(shù)據(jù)的比較,即n≥2億。普通計算機(jī)的內(nèi)存無法滿足如此大數(shù)據(jù)的比較計算。只能采用文件存儲,比較計算中需要不停地進(jìn)行文件讀取,會造成巨大的時間浪費。
根據(jù)文獻(xiàn)[4],對于大數(shù)據(jù)集比較計算的情況,首先進(jìn)行排序,然后進(jìn)行比較。對于大數(shù)據(jù)量的WOD,排序方法選取堆排序,其花費時間為O(nlogn),對排序后的數(shù)據(jù)再進(jìn)行比較,花費時間為n。這樣整體數(shù)據(jù)的比較時間由原來的O(n2)降為O(nlogn)。
實際計算中,對于同一數(shù)據(jù)集,首先按照觀測儀器將數(shù)據(jù)分門別類存放。對相同觀測儀器的數(shù)據(jù),首先按照觀測時間和經(jīng)緯度進(jìn)行堆排序,從而挑選出時間間隔和空間距離小于重復(fù)臨界值的站點,再對對應(yīng)的溫鹽數(shù)據(jù)進(jìn)行兩兩比較。對于溫鹽數(shù)據(jù)完全相同的數(shù)據(jù),保留附加信息多的站點。
對于數(shù)據(jù)集之間的排重,設(shè)定資料原始收集者制作數(shù)據(jù)集的級別為1級,而第二手或第三手的收集者,相應(yīng)的為2級和3級。對于WOD和Argo數(shù)據(jù)集的比較,則Argo數(shù)據(jù)的級別為1級,WOD中Argo數(shù)據(jù)為2級。在數(shù)據(jù)集比較后,對于完全重復(fù)數(shù)據(jù),優(yōu)先保留直接從原始收集者那里得到的數(shù)據(jù)。對于準(zhǔn)重復(fù)數(shù)據(jù),仍采用保留附加信息多、數(shù)據(jù)體更完整的數(shù)據(jù)原則。具體流程見圖1。
圖1 排重的流程Fig.1 Flow chart of eliminating duplicate data
根據(jù)排重的流程,排重軟件不僅需要滿足日常工作需要,并且需保證能夠在穩(wěn)定運行的基礎(chǔ)上,對海量的溫鹽數(shù)據(jù)進(jìn)行及時有效地排重。同時軟件系統(tǒng)架構(gòu)上需靈活化和自動化,系統(tǒng)的各部分功能既能夠作為整體中的部分使用也能單獨提供使用。軟件必須具有以下功能:
(1)大數(shù)據(jù)量處理功能。由于海洋溫鹽數(shù)據(jù)量龐大,單次排重的數(shù)據(jù)量可能會到達(dá)數(shù)千萬站次,排重程序應(yīng)滿足對數(shù)千萬站次數(shù)據(jù)的處理能力。
(2)數(shù)據(jù)讀取功能。根據(jù)用戶選擇方式的不同,靈活的讀取數(shù)據(jù)集文件,包括:讀取單個文件;讀取同一文件夾多個文件;讀取不同文件夾下的多個文件。
(3)數(shù)據(jù)集內(nèi)部排重與數(shù)據(jù)集之間排重方式的設(shè)置與實現(xiàn)。
(4)設(shè)置重復(fù)數(shù)據(jù)參數(shù)。對于不同儀器,重復(fù)數(shù)據(jù)的參數(shù)各不相同,因此軟件必須具有靈活設(shè)置重復(fù)數(shù)據(jù)參數(shù)的功能,見圖2。(5)自動排重功能。根據(jù)用戶所選文件,設(shè)置的排重方法和參數(shù),對多個文件進(jìn)行自動的排重,剔除完全重復(fù)數(shù)據(jù)。
(6)人工審核功能。在程序自動排重的基礎(chǔ)上,對軟件判定的準(zhǔn)重復(fù)數(shù)據(jù)提供交互式可視化界面,通過人工審核確定重復(fù)數(shù)據(jù)。人工審核主要具有如下功能:顯示數(shù)據(jù)的輔助信息項、在重復(fù)站位信息列表分組顯示準(zhǔn)重復(fù)數(shù)據(jù)站位信息、用不同顏色顯示不同重復(fù)數(shù)據(jù);表格顯示剖面數(shù)據(jù),并與站位信息一一對應(yīng);人工標(biāo)識判定重復(fù)數(shù)據(jù)。
(7)整合排重結(jié)果導(dǎo)出功能。根據(jù)用戶排重過程中重復(fù)數(shù)據(jù)標(biāo)識,剔除重復(fù)數(shù)據(jù),按照統(tǒng)一的溫鹽數(shù)據(jù)格式輸出為標(biāo)準(zhǔn)數(shù)據(jù)格式文件,對剔除的站位數(shù)據(jù)輸出到對應(yīng)目錄。
(8)批量排重處理功能。在對排重方法和排重參數(shù)研究和確認(rèn)的基礎(chǔ)上,按照用戶設(shè)置的參數(shù)對批量文件支持排重處理功能。
基于海量溫鹽數(shù)據(jù)處理功能和人工交互式操作的需求,該排重軟件運行環(huán)境為Windows系列平臺,主界面以及數(shù)據(jù)的處理、質(zhì)量控制部分使用VC6.0開發(fā),圖形顯示部分則直接調(diào)用圖形顯示功能比較強大MATLAB的圖形函數(shù)庫完成,使用窗口嵌入技術(shù)將MATLAB圖形庫生成的圖形完美融合到VC開發(fā)的界面中。所以本軟件在圖形顯示方面具有較強的靈活性以及較好的顯示效果,用VC開發(fā)數(shù)據(jù)處理部分也保證了該軟件的運行效率。
圖2 設(shè)置重復(fù)數(shù)據(jù)臨界值界面Fig.2 The interface for setting duplicate threshold values
圖3 準(zhǔn)重復(fù)數(shù)據(jù)的人工審核界面Fig.3 The interface for visual check of near-duplicate data
(1)數(shù)據(jù)集內(nèi)排重。采用該軟件對WOD和Argo數(shù)據(jù)進(jìn)行排重,由于美國海洋數(shù)據(jù)中心每3~4a制作發(fā)布WOD數(shù)據(jù)集光盤,并在線更新WOD更新數(shù)據(jù)集,因此對最新版WOD09數(shù)據(jù)進(jìn)行排重,并對光盤發(fā)布之后的數(shù)據(jù)集進(jìn)行排重。
表2 WOD數(shù)據(jù)的重復(fù)率Table 2 Duplicate ratio of WOD
注: 1. 分子為重復(fù)站次數(shù),分母為總站次數(shù)。Moleculeisthenumberofduplicatestations,denominatoristotalnumberofstations.
2. 采用表1中錨系浮標(biāo)的重復(fù)數(shù)據(jù)參數(shù)。Usingthethresholdvaluesintable1.
3. 采用表1中錨系浮標(biāo)的重復(fù)數(shù)據(jù)參數(shù),但時間間隔改為1min。Usingthethresholdvaluesintable1,buethetimeintervalis1minuete.
通過計算結(jié)果可以發(fā)現(xiàn),WOD09的數(shù)據(jù)重復(fù)率基本小于0.3%,只有錨系浮標(biāo)和走航CTD的重復(fù)率較大。而對于錨系浮標(biāo),由于WOD其用戶手冊說明數(shù)據(jù)均為日均值,設(shè)定重復(fù)數(shù)據(jù)時間間隔為24h。但通過人工審核數(shù)據(jù),發(fā)現(xiàn)1990年以后,部分錨系浮標(biāo)數(shù)據(jù)的間隔為30min~1h,因此將重復(fù)數(shù)據(jù)的時間間隔參數(shù)調(diào)整為30min,其余參數(shù)不變,重新計算后得到錨系浮標(biāo)重復(fù)率為0.06%??紤]到儀器的更新?lián)Q代,錨系浮標(biāo)的觀測頻率可以達(dá)到1min,因此將時間間隔改為1min,對2009年以后錨系浮標(biāo)重復(fù)數(shù)據(jù)進(jìn)行排重,與時間間隔為10min時,重復(fù)率幾乎沒有變化。大面測站采用時間參數(shù)為1min;重復(fù)站次數(shù)由438675變?yōu)?38327,僅降低了0.07%。由此可以說明重復(fù)參數(shù)設(shè)置比較合理,而重復(fù)數(shù)據(jù)是客觀存在的。
對于WOD中的走航CTD數(shù)據(jù),通過人工審核準(zhǔn)重復(fù)數(shù)據(jù),發(fā)現(xiàn)重復(fù)數(shù)據(jù)的觀測深度一般在300m左右,忽略海水的浮力和阻力,走航CTD以自由落體的方式到達(dá)這個深度需要8s,因此把時間間隔臨界值設(shè)置為10s,發(fā)現(xiàn)重復(fù)數(shù)據(jù)仍然不變。因此在現(xiàn)有的重復(fù)數(shù)據(jù)參數(shù)下,走航CTD的重復(fù)率較高,為0.8%。造成重復(fù)的原因應(yīng)該為后期數(shù)據(jù)處理造成的。
以上結(jié)果表明軟件設(shè)置的重復(fù)參數(shù)的有效性,采用相同參數(shù),對WOD09光盤發(fā)布后美國海洋數(shù)據(jù)中心網(wǎng)站發(fā)布的更新數(shù)據(jù)進(jìn)行排重,發(fā)現(xiàn)重復(fù)率基本都超過了3%,進(jìn)一步證明了重復(fù)參數(shù)的有效性,另一方面也說明WOD09數(shù)據(jù)集光盤制作過程中進(jìn)行了有效地排重工作,而網(wǎng)站發(fā)布的數(shù)據(jù)沒有經(jīng)過排重。
(2)溫鹽數(shù)據(jù)集之間排重。利用該軟件對WOD中的Argo數(shù)據(jù)和法國全球Argo數(shù)據(jù)中心發(fā)布的Argo數(shù)據(jù)進(jìn)行了數(shù)據(jù)集間的排重測試。
在數(shù)據(jù)集間排重之前,采用表1中重復(fù)數(shù)據(jù)參數(shù)對法國全球Argo數(shù)據(jù)中心發(fā)布的Argo數(shù)據(jù)進(jìn)行了數(shù)據(jù)集內(nèi)排重,發(fā)現(xiàn)此數(shù)據(jù)集的重復(fù)率僅為0.1%,重復(fù)數(shù)據(jù)主要有2種:(1)同一個浮標(biāo)觀測的同一個數(shù)據(jù)命名不同造成的重復(fù);(2)不同的浮標(biāo)的數(shù)據(jù)完全相同。這都應(yīng)該是后期處理誤操作造成的。這個結(jié)果與文獻(xiàn)2中Argo數(shù)據(jù)重復(fù)率0.5%略有差異的原因,是本文對Argo數(shù)據(jù)重復(fù)數(shù)據(jù)判別準(zhǔn)則更加精細(xì)而造成的。
由于WOD數(shù)據(jù)集更新頻率較慢,因此對于2013年1月1日之前經(jīng)過排重后的2個Argo數(shù)據(jù)集進(jìn)行了排重。結(jié)果見表3。
表3 WOD與Argo數(shù)據(jù)的重復(fù)率Table 3 Duplicate ratio of WOD and Argo dataset
Note: ①Numberofstations;②ArgodatafromGDACinFrench/ArgodatafromWOD;③Totalnumberofstations;④Numberofduplicatestations;⑤Numberofnear-duplicatestations
通過軟件可視化剖面數(shù)據(jù)的圖形的比較發(fā)現(xiàn),經(jīng)緯度不同而數(shù)據(jù)不同的集中表現(xiàn)為2種形式:(1)深度與溫度相同,而鹽度不同;(2)層深相差2~4m,而溫度與鹽度相同。通過與美國NODC的技術(shù)人員溝通,確認(rèn)出現(xiàn)此現(xiàn)象的原因為WOD中未采用訂正后的Argo數(shù)據(jù)所造成的[11]。由于收集渠道不同,2個數(shù)據(jù)集都收集了未參與全球Argo計劃的部分Argo浮標(biāo)數(shù)據(jù)。因此在數(shù)據(jù)整合時,應(yīng)該根據(jù)實際需要來決定數(shù)據(jù)源。
該排重軟件已經(jīng)應(yīng)用于由MBT、XBT、CTD、Argo、Glider、浮標(biāo)等觀測儀器獲取的溫鹽數(shù)據(jù)的排重,實現(xiàn)了多源、大數(shù)據(jù)量的數(shù)據(jù)排序、排重與合并等。該系統(tǒng)為業(yè)務(wù)化運行系統(tǒng),整體性能良好,具有如下特點:
(1)高度模塊化:模塊化編程技術(shù)進(jìn)行開發(fā),可以提高系統(tǒng)的可重用性和可維護(hù)性,易于進(jìn)行功能模塊的擴(kuò)充和修改。
(2)交互性強:界面設(shè)計靈活,互操作性高,對于數(shù)據(jù)的瀏覽、人工審核以及查詢檢索都極其便利。
(3)高度自動化:除人工審核外,其他所有工作都無人工參與,全部自動運行,節(jié)省了人力物力。
該溫鹽數(shù)據(jù)排重軟件已經(jīng)應(yīng)用于國家海洋信息中心國際海洋資料處理、科技部海洋數(shù)據(jù)共享平臺建設(shè)、海洋環(huán)境與地理信息服務(wù)平臺建設(shè)等項目中。系統(tǒng)開發(fā)人員一直跟蹤軟件使用過程,按照實際工作需要不斷調(diào)整程序的結(jié)構(gòu),最終實現(xiàn)了系統(tǒng)的整合、排重參數(shù)和排重方法調(diào)整與優(yōu)化,并根據(jù)使用情況不斷的修改完善,極大地提高了溫鹽數(shù)據(jù)處理的速度,為溫鹽數(shù)據(jù)的整合和深層次應(yīng)用和共享奠定了堅實的基礎(chǔ)。該系統(tǒng)的設(shè)計和實現(xiàn)具有廣闊的應(yīng)用前景。
[1]BoyerTP,AntonovJI,BaranovaOK,etal.WorldOceanDatabase2009 [M].LevitusS,Ed.NOAAAtlasNESDIS66,U.S.Gov.WashDC:PrintingOffice, 2009: 216.
[2] 薛惠芬, 苗春葆, 董明媚, 等. 全球ARGO浮標(biāo)及其觀測資料狀況分析 [J]. 海洋技術(shù), 2005, 24(4): 23-28.
[3] 陳帥, 王丹, 張志迅.WOD09的PFL數(shù)據(jù)和Argo數(shù)據(jù)的比較 [J]. 海洋技術(shù), 2011, 30(4): 32-37.
[4]CliffordAShaffer.Apracticalintroductiontodatastructureandalgorithmanalysis[M], 張銘, 劉曉丹, 譯.1版. 北京: 電子工業(yè)出版社, 1998: 151-174
[5] 侍茂崇, 高郭平, 鮑獻(xiàn)文. 海洋調(diào)查方法 [M]. 青島: 中國海洋大學(xué)出版社, 2000: 31-52.
[6]GreenAW,Bulkdynamicsoftheexpendablebathythermograph(XBT) [J].Deep-SeaRes, 1984, 31: 415-426.
[7]HallockZR,TeagueWJ.ThefallrateoftheT-7XBT[J].JAtmosphOceanicTech, 1992, 9: 470-483.
[8]BoehlertGW,CostaDP,CrockerDE,etal.Autonomouspinnipedenvironmentalsamples:usinginstrumentedanimalsasoceanographicdatacollectors[J].JAtmosOceanicTechnol, 2001, 18: 1882-1893.
[9]DavisRE,OhmanMD,RudnickDL,etal.GlidersurveillanceofphysicsandbiologyinthesouthernCaliforniaCurrentSystem[J].LimnolOceanogr, 2008, 53(5): 2151-2168.
[10]EriksenCC,OsseTJ,LightRD,etal.Seaglider:Along-rangeautonomousunderwatervehicleforoceanographicresearch[J].IEEEJOceanicEng, 2001, 26(4): 424-436.
[11]WongAPS,JohnsonGC,OwensWB.Delayed-modecalibrationofautonomousCTDprofilingfloatsalinitydatabyθ-Sclimatology[J].JAtmosOceanicTechnol, 2003, 20: 308-318.
責(zé)任編輯 陳呈超
Method and Software for Eliminate Duplicate Data for WOD and Argo Datasets
JI Feng-Ying1, YU Ting1,2, DONG Ming-Mei1,3, LIANG Jian-Feng1
(1. National Marine Data and Information Service, Tianjin 300171, China; 2.Ocean University of China, Qingdao 266100,China; 3.University of Tianjin, Tianjin 300171, China)
Temperature and salinity are essential quantities of oceanography, their distribution and varieties are closely related to almost all the process of ocean. They have been the major focus of oceanography observation in many countries. Until now more than 20 million temperature and salinity casts have been acquired since the first temperature were recorded in 1772. Because of the automatic observing nature and data transferring by satellite, a station may be transferred and received many times. In the meantime, some data may be repeatedly collected by different projects and shared by data exchanges. These duplicate data may induce error in oceanographic analysis and research work. In order to eliminate the duplicates, the primary step is to study and confirm the threshold parameters for data from different instruments based on the accuracy, transferred frequency. Then based on requirements of mass data processing functions and manual interactive operation, Visual C ++ 6.0 is chosen as the project development tool while the MATLAB graphics library is for powerful graphical display part is used for which is more directly using. Under windows platform and Win32 system, MATLAB graphics are embedded with VC interface to eliminate duplicate data from massive temperature and salinity data can be successfully accomplished. Currently this software area applied to check ocean temperature and salinity data from the most widely used dataset, WOD (world ocean database) and Argo dataset, and got the satisfied result, which lay the strong foundation for future dataset integration.
Argo; WOD; eliminate duplicate; heap sort
國家自然科學(xué)基金項目(41406024)資助
2013-11-18;
2014-06-10
紀(jì)風(fēng)穎(1974-),女,博士,副研究員,主要從事物理海洋數(shù)據(jù)的處理分析等工作。E-mail:2320130582@qq.com
TP
A
1672-5174(2015)08-121-07
10.16441/j.cnki.hdxb.20130360