徐學(xué)龍
摘 要 在新的歷史時(shí)期為了能夠降低客戶端和服務(wù)端之間遠(yuǎn)程過(guò)程調(diào)用通信,提升已存儲(chǔ)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)表格區(qū)間統(tǒng)計(jì)效率,文章提出一種基于協(xié)調(diào)處理器的大數(shù)據(jù)區(qū)間統(tǒng)計(jì)方法,旨在通過(guò)特定的協(xié)議來(lái)將區(qū)間統(tǒng)計(jì)參數(shù)從客戶端傳遞到服務(wù)端,在信息經(jīng)過(guò)流通和分析之后得到最終的區(qū)間統(tǒng)計(jì)結(jié)果。經(jīng)過(guò)試驗(yàn)研究證明,使用終端協(xié)處理器進(jìn)行空氣質(zhì)量監(jiān)測(cè)能夠提升空氣質(zhì)量統(tǒng)計(jì)效率。
關(guān)鍵詞 空氣質(zhì)量;監(jiān)測(cè);大數(shù)據(jù);區(qū)間統(tǒng)計(jì);HBase
城市環(huán)境空氣質(zhì)量管理遭遇的瓶頸問(wèn)題是面源管控難,加上城市污染來(lái)源復(fù)雜、種類(lèi)多、污染溯源和靶向治理難和環(huán)境空氣監(jiān)測(cè)點(diǎn)源自動(dòng)化監(jiān)測(cè)設(shè)備少的影響,無(wú)法對(duì)空氣質(zhì)量進(jìn)行清晰有效的預(yù)測(cè)和預(yù)警,使得環(huán)境空氣監(jiān)測(cè)信息化水平不高,無(wú)法滿足大氣污染治理的總體需求。HBase0.92 版本支持下的終端協(xié)調(diào)處理器能夠在服務(wù)器的終端完成計(jì)數(shù)、求和、求最大數(shù)值等統(tǒng)計(jì)工作,在統(tǒng)計(jì)分析之后能夠?qū)⒔Y(jié)果數(shù)據(jù)重新返回到客戶端,減少客戶端到服務(wù)端的RPC調(diào)用,從而提升數(shù)據(jù)信息的統(tǒng)計(jì)查詢效率。
1 空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間存儲(chǔ)模式的設(shè)計(jì)
HBase0.92 版本支持下的終端協(xié)調(diào)處理器存儲(chǔ)設(shè)計(jì)模式如圖1所示,經(jīng)過(guò)實(shí)踐操作證明這種存儲(chǔ)模式能夠有效對(duì)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)進(jìn)行存儲(chǔ),從而滿足當(dāng)?shù)乜諝赓|(zhì)量監(jiān)測(cè)和分析需要[1]。
2 空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間統(tǒng)計(jì)協(xié)調(diào)處理器
空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間統(tǒng)計(jì)協(xié)調(diào)處理器一般可以劃分為終端模式和觀察模式兩種。終端處理器能夠?qū)?shù)據(jù)檢索統(tǒng)計(jì)過(guò)程在服務(wù)器的終端完成,在這個(gè)過(guò)程中減少客戶端到服務(wù)端遠(yuǎn)程操作過(guò)程數(shù)據(jù)調(diào)用所產(chǎn)生的一系列費(fèi)用,從而在最大限度上提升數(shù)據(jù)信息的統(tǒng)計(jì)效率和統(tǒng)計(jì)有效性。
空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間統(tǒng)計(jì)協(xié)調(diào)處理器的數(shù)據(jù)區(qū)間統(tǒng)計(jì)步驟如下所示:①實(shí)現(xiàn)對(duì)EMCStat.pro-to文件內(nèi)容的定義,按照protobuf協(xié)議定義區(qū)間統(tǒng)計(jì)協(xié)處理器的請(qǐng)求數(shù)據(jù)信息格式和RPC服務(wù)格式。第二,定義協(xié)處理器類(lèi)EMCStat End Point,應(yīng)用get EMCStat 方法實(shí)現(xiàn)對(duì)區(qū)間統(tǒng)計(jì)數(shù)據(jù)信息的協(xié)調(diào)處理。第三,在EMCData 表中額外加載EMCStat Endpoint 協(xié)議處理器。第四,客戶端綜合調(diào)用EMCStat Endpoint 協(xié)處理器,對(duì)分布在不同Region上的數(shù)據(jù)信息進(jìn)行區(qū)間統(tǒng)計(jì)分析,并將統(tǒng)計(jì)數(shù)據(jù)信息及時(shí)輸出結(jié)果數(shù)據(jù)。
2.1 Protobuf協(xié)議統(tǒng)計(jì)分析
HBase0.92 版本支持下的終端協(xié)調(diào)處理器應(yīng)用專門(mén)的協(xié)議來(lái)定義客戶端和服務(wù)端的通信數(shù)據(jù)信息,并根據(jù) EMCStat Request 協(xié)議的基本模式和要求向協(xié)議處理器傳遞經(jīng)過(guò)處理的參數(shù)信息,具體包含區(qū)間統(tǒng)計(jì)數(shù)據(jù)信息、站點(diǎn)編碼數(shù)據(jù)信息、不同操作時(shí)間段的數(shù)據(jù)信息等,在統(tǒng)計(jì)完這些數(shù)據(jù)信息之后將其編訂成一個(gè)完整的數(shù)據(jù)信息集合列表。在按照協(xié)議規(guī)定獲得指定的參數(shù)數(shù)據(jù)之后執(zhí)行區(qū)間統(tǒng)計(jì)程序,按照 EMCStat Request 協(xié)議格式將統(tǒng)計(jì)結(jié)果重新返回到客戶端[2]。
2.2 區(qū)間統(tǒng)計(jì)協(xié)議處理器的是吸納
EMCStat Request 協(xié)議為區(qū)間性的邏輯協(xié)議模式。區(qū)間范圍內(nèi)的統(tǒng)計(jì)協(xié)議處理器能夠?qū)γ恳粋€(gè)Region進(jìn)行統(tǒng)計(jì),并根據(jù)實(shí)際情況判斷Region是否參與到最終的統(tǒng)計(jì)分析中。在區(qū)間統(tǒng)計(jì)的Start Key 和End Key 大小相差太多的時(shí)候可以直接跳過(guò)Region區(qū)域。整個(gè)Region的統(tǒng)計(jì)邏輯如圖2所示。
2.3 客戶端的調(diào)用
客戶端區(qū)間統(tǒng)計(jì)業(yè)務(wù)邏輯按照 EMCStat Request的消息格式來(lái)定義處理器統(tǒng)計(jì)過(guò)程中所需要的各類(lèi)參數(shù)信息,之后以Batch Call 方式調(diào)用 EMCData 表格區(qū)間統(tǒng)計(jì)協(xié)議處理器的信息??紤]到Batch Call 僅僅能夠?qū)?duì)應(yīng)的Region區(qū)間數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析,為此在統(tǒng)計(jì)數(shù)據(jù)信息的時(shí)候還需要對(duì)每一個(gè)Region區(qū)間范圍內(nèi)的數(shù)據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行綜合匯總輸出處理[3]。
3 空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間的統(tǒng)計(jì)實(shí)驗(yàn)分析
空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間實(shí)驗(yàn)統(tǒng)計(jì)環(huán)境和設(shè)備安裝和文獻(xiàn)中所規(guī)定的內(nèi)容一致,模擬數(shù)據(jù)信息會(huì)被錄入到每一個(gè)監(jiān)測(cè)項(xiàng)目程序中,之后按照每小時(shí)40到60實(shí)時(shí)數(shù)值的順序?qū)懭氲?EMCData 表格中。在對(duì)數(shù)據(jù)信息進(jìn)行綜合統(tǒng)計(jì)分析之后自動(dòng)計(jì)算和評(píng)價(jià)數(shù)值。在數(shù)據(jù)信息錄入的過(guò)程中在Region數(shù)量分別為奇數(shù)1/3/5/7/9/11的時(shí)候,對(duì)存儲(chǔ)二氧化氮濃度數(shù)據(jù)列的RTData可以按照每立方米0~41μg、43.05~82.00μg、84.05~123.00μg、125.05~164.00μg、166.05~205.00μg進(jìn)行計(jì)算[4]。
計(jì)算時(shí)的具體參數(shù)設(shè)定如下所示:地區(qū)碼 4201,站點(diǎn)編碼為空,代表的是統(tǒng)計(jì)區(qū)域范圍內(nèi)所有站點(diǎn)的數(shù)據(jù)信息。統(tǒng)計(jì)時(shí)間覆蓋所有的Region,在計(jì)算的時(shí)候?yàn)榱四軌驕p少客戶端Scan統(tǒng)計(jì)過(guò)程RPC調(diào)用情況可以為Scan操作設(shè)置一個(gè)具體的掃描存儲(chǔ)數(shù)值,表示RPC調(diào)用可以從服務(wù)端進(jìn)行數(shù)據(jù)讀取的行為,從而有效減少客戶端RPC調(diào)用行數(shù)。但是在具體設(shè)定操作時(shí)需要注意的是掃描存儲(chǔ)數(shù)值不能夠設(shè)定得較高,目的是不過(guò)度消耗客戶端的內(nèi)存。掃描緩存數(shù)值的設(shè)定需要在能夠減少RPC請(qǐng)求和客戶端內(nèi)存消耗之間達(dá)到一種平衡,結(jié)合實(shí)際操作將掃描緩存設(shè)定的數(shù)值控制在256左右??諝赓|(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間的統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果如表1所示,時(shí)間對(duì)比情況如圖3所示[5]。
4 結(jié)束語(yǔ)
綜上所述,在服務(wù)器端使用Endpoint協(xié)處理器對(duì)空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間進(jìn)行統(tǒng)計(jì)能夠更為精準(zhǔn)的分析出城市空氣質(zhì)量,并在一定程度上減少數(shù)據(jù)統(tǒng)計(jì)所需要消耗的時(shí)間。HBase的數(shù)據(jù)表在Hadoop集群的每個(gè)數(shù)據(jù)節(jié)點(diǎn)上的Region相同這個(gè)時(shí)候協(xié)調(diào)處理器工作效率將會(huì)達(dá)到最為理想的狀態(tài)。但是在數(shù)據(jù)的不斷增加下,Region在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上的數(shù)量不再相同,基于Endpoint協(xié)處理器的空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間將會(huì)面臨數(shù)據(jù)信息阻滯的問(wèn)題,這個(gè)時(shí)候怎樣協(xié)調(diào)和平衡數(shù)據(jù)信息成為新時(shí)期空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間工作所需要著重思考和解決的問(wèn)題。
參考文獻(xiàn)
[1] 劉黎志,何經(jīng)緯.空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)區(qū)間的統(tǒng)計(jì)問(wèn)題%Big Data Interval Statistics for Air Quality Monitoring[J].武漢工程大學(xué)學(xué)報(bào),2019,41(2):179-183.
[2] 李源.淺述城市環(huán)境空氣質(zhì)量監(jiān)測(cè)的工作%Urban Air Quality Monitoring Work[J].能源與節(jié)能,2011,(5):41-43.
[3] 劉閩,王帥,林宏,等.沈陽(yáng)市冬季環(huán)境空氣質(zhì)量統(tǒng)計(jì)預(yù)報(bào)模型建立及應(yīng)用%The Study on Establishment and Application of Winter Environment Air Quality Forecasting Model of Shenyang[J]. 中國(guó)環(huán)境監(jiān)測(cè),2014,(4):10-15.
[4] 鄧聰,楊善黨,王健,等.高原省份城市空氣質(zhì)量狀況統(tǒng)計(jì)分析及PM2.5污染水平時(shí)空分布[J]. 環(huán)境科學(xué)導(dǎo)刊,2017,(5):40-43.
[5] 劉從容,劉振山,胡海旭.環(huán)境空氣質(zhì)量統(tǒng)計(jì)預(yù)報(bào)模式的研究——沈陽(yáng)市環(huán)境空氣質(zhì)量各季節(jié)預(yù)報(bào)模式[J].環(huán)境保護(hù)科學(xué),2006,(4):7-8,13.