高澤文 解中洋 任俊達 馬寧
湖南師范大學 湖南 長沙 410000
ArcGIS Dashboard是以地理空間數(shù)據(jù)為核心,將各種地理信息以專題圖表等諸多面板展示的一套應用Web服務資源的終端展示平臺。系統(tǒng)可以通過諸多類型操作面板來表現(xiàn),包括業(yè)務信息列表、專題統(tǒng)計圖表、指標監(jiān)控儀表,外部內(nèi)容等,同時支持副文本?;诳臻g位置資源應用的地圖面板是其核心內(nèi)容,將以上諸多資源面板和地理空間信息結(jié)合應用,能夠最大限度地發(fā)揮業(yè)務信息價值。ArcGIS Dashboard數(shù)據(jù)源主要是以Web Map形式進行數(shù)據(jù)接入展示的,所以必須將表格等數(shù)據(jù)放入Web Map中,同時對要展示的分省級,市級,縣級以及確診小區(qū)等數(shù)據(jù)進行地圖配色等,最后保存Web Map。數(shù)據(jù)更新可以利用ArcGIS API For Python或其他ArcGIS API完成數(shù)據(jù)的實時更新。ArcGIS API For Python能夠通過Python靈活快速構建地理空間要素的Spatial Data Frame,從而更新源數(shù)據(jù)的Spatial Data Frame,完成Feature Service的實時更新。
為了更快地完成可視化系統(tǒng)軟件構建,軟件架構設計基于ArcGIS Dashboard技術??梢暬到y(tǒng)架構包括:
1.2.1 數(shù)據(jù)層。將數(shù)據(jù)存儲在常使用的關系式sqlserver 或oracle 中的數(shù)據(jù)庫[]。部分文本文檔形式的數(shù)據(jù)可以使用csv或xls的方式存儲在excel表格中,簡單的室內(nèi)空間數(shù)據(jù)可以存儲在幾個壓縮為zip包的shp格式文件中。
1.2.2 服務項圖層。通過ArcGISServer將數(shù)據(jù)圖層的數(shù)據(jù)發(fā)布為ArcGIS Rest服務項或其他通用OGC服務項。如果室內(nèi)空間數(shù)據(jù)量較小或變化不大,可以不發(fā)布服務項目,可以立即發(fā)布服務項目。通過文檔與主要表示層進行交互通信。同時,將必須查看的檢驗數(shù)據(jù)作為矢量材料要素服務項目發(fā)布,方便查看。對于經(jīng)常查看的功能,比如年月量指標等數(shù)據(jù),可以根據(jù)前期設計方案的數(shù)據(jù)庫結(jié)構編寫相應的預統(tǒng)計分析服務項目,在后臺管理中完成預計算,并加快之前數(shù)據(jù)呈現(xiàn)的速度。
1.2.3 主表示層。以地圖為主,將信息可視化。服務項目層的地理信息服務項目用于顯示地圖,并配備相應的樣式,使地圖因素在網(wǎng)絡鏡像中具有唯一性。借助車內(nèi)儀表盤的設計理念,加強了UI上各個因素之間的交互,通過目錄、儀表盤、指標等多種手段表達了關鍵指標值。據(jù)客服平臺介紹,主表現(xiàn)層配備響應式UI,使其更能兼容電腦瀏覽器的尺寸。
本文主要選取的是Pearson相關系數(shù)和speraman相關系數(shù),這兩個指標分別描述了兩個數(shù)據(jù)組合的線性相關性和測量變量之間的相關性水平。
2.1.1 Pearson相關系數(shù)。皮爾森相關系數(shù)(Pearson Correlation Coefficient)用來考慮兩個數(shù)據(jù)的組合是否在一條線上,用來考慮間隔變量之間的線性相關。計算公式為:
皮爾森相關系數(shù)的值用上述公式來表示,COV是2個變量的協(xié)方差,真分是2個變量的標準差的乘積。μx是X的平均值,μY是Y的平均值,E為期望。
皮爾森相關系數(shù)是線性關系的一個指標,它反映了兩個量之間線性關系的高低。這個值常用小寫字母r來表示。r值范圍在-1到1之間,絕對值越接近于1,相關性越強(負相關/正相關)。
2.1.2 speraman相關系數(shù)。以查爾斯·愛德華·斯皮爾曼命名的斯皮爾曼等級相關系數(shù),即斯皮爾曼相關系數(shù)[]。它是一個考慮兩個變量相關性的非主參數(shù)索引值。它使用簡單的方程來評估兩個統(tǒng)計分析變量的關聯(lián)[3]。如果數(shù)據(jù)中沒有重復值,并且當2個變量完全簡單相關時,Spearman相關系數(shù)為1或-1。對于有n個樣本的模板,將n個初始數(shù)據(jù)轉(zhuǎn)化為水平數(shù)據(jù),相關系數(shù)ρ為:
speraman相關系數(shù)也可以稱為“秩相關”;換句話說,觀察數(shù)據(jù)的“排名”被“排名”所取代。在連續(xù)除法中,觀測數(shù)據(jù)的秩通??偸堑陀谥鹊囊话?。眾所周知,在這個例子中,秩和秩相關系數(shù)是相同的。更一般地,觀察數(shù)據(jù)的“等級”與可能的整體模板的比率低于給定的值,即觀察值的一半。也就是說,是對應等級指標的一種可能的解決方案。盡管不常見,但仍可能使用“級別相關”。
二者的區(qū)別在于:①分析范圍不同:Pearson用于計算連續(xù)數(shù)據(jù)的相關,而speraman相關是專門用于分析順序數(shù)據(jù),二者分析范圍不同。②用途不同:Pearson相關是最常見的相關公式,用于計算連續(xù)數(shù)據(jù)的相關性。而spearman相關是專門用于分析順序數(shù)據(jù)的,就是那種只有順序關系,但并非等距的數(shù)據(jù)。
本文的所研究的數(shù)據(jù)源包括好搜指數(shù)和媒體網(wǎng)站頒布的信息。
無論是百度指數(shù)、好搜指數(shù),還是淘寶指數(shù)等等,都是圍繞一個重點:關鍵詞。也可以統(tǒng)稱其為:關鍵詞搜索指數(shù)。指數(shù)越高,代表關鍵詞越熱門,搜索的人就越高。
好搜指數(shù),它是一個基于大量網(wǎng)民個人行為數(shù)據(jù)的數(shù)據(jù)共享平臺。它是當今網(wǎng)絡乃至整個數(shù)據(jù)周期中最重要的數(shù)據(jù)分析服務平臺之一。好搜指數(shù)值主要包括:科研發(fā)展趨勢、對top的要求、輿情管家、人群特征。通過分析,本人確定的好搜指數(shù)關鍵詞包括:X1,“病毒”(X2),“預防”(X3),“癥狀”(X4),“核酸檢測”(X5)[],“傳染”(X 6),“季節(jié)”(X7)和“疫苗”(X8)。
定義式(2-1)中的X為好搜熱點指數(shù),Y為某地區(qū)的患病人數(shù)(或死亡,治愈人數(shù)等),計算在一段時間之內(nèi)的皮爾森相關系數(shù),看好搜索指數(shù)的值與總數(shù)之間是否存在線性關系和依賴關系。
根據(jù)總數(shù)據(jù)與好搜指數(shù)值的相關性分析,當前數(shù)據(jù)與好搜指數(shù)值中部分關鍵詞的檢索頻率具有線性相關和依賴感[]。因此,分析和預測是在構建多元線性回歸線性模型的基礎上進行的。
假設患病人數(shù)(或死亡、治愈人數(shù)等)Y 與多個好搜指數(shù)X1,X2,..,Xn呈現(xiàn)強相關的關系,而此時我們認為,當這些X變量發(fā)生變化時,相應的Y也會隨之發(fā)生變化。通過歷史數(shù)據(jù),我們可以得出Y與各變量X之間的某種關系,即:
這樣,就建立了Y與X之間的多元線性回歸模型。此時,當人數(shù)數(shù)據(jù)無法實時獲得,或者出現(xiàn)統(tǒng)計誤差時,我們就可以根據(jù)式(2-3)對Y進行預測,而此時我們需要建立的工作就是獲取各變量X的數(shù)值。
下面進行詳細的建模步驟說明。
在統(tǒng)計分析中,多元線性回歸優(yōu)化算法是一種非常適合的優(yōu)化算法,其應用非常普遍[]。多元線性回歸概念:關鍵是在因變量和幾個自變量之間建立線性相關性。這里的自變量一般是兩個或兩個以上。根據(jù)一系列計算得到的多元線性回歸方程為多元線性回歸實體模型。
多元線性回歸數(shù)學分析模型如下:
因變量設置為y,自變量設置為x1,x2,...,xn-1,共有m組觀測數(shù)據(jù)。存在如下所示的線性相關性:
獲得 m 個單獨觀察的 m 組數(shù)據(jù)樣本:
其中,所有誤差項都是相互獨立的,且服從均值為0的正態(tài)分布。
此時,令:
那么,公式計算(2-4)可表示為:
確定多元線性回歸模型后,主要參數(shù)必須可能未知。所選擇的方法通常是一般最小二乘法。設分別是參數(shù)的最小二乘估計,那么y的觀測值可以表示為:
其中,k=1,2,…,N0;ek是誤差的估計值。
根據(jù)最小二乘法,觀測值和回歸值之間的誤差的均值Q應該最小,并且指定的Q越低越好。Q 是偏差的總數(shù)。
讓公式計算(2-13)有一個最小值,根據(jù)極值點的基本原理可以計算得到滿足條件的最小值。最后,通過求解矩陣方程得到相關系數(shù)的最小二乘法可能為:
為了保證模型的質(zhì)量和系統(tǒng)設計的適當結(jié)果,重要的是對收集的初始數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和解析,以去除維度并使其具有可比性。
前文對回歸分析模型進行了建模流程的介紹,下面還需要對數(shù)據(jù)的處理進行說明。由于此次回歸模型中的變量,不僅涉及人數(shù)等簡單的數(shù)字變量,還涉及搜索指數(shù)、熱點等其他不易度量的變量,這些變量的量綱和取值方式也不同。因此,需要采取一定的數(shù)據(jù)變換技術。
為了保證建模的質(zhì)量和系統(tǒng)分析的正確結(jié)果,必須對采集的原始數(shù)據(jù)進行數(shù)據(jù)信息轉(zhuǎn)換和解析,去除維度,使其具有可比性。