邢 濤,汪獻(xiàn)義,邢艷秋
(東北林業(yè)大學(xué) 森林作業(yè)與環(huán)境研究中心,黑龍江 哈爾濱 150040)
地面激光雷達(dá)(Terrestrial laser scanning,TLS)可以獲得高精度與高層次的幾何數(shù)據(jù),其已經(jīng)廣泛應(yīng)用于林分參數(shù)提取、樹干提取、單木分割[1]與建模及生物量估計等研究[2]。在林業(yè)研究中,將地面激光雷達(dá)點云快速標(biāo)記為地面、樹干與枝葉3個類別可為上述研究奠定基礎(chǔ),所以研究點云分類具有重要意義。
點云分類可分為逐點分類、基于分割的分類與基于多實體分類的3 種策略[3]。逐點分類的策略先逐點搜索一定數(shù)量的近鄰點,然后依據(jù)近鄰點計算點特征訓(xùn)練分類器以達(dá)到分類目的。如Demantké 等[4]基于建筑物多存在線狀、面狀或體狀的特性,研究了逐點計算定半徑內(nèi)點云特征的建筑物分類;Weinmann 等[5]通過逐點搜索構(gòu)造了一系列2 維與3 維幾何特征訓(xùn)練隨機(jī)森林[6]分類器實現(xiàn)城市點云分類;Becker 等[7]通過逐點計算點近鄰計算了包含幾何特征、高程特征與顏色特征的17個特征訓(xùn)練隨機(jī)森林分類器實現(xiàn)城鎮(zhèn)點云分類?;诜指畹姆诸惪煞譃閮煞N方式,分別為基于分割面片輔助的點云分類與基于體素分割的點云分類。如Zhang 等[8]研究了基于分割面片輔助的點云分類,其在分類過程中首先采用區(qū)域生長法[9]將點云分割成相對獨立的面片,然后計算這些面片關(guān)于幾何特性、輻射強(qiáng)度特性、回波特性與拓?fù)潢P(guān)系的一系列特征訓(xùn)練支持向量機(jī)[10]實現(xiàn)點云分類;在基于體素分割的點云分類過程中,考慮到每個體素內(nèi)點特征相近,Hackel 等[11]定義了9個尺度的體素化濾波分別下采樣待分類的點云,在每一次下采樣后逐點計算體素重心與鄰近9個體素重心關(guān)于幾何特性、狀態(tài)特性與高程信息的16個特征,計算好特征之后訓(xùn)練隨機(jī)森林分類器實現(xiàn)點云分類,該方法遍歷完9個尺度后每個點使用144個維度的點特征表示?;诙鄬嶓w的分類是以每個實體為單位計算特征實現(xiàn)點云分類?,F(xiàn)階段這種分類方法多應(yīng)用機(jī)載分類,如Xu 等[12]將點云分為孤立點、分割面片與meanshift 分割面片3個實體[13],然后針對每一個實體都計算了相關(guān)特征訓(xùn)練5 種分類器,最終將表現(xiàn)最好的分類器應(yīng)用于點云分類;倪歡等[3]將點云分為規(guī)則面片、粗糙面片與單個點3個實體,在點云分類過程中首先進(jìn)行實體表達(dá),而后進(jìn)行地面分割與非地面實體分類,在非地面實體分類過程中分別計算了包含回波特性、描述子特性與幾何特性的21個特征訓(xùn)練隨機(jī)森林分類器實現(xiàn)點云分類。雖然這3 種分類的具體實現(xiàn)方式不同,但仔細(xì)分析發(fā)現(xiàn)大多的研究都需要構(gòu)造較多的經(jīng)驗特征訓(xùn)練分類器實現(xiàn)分類,其中Hackel 等[11]的研究構(gòu)造的點特征維度最高,達(dá)到144 維,這在處理大規(guī)模數(shù)據(jù)點云分類時特征計算將消耗較多運(yùn)行內(nèi)存。
為了解決上述問題,本研究以逐點分類策略為基礎(chǔ),在分類過程中引入特征選擇[14]技術(shù)實現(xiàn)降低特征維度,從而達(dá)到避免盲目構(gòu)造特征的目的。本研究的點云分類特指將地面激光雷達(dá)掃描的蒙古櫟Quercus mongolica人工林?jǐn)?shù)據(jù)分為地面、樹干與枝葉點云3個類別,在分類過程中首先計算19個經(jīng)驗特征訓(xùn)練xgboost[15]分類器,然后依據(jù)分類器的表現(xiàn),在保證分類器性能的基礎(chǔ)上選擇適當(dāng)數(shù)量的特征參與點云分類。
本研究的地面激光雷達(dá)設(shè)備為徠卡Scanstation C10,掃描儀測距長,工作效率高,可快速獲取高精度三維點云數(shù)據(jù),具體儀器參數(shù)見表1。本研究的數(shù)據(jù)采集自東北林業(yè)大學(xué)實驗林場的蒙古櫟Quercus mongolica人工林(圖1b),該人工林地勢平坦、林下灌木較少,通視條件較好,單木間隔為3 m 左右,單木垂直特性較好且單木間存在枝葉遮擋,單木胸徑與樹高均值分別為13.55 cm與9.98 m。數(shù)據(jù)采集時間為2016年6月,研究區(qū)樣方尺寸為20 m×20 m,在掃描過程中共架設(shè)5個掃描站,即A1~A5 站(圖1a),站間間距 20 m 左右,其中A1 站為全景掃描,其余測站為定向掃描。
表1 三維激光掃描儀技術(shù)參數(shù)Table 1 Technical parameters of TLS
訓(xùn)練分類器過程中需要用到訓(xùn)練樣本、驗證樣本與測試樣本。訓(xùn)練樣本用于訓(xùn)練分類器,驗證樣本用于判斷分類器訓(xùn)練過程中是否出現(xiàn)過擬合或欠擬合,所以本研究的訓(xùn)練樣本與測試樣本來自同一掃描站。鑒于本研究的5個掃描站點云數(shù)據(jù)特征相近,全景掃描的數(shù)據(jù)量相對豐富,所以本研究的訓(xùn)練樣本與驗證樣本分別為從標(biāo)記好的全景掃描數(shù)據(jù)中按9:1 的比例隨機(jī)分配獲得,測試樣本為剩余4個站點中任選1站的點云數(shù)據(jù)。
圖1 研究方法與對象Fig.1 Research method and object
在點云分類任務(wù)中,分類器的性能往往取決于特征對待分類對象的表征能力。近年來通過各領(lǐng)域研究人員的不懈探索,提出了許多不同應(yīng)用場景的點云特征[14]。本研究引入19個經(jīng)驗特征,其包括4個基于水平投影構(gòu)造的特征與15個基于三維點云構(gòu)造的特征。
1.2.1 基于水平投影構(gòu)造的特征
基于水平投影構(gòu)造的特征由僅取三維點云的XY 坐標(biāo)分析點云特性獲得,本研究引入的4個特征描述如下:
1)基于特征值的特征:
式中:λ1,2D與λ2,2D分別為近鄰點云在水平投影面中協(xié)方差矩陣的特征值,特征Rλ,2D由λ2,2D與λ1,2D的比值獲得,其描述了點云的二維平面特性,Σλ,2D由λ2,2D與λ1,2D的和構(gòu)成。
2)基于距離的特征:
式中:k表示當(dāng)前點云的近鄰數(shù)量,表示水平投影面中當(dāng)前點與k個近鄰點最遠(yuǎn)距離的平方,特征D2D由k+1 與的比值獲得,其表征當(dāng)前點在二維投影面中的點云密度,特征rk-NN,2D表示當(dāng)前點與近鄰點的最近距離。
1.2.2 基于三維點云構(gòu)造的特征
基于三維點云構(gòu)造的特征由分析XYZ 維度的點云特性獲得,本研究引入的15個特征描述如下:
1)基于特征值的特征:
基于特征值構(gòu)造的點云特征值較多,包括面度(Pλ)、散度(Sλ)、各向異度(Aλ)、全向方差(Oλ)、特征值和(Σλ)、線度(Lλ)、特征值熵(Eλ)及曲率(Cλ):
式中:λ1、λ2、λ3表示三維點云的特征值,由解算近鄰點的協(xié)方差矩陣獲得。
2)基于法向量的特征:
式中:|nZ|表示當(dāng)前點關(guān)于近鄰點擬合平面法向量的在Z 軸的分量。
3)基于距離的特征:
式中:k表示當(dāng)前點的近鄰數(shù)量,表示當(dāng)前點與k近鄰中最遠(yuǎn)點確定的球體積,特征D 由k+1 與的比值獲得,其表征當(dāng)前點的點云密度,rk-NN,2D表示當(dāng)前點與近鄰點的最近距離。
4)基于高程的特征:
式中:σZk-NN表示近鄰點高程的方差, ΔZk-NN表示近鄰點的最大高程差,Z當(dāng)前點高程,Ndsm 表示歸一化高程值。
1.3.1 xgboost 分類器
xgboost 是GBDT[16](Gradient boosteddecision trees)的改進(jìn),其優(yōu)點如下:1)引入正則化項,防止分類器過擬合;2)采用剪枝技術(shù),保證算法精度;3)目標(biāo)函數(shù)采用泰勒展開式的二項逼近;4)支持并行計算,提高運(yùn)算效率。
xgboost 優(yōu)化的目標(biāo)函數(shù)定義如下:
式中:gi,hi為目標(biāo)函數(shù)的一階與二階梯度,γ,λ是目標(biāo)函數(shù)的優(yōu)化參數(shù),T是決策樹的葉子節(jié)點數(shù),Ij是訓(xùn)練樣本所在的葉子索引,是第j個葉子節(jié)點的權(quán)重。只與樣本梯度相關(guān),在決策樹中每個樣本的得分用其所在的葉子節(jié)點權(quán)重表示。那么在xgboost 中,樣本類別通過計算其在每個決策樹中的得分和獲得。
在xgboost 中節(jié)點的分裂方式是決定分類器性能的關(guān)鍵,其通過計算子節(jié)點對目標(biāo)函數(shù)的信息增益來控制節(jié)點分裂(式8)。
式中:obj(parent)、obj(children)、Gain分別表示分裂前目標(biāo)函數(shù)值、分裂后目標(biāo)函數(shù)值與信息增益,L,R分別表示左右葉子節(jié)點。若信息增益大于0 表示當(dāng)前分裂能夠促進(jìn)目標(biāo)函數(shù)值減小,允許分裂,反之禁止分裂。
1.3.2 特征選擇
本研究構(gòu)造了19個經(jīng)驗特征訓(xùn)練xgboost 分類器,特征維度較高,研究者總希望用較低維度的特征用于訓(xùn)練分類器,這樣既可以保證算法的效率又有利于節(jié)約計算成本,故此引入特征選擇技術(shù)勢在必行。特征選擇方式一般包括基于統(tǒng)計的特征選擇與基于模型的特征選擇。基于統(tǒng)計方式包括方差檢驗、相關(guān)系數(shù)法與卡方檢驗等,這種方式僅依據(jù)特征自身判斷特征的重要性?;谀P偷姆绞桨ㄟf歸特征消除法、基于懲罰項的特征選擇法與基于樹模型特征選擇法等,這種方式通過特征對分類器的貢獻(xiàn)來判斷特征的重要性,更加直接客觀。本研究的xgboost 屬于一種較為穩(wěn)定的樹模型分類器,所以本研究考慮將上述19 維點云特征直接應(yīng)用于xgboost 分類器實現(xiàn)特征選擇。在xgboost 中,分類器訓(xùn)練結(jié)束后將統(tǒng)計以某一特征為依據(jù)進(jìn)行分裂的節(jié)點數(shù)量,本研究依此判斷各個特征對模型的貢獻(xiàn)從而實現(xiàn)特征選擇。
在完成分類之后需要采用一定的準(zhǔn)則定性分析分類器的精度,本研究衡量分類器性能定義如式(9)所示:
式中:Accuracy、Precision、Recall、F1score、MF1score分別表示分類器的準(zhǔn)確率、查準(zhǔn)率、召回率、F1score與F1score均值。CN表示正確估計的樣本數(shù),TN表示樣本總量,CNi表示類別i中正確估計的樣本數(shù)量,PNi表示估計為類別i的總量,TNi表示實際為類別i的總量,n表示樣本類別個數(shù)。研究者通常采用Accuracy與MF1score衡量分類器的總體表現(xiàn),其值越大表示分類器分類效果越好。
搜索適當(dāng)數(shù)量近鄰點對分類器的性能影響不大,本研究通過搜索點的100個近鄰點計算特征。在使用xgboost 過程中梯度樹的數(shù)量為100,每一個梯度樹的最大訓(xùn)練深度為6。本節(jié)就特征選擇結(jié)果及特征選擇前后點云分類結(jié)果展開分析。
圖2 統(tǒng)計了xgboost 特征重要性分布直方圖,該特征重要性表示在xgboost 訓(xùn)練過程中梯度樹節(jié)點依據(jù)某一特征產(chǎn)生分裂的頻率。圖3 為依據(jù)特征重要性依次增加特征訓(xùn)練xgboost 的測試準(zhǔn)確率。結(jié)合圖2~3 易知特征Z、Ndsm與V重要性較為顯著,其值均大于1 500,當(dāng)僅引入特征Z 時分類器的測試準(zhǔn)確率介于0.75~0.80 之間,若繼而引入特征Ndsm與V則測試準(zhǔn)確率攀升至0.90與0.95 之間,分類器性能明顯提高。當(dāng)引入到第5個特征(ΔZk-NN)之后,分類器測試準(zhǔn)確率均穩(wěn)定于0.95~0.96 之間??紤]到引入第7個特征(Cλ)后分類器性能有微弱降低(圖3),所以本研究特征選擇結(jié)果為前6個重要性較高的特征。
本研究特征計算均使用同一種計算機(jī)語言在同一臺電腦運(yùn)行,為了考量特征選擇前后特征的計算效率,表2 統(tǒng)計了在訓(xùn)練集與測試集分別計算19個特征與6個特征的特征計算用時,同時給出了計算6個特征與計算19個特征的用時比。本研究的訓(xùn)練集數(shù)量比測試集多,所以容易發(fā)現(xiàn)訓(xùn)練集相應(yīng)特征計算用時均大于測試集。觀察特征計算用時占比發(fā)現(xiàn),在訓(xùn)練集與測試集中計算6個特征用時均約占計算19個特征用時的一半。
圖2 xgboost 特征重要性分布直方圖Fig.2 The feature importance histogram of xgboost
為了定性分析特征選擇前后分類器的性能,本研究在表3 中分別統(tǒng)計了分類器使用6個特征與19個特征在測試集的準(zhǔn)確率、查準(zhǔn)率、召回率、F1score與MF1score。分類器基于6個特征與19個特征的測試準(zhǔn)確率分別為0.954 8 與0.956 2,前者比后者低了0.001 4。仔細(xì)分析易知,在使用6個特征與19個特征的過程中,分類器關(guān)于地面類別的查準(zhǔn)率、召回率與F1score相近,使用19個特征的分類器關(guān)于樹干與枝葉類別的查準(zhǔn)率、召回率與F1score的性能均比使用6個特征的分類器性能有千分級的優(yōu)勢?;?個特征與19個特征的MF1score分別為0.959 2 與0.962 2。綜合準(zhǔn)確率與MF1score易知,特征選擇前后的分類器均可較好的完成本研究的地面激光雷達(dá) 點云分類任務(wù)。
圖3 基于特征選擇的分類器測試準(zhǔn)確率Fig.3 The classifier’s test accuracy based on feature selection
表2 特征計算用時統(tǒng)計Table 2 The statistics of feature calculating time
圖4 展示了分類器基于特征選擇的測試集分類結(jié)果,顏色綠紅灰分別表示枝葉、樹干與地面點。由召回率易知分類器正確的估計了大多的地面點,錯誤估計的點云大多來自枝葉與樹干(表3),所以在圖4b 中僅展示了樹干與枝葉錯分的細(xì)節(jié)圖。由于枝葉與樹干在空間上存在鄰近的點云,這些鄰近點云特征相似度較高,所以本研究容易將部分枝葉錯分為樹干(圖4b-2),同時也存在將部分樹干錯分為枝葉(圖4b-1)。
表3 不同特征分類統(tǒng)計量Table 3 Thelabelingstatisticsofdifferentfeatures
圖4 xgboost 測試集分類結(jié)果Fig.4 The xgboost’s test sets result
本研究先通過逐點搜索點云定近鄰點集計算19個點特征,然后使用該特征訓(xùn)練xgboost 分類器并依據(jù)分類器表現(xiàn)得到特征對模型的重要性。獲得特征重要性之后將特征按重要性做降序排列,并按此序列依次增加特征訓(xùn)練xgboost,最終在保證分類器的性能情況下保留適當(dāng)數(shù)量的特征以達(dá)到特征選擇的目的。現(xiàn)得結(jié)論如下:
1)特征選擇策略可有效提高特征計算效率。由表2 易知特征的計算效率與點云的數(shù)量呈正相關(guān)變化,在同一數(shù)據(jù)集中計算6個特征均約占計算19個特征用時的一半,所以當(dāng)點云數(shù)量一定時,減少特征維度可明顯提高了特征計算的效率。
2)在保證分類器性能的前提下,特征選擇策略可以避免特征構(gòu)造的盲目性。常規(guī)的點云分類任務(wù)多依據(jù)經(jīng)驗構(gòu)造較多的特征訓(xùn)練分類器,在特征選擇之前本研究引入了19個經(jīng)驗特征,依據(jù)這些特征訓(xùn)練分類器的測試準(zhǔn)確率為0.956 2。本研究依據(jù)xgboost 表現(xiàn)選擇了6個重要性較高的訓(xùn)練分類器的測試準(zhǔn)確率為0.954 8。相較于使用19個特征分類器性能僅降低了0.001 4,所以在忽略該精度影響的情況下,在本研究的點云分類任務(wù)中僅計算特征選擇的6個特征即可。
由上述分析易知使用特征選擇技術(shù)可有效提高特征計算效率。在不影響分類器性能的前提下,本研究僅使用6 維特征就可代替19 維經(jīng)驗特征。在前述的研究中構(gòu)造的點云特征維度介于16~144 之間,其中以Hackel 等[11]研究為最,特征維度達(dá)到144 維,這144 維特征由9個分割尺度的16 維經(jīng)驗特征構(gòu)成。在大數(shù)據(jù)集點云分類任務(wù)中每個點使用144 維特征表示需要消耗較多內(nèi)存,若在構(gòu)造特征之前引入特征選擇技術(shù)則可有效降低特征維度,使用較低維度的特征在節(jié)約算法運(yùn)算內(nèi)存的同時可有效提高特征計算效率。
本研究錯分點云大多來自樹干與枝葉這兩個類別,由于部分樹干與枝葉點云在空間上分布較近,當(dāng)遍歷點云搜索近鄰時容易混淆部分空間上較近的枝葉與樹干點云,從而使該部分點云的特征不穩(wěn)定,最終導(dǎo)致分類器產(chǎn)生錯誤估計。所以本研究的后續(xù)工作準(zhǔn)備從改進(jìn)點云搜索方式或構(gòu)造更具表征能力的特征方面著手,進(jìn)一步開展點云分類研究。