張春明, 譚人殊, 宋晨明, 趙黨書
1.云南藝術(shù)學(xué)院,昆明 650101;2.西安交通大學(xué),西安 710049;3.昆明理工大學(xué),昆明 650031
從2012年開始, 住房和城鄉(xiāng)建設(shè)部、 文化和旅游部、 財政部組織開展了全國傳統(tǒng)村落摸底調(diào)查, 截至2019年第5次全國傳統(tǒng)村落調(diào)查統(tǒng)計, 全國有6819個傳統(tǒng)村落進入統(tǒng)計名單.
村落的建筑環(huán)境隨著經(jīng)濟建設(shè)的發(fā)展, 傳統(tǒng)的民居建筑正在日益遭受到逐步的蠶食, 村落的風(fēng)貌正在逐步的異化, 所幸的是這樣的問題已逐漸得到重視, 但是對于傳統(tǒng)村落的保護發(fā)展, 如何評估村落民居的建筑特征風(fēng)貌, 對其進行分類統(tǒng)計管理, 確實是一件非常必要且困難的工作.
對于傳統(tǒng)村落的保護, 迫切地需要對村落民居建筑的數(shù)量、 風(fēng)貌、 建筑質(zhì)量、 建筑高度等信息進行量化的評估和分析, 進而完善對村落規(guī)劃發(fā)展管理, 目前在全國開展的實用性村莊規(guī)劃編制工作中, 對此也提出了具體的相關(guān)要求, 然而目前對于村落建筑信息的統(tǒng)計主要還是通過人工現(xiàn)場調(diào)研的方式進行, 對民居進行多方位的拍照之后, 對其建筑特征進行人工的判讀識別. 這樣的方式, 一方面容易受到所在地村落交通、 氣候和地形等因素的限制, 給數(shù)據(jù)的采集帶來不便, 同時還會增加大量的調(diào)研成本; 另一方面由于通過人工判讀的方式, 勢必會因為判讀人學(xué)科背景、 生活經(jīng)歷、 心情情緒等主觀的因素影響, 帶去一些不確定的變化, 給建筑風(fēng)貌的界定的結(jié)果帶去一定的擾動.
新技術(shù)新數(shù)據(jù)的不斷涌現(xiàn)為更為細致的空間品質(zhì)研究提供了豐富的數(shù)據(jù)基礎(chǔ), 同時將機器學(xué)習(xí)、 邊緣計算等智能技術(shù)運用于各個行業(yè), 是一個順應(yīng)時代發(fā)展的解決方案[1]. 這樣的研究首先需要進行一個數(shù)據(jù)收集過程來收集所需的數(shù)據(jù), 該過程收集關(guān)鍵的建筑影像數(shù)據(jù), 通常依賴于現(xiàn)場調(diào)查. 如此高度的勞動密集型和耗時的工作使得進行大規(guī)模的建筑風(fēng)貌評測極其困難. 在這方面, 以有效的方式收集和集成建筑風(fēng)貌數(shù)據(jù)仍然是目前學(xué)術(shù)界研究的挑戰(zhàn).
目前的研究, 基于深度神經(jīng)網(wǎng)絡(luò)的信息抽取模型在公開數(shù)據(jù)集取得了不錯的成績[2], 但是很難同時保證大范圍、 細粒度的計算結(jié)果[3]. 本研究提出了一個通用的框架來解決上述挑戰(zhàn), 它利用現(xiàn)場獲取的民居圖像進行民居建筑的特征提取和分類. 具體來說, 調(diào)研現(xiàn)場拍攝的圖像中顯示的立面結(jié)構(gòu)足夠豐富 , 可以進行民居建筑特征分類(圖1), 圖1中的建筑立面顯示的細節(jié)比相應(yīng)之前研究通過衛(wèi)星遙感影像圖顯示的屋頂圖, 揭示了不同類型的建筑更多的細節(jié) . 因此, 在該方法中, 根據(jù)建筑現(xiàn)場圖片對建筑進行分類訓(xùn)練, 然后通過高分影像圖空間聚類將推斷出的特征標簽與單個建筑連接起來, 在此基礎(chǔ)之上, 利用卷積神經(jīng)網(wǎng)絡(luò)和反向傳播算法, 通過卷積操作對民居建筑圖像的特征進行提取, 對于民居的風(fēng)格, 卷積神經(jīng)網(wǎng)絡(luò)模型的淺層學(xué)習(xí)主要是諸如民居外觀紋理、 顏色等簡單特征, 而深層學(xué)習(xí)的是一些高緯度語義特征, 將這些高緯度語義特征和民居建筑風(fēng)格的標簽對應(yīng), 通過反向傳播算法這種監(jiān)督學(xué)習(xí)的方式不斷迭代優(yōu)化模型參數(shù), 最終建立輸入(原始圖像)和輸出(建筑風(fēng)格)映射關(guān)系. 基于此原理, 此次研究中, 試圖建立一個構(gòu)建民居建筑圖像的基準數(shù)據(jù)集, 以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在建制村范圍內(nèi)進行分類訓(xùn)練, 進而對民居的多維度特征進行機器識別與判讀, 因為CNN已經(jīng)被證明了其在這類任務(wù)中強大的能力[4-5].
圖1 民居建筑數(shù)據(jù)集
綜上所述, 本研究的貢獻如下:
1) 提出了基于單體建筑物層面上的特征分類的一般框架;
2) 基于立面結(jié)構(gòu)構(gòu)建了一個用于訓(xùn)練建筑實例CNN分類器的建筑圖片基準數(shù)據(jù)集. 本研究所使用的數(shù)據(jù)集主要通過研究地村落現(xiàn)場圖片拍攝獲取;
3) 所獲得的建筑分類圖顯示了數(shù)據(jù)對于村落量化分析的潛力. 對后續(xù)理解村落布局結(jié)構(gòu)和成因量化將起到很大的幫助.
隨著大數(shù)據(jù)技術(shù)的推廣深化以及人工智能工業(yè)應(yīng)用的蓬勃發(fā)展, 越來越多的研究者嘗試結(jié)合人工智能手段和傳統(tǒng)學(xué)科之間的大數(shù)據(jù)展開系統(tǒng)、 深入的挖掘[6-7]. 本次研究主要通過深度學(xué)習(xí)的方法對傳統(tǒng)民居建筑風(fēng)貌進行特征提取判讀. 建筑單體圖片是反映建筑風(fēng)貌的最直觀的數(shù)據(jù), 通過圖片元素對建筑的風(fēng)格、 材質(zhì)和結(jié)構(gòu)形式等多個物理特征進行分辨, 在過去的幾十年里, 對圖片的機器理解仍然是模式識別和圖像分類領(lǐng)域的一個活躍的研究課題. 具體來說, 給定一個建筑單體圖像, 不僅檢測到單個建筑立面元素以及它們的物理屬性, 還檢測到與此更為高級相關(guān)的有意義的語義單元, 可以識別出相關(guān)信息(如風(fēng)格、 建筑質(zhì)量). 早期的工作集中于基于低級圖像處理的平面圖分析, 如通過霍夫變換[4]的線檢測, 通過字袋模型[8]的圖形符號識別. 對于建筑幾何特征和外觀形式及組合模式的主要依賴于圖片所反映的建筑物理屬性進行判斷識別. 近年來, 一些基于CNN的數(shù)據(jù)驅(qū)動技術(shù)[9-11]已經(jīng)取得了很好的效果. 然而, 他們使用的公共數(shù)據(jù)集[9,12-14]是從城市住宅中收集的 , 居住建筑外觀的復(fù)雜性是有限的, 而圖形元素則是常規(guī)形式. 相比之下, 農(nóng)村住宅受地形、 氣候和居住習(xí)慣等多方面因素的影響, 其建筑結(jié)構(gòu)更加復(fù)雜 , 風(fēng)格更加多元. 因此, 不同農(nóng)村地區(qū)的建筑有著不同的幾何結(jié)構(gòu)形式和建筑外觀風(fēng)格. 這些因素使得人工智能對于建筑的分類效果不能獲得令人滿意的預(yù)測結(jié)果.
本研究的主要步驟流程是對村落民居的圖片采集、 圖片預(yù)處理、 民居風(fēng)貌特征分類與映射. 此次圖片數(shù)據(jù)的采集主要是通過對元陽多依樹村進行人工拍照的方式獲取各個自然村民居建筑圖片, 在此基礎(chǔ)之上, 對圖片進行初期的篩選及圖片預(yù)處理, 同時結(jié)合規(guī)劃文件的需要, 對民居建筑的特征提出了4個方面的特征指標描述. 根據(jù)4個特征特點在多個不同卷積神經(jīng)網(wǎng)絡(luò)模型上進行隨機分割圖片數(shù)據(jù)的預(yù)測指標得分對比, 進而選出最優(yōu)模型結(jié)構(gòu). 在此基礎(chǔ)上, 采用測試集數(shù)據(jù)進行數(shù)據(jù)驗證, 判別模型的可行性.
CNN可以應(yīng)用在場景分類和圖像分類, LeNet是最早的CNN結(jié)構(gòu)之一, 主要用在字符分類問題(圖2). 由于在程序中使用了卷積運算, 不僅可以提取圖片的特征, 而且卷積運算保持了像素之間的空間關(guān)系. 在CNN中, 使用了濾波器作為特征提取器, 而通過卷積得到的矩陣則稱為“特征圖”. 在選擇特定的CNN時, 應(yīng)考慮到目標對象的圖像特征, 如農(nóng)村建筑與城市建筑之間的差異, 以及粗粒度建筑的情況. 因為現(xiàn)實世界的分類問題都是非線性的, 而卷積運算是線性運算, 所以在使用CNN來解決的時候, 必須使用一個如ReLU(或其他非線性函數(shù), 如Tanh和Sigmoid, )的非線性函數(shù)來加入結(jié)果的非線性的性質(zhì), 然后采用下采樣的形式, 提取經(jīng)過ReLU的處理過后的特征值, 或提取元素平均值或提取最大值, 從而在保持圖片重要的信息的同時降低特征圖的維度. 最后通過全連接層(多層感知器), 使用一個softmax激活函數(shù), 將前面卷積層提取到的特征結(jié)合在一起然后進行分類. 得出一個值0-1的向量, 通過概率值來判斷圖片分類.
圖2 CNN示意
近年來, 深度學(xué)習(xí)方法, 特別是CNN在各種計算機視覺任務(wù)中的表現(xiàn)已經(jīng)超越了傳統(tǒng)的方法, 如其在目標檢測、 語義和圖像分割方面均取得很好的研究成果. 用標簽標注圖像像素的方法是基于圖像中的語義來進行劃分識別的, 也就是說該算法從圖像中將存在于圖像中的, 諸如汽車、 樹木或建筑物作為語義從整個圖像中提取出來, 并將每個語義進行標定. 此外, 在計算機視覺領(lǐng)域, 有大量的研究是關(guān)于卷積神經(jīng)網(wǎng)絡(luò)中使用的各種模塊, 這些模塊利用了“每個對象分類”的概念. 這些模塊, 如卷積和金字塔池, 提高了語義分割任務(wù)的算法性能. 近年來, 隨著芯片處理能力(如GPU單元)的顯著提高, 計算硬件成本的顯著降低, 以及機器學(xué)習(xí)算法的顯著進展[15], 深度學(xué)習(xí)在圖像識別領(lǐng)域取得了迅速的進展, 從而大大提高了計算機的處理能力.
隨著城市更新從“增量時代”到“存量時代”的變遷, 建成環(huán)境的數(shù)據(jù)以及與之對應(yīng)的人類行為數(shù)據(jù)之間的關(guān)系愈發(fā)密切, 大數(shù)據(jù)通過證明以人為本的視角、 及時和實時的信息和精細分辨率的空間動態(tài)規(guī)律[16]. 面對建成環(huán)境所產(chǎn)生的諸如遙感影像和街景圖片的數(shù)據(jù)研究, 經(jīng)過過去幾年的圖像分析研究土地規(guī)劃領(lǐng)域[17], 高分辨率(VHR)遙感圖像的語義標簽, 為圖像中的每個像素分配一個類別的任務(wù), 包括土地使用規(guī)劃、 基礎(chǔ)設(shè)施管理和城市擴張檢測, 采用深度學(xué)習(xí)介入的方式已經(jīng)被廣泛采用.
隨著深度學(xué)習(xí)技術(shù)研究的深入, 街景圖片因為其自身數(shù)量上的特征, 并且其所附帶的地理位置信息的特點, 逐漸成為對于建成環(huán)境進行量化研究的重要數(shù)據(jù)來源. 基于人本視角的空間量化評測成為研究的重要方向, 包括對于街道的風(fēng)貌特征、 環(huán)境特征、 建筑材料和功能的檢測、 建筑立面構(gòu)件的語義分割與街景環(huán)境之間的關(guān)系. Gong等[18]開發(fā)了一種方法準確估計天空景觀因子, 使用公開的谷歌街景(GSV)圖像和深度學(xué)習(xí)輸出算法提取街道特征(天空、 樹木和建筑). 此外, Gonzalez等[19]探索了使用CNN自動檢測基于街道水平圖像的建筑材料和橫向負載抵抗系統(tǒng)類型的潛力. 在本研究測試的5種網(wǎng)絡(luò)架構(gòu)中, ResNet50的性能最好. Dai等[20]提出了一種新的集成模型, 用于建筑立面組件的語義分割, 以便對需求進行分類用于建筑改造的街景建筑立面圖像數(shù)據(jù)集.
本研究提出了一種新的基于深度學(xué)習(xí)的建筑分類識別框架, 重點是更好地理解村落民居的建筑風(fēng)貌劃分. 為此, 首先建立了一個新的數(shù)據(jù)集, 其中包含420個真實民居建筑風(fēng)貌圖片, 其中每個建筑的特征屬性都進行了手工標注 . 與之前的工作相比 , 本研究不僅標記了建筑的幾何特征和風(fēng)貌信息, 還對建筑的材質(zhì)特征和建筑質(zhì)量特征進行了相應(yīng)的信息標注.
基于數(shù)據(jù)集的特點, 設(shè)計了基于ResNet架構(gòu)的3種不同的語義分割模型, 并以集成的方式進行訓(xùn)練.
3.1.1 數(shù)據(jù)集和研究區(qū)域
民居建筑單體圖片的采集主要采用EOS 200D II(EF-S 18-55mm f/4-5.6 IS STM1)設(shè)備采集, 由于多數(shù)民居均處于山地, 為了更為全面的反映建筑自身特點, 采用3個獨立的方位進行拍照采集, 每張圖片像素均為2 048×2 048, 3張圖片形成一個覆蓋建筑單體的圖片數(shù)據(jù)組, 反映建筑單體各項物理特征. 用于構(gòu)建數(shù)據(jù)集的圖像是課題組在被列入世界遺產(chǎn)名錄的紅河哈尼梯田景區(qū)的核心部位——元陽多依樹村進行的數(shù)據(jù)采集. 目前還沒有針對少數(shù)民族民居建筑類型的的數(shù)據(jù)庫, 因此參考英國住宅建筑類型學(xué)數(shù)據(jù)庫進行了特征分類. 該數(shù)據(jù)庫根據(jù)建筑類型對建筑特征進行分類, 其定義的3種主要建筑類型包括單戶住宅、 多戶住宅和排屋. 此次研究形成的數(shù)據(jù)集共涵蓋420棟獨立的民居建筑, 共計1 260張圖片, 其中有133張由于拍攝光線和鏡頭抖動的原因, 被判為廢圖, 有效圖片共計1 127張. 該數(shù)據(jù)集被分為訓(xùn)練集、 驗證集和測試集, 其比例分別為80%,10%和10%. 因此, 訓(xùn)練集有901張圖像, 驗證集和測試集各有113張圖像.
結(jié)合民居建筑和深度學(xué)習(xí)特點, 對圖片分類的建筑特征指標包括建筑層數(shù)、 建筑風(fēng)格、 建筑質(zhì)量和建筑材料等4個特征進行實驗. 同時為了能夠增強模型的泛化性, 考慮到在實際的使用場景中, 模型的識別率會受到天氣、 拍攝角度和光照等因素的影響, 為了能夠讓數(shù)據(jù)的分布盡可能接近真實世界, 本研究對數(shù)據(jù)進行了數(shù)據(jù)增強, 方式有隨機翻轉(zhuǎn)、 隨機旋轉(zhuǎn)、 隨機顏色和亮度變換等(圖3).
圖3 數(shù)據(jù)增強
考慮到傳統(tǒng)民居建筑的特點和實際場景應(yīng)用時對實時性的要求, 選用了3種卷積神經(jīng)網(wǎng)絡(luò)模型在本研究的數(shù)據(jù)集上做了充分的實驗, 這3組模型分別是MobileNetV3,ResNet50和EfficientNetB3a, 3組模型的網(wǎng)絡(luò)結(jié)構(gòu)見表1-表3.
表1 EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)
表2 MobileNet 網(wǎng)絡(luò)結(jié)構(gòu)
表3 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
ResNet通過殘差模塊解決了深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中梯度消失和爆炸的問題, 在多個數(shù)據(jù)集上都表現(xiàn)出良好的性能, 同樣也適用于本次研究的傳統(tǒng)民居數(shù)據(jù)集. MobileNet使用深度可分離卷積在保證一定模型精度的前提條件下, 大大降低了模型的參數(shù), 相對于本次實驗的其他兩組模型, 參數(shù)量最少, 更適用于實時的計算場景. EfficientNet通過復(fù)合模型縮放的技術(shù)在網(wǎng)絡(luò)結(jié)構(gòu)上進行搜索, 對卷積和的大小、 神經(jīng)網(wǎng)絡(luò)的深度和分辨率大小進行調(diào)整, 在保證一定效率的同時提高模型的精度, 但是模型的參數(shù)較多, 計算相對較慢, 更適合于一些對實時性不高的應(yīng)用場景.
本研究模型的實驗環(huán)境為Inter@core i7-9700K處理器, 顯卡為NVIDIA Geforce GTX3090 24GB, 內(nèi)存為32GB, 操作系統(tǒng)為Ubuntu 20.04, 64位系統(tǒng), CUDA11.3, CUDNN8.0.1, 深度學(xué)習(xí)框架為Pyotrch1.8.0, 編程語言為Python3.8.5, 集成開發(fā)環(huán)境為PycharmCE2022, 繪圖工具為Matplotlib1.3.1.
本次研究是基于深度卷積神經(jīng)網(wǎng)絡(luò)進行的, 深度學(xué)習(xí)在訓(xùn)練之前需要保證超參數(shù)一致, 在4組數(shù)據(jù)的3個模型實驗上, 測試修改了網(wǎng)絡(luò)結(jié)構(gòu)和最后的全連接層, 其余的參數(shù)均保持一致. 數(shù)據(jù)訓(xùn)練的批次大小為4, 輪數(shù)設(shè)置為10, 學(xué)習(xí)率初始為0.001, 采用余弦退火算法動態(tài)調(diào)整學(xué)習(xí)率, 優(yōu)化器使用的是ADAM優(yōu)化器, 采用遷移學(xué)習(xí)的方式對模型進行訓(xùn)練, 在模型訓(xùn)練之前加載了模型在Imagenet上的預(yù)訓(xùn)練權(quán)重. 值得一提的是, 為了解決訓(xùn)練過程中樣本類別分布不均的問題, 采用了Focalloss的損失函數(shù), 相對于傳統(tǒng)的交叉熵損失函數(shù)可以幫助模型快速收斂, 該損失函數(shù)的公式為:
Focal Loss由Facebook人工智能研究院于2018年2月提出[21], 本研究探討了一階段目標檢測比二階段目標檢測精度差的原因, 即分類問題中類別不平衡以及分類難度存在差異, 并根據(jù)該原因提出了Focal Loss損失函數(shù). 以二分類問題為例, 傳統(tǒng)的交叉熵損失函數(shù)的定義見(1)-(3), 其中y′表示預(yù)測值, 即使用Sigmoid激活函數(shù)得到的預(yù)測值,y表示的是真實標簽, 取值為0或1, 1表示正樣本, 0表示負樣本. 該損失函數(shù)存在的一個明顯問題就是對于正樣本而言, 輸出概率越大損失越小, 對于負樣本而言, 輸出概率越小損失越小, 這樣會導(dǎo)致模型在大量簡單樣本的迭代過程中參數(shù)更新緩慢, 并且無法優(yōu)化到最優(yōu). 針對這一問題, 本研究在該損失函數(shù)的基礎(chǔ)上引進了參數(shù)γ和參數(shù)α, 通常γ取2,α取0.25.γ參數(shù)的主要作用是讓模型關(guān)注難區(qū)分的樣本, 以正樣本為例, 當預(yù)測概率取值較大時, 函數(shù)的損失值會變得很小, 而當概率值取值較小時, 損失函數(shù)值會變得很大, 從而降低了簡單樣本的影響, 增加了模型的訓(xùn)練速度和泛化能力.α參數(shù)則主要是解決正負樣本比例不均衡的問題, 用來平衡正負樣本的重要性. 將二分類的Focal loss推廣到多分類問題上, 可以得到(1)-(3)式所示的損失函數(shù).
圖4-圖7是4組模型在訓(xùn)練過程中驗證集上Loss和ACC的變化, 其中藍色曲線表示MobileNetV3, 黃色曲線表示ResNet50, 綠色曲線表示EfficientNet. 從結(jié)果可以看出, 模型的Loss在第5個Epoch之后基本趨于收斂, 模型驗證集上的ACC也在第5個Epoch之后趨于平穩(wěn), 并且從ACC的曲線中可以看出, 模型整體在數(shù)據(jù)驗證集的表現(xiàn)中, EfficientNet的效果最佳, MobileNet的效果較差, ResNet表現(xiàn)適中.
圖4 樓層實驗
圖5 建筑風(fēng)格
圖6 建筑質(zhì)量
圖7 建筑材料
通過本次實驗對傳統(tǒng)民居建筑特征進行量化研究, 在評價指標上選用了分類模型中常用的3個指標, 分別是準確率P、 召回率R和綜合評價指標F1.
對于一個機器學(xué)習(xí)模型而言, 可以將樣本的真實類別和模型預(yù)測的類別進行組合, 劃分為如表4所示的4種情況, 將4種情況下所對應(yīng)的樣本數(shù)相加得到的數(shù)量就是樣本總數(shù), 即TP+FP+TN+FN=樣本總數(shù).
表4 樣本真實情況和預(yù)測結(jié)果對照表
根據(jù)定義, 可以衍生出查全率(recall, 簡寫為R)和查準率(precision, 簡寫為P)兩個概念, 計算公式為
(4)
(5)
F1和ACC則是綜合評價指標, 可以同時兼顧模型的精度和召回率,F1的定義如下:
3.4.1 性能指標
在測試集上對本研究的模型進行了測試, 測試的結(jié)果見表5-表7.
表5 召回指標R
表6 準確率指標P
表7 F1分數(shù)指標
3.4.1 速度指標
對訓(xùn)練得到的模型進行了速度上的測試(表8), 測試的指標是FPS, 即模型在1s之內(nèi)能處理多少張圖片, 測試的設(shè)備是RTX3090.
表8 速度指標
從結(jié)果上來看, 使用深度學(xué)習(xí)模型在4種建筑要素分類上的指標均可以達到80以上, 其中EfficientNet模型在識別指標上表現(xiàn)最好, 綜合指標表現(xiàn)最好; 而MobileNet在速度上表現(xiàn)最好, 但是精度相對較低. 從總體上看, 模型在建筑風(fēng)格、 建筑質(zhì)量和建筑材料的表現(xiàn)都較好, 在建筑樓層的識別上表現(xiàn)較差, 分析原因是樓層的特征對于其他3個建筑要素來說相對表面, 深度神經(jīng)網(wǎng)絡(luò)提取的深度特征反而不利于樓層的識別, 后續(xù)的研究可采用語義分割的方法來提高建筑樓層識別的準確率. 另外, 從總體指標上來看, 本研究的指標并沒有達到90以上, 其原因是本研究的數(shù)據(jù)多采集自真實場景, 在建筑周圍有很多嘈雜的背景導(dǎo)致模型學(xué)習(xí)的相對困難, 后續(xù)可以通過語義分割的方式提取干凈的建筑前景區(qū)域來進一步提高識別的準確率和精度.
本次研究的數(shù)據(jù)來自2021年的元陽多依樹村調(diào)研, 就數(shù)據(jù)來源的時效性而言, 能夠很好地體現(xiàn)村落目前的保護情況. 由于地理環(huán)境和民族地區(qū)發(fā)展的原因限制, 云南本地傳統(tǒng)村落的調(diào)研和保護受到很大的影響, 現(xiàn)有的數(shù)據(jù)采集方法多依賴于人工現(xiàn)場調(diào)研, 使得調(diào)研的成本變得昂貴, 時間周期拉長, 本次研究提出的研究方法, 對采集到的數(shù)據(jù)集的分類和映射具有較高的自動化性, 從目前的測試結(jié)果來看, 能夠?qū)ㄖ亩囗椞卣髦笜水a(chǎn)生一個較好的評測結(jié)果, 有助于減少未來村落民居建筑研究中因人工認知差異而造成的結(jié)果的不穩(wěn)定性. 云南省有25個少數(shù)民族, 每個民族由于其自身的文化和地理位置造就了不同的建筑風(fēng)格, 但每種建筑風(fēng)格都不同程度地因為發(fā)展的原因有了變化和異化, 隨著數(shù)據(jù)量的增加和具體參數(shù)的調(diào)整, 本次研究的這種方法是可轉(zhuǎn)移的, 而且準確性會逐漸提高, 可以為傳統(tǒng)村落的保護政策研究提供數(shù)據(jù)上的量化參考.
本次的研究所采集的數(shù)據(jù)目前還是主要依靠人工進行現(xiàn)場拍照的形式進行, 雖然與目前的圖片數(shù)據(jù)采集技術(shù)(如3維激光采集、 傾斜攝影數(shù)據(jù)采集)相比, 人工采集的圖片具有容量小、 清晰度高和建筑細節(jié)準確性等特點, 但在數(shù)據(jù)的采集過程中還存在一定的主觀性和天氣氣候及光線的隨機性, 給數(shù)據(jù)的客觀性帶來了一定的波動性. 此外, 由于云南省的民族眾多, 村落所在地理環(huán)境復(fù)雜, 導(dǎo)致民居形式豐富, 對每個民族或每個區(qū)域的村落風(fēng)貌的界定需要進一步地提高數(shù)據(jù)集數(shù)量, 并且對模型的參數(shù)做進一步的調(diào)試, 找到一定的規(guī)律性(如本次研究中, 對增強數(shù)據(jù)的參數(shù)進行了多輪調(diào)試, 在測試結(jié)果的ACC和F1值上都取得了很好的提高), 在此過程中, 通過對參數(shù)的調(diào)試, 可以看出CNN模式對圖像的知覺認知的指標分類具有很好的潛力, 這是研究下一步需要進一步加強和完善的地方.
本研究提出了一個民居建筑風(fēng)貌分類的研究框架, 它能夠?qū)D片進行更豐富的分類. 該方法對單體民居建筑物的特征分類具有較高的識別精度. 為了完成這個任務(wù), 本研究構(gòu)建了一個包含4個民居建筑特征類別的人工采集的基準數(shù)據(jù)集, 用于訓(xùn)練和測試. 通過研 究3種不同的CNN架構(gòu) , 選擇綜合指標表現(xiàn)最優(yōu)的EfficientNetB3a進行村落尺度上的民居建筑特征分類. 這樣的研究結(jié)果有助于了解村落民居發(fā)展和異化的規(guī)律.
為了提高模型的泛化力和對圖片分類性能的準確性, 未來的工作可以融合其他信息, 如社交媒體圖像和圖像中顯示的文本信息, 又如圖片標題和圖片附帶的情感語言信息. 此外, 為了獲得更密集的民居村落圖片, 可以結(jié)合遙感影像圖像和附帶地理信息的傾斜攝影圖像數(shù)據(jù)(建筑數(shù)據(jù)單體化)進行多源的數(shù)據(jù)綜合測評研究. 在此基礎(chǔ)上, 由于有了量化的數(shù)據(jù)測評, 如果在后續(xù)的研究中加入時間維度的考量, 就能夠?qū)Υ迓涿窬语L(fēng)貌的變化有更為準確的量化描述, 對于村落保護的監(jiān)測具有更為重要的意義.