摘要:橋梁設計圖紙中含有重要的鋼筋數量信息,施工過程中需要利用鋼筋數量信息進行鋼筋的分配工作,同時這些信息可以在新項目設計時提供設計經驗,然而這些鋼筋數量信息通常以表格形式保存在紙質圖紙中,對查閱和參照造成了不便?;诖?,提出了一種從橋梁設計圖紙中歸集鋼筋數量的方法,首先在YOLOv7的骨干網絡中,融入卷積注意力模塊(CBAM)注意力機制獲取更多細節(jié)特征,在頭部結構中引入多分支卷積RFB模塊,提升模型對小目標的特征表達能力,基于改進后的YOLOv7對橋梁設計圖紙的表格和圖簽欄進行目標檢測;其次利用PP-StructureV2的表格識別功能對圖紙中的表格和圖簽欄進行表格識別,經過匯總驗證,最終生成包含所有鋼筋數量信息的Excel文檔,實現橋梁設計圖紙中鋼筋數量信息的歸集。利用安徽省交通規(guī)劃設計研究總院股份有限公司提供的橋梁設計圖紙進行實驗研究,實驗結果表明,改進的YOLOv7算法的F1 Score可達到98.35%,和原始YOLOv7算法相比,提升了0.86%,可滿足從橋梁設計圖紙中檢測表格以及圖簽欄的要求。
關鍵詞:橋梁設計圖紙;目標檢測;YOLOv7;PP-StructureV2;表格識別;歸集;鋼筋數量表
中圖分類號: TP391.4文獻標志碼:文獻標識碼A
Methods of collecting rebar quantities information in bridge design drawings
based on deep learning
HU" Mengnan1,CHENG" Zhiyou1,AN" Ning2,WANG" Chuanjian1*,ZHU" Junan1,YIN" Liang3,
WANG" Qian3
(1 School of Internet, Anhui University, Hefei,Anhui 230031, China; 2 School of Electronic and Information Engineering, Anhui
University,Hefei,Anhui 230031, China; 3 Anhui Transport Consuling amp; Design Institute Company Limited,
Heifei,Anhui 230088, China)
Abstract: There exists rebar quantity information in bridge design drawings, which is used in the construction process for rebar allocation work, and at the same time, this information can provide design experience in the design of new projects, however, this rebar quantity information is usually saved in paper drawings in the form of tables, which is inconvenient for access and reference. Based on this, a method is proposed to summarize the rebar quantity from bridge design drawings. Firstly, in the backbone network of YOLOv7, the convolutional attention module (CBAM) attention mechanism is incorporated to obtain more detailed features, and the multi-branch convolutional RFB module is introduced in the head structure to improve the feature expression ability of the model for small targets, object detection of normal tables and title block of bridge design drawings based on improved YOLOv7; secondly, the table recognition function provided by PP-StructureV2 is used to identify the table of common table norma tables and title block in the drawings; after summarization and validation, an Excel table containing all the rebar quantity information is finally generated to realize the summarization of rebar quantity information in bridge design drawings. Next, PP-StructureV2 is used to identify the common tables and title column tables in the drawings, and after summarizing and verifying, an Excel table containing all the rebar quantities information is finally generated to realize the aggregation of rebar quantities information in the bridge design drawings. Experimental studies were conducted using the bridge design drawings provided by Anhui Transport Consuling amp; Design Institute Company Limited. The experimental results show that the F1 Score of the improved YOLOv7 algorithm provided in this paper can reach 98.35%, which is 0.86% higher compared with the original YOLOv7 algorithm, and it can meet the requirements of detecting the common table as well as the title block table from the bridge design drawings.
Key words: bridge design drawings;object detection;YOLOv7;PP-StructureV2;table recognition;collect;rebar quantity tables
隨著我國交通建設事業(yè)的迅速發(fā)展,交通建設設計得到了大力支持。橋梁設計是整個建設過程中的關鍵環(huán)節(jié),決定了具體建設的實施方向[1]。作為交通工程設計中技術難度最大、安全關注度最高的部分,橋梁設計存在著周期短、工作量大以及較多重復設計工作的情況。在橋梁施工圖設計階段,設計人員通常會參考已有橋梁項目的設計圖紙,借鑒其中的參數信息,減少試算過程,傳承設計經驗。配筋率是橋梁設計中影響受力特征的一個重要參數,即鋼筋混凝土構件中縱向受力(拉或壓)鋼筋的面積與構件的有效面積之比,對橋梁的結構性能和安全性起著至關重要的作用,控制配筋率可以防止構件發(fā)生少筋破壞[2]。橋梁設計圖紙具有數據量大、來源分散的特點,對于計算配筋率這樣的任務,采用傳統(tǒng)的手工方法收集和管理這些數據將耗費大量的時間、資金和人力。在橋梁施工期間,施工人員需要對圖紙內的鋼筋數量信息進行讀取,以便進行施工工作。然而,由于圖紙通常是紙質形式,翻閱和查找起來相對困難。因此,需要探索新的方式來快速查閱并獲取所需鋼筋數量信息。
建筑信息模型(Building Information Modeling,BIM)是建筑、工程、施工和運營行業(yè)中一個廣泛的知識領域,產生一種在整個建筑生命周期中以數字格式管理基本建筑設計和項目數據的方法,可提高建筑信息的交互性[3],將設備監(jiān)測數據與工程數據集成管理,為運維過程中的分析和決策提供支持,充分發(fā)揮工程信息的價值[4]。BIM的重建可以從現有的設計圖紙中提取,設計圖紙中不僅包含圖形和結構組成,還包含大量的文本和表格信息,這些信息成為后續(xù)信息化管理的重要來源。然而很多建筑目前僅有紙質的圖紙資料,重建BIM是一項費時費力的工作。
伴隨著深度學習的發(fā)展,目標檢測技術在各個領域得到廣泛應用,通常可以分為兩大類別:單階段算法和雙階段算法。雙階段代表性算法為基于區(qū)域的更快卷積神經網絡(Faster Region-based Convolutional Neural Network,Faster RCNN)[5],檢測精度高但速度慢。You Only Look Once(YOLO)系列算法[6-9]是典型的單階段目標檢測算法,檢測速度較快,但檢測精度略低于雙階段算法。隨著YOLO算法的更新迭代,YOLOv5[10]、YOLOv6[11]、YOLOv7[12]的出現,檢測精度也在逐漸升高,已經不遜色雙階段算法。近年來研究人員也在嘗試利用目標檢測技術從工程圖紙中識別信息,Zhao等[13]于2021年提出了一種從現有建筑物的2D結構圖紙重建BIM的方法,利用Faster RCNN從圖紙中檢測柱和梁,同時利用py-tesseract工具提取圖紙中的標注信息,生成工業(yè)基礎類(Industry Foundation Classes,IFC)格式的BIM結構模型;楊墨逸等[14]2022年提出了一種改進Cascade RCNN方法,從二維圖紙識別風管設備,提取出風管的類別和位置信息;周權等[15]2021年提出了一種利用Faster RCNN從二維圖紙識別建筑構件信息,并py-tesseract工具提取文本信息的方法;潘灶林等[16]2022年通過Cascade Mask RCNN抽取供暖、通風和空調圖紙中構件語義和幾何信息;LU等[17]2017年提出了一種從二維圖紙中識別結構構件的方法,先識別二維圖紙中的特殊符號,然后利用光學字符識別(Optical Character Recognition,OCR)技術從圖紙中提取構件的位置。Zhao等[18]于2020年提出一種基于YOLO的方法,從掃描的2D圖紙中檢測建筑構件。
當前對工程圖紙的識別,大多是對圖紙中的構件進行檢測,并提取構件相關文字信息,忽略了圖紙中的表格信息,而圖紙中會有很多重要信息以表格形式保存。盡管當前有很多公開的表格數據集,如UNLV、ICDAR 2013、ICDAR 2019等,這些數據集來自雜志、電子書、網站等[19],但這些數據集中表格的寬高比與工程圖紙中的表格不同,在這些數據集上的訓練的結果并不能直接應用于工程圖紙中,而且目前沒有公開的針對工程圖紙的表格檢測數據集。
基于以上現狀,本文提出了一種橋梁設計圖紙中鋼筋數量信息的歸集方法?;诟倪M的YOLOv7算法對橋梁設計圖紙的表格和圖簽欄進行目標檢測,再利用PP-StructureV2[20]提供的表格識別功能,對檢測到圖紙中的表格和圖簽欄進行表格識別,最終生成包含所有鋼筋數量信息的Excel文檔。本文結合了深度學習、圖像處理和OCR技術,對圖紙內的鋼筋數量信息進行讀取整合,方便設計人員在設計期間對已有橋梁項目參照,同時也方便了施工人員查閱圖紙,為現有建筑的BIM重建提供必要的數據支持。
1 資料與方法
本文提出一種從橋梁設計圖紙中歸集鋼筋數量的方法,分為3個階段:(1)基于改進的YOLOv7算法從橋梁設計圖紙中檢測表格以及圖簽欄;(2)使用表格識別技術將從橋梁設計圖紙中檢測到的表格及圖簽欄生成可編輯的Excel文件;(3)將圖簽欄信息和表格信息進行匹配,歸集橋梁設計圖紙中的所有鋼筋數量表,對識別出的鋼筋數量信息進行計算驗證。
1.1 數據集
為了從工程圖紙中檢測表格以及圖簽欄信息,需要大量帶有類別標簽的圖像來訓練和測試改進的YOLOv7模型。然而到目前為止,還沒有公開的、通用的具有表格以及圖簽欄的圖像數據集。從安徽省交通規(guī)劃設計研究總院股份有限公司收集了以pdf格式保存的橋梁設計圖紙文件,使用pdf2image開源庫將pdf轉為jpg格式的圖片。因此本研究收集并建立了1 000張分辨率為2 381×1 684大小的橋梁設計圖紙組成的原始數據集,對原始數據集的所有圖像進行加高斯噪聲處理,得到2 000張圖片組成的數據集,數據集里的圖像如圖1A所示,通常由表格、圖形、注釋以及圖簽欄構成。使用labelimg標注工具對數據集進行標注,將要檢測的表格和圖簽欄劃分并標記為2個類別:Table、Information,標注示例圖像如圖1B所示,其中紅色框為表格區(qū)域,藍色框為圖簽欄區(qū)域,將標注后的信息以YOLO格式輸出保存。
對數據集進行劃分,80%用于訓練集,剩余的20%用作驗證集以評估表格檢測模型的性能。每個數據集中的訓練和測試圖像的數量如表1所示。
1.2 表格的檢測
1.2.1 YOLOv7模型
YOLOv7的網絡結構如圖2所示,可看出YOLOv7網絡由3個部分組成:輸入(Input)、主干網絡(Backbone)和頭部結構(Head),主干網絡由若干CBS層、ELAN層以及MP1層組成,其中CBS層由卷積層+BN層+SiLU激活函數組成;ELAN層也是由不同的卷積拼接而成,它通過控制最短和最長的梯度路徑,使網絡能夠學習到更多的特征;MP1模塊有2個分支,作用是進行下采樣。整個Head層通過SPPCSPC層、若干個CBS層、若干MP層、若干ELAN-H層以及3個REP層組成。輸入圖像后,先對輸入的圖片預處理,對齊成640×640大小的RGB圖片,輸入到Backbone網絡中,根據Backbone網絡中的三層輸出,在Head層繼續(xù)輸出3層不同尺寸大小的特征圖,經過REP和Conv操作,對圖像進行預測,輸出最后的結果。
1.2.2 CBAM注意力機制
在YOLOv7的骨干網絡中引入卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)注意力機制,CBAM注意力機制的結構如圖3所示,主要包括2個模塊:通道注意力模塊和空間注意力模塊。通道注意力模塊可以使神經網絡能夠更好地學習通道間的依賴關系,重點檢測目標的內容。空間"" 注意力模塊通可以使神經網絡更好的學習不同位置之間的關系,重點檢測目標的位置。兩者結合可以使輸出信息更加聚焦在重點特征,達到提高模型檢測性能的目的。
本研究將CBAM注意力機制融入主干網絡的第二個和第三個ELAN模塊后,將最終生成的特征傳遞給Head層。
1.2.3 多分支RFB模塊
為進一步提高有效特征的感受野,更好的在橋梁設計圖紙中檢測圖簽欄,在Head層引入多分支卷積(Receptive Field Block,RFB)模塊[21]。RFB模塊的提出靈感來源于人類視覺的感受野,其結構如圖4所示,該模塊使用了3個不同尺寸(1×1、3×3、5×5)的卷積核構成了多分枝結構。首先通過1×1的卷積核進行降維操作,接下來分別對降維后的特征圖使用1×1、3×3和5×5的卷積核進行卷積操作,不同大小的卷積核對應連接膨脹率為1、3、5的空洞卷積,可在擴大感受野的同時不增加其計算量,再次使用1×1的卷積調整特征維度,隨后與shortcut執(zhí)行相加操作,經過ReLU激活函數輸出特征。RFB模塊的引入可擴大感受野,提升模型對小目標的特征表達能力,提升網絡的檢測性能,改進后的YOLOv7網絡結構如圖5所示。
1.2.4 待識別內容的獲取
將待檢測的橋梁設計圖紙輸入改進的YOLOv7檢測模型,若圖中存在表格目標以及圖簽欄目標,則返回其在圖像里的相對位置;若圖中無目標,則返回結束。對于檢測后的橋梁設計圖紙的坐標系統(tǒng),以圖像左上角為原點,相對位置為表格外框線的左上頂點坐標和右下頂點坐標,設定表格為目標0,圖簽欄為目標1,輸出目標框的相對位置為txt文件,具體輸出結果格式為:
[目標0,[左上角橫坐標,左上角縱坐標,右下角橫坐標,右下角縱坐標]]。
[目標1,[左上角橫坐標,左上角縱坐標,右下角橫坐標,右下角縱坐標]]。
對于每個目標,根據其相對位置信息,在檢測后的橋梁設計圖紙中截取出橋梁設計圖紙中的表格和圖簽欄圖像。
1.3 表格的識別
1.3.1 PP-StructureV2
PP-StructureV2是一個開源的智能文檔分析系統(tǒng),能完成版面分析、表格識別等文檔理解相關任務。PP-StructureV2支持各個模塊獨立使用或靈活搭配,可單獨使用表格識別。表格識別主要包含3個模型:單行文本檢測、單行文本識別和結構位置對齊網絡(Structure Location Alignment Network,SLANet)。流程如圖6所示,表格圖像首先經過單行文本檢測模型,該模型檢測并獲取單行文字的坐標,然后將其傳遞給單行文本識別模型以獲取文字內容的識別結果。同時,該表格圖像也通過SLANet模型獲取表格的結構和坐標信息。接下來,將單行文字的坐標以及識別結果和坐標結合起來,生成單元格的識別結果。最后,將單元格的識別結果與表格結構一起用于構建表格,最終生成可編輯的Excel文件。
PP-StructureV2目前提供了中、英文2種語言的表格識別模型,針對橋梁設計圖紙,本研究采用中文語言表格識別模型用于識別截取下來的表格和圖簽欄目標。
1.3.2 圖簽欄圖像的處理
在對圖簽欄圖像進行表格識別時,由于圖簽欄目標過于細長,裁剪后的圖簽欄圖像的寬高比通常達到30∶1以上,可能會導致表格識別模型無法正確識別圖簽欄。因此需要對圖簽欄圖像的比例進行調整,如圖7所示,在圖像的上下兩側添加320像素寬度的邊框來調整圖簽欄圖像的寬高比,以滿足后續(xù)表格識別要求。最后將調整后的圖簽欄圖像送入表格識別模型。
1.4 表格的歸集
一個橋梁設計項目中會有多個鋼筋數量表出現,每一聯每一跨都有相應的鋼筋數量表,直接歸集所有的鋼筋數量表會導致在Excel總表中很難區(qū)分這些鋼筋數量表,利用python腳本,將圖簽欄中的橋梁設計圖信息插入表格中即可在總表中區(qū)分。首先判斷信息插入的條件,若同一張橋梁設計圖紙下同時存在表格和圖簽欄,將識別出的圖簽欄Excel文檔的第一行第三列的文字插入識別的表格Excel文檔中最后一欄,用于區(qū)分不同位置下的表格。其次根據識別到所有表格目標的標題,對標記為“鋼筋數量”的關鍵字進行判斷統(tǒng)計,將所有的鋼筋數量表匯總保存至一個新的Excel文檔內。將鋼筋的單根長度與數量進行相乘得到計算結果,利用計算結果與識別出的鋼筋總長進行對比,判斷是否相等,相等則認為識別到的單根長度、數量和鋼筋總長參數準確,將準確與否的結果寫入表格中,同時計算出準確的占比,即識別率,以便后續(xù)進行人工核驗和數據修改。最后對鋼筋數量總表里的鋼筋數量信息進行匯總,得到該項目下總的鋼筋數量信息。
2 結果與分析
2.1 實驗環(huán)境配置
本次實驗的硬件環(huán)境為Intel(R)Core(TM)7-13700H 2.40 GHz以及NVIDIA GeForce RTX 4060,CUDA(Compute Unified Device Architecture)版本為CUDA 11.7,Python版本為3.9.16,深度學習框架為Pytorch1.13.1。
實驗參數設置如下:輸入圖像經過resize處理后大小為640×640,迭代次數epoch為50,批量大小batch-size為8,將模型的初始學習率lr0設置為0.01,采用余弦退火算法降低學習率。
2.2 評估標準
為了定量評價表格檢測的性能,本研究采用了精確度(Precision,P)、召回率(Recall,R)、平均精度均值 (mean Average Precision,mAP)、F1 Score指標。精確度和召回率分別代表了模型區(qū)分陰性樣本和識別陽性樣本的能力。F1 Score可以看作是精確率和召回率的加權平均值,在分類模型中兼顧了兩者。F1 Score的取值范圍為0~1,該值越高說明模型的檢測效果越好。精確度、召回率和F1 Score的定義如下:
P=TPTP+FP,(1)
R=TPTP+FN,(2)
F1 Score=2TP2TP+FN+FP.(3)
其中TP(True Positive)、FP(False Positive)和FN(False Negative)分別表示每一類對象的真陽性、假陽性和假陰性檢測的數量。例如,表格檢測中,TP指的是正確識別的表格的數量,FP是被誤識別為表格的其他類別的物體的數量,FN是被檢測為其他物體的表格的數量。因此,TP+FP表示被檢測為表格的所有對象的數量,TP+FN表示表格的實際數量。
精度均值(Average Precision,AP)為精確度在召回率上的積分。計算公式為:
AP=∫10p(r)dr.(4)
式(4)中,r表示召回率,p(r)為精確度對召回率的函數。mAP為所有類AP的均值。其公式為:
mAP=1N∑N1AP(i).(5)
式(5)中,N為類別數量;AP(i)為第i類目標的AP值。用mAP@0.5和mAP@0.5∶0.9評價mAP指標,mAP@0.5表示IoU設為0.5時的mAP,mAP@0.5∶0.9表示在不同IoU閾值(從0.5到0.95,步長0.05)上的平均mAP。
2.3 對比實驗
為了評估在相同配置條件下,在主干網絡的特定位置引入不同的注意力機制對模型效果的影響,分別添加了SE注意力機制[22]、CA注意力機制[23]和CBAM注意力機制,并進行了對比實驗,具體實驗結果如表2所示。引入SE注意力機制后,精確度和召回率沒有提升,反而有所下降,這是由于橋梁設計圖紙屬于灰度圖像的特性,顏色以黑色和白色為主,缺乏通道間的彩色語義信息,而SE注意力機制只考慮編碼通道間信息,因此導致檢測精度降低;CA注意力機制將位置信息嵌入到了通道注意力中,引入CA注意力機制后,其精確度、召回率和平均精度都有所提升;相比較引入CA注意力機制,引入CBAM注意力機制后模型的F1 Score相同,但平均精度更高,故選擇CBAM注意力機制添加到主干網絡中,以提高模型整體性能。
為了直觀地了解引入不同注意力機制后的模型對目標的關注程度,并判斷網絡是否學習到正確的特征或信息,對特征圖作GradCAM[24](Gradient-weighted Class Activation Mapping)可視化處理。在可視化圖中,藍色表示低注意力,紅色表示高注意力,顏色越深,代表相關程度越大。以檢測圖紙中的表格目標為例,結果如圖8所示,圖中有2個表格目標,觀察出加入CBAM注意力機制后的模型更能聚焦在想要檢測的2個表格目標上,表格區(qū)域顏色較深,同時非表格區(qū)域的顏色較淺,說明模型能更關注表格區(qū)域,對表格特征區(qū)域的定位更加精準,驗證了CBAM注意力機制在本數據集上的優(yōu)越性。
為了驗證本文所使用的改進YOLOv7算法對橋梁設計圖紙的表格和圖簽欄的檢測效果,選用現今較為流行的目標檢測算法:單點多盒檢測器(Single Shotmultibox Detector,SSD)[25]、Faster RCNN、YOLOv3-tiny、YOLOv5s、YOLOv7在相同的數據集下進行對照比較。具體實驗結果如表3所示,其中,Faster RCNN的骨干網絡是ResNet50(Residual Network)[26],精確度在幾組實驗中最低,為69.1%;SSD的骨干網絡是VGG16 (Visual Geometry Group)[27],其召回率在幾組實驗中最低,僅為78.7%;YOLOv3-tiny的精確度僅高于Faster RCNN,其值為75.1%;YOLOv5s和YOLOv7模型在所有指標上表現出色,精確度、召回率均達到了95%以上;但本文提出的改進YOLOv7的各項評價指標在幾組實驗中均為最高值,由此說明,在網絡中引入RFB模塊的同時加入CBAM注意力機制能夠有效提升檢測效果。
將橋梁設計圖紙輸入各個訓練好的模型中,并與改進后YOLOv7算法的檢測結果進行對比,具體結果如圖9所示。其中,SSD未能成功檢測出圖簽欄,Faster RCNN、YOLOv3-tiny與YOLOv5對圖簽欄區(qū)域檢測不全,盡管YOLOv7對圖簽欄的位置定位較準確,但置信度為0.85,小于改進后的YOLOv7,這表明改進后的YOLOv7在處理橋梁設計圖紙時更能有效地檢測出圖簽欄,具備更高的準確性和置信度。
2.4 消融實驗
為了測試本文使用的改進YOLOv7算法中各個組成部分的貢獻和影響,設計多個消融實驗來評估效果,并將實驗結果匯總如表4所示。
首先,僅引入RFB模塊,精確度和召回率都有提升,F1 Score較原始YOLOv7提高了0.25%,mAP@0.5和mAP@0.5∶0.9分別上升了0.5%和2.0%;其次,僅加入CBAM注意力機制的試驗結果表明,召回率提升了0.6%,F1 Score提高了0.3%,mAP@0.5和mAP@0.5∶0.9分別上升了0.6%和2.8%;最后,同時引進RFB模塊和CBAM注意力機制,和YOLOv7相比,精確度和召回率均有提升,F1 Score提高了0.86%,mAP@0.5提高了0.7%,mAP@0.5∶0.9提高了3.0%,這表明RFB模塊和CBAM注意力機制的聯合引入在各項性能指標上均達到最優(yōu)效果。
2.5 實驗結果
改進的YOLOv7對表格和圖簽欄的檢測指標如表5所示,模型檢測圖簽欄的F1 Score為99.0%,mAP@0.5為99.0%,mAP@0.5∶0.9為67.4%,檢測表格的F1 Score為97.64%、mAP@0.5為97.6% mAP@0.5∶0.9為82.7%。檢測結果表明改進后的模型可以準確檢測到橋梁設計圖紙中的表格和圖簽欄信息。
為了驗證改進YOLOv7的泛化能力,從公開表格檢測數據集ICDAR 2019中隨機抽取了20%的數據作為測試集,將其輸入至訓練好的模型中進行測試,實驗結果顯示,精確度為88.9%,召回率為90.9%,F1 Score為89.89%,檢測結果如圖10所示。
可以觀察出圖10A和圖10B中的表格均能檢測出,這表明改進的YOLOv7在其他的表格檢測數據集上能有效地泛化,具有較強的適應能力。
將待檢測的橋梁設計圖紙送入改進的YOLOv7模型,檢測結果如圖11A所示,可以觀察到定位框和分類結果都較為準確,說明模型能準確的從橋梁設計圖紙中檢測所需信息。隨后從橋梁設計圖紙中截取到的表格和圖簽欄目標被送入表格識別模型,識別結果如圖11C所示,說明表格識別模型能有效地將圖像生成可編輯的Excel文件。
將表格識別模型所識別的所有鋼筋數量表匯總到一個Excel工作表中,已驗證的一部分鋼筋數量表如圖12所示。
圖中歸集了第四聯現澆箱梁普通鋼筋構造圖和第二聯現澆箱梁普通鋼筋構造圖中的鋼筋數量表,同時對鋼筋的根數、總長、總重量分別進行了匯總。表中相乘總長列的值是利用鋼筋數量表中的單根長和根數相乘得出,從驗證后的結果可以看出,表格識別模型對當前兩聯中的鋼筋參數識別結果的識別率為100%。
盡管最終識別出的鋼筋數量表已經能滿足需求,大部分的字符能夠正確識別,然而從識別出的鋼筋數量表中可以觀察出,部分字符會被錯誤識別,例如直徑列里的特殊符號,誤識別為文字“業(yè)”和符號“±”,原因是他們之間的形狀過于相似,而由PP-StructureV2提供的表格識別模型未對特殊符號進行訓練,導致了錯誤識別的發(fā)生,但該問題不影響后續(xù)對鋼筋參數信息的參考??傮w來說,利用改進后的YOLOv7模型和表格識別模型可以實現橋梁設計圖紙中鋼筋數量信息的歸集。
3 結論
本文提出了一種從橋梁設計圖紙中歸集鋼筋數量信息的方法,首先在YOLOv7的主干網絡中引入CBAM注意力機制,可更好的關注到要檢測的內容,引入多分支RFB模塊,提升了模型對小目標的特征提取能力。實驗結果表明,采用本文提出的改進YOLOv7算法,對橋梁設計圖紙中表格檢測的F1 Score可達到98.35%;利用PP-StructureV2提供的表格識別技術,最終生成了含有圖簽欄信息的鋼筋數量表總表,并且對識別出的數據進行了計算驗證。這些數據既能在施工過程中方便施工人員查看,也為現有建筑的BIM生成提供了重要的數據支持。該方法不僅可以在橋梁設計圖紙中提取表格信息,同樣適用于其他領域的工程圖紙,可以提高工程設計和管理的效率。這一方法具有廣泛的應用潛力,為各類工程提供了一種高效而準確的信息提取方法。
參考文獻(References)
[1] 李智勇.探析道路橋梁設計中存在的隱患問題[J].低碳世界,2017(30):207-208.
LI Z Y. Exploring the hidden problems in the design of road bridges[J]. Low Carbon World, 2017(30):207-208.
[2] 屈鐵軍,徐榮桓,石云興.配筋率對鋼筋混凝土構件彈性模量影響的試驗研究[J].混凝土,2014(9):113-115,119.
QU T J,XU R H,SHI Y X. Experimental study on influence of ratio of reinforcement to modulus of elasticity of reinforced concrete com ponent[J]. Concrete, 2014(9):113-115,119.
[3] SUCCAR B. Building information modelling framework: a research and delivery foundation for industry stakeholders[J]. Automation in Construction,2009,18(3):357-375.
[4] 田佩龍.基于BIM與建筑自動化系統(tǒng)的設備運維期監(jiān)控與管理[D].北京:清華大學,2017.
[5] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Proceeding of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press,2015,1: 91-99.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016:779-788.
[7] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2017:6517-6525.
[8] REDMON R, FARHIDI A. YOLOv3: an incremental improvement[EB/OL].(2018-04-08)[2023-08-20].http://arxiv.org/pdf/1804.02767.pdf.
[9] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2023-08-23].https://arxiv.org/pdf/2004.10934.pdf.
[10] Ultralytics. YOLOv5[EB/OL].[2023-06-23].https://github. com/ultralytics/yolov5.
[11] LI C Y, LI L L, JIANG H L, et al. YOLOv6: a single-stage object detection framework for industrial applications[EB/OL]. (2022-09- 07)[2023-08-23]. https://arxiv.org/pdf/2209.02976.pdf.
[12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. (2022-07-06)[2023-08-23]. https:// arxiv.org/pdf/2207.02696.pdf.
[13] ZHAO Y,DENG X,LAI H. Reconstructing BIM from 2D structural drawings for existing buildings[J]. Automation in Construction, 2021, 128.
[14] 楊墨逸,趙云凡,鄧雪原.基于改進Cascade RCNN的風管平面二維圖紙識別[J].土木工程與管理學報,2022,39(4):114-123.
YANG M Y,ZHAO Y F,DENG X Y. Recognition of 2D air duct drawing based on improved Cascade RCNN[J]. Journal of Civil Engineering and Management, 2022,39(4):114-123.
[15] 周權,趙云凡,鄧雪原.基于改進Faster R-CNN的二維圖紙中建筑構件識別方法[J].土木工程與管理學報,2021,38(5):110-117.
ZHOU Q,ZHAO Y F,DENG X Y. Recognition approach of building components in 2D drawings based on improved Faster R-CNN[J]. Journal of Civil Engineering and Management, 2021,38(5):110-117.
[16] 潘灶林,于言滔,胡振中. 基于二維圖紙的老舊建筑HVAC系統(tǒng)BIM信息自動抽取方法[C]//中國圖學學會建筑信息模型(BIM)專業(yè)委員會.第八屆全國BIM學術會議論文集.中國建筑工業(yè)出版社,2022:9-14.
[17] LU Q,CHEN L,LI S, et al. A semi-automatic approach to detect structural components from CAD drawings for constructing As-Is BIM Objects[C]//Computing in Civil Engineering 2017:Information Modeling and Data Analytics. Reston: American Society of Civil Engineers, 2017:84-91.
[18] ZHAO Y,DENG X,LAI H. A deep learning-based method to detect components from scanned structural drawings for reconstructing 3D models[J]. Applied Sciences,2020,10(6).
[19] 孔令軍,包云超,王茜雯,等.基于深度學習的表格檢測識別算法綜述[J].計算機與網絡,2021,47(2):65-73.
KONG L J,BAO Y C,WANG Q W, et al. A summary of table detection and recognition algorithms based on deep learning[J]. Computer amp; Network, 2021,47(2):65-73.
[20] LI C X,GUO R Y,ZHOU J, et al. PP-StructureV2: a stronger document analysis system[EB/OL]. (2022-10-13)[2023-08-23].https: //arxiv.org/pdf/2210.05391.pdf.
[21] LIU S T, HUANG D, WANG Y H. Receptive field block net foraccurate and fast object detection[C]// ECCV 2018:15th European Conferenceon Computer Vision. Munich: Springer, 2018:404-419.
[22] JIE H, LI S, SAMUEL ALBANIE, et al. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[23] HOU Q,ZHOU D,FENG J. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:13713-13722.
[24] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh and D. Batra, Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization[C]// ICCV 2017:2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017, pp. 618-626, doi: 10.1109.
[25] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector[C]// 2016 European Conference on Computer Vision,LNCS 9905. Cham:Springer,2016:21-37.
[26] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016:770-778.
[27] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL].[2023-08-23].https://arxiv.org/pdf/1409.1556.pdf.
(責任編輯:編輯郭蕓婕)