王勝春,戴 鵬,袁偉民,杜馨瑜,王 昊
(1.中國鐵道科學研究院集團有限公司 基礎設施檢測研究所,北京 100081;2.北京航天飛騰裝備技術有限責任公司,北京 100094)
鐵路是一種有效的陸地運輸方式,軌道作為車輪滾動的主要支持部件,由于列車制動、過載、鋼軌金屬疲勞以及惡劣行車環(huán)境的影響,各種鋼軌表面缺陷頻發(fā),嚴重時甚至會導致列車脫軌。根據(jù)美國聯(lián)邦鐵路管理局對客貨共線鐵路事故數(shù)據(jù)庫的統(tǒng)計,從2007年到2016年的數(shù)據(jù)表明,近1/2的鐵路事故是由鋼軌和扣件缺陷引起的,如圖1所示。
圖1 鐵路事故原因統(tǒng)計
因此,及時發(fā)現(xiàn)軌道缺陷是確保鐵路運輸安全的關鍵。隨著現(xiàn)代鐵路技術的飛速發(fā)展,傳統(tǒng)的人工檢測方法由于誤差大、效率低、勞動密集型、高管理成本等缺點,已經(jīng)不能滿足“更準、更快、更智能”的檢測要求。在這樣的背景下,鋼軌缺陷智能識別技術的研究顯得尤為迫切。
鋼軌表面由于直接和車輪接觸摩擦,很容易導致表面?zhèn)麚p。近幾年來,基于機器視覺的檢測系統(tǒng)已經(jīng)被廣泛應用于鋼軌表面缺陷的識別,如圖2所示。通過1對安裝在列車底部的成像設備來獲取軌道圖像,然后利用圖像處理和模式識別方法實現(xiàn)鋼軌缺陷的檢測。大多缺陷檢測的研究工作,檢測結果僅為“正?!被颉爱惓!保⒉魂P注缺陷的細分類[1-3]。鋼軌表面缺陷包括表面剝離、軋傷、擦傷等缺陷,此外,泥漿、水漬和油斑造成的污跡以及鋼軌表面打磨造成的顆粒狀噪聲、鋼軌間的軌縫等信息,不可避免地也會對檢測結果造成干擾和誤判。因此,對識別到的缺陷進一步細分類是十分必要的,有利于去除干擾信息,降低系統(tǒng)誤報率。
圖2 基于機器視覺的鋼軌表面缺陷檢測和分類
粗糙集理論是一種處理模糊和不確定問題的數(shù)學分析方法。它可以基于已知的數(shù)據(jù),不依賴任何先驗知識,通過計算數(shù)據(jù)之間的依賴程度來發(fā)現(xiàn)隱含的知識,提取內(nèi)在的分類規(guī)則。粗糙集理論提供了一種新的分類方法,并已成功應用于各個分類任務[4-6]。參見圖2,基于粗糙集理論可以從不同類別的缺陷樣本數(shù)據(jù)中提取分類規(guī)則,并將其應用于鋼軌缺陷分類任務中。
文獻[8]提出了一種鋼軌表面分析系統(tǒng)(Rail Surface Analyze System,RSAS),實現(xiàn)了鋼軌表面缺陷的實時檢測。利用RSAS對數(shù)百萬的鋼軌圖像(圖像尺寸為 1 160×60 pixels)進行分析發(fā)現(xiàn),檢測結果除了真實的缺陷,還存在大量的誤報。可以將這種發(fā)生在鋼軌表面的缺陷總結為3種類型,即表面剝離、軋傷和擦傷,同時將引起誤報的干擾概括為污跡、噪聲和軌縫,如圖3所示。鋼軌表面剝離的圖像灰度較暗,且相對平滑;軋傷一般面積較大,呈圓形且圖像灰度較亮一些;擦傷顏色較暗且表面不平滑。對于干擾而言,污跡表面平滑且灰度接近鋼軌表面的灰度均值;噪聲干擾灰度值變化較大,呈帶狀分布;軌縫灰度值很低且呈細長的條形狀。
圖3 缺陷類型和干擾類型
根據(jù)上述對表面缺陷的特征分析可知,通過構造幾何形狀特征和灰度統(tǒng)計特征對各類缺陷進行分類是可行的?;赗SAS提供的檢測結果,構造快速的鋼軌表面缺陷特征提取方法,主要分為2個部分:基于缺陷幾何形狀的特征提取以及基于缺陷灰度統(tǒng)計分布的特征提取。
基于幾何形狀的特征提取計算簡單,具有較強的識別缺陷的能力。根據(jù)上述對缺陷特征的討論,可以選擇缺陷區(qū)域的高度、寬度、高寬比和面積作為分類的幾何形狀特征。
1)高度HUD。軌縫和軋傷區(qū)域具有較高的高度,而其他缺陷類型與之沒有直接的關系。
2)寬度WUD。一般而言,擦傷的寬度范圍最大,軋傷次之,而軌縫的寬度則非常細小。
3)高寬比RUD。軌縫的高寬比較大,而軋傷的高寬比則近似為1。
4)面積PUD。軋傷具有較大的面積,而軌縫的面積相對較小。
圖4為鋼軌表面缺陷的灰度值分布,其中矩形框為鋼軌缺陷檢測結果。由圖可知,不同缺陷類型的灰度分布具有顯著的差異,因此基于灰度的統(tǒng)計分布特性提取圖像的特征,并將其用于缺陷的分類是切實可行的[7]。
圖4 鋼軌表面缺陷的灰度值分布
1)缺陷區(qū)域的灰度平均值μUD。軌縫與污跡的灰度均值較小,剝離掉塊和噪聲的灰度均值較大,而軋傷與擦傷的灰度均值大多位于二者之間。
2)缺陷區(qū)域的灰度標準差σUD。σUD反映了缺陷的平滑程度,擦傷和軌縫較大,軋傷和剝離掉塊次之,污跡相對較小。
3)缺陷區(qū)域的灰度均值和整幅鋼軌圖像灰度均值之差ΔμUD。ΔμUD表示缺陷區(qū)域與整幅鋼軌圖像的色差,可以有效克服環(huán)境光照不均、相機過曝光以及欠曝光造成的影響。
4)缺陷區(qū)域的灰度標準差與均值之比σCUD,σCUD=σUD/μUD。對于某些灰度標準差或均值發(fā)生交叉混疊的缺陷,如擦傷和軋傷,僅靠標準差或均值難以將其區(qū)分,而二者的比值σCUD則線性可分。
粗糙集理論由波蘭科學家PAWLAK于1982年提出,作為一種數(shù)學理論和數(shù)據(jù)分析技術,用于解決不確定的模糊分類和預測問題[8-10]。利用粗糙集理論實現(xiàn)分類的主要思想是使用訓練決策系統(tǒng)從數(shù)據(jù)中抽取有效的分類規(guī)則,之后建立測試決策系統(tǒng)來驗證規(guī)則的有效性。
在使用粗糙集分析之前首先建立缺陷分類的決策系統(tǒng)KRS,記作
KRS=(U,R,V,f)
(1)
其中U表示由RSAS系統(tǒng)檢測到的鋼軌表面缺陷的集合,記作
U={x1,x2,…,xm}
(2)
式中:m為鋼軌表面缺陷的總個數(shù);x1,x2,…,xm為鋼軌表面缺陷。
R表示檢測對象的特征屬性集,R=C∪D。其中C表示條件屬性集,由上一節(jié)中定義的幾何形狀和灰度統(tǒng)計特征rj(j=1,2,…,n)構成,記作C={r1,r2,……,rn};D為決策屬性集,由缺陷的不同類型c構成,記作D={c}。
V表示條件和決策屬性的值域,記作
rj∈Vrj,c∈Vc(1≤j≤n)
(3)
f:U×R→V稱作信息映射函數(shù),為每一個分類對象分配相應的屬性值,記作
f(xi,rj)=fi,j,f(xi,c)=yi(1≤i≤m,1≤j≤n)
(4)
根據(jù)映射函數(shù)f,為缺陷對象分配條件屬性和決策屬性,建立決策分類的決策表,見表1。這里條件屬性映射函數(shù)f(xi,rj)=fi,j表示缺陷特征提取,而決策屬性映射函數(shù)f(xi,c)=yi則表示缺陷的分類。
表1 表面缺陷分類決策表
決策系統(tǒng)可分為2部分:訓練子系統(tǒng)和測試子系統(tǒng)。利用訓練子系統(tǒng)提取缺陷分類的規(guī)則,測試子系統(tǒng)則驗證分類性能。需要注意的是,在獲得分類規(guī)則之前,必須完成數(shù)據(jù)的離散化和屬性約簡。
圖5 基于粗糙集理論的缺陷分類流程
圖5描述了基于粗糙集理論的缺陷分類的完整流程。首先,待分類的缺陷數(shù)據(jù)通過信息功能映射到?jīng)Q策表中,決策表被劃分為訓練決策子系統(tǒng)和測試決策子系統(tǒng)。其次,采用合適的數(shù)據(jù)離散化方法(如等間隔區(qū)間劃分)將決策系統(tǒng)的屬性值進行離散化處理。根據(jù)訓練決策子系統(tǒng),通過屬性重要度分析完成屬性的約減并提取缺陷分類規(guī)則。最后,將分類規(guī)則應用于測試子系統(tǒng)中用來驗證分類規(guī)則的正確性和有效性。
試驗數(shù)據(jù)來自于集通線上采集的鋼軌圖像經(jīng)RSAS系統(tǒng)分析后的檢測結果,總計檢出 1 846 個疑似表面缺陷。通過人工復核,從檢測結果中選取 1 000 個對象建立分類決策系統(tǒng),試驗數(shù)據(jù)組成結構為:400處剝離掉塊、100處軋傷、200處擦傷、100處軌縫、100處噪聲干擾以及100處污跡。根據(jù) 1 000 處缺陷數(shù)據(jù)構造分類決策表,見表2。
表2 集通線表面缺陷分類決策
為了提取和驗證分類規(guī)則,將決策表分成2部分,即600個訓練缺陷數(shù)據(jù)和400個測試缺陷數(shù)據(jù)。
ROSETTA是一種常用的粗糙集數(shù)據(jù)分析工具,具有數(shù)據(jù)導入導出、補全、離散化、知識約簡、分類、規(guī)則提取等功能。按照上文描述的缺陷分類流程,利用ROSETTA工具提取分類規(guī)則。
1)將缺陷數(shù)據(jù)的訓練決策表的數(shù)據(jù)信息導入到ROSETTA工具中;
2)選擇等間隔區(qū)間劃分(Equal Frequency Binning)算法將連續(xù)的屬性值劃分為等間隔的數(shù)據(jù)區(qū)間,實現(xiàn)數(shù)據(jù)離散化;
3)選擇遺傳算法(Genetic Algorithm)實現(xiàn)屬性重要度分析和約簡;
4)從約簡后的訓練決策表中得到672條分類規(guī)則,部分規(guī)則如表3所示。
表3 分類規(guī)則
將訓練得到的分類規(guī)則應用于包含400個缺陷對象的測試決策子系統(tǒng),以驗證分類精度。為了評價方法的正確性和有效性,這里給出準確率(Precision Rate,簡稱PR)和召回率(Recall Rate,簡稱RR)的定義為
式中:TPi表示i類分類結果中分類正確的數(shù)目;FPi表示i類分類結果中誤分的數(shù)目,即把其他非i類型錯分為i類型;FNi表示i類分類結果中漏分的數(shù)目,即把i類型錯分為其他非i類型。
表4為基于快速特征提取方法的粗糙集缺陷分類結果。可知,對各個類型的分類都取得了令人滿意的結果,且整體分類精度為90.8%。相比之下,由于剝離掉塊和軌縫的灰度統(tǒng)計和幾何形狀特征顯著,因此分類精度高,更容易識別,而噪聲分布較為隨機且形狀不定,導致分類精度較低。
表4 缺陷分類結果
本文將粗糙集理論應用于鋼軌表面缺陷分類,提出了基于缺陷幾何特征和灰度統(tǒng)計特征的快速特征提取方法,用于構造粗糙集決策系統(tǒng)的屬性集。使用粗糙集分析工具驗證了特征屬性的有效性,并取得了90.8%的分類精度,可以有效排除軌縫、噪聲、污跡等干擾信息,降低缺陷檢測的誤報率。由于鋼軌表面缺陷種類多樣,各缺陷類型形狀、紋理、色調(diào)各不相同,因此,為了進一步提高分類的準確性,未來的工作需要進一步對鋼軌表面缺陷分類的特征提取方法進行研究。