保魯昆,賈永剛,孫玉明
(1.中國鐵道科學研究院集團有限公司 運輸及經濟研究所,北京 100081;2.中國鐵路總公司 科技與信息化部,北京 100844)
經過多年的發(fā)展,中國鐵路總公司已經基本形成了層級清晰、專業(yè)覆蓋全面的技術規(guī)章體系,這些技術規(guī)章是鐵路運輸組織生產的基礎,在保證行車安全、提高運輸效率等方面發(fā)揮著重要作用。大量新技術、新設備投入運用,以及運營管理質量、效率和安全要求的提升,都對鐵路技術規(guī)章制修訂頻度和技術規(guī)章編制質量提出了更高的要求。但是,目前技術規(guī)章的會簽審查仍然依靠人工逐條審核,缺少有效的技術輔助手段,審查質量嚴重依賴審查人員的專業(yè)背景及知識水平。隨著計算機對自然語言處理技術在論文查重等領域的應用,需要加快開發(fā)鐵路技術規(guī)章輔助審查系統(tǒng)。
經過多年的積累,中國鐵路總公司技術規(guī)章形成了歸口管理與專業(yè)負責相結合的技術規(guī)章管理體系,執(zhí)行制修補廢的動態(tài)管理制度,落實日常監(jiān)督檢查機制[1-3]。各專業(yè)根據上述管理機制,在運輸生產組織發(fā)生變化、運輸安全工作的需要,以及新設備的投入運用時,動態(tài)補廢相關技術規(guī)章,制修訂完成后,其他專業(yè)根據該規(guī)章是否涉及本專業(yè)內容進行會簽審查,歸口管理部門負責技術規(guī)章文件的形式審查,以及是否符合基本規(guī)章的要求審核,所有審查通過并且經主管領導批準后進行統(tǒng)一編號和歸口管理。由于技術規(guī)章數量眾多,完全依靠人工逐條核對審查,難免會造成專業(yè)技術規(guī)章間,以及同一規(guī)定不同文件之間不一致的問題。
技術規(guī)章發(fā)布前的會簽審查主要包括以下3個方面內容。
(1)是否符合《鐵路技術管理規(guī)程》(以下簡稱《技規(guī)》)的要求?!都家?guī)》是國家鐵路技術管理的基本規(guī)章,各部門、各專業(yè)制定的技術規(guī)章都必須符合本規(guī)程規(guī)定。在中國鐵路總公司明令修改以前,任何部門、任何單位、任何人員都不得違反?!都家?guī)》內容包含各個方面,需要找出新制修訂技術規(guī)章與《技規(guī)》相似的條款,輔助審查人員判斷技術規(guī)章是否符合《技規(guī)》的要求。
(2)比較分析主要變化情況。目前各專業(yè)基本形成了完善的技術規(guī)章體系,大多數新發(fā)布的技術規(guī)章都是在既有規(guī)章基礎上的修訂完善而成,快速定位新修訂技術規(guī)章的主要變化情況,能夠方便審查人員提高審查效率。
(3)與其他專業(yè)技術規(guī)章相同內容規(guī)定是否一致。同一規(guī)定經常會在不同專業(yè)的技術規(guī)章中出現(xiàn),由于規(guī)章數量多再加上對其他專業(yè)規(guī)章不熟悉等原因,很容易造成相同內容在各專業(yè)內的規(guī)定不一致。盡快把新制修訂技術規(guī)章中與其他專業(yè)相似內容的技術規(guī)章條款提取出來,可以為人工審查提供方便,避免由于人工審查不到而造成的規(guī)章間不一致現(xiàn)象。
在實現(xiàn)基礎規(guī)章管理的基礎上,應用自然語言處理技術,實現(xiàn)對規(guī)章相似條款的比對和提取,將傳統(tǒng)人工執(zhí)行相似條款的查找和比對工作用計算機代替,使規(guī)章審查人員從繁重的查找比對工作中解放出來,專注于相似條款的差異分析,提高審查質量和效率,從而提高技術規(guī)章制修訂質量。
鐵路技術規(guī)章輔助審查系統(tǒng)功能模塊如圖1所示[4],由基礎規(guī)章管理、規(guī)章查詢、規(guī)章比對和系統(tǒng)管理4個功能模塊組成,可以滿足不同類型的輔助審查需求。
圖 1 鐵路技術規(guī)章輔助審查系統(tǒng)功能模塊圖Fig.1 Diagram of system function module
(1)基礎規(guī)章管理。主要功能是對既有技術規(guī)章的上傳、查看和刪除進行操作,上傳基礎規(guī)章的過程中能自動對規(guī)章按照條款編號或者段落進行自動分割,對自動分割后的條款或段落可以進行編輯,然后分別存儲。
(2)規(guī)章查詢。主要功能是方便查詢規(guī)章內容,界定規(guī)章對比審查范圍。按照規(guī)章屬性(規(guī)章名稱、編號、文號、發(fā)文部門等)進行查詢,也可以按照關鍵字對規(guī)章全文進行檢索。
(3)規(guī)章比對。針對待審查規(guī)章,按照文件或者文本內容格式上傳,與該規(guī)章上一版本進行比較,顯示出2個版本間的主要變化;也可以與不同規(guī)章的比對,提取出相似條款內容,進行左右對比展示,輔助技術規(guī)章管理人員審查。
(4)系統(tǒng)管理。主要功能包括用戶管理、角色權限管理、數據字典維護和個人信息管理等。
鐵路技術規(guī)章輔助審查系統(tǒng)主要利用自然語言處理中的文本查重技術,通過文本查重功能快速定位出相似規(guī)章條款,再根據設定的閾值提取出相似條款,最后通過左右對比的形式展示給審查用戶。根據中文語言的特點,目前針對中文文本查重檢測算法主要包括語義知識、詞頻統(tǒng)計和數字指紋3種。其中,基于語義知識的檢測算法是使用某種方式表示出文本的語義特征,進行文本檢測;詞頻統(tǒng)計方法是將文本切分成一個一個的詞語,把詞語表示為詞頻向量,利用余弦公式或者內積公式進行文本的相似度計算;基于數字指紋技術的文本查重算法核心思想是根據某種文本塊劃分策略,從文本中選擇一部分字符串(又叫“指紋”),將其映射為哈希表中的數值,通過計算哈希表中相同的數字指紋數量或者所占總的數字指紋比率來得出文本間的相似度[5-6]。
基于語義知識和詞頻統(tǒng)計這2種算法的檢測結果準確度較高,但速度相對較慢,不適用于大規(guī)模文本集的查重檢測。采用數字指紋技術,近似的文本將被映射為近似的指紋,數字指紋技術可以使原文本轉換為數字指紋序列,通過計算2個文本的數字指紋重疊度,從而實現(xiàn)文本查重檢測的目的,優(yōu)勢是數字指紋的存儲空間小,檢測速度較快,能夠適用技術規(guī)章大規(guī)模文本檢測需要[6-8]。因此,鐵路技術規(guī)章輔助審查系統(tǒng)采用數字指紋技術對各技術規(guī)章文本進行比對,最終實現(xiàn)輔助審查的目的。
對任意一個待審查的技術規(guī)章,根據指紋比對算法的步驟,系統(tǒng)對其進行分層處理,按照篇章、段落、句子等層級分別創(chuàng)建指紋。比對資源庫中的比對規(guī)章也采取同樣技術創(chuàng)建指紋索引。這樣的分層多階指紋結構,可以滿足對超長規(guī)章的快速檢測。由于最小指紋粒度為句子,因而也滿足了系統(tǒng)對檢準率和檢全率的高要求。原則上,只要檢測規(guī)章與比對規(guī)章存在一個相同的句子,就能被檢測系統(tǒng)發(fā)現(xiàn)。鐵路技術規(guī)章輔助審查檢測流程如圖2所示。
系統(tǒng)總體技術架構可以分為:展現(xiàn)層、業(yè)務功能層、應用支撐層、數據層和基礎設施層,各層通過相應的技術接口進行參數、數據與命令的傳遞。系統(tǒng)技術架構如圖3所示。
圖 2 鐵路技術規(guī)章輔助審查檢測流程圖Fig.2 Process diagram of regulations aided censoring system
圖 3 系統(tǒng)技術架構Fig.3 System technology architecture
應用支撐層與數據層之間的數據交互主要通過JDBC/Http/XML/Web Service技術鏈接數據層的數據庫系統(tǒng),進行數據維護與更新;應用支撐層內通過Http/XML技術與全文檢索系統(tǒng)進行請求提交與數據交換;業(yè)務功能層主要通過XML/Json/Web Service與展現(xiàn)層的相關應用進行數據通信,通過XML獲得返回的結果數據并包裝成業(yè)務結果返回給用戶。
采用MySQL數據庫和Java開源平臺完成系統(tǒng)開發(fā)。為了平臺的穩(wěn)定性,各模塊相對獨立,分別實現(xiàn)。利用該系統(tǒng)對2017年中國鐵路總公司和國家管理部門制修訂的相關規(guī)章進行輔助審查工作,輔助審查效果達到系統(tǒng)設計的目標。
(1)相同規(guī)章不同版本間輔助審查。對于修訂規(guī)章與上一版本的主要變化,使用系統(tǒng)提供的相同規(guī)章不同版本間差異對比功能,對2017年修訂的《車站行車工作細則編制規(guī)則》進行了與上一版比較,輔助審查結果采用左右對比附加顏色標注的方式進行顯示,使審查人員能夠直觀地看出不同版本間主要變化。
(2)不同規(guī)章間輔助審查。對于新制修訂規(guī)章與其他規(guī)章間相同內容規(guī)定的審查,可以利用不同規(guī)章間的對比功能,根據設定的相似度閾值,快速定位到新制修訂技術規(guī)章與其他規(guī)章相似的條款。利用該系統(tǒng),對國家鐵路局制定的《鐵路技術安全規(guī)程》(征求意見稿)與中國鐵路總公司的《技規(guī)》對比,不同規(guī)章間輔助審查結果采用左右對比附加顏色標注的方式顯示,其中紅色部分是相同內容,黑色部分是變化差異。與《技規(guī)》相比,《鐵路技術安全規(guī)程》新增和修訂了一些條款,部分條文存在差異,部分內容與中國鐵路總公司實際情況不同。
(3)審查效率分析。使用LoadRunner對以上2個場景分別進行了20次測試,鐵路技術規(guī)章輔助審查系統(tǒng)審查效率測試結果如表1所示。從測試結果可以看出,不同規(guī)章間的輔助審查時間比相同規(guī)章不同版本間審查要大,系統(tǒng)響應時間在可接受范圍內。
表 1 鐵路技術規(guī)章輔助審查系統(tǒng)審查效率測試Tab.1 Ef fi ciency of computer aided censoring system
截至 2017年底,利用鐵路技術規(guī)章輔助審查系統(tǒng)輔助審查鐵總多項專業(yè)技術規(guī)章,發(fā)現(xiàn)了部分新制修訂規(guī)章存在的個別問題,提前避免了規(guī)章內容不一致的現(xiàn)象。鐵路技術規(guī)章輔助審查系統(tǒng)的設計與實現(xiàn),為技術規(guī)章審查人員提供了有效的技術手段,改變了傳統(tǒng)人工逐條閱讀審查的方式,審查質量、效率都有了明顯的改變和提升,為技術規(guī)章的規(guī)范性和制修訂質量起到了把關作用[9]。同時,利用鐵路技術規(guī)章輔助審查系統(tǒng)的規(guī)章全文搜索功能,也能為技術規(guī)章的制修訂過程提供支持,經濟效益和社會效益明顯增加。