方 鐘 朱清苗/寧波市規(guī)劃與地理信息中心
城市規(guī)劃檔案是規(guī)劃部門依法進(jìn)行規(guī)劃審批、規(guī)劃管理與規(guī)劃監(jiān)督的最為有效的依據(jù)與憑證,也是檢驗工程項目是否符合相關(guān)標(biāo)準(zhǔn)的證據(jù)之一。隨著信息時代到來,傳統(tǒng)的城市規(guī)劃檔案數(shù)據(jù)檢索和處理已經(jīng)不能滿足人們?nèi)粘9ぷ餍枨?。可將關(guān)注重點放在AI文字識別技術(shù)上,探討如何將該技術(shù)應(yīng)用于規(guī)劃檔案數(shù)字化。
寧波市城鄉(xiāng)規(guī)劃部門從2015年開始啟動城市規(guī)劃檔案全文數(shù)字化工作,到2018年建成規(guī)范化數(shù)字檔案室,完成約70%的非涉密檔案數(shù)字化工作,且數(shù)字化成果已實現(xiàn)系統(tǒng)管理,用戶可按系統(tǒng)分配的賬戶權(quán)限在系統(tǒng)中進(jìn)行目錄瀏覽、搜索或全文調(diào)閱,相關(guān)工作人員可進(jìn)行線上移交、網(wǎng)上查檔。寧波城鄉(xiāng)規(guī)劃檔案數(shù)字化工作已取得一定成效,為后續(xù)檔案數(shù)據(jù)價值的挖掘打下了較好基礎(chǔ)。
但工作中也存在明顯問題。開展數(shù)字化的這幾年投入了大量人力、物力,如為減少工作中差錯率,市城鄉(xiāng)規(guī)劃部門出資組建了3支專業(yè)的數(shù)字化加工團(tuán)隊,自行研究數(shù)字化加工流程,本意是希望大幅度提升速度和提高質(zhì)量,但囿于規(guī)劃檔案信息復(fù)雜、歷史檔案數(shù)據(jù)缺失等因素,目錄建庫環(huán)節(jié)繁瑣費時、錯誤率高、完整性較差等問題沒有得到很好解決。
AI文字識別技術(shù)應(yīng)用于城市規(guī)劃檔案數(shù)字化,在大幅減少工作量的同時能大幅降低檔案錄入工作的錯誤率;可以為歷史檔案數(shù)據(jù)的補(bǔ)錄工作提供技術(shù)支持;能夠提高檔案數(shù)據(jù)信息的完整度與可靠性。具體的可行性分析如下。
一是準(zhǔn)確性分析。目前市場上主流的AI文字識別技術(shù)基于深度學(xué)習(xí)能力,可為用戶提供圖片內(nèi)多種語言文字自動檢測和識別服務(wù),并具有高精度、快速、易上手的特性。在寧波市城鄉(xiāng)規(guī)劃檔案數(shù)字化工作項目的測試中,AI文字識別技術(shù)對中文手寫體識別準(zhǔn)確率在70%以上,對覆蓋多種語言的通用印刷體文字的識別準(zhǔn)確率達(dá)到90%以上。
二是效率分析。基于目前的AI文字識別技術(shù),GPU 1個字符的平均時間約2ms,并能在持續(xù)的優(yōu)化更新中保持服務(wù)的快速穩(wěn)定。在寧波市城鄉(xiāng)規(guī)劃檔案處理案例中,處理一件檔案的平均時間約為3分鐘(包含網(wǎng)絡(luò)傳輸時間、格式轉(zhuǎn)換時間、文字識別時間、人工校準(zhǔn)時間)。若應(yīng)用AI文字識別技術(shù),可以將一份檔案的提取時間縮短為平均1分鐘甚至以下。
三是穩(wěn)定性分析。AI文字識別技術(shù)能對不同格式的文字和圖像進(jìn)行穩(wěn)定快速的編碼轉(zhuǎn)換,并且在處理表格時能快速判斷圖像存在的表格數(shù)量并執(zhí)行動態(tài)切割操作,使切割后的圖像能完全保留原圖像中的表格塊,此外AI文字識別技術(shù)帶有自動糾錯功能,因此穩(wěn)定性極高。
四是針對性分析。AI文字識別技術(shù)在應(yīng)用于城市規(guī)劃檔案數(shù)字化工作時設(shè)置了自主模版配置功能,可根據(jù)規(guī)劃檔案的樣式進(jìn)行配置,基本滿足城市規(guī)劃檔案信息提取與補(bǔ)錄的需求。
五是友好性分析。目前的AI文字識別技術(shù)實現(xiàn)了單文件識別、批量識別、項目識別功能,用戶只需上傳需要識別的全文數(shù)字化成果,識別服務(wù)將自動分析所傳成果的數(shù)量、類型等,并對每個成果進(jìn)行標(biāo)題驗證,若驗證通過則自動與設(shè)定模板匹配,若無法識別則返回與模板不一致的提示信息,所有識別信息實現(xiàn)全自動分組和分表展示。
一是圖像去噪。城市規(guī)劃檔案中存在大部分陳舊文檔,且陳舊文檔上往往存在斑跡、染色、印章暈染等干擾因素,需要進(jìn)行圖像去噪工作,提高識別的準(zhǔn)確率。
二是表格提取。城市規(guī)劃檔案中90%以上的關(guān)鍵數(shù)據(jù)都以表格形式進(jìn)行存儲,受表格線等因素影響,普通文字識別技術(shù)在有表格的場景下識別精度會明顯降低。應(yīng)采用表格提取算法,將圖片中的所有表格取出,包括其中的位置信息及每一欄的子表格數(shù),以便于將AI文字識別的識別結(jié)果進(jìn)行分類分區(qū)域數(shù)據(jù)整合,提高準(zhǔn)確率。
三是識別結(jié)果優(yōu)化。根據(jù)場景信息的提取要求,將識別結(jié)果轉(zhuǎn)換成目標(biāo)格式,如時間類型、電話格式等等,既提高了工作效率,又增加了數(shù)據(jù)準(zhǔn)確性,保證了數(shù)據(jù)采集結(jié)果的質(zhì)量。
四是基于項目識別的排序分組。在進(jìn)行大批量的項目識別時,檔案編號往往是有一定規(guī)則的,因此可根據(jù)檔案編號規(guī)則特征開發(fā)一種分組排序算法,使得每一批檔案能準(zhǔn)確、快速地被算法分組及排序,實現(xiàn)大批量檔案自動有序識別。
AI文字識別技術(shù)對于手寫文字識別的準(zhǔn)確率較低,因此需要進(jìn)行質(zhì)量核檢。一是完整性檢查,根據(jù)檔案著錄字段和城鄉(xiāng)規(guī)劃數(shù)據(jù)挖掘要求,檢查AI文字識別結(jié)果的完整情況,重點檢查是否存在應(yīng)錄卻未錄的字段和數(shù)據(jù);二是準(zhǔn)確性檢查,通過逐一檢查和按一定比例抽查的方式,檢查識別結(jié)果中是否存在內(nèi)容和文字上的錯誤;三是有效性檢查,檢查日期、電話號碼、編號等具有特殊格式的字段和數(shù)據(jù)格式轉(zhuǎn)換的準(zhǔn)確性,保證著錄數(shù)據(jù)在利用時的有效性。
當(dāng)然,質(zhì)量核檢可以通過機(jī)器核檢和人工核檢相結(jié)合的方式進(jìn)行,在定制AI文字識別系統(tǒng)時可以考慮嵌入機(jī)器核檢步驟,將機(jī)器核檢結(jié)果反映到人工核檢環(huán)節(jié),實現(xiàn)質(zhì)量的雙重把關(guān)。
在城市規(guī)劃檔案數(shù)字化工作中應(yīng)用AI文字識別技術(shù),應(yīng)重新確定數(shù)字化加工流程。首先,圖像掃描環(huán)節(jié)應(yīng)前置,并做好電子文件格式轉(zhuǎn)換工作;其次,原人工字段著錄環(huán)節(jié)為AI自動識別取代,但仍應(yīng)安排人工校對環(huán)節(jié),并在歷史檔案數(shù)字化加工時加強(qiáng)校對力度;再次,應(yīng)做好AI文字識別技術(shù)和檔案系統(tǒng)的對接工作。
通過改變時序、減少環(huán)節(jié)、改進(jìn)關(guān)鍵環(huán)節(jié)等方式,將AI技術(shù)更好地應(yīng)用于檔案數(shù)字化工作中,達(dá)到簡化數(shù)字化加工流程、提高對風(fēng)險點控制的目的,最終實現(xiàn)提高效率、降低成本、保證質(zhì)量的目標(biāo)。這一優(yōu)化過程并不能一蹴而就,需要隨著技術(shù)的發(fā)展不斷完善。
第一,選擇安全可靠的AI文字識別技術(shù)平臺。AI文字識別的系統(tǒng)平臺是AI文字識別技術(shù)的載體,在城市規(guī)劃檔案數(shù)字化工作的初級階段,一般采用在現(xiàn)成的第三方平臺基礎(chǔ)上進(jìn)行自定義架構(gòu)設(shè)計和二次開發(fā)的方式進(jìn)行搭建。在選擇時應(yīng)進(jìn)行多方對比分析,對主流AI文字識別平臺的專業(yè)性、穩(wěn)定性、安全性等方面進(jìn)行檢測,選擇成熟、可靠的系統(tǒng)平臺,以規(guī)避因系統(tǒng)平臺安全漏洞而導(dǎo)致的檔案信息外泄或因系統(tǒng)平臺不穩(wěn)定因素造成的檔案信息丟失的風(fēng)險。
第二,健全現(xiàn)場安全管理制度。應(yīng)制定新形勢下的安全管理制度,內(nèi)容包括對人員進(jìn)行任務(wù)分配,明確崗位職責(zé);制定網(wǎng)絡(luò)線路和機(jī)房、設(shè)備的安全檢查和應(yīng)急制度,確保能及時發(fā)現(xiàn)故障和解決問題;強(qiáng)化信息安全保密措施,降低檔案數(shù)字化中的安全風(fēng)險,提升安全管理水平。
第三,加強(qiáng)數(shù)據(jù)安全管理。一要根據(jù)檔案數(shù)據(jù)的需求和工作實際,決定數(shù)據(jù)存用環(huán)境和AI文字識別平臺的搭建環(huán)境;二要在數(shù)字化前嚴(yán)格區(qū)分密級和非密級檔案,因為密級檔案和非密級檔案是否進(jìn)行數(shù)字化、數(shù)字化管理模式和數(shù)字化采用方式,其要求各不相同;三要做好數(shù)字化成果的保密檢查,對不適宜對外公開的誤采集數(shù)據(jù)進(jìn)行剔除;四要對AI文字識別平臺和檔案管理系統(tǒng)的訪問權(quán)限進(jìn)行分級管理,成果數(shù)據(jù)只能在限定的權(quán)限范圍內(nèi)進(jìn)行相應(yīng)操作。