艷 紅 特木其樂 萬 福 薩如拉
(內(nèi)蒙古國際蒙醫(yī)醫(yī)院,內(nèi)蒙古 呼和浩特 010065)
自從書面語言誕生以來,拼寫校對就一直伴隨著人類。傳統(tǒng)的校對工作采用人工進行,費時又費力?;诂F(xiàn)代信息技術(shù)的校對方法為提高校對工作效率創(chuàng)造了良好的條件。相比之下,基于現(xiàn)代信息技術(shù)的校對方法具有極大優(yōu)勢,不僅能節(jié)約人力資本,提升校對效率,而且校對準確性也有明顯的提高。目前許多領(lǐng)域中已經(jīng)應用信息化校對技術(shù),而蒙醫(yī)藥領(lǐng)域中的應用較少,本文對信息化校對技術(shù)應用于蒙醫(yī)藥領(lǐng)域進行了研究。
蒙古文的書寫方式與漢文和西文有著很大的不同,它被公認為是最難信息化的文字之一[1]。由于蒙古文有同形異音字母和一些字母的變體相同的情況的存在,在用計算機輸入蒙古文時很容易混淆這些形狀,也存在一些人為了更快捷的輸入而有意的用形狀相同的變體代替原字母變體的情況。這些輸入方式都違反了蒙古文正字法和控制符使用規(guī)則[2]。蒙古文正字法是正確書寫蒙古文的基本規(guī)則,是蒙古文語法的重要組成部分。蒙古文正字法自蒙古文誕生之日起不斷的發(fā)展、完善,今天已成為一個非常完整、嚴格的規(guī)則體系[3]。
病歷是患者在醫(yī)院診斷治病全程的原始記錄,病歷作為患者信息的載體,集中反映了患者的診斷治療過程。醫(yī)院信息系統(tǒng)的發(fā)展程度直接反映在對病歷內(nèi)容的覆蓋范圍上,可以說病歷是醫(yī)院信息系統(tǒng)之本。近年來,隨著信息技術(shù)的發(fā)展和計算機的廣泛應用, 特別是醫(yī)院管理信息系統(tǒng)的建立, 應用計算機技術(shù),全程管理患者信息的電子病歷得以飛速的發(fā)展。電子病歷及藥品信息管理是醫(yī)院信息管理系統(tǒng)的重要基礎(chǔ),而如何保證記錄的電子病歷及藥品信息文字正確也是非常重要的。目前很多蒙醫(yī)醫(yī)院都在使用蒙古文電子病歷及蒙藥管理系統(tǒng),但是由于使用者的蒙古語言水平不一樣,避免不了出現(xiàn)各類違規(guī)了正字法的錯誤。因此,研究設(shè)計一種蒙醫(yī)藥校對系統(tǒng)是非常必要的,從而能夠減少蒙古文電子病歷及蒙醫(yī)藥信息中出現(xiàn)的不必要的錯誤,提高蒙古文電子病歷及蒙醫(yī)藥信息管理的質(zhì)量。
基于規(guī)則的處理方法是最初的自然語言處理中最普遍使用的方法。基于規(guī)則的處理方法通過將成詞、成短語和成句的各種情況抽象成規(guī)則,然后對照規(guī)則庫對輸入文本進行各種處理[4-5]?;谝?guī)則的方法優(yōu)點是無需大量的語料,只需要制定一系列規(guī)則,根據(jù)這些規(guī)則判斷是否相匹配。本文將基于規(guī)則的校對方法應用到蒙古文中,設(shè)計出校對系統(tǒng),再將這些技術(shù)與醫(yī)院蒙醫(yī)藥相關(guān)信息結(jié)合,實現(xiàn)了蒙醫(yī)藥校對系統(tǒng),見圖1所示。
3.1 系統(tǒng)技術(shù)實現(xiàn) 本系統(tǒng)是基于PHP語言開發(fā),使用HTML5作為系統(tǒng)頁面展現(xiàn)。PHP將程序嵌入到HTML文檔中執(zhí)行,與完全生成HTML標記的CGI相比其執(zhí)行的效率高很多,而且可以執(zhí)行編譯后代碼,編譯可以達到加密和優(yōu)化代碼運行,使代碼運行速度更快。同時本系統(tǒng)結(jié)合AJAX技術(shù)即綜合性的瀏覽器端網(wǎng)頁開發(fā)技術(shù)組合開發(fā),使用AJAX技術(shù)后使得瀏覽器與 web 服務器之間的數(shù)據(jù)異步傳輸,減少請求服務器數(shù)量,提高程序運行及響應速度。本系統(tǒng)數(shù)據(jù)庫采用MySQL數(shù)據(jù)庫,它是一種開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),使用結(jié)構(gòu)化查詢語言即SQL進行數(shù)據(jù)庫管理。系統(tǒng)采用ThinkPHP框架,分層架構(gòu)采用3層架構(gòu)模式,即包括表現(xiàn)層、業(yè)務邏輯層和數(shù)據(jù)訪問層。服務器是以模塊化的Apache作為應用服務器。
3.2 功能模塊的實現(xiàn) 系統(tǒng)功能模塊由系統(tǒng)管理和文本校對兩大模塊組成。
3.2.1 系統(tǒng)管理模塊
3.2.1.1 蒙醫(yī)藥校對系統(tǒng)登錄模塊:校對系統(tǒng)登錄模塊中可以通過輸入賬號和密碼登陸系統(tǒng),該賬號必須通過系統(tǒng)管理員分配相應權(quán)限建立賬號,見圖-2所示。
3.2.1.2 用戶管理模塊 用戶管理模塊具有添加用戶、修改用戶信息、刪除用戶信息和審核賬號啟用狀態(tài)等功能,見圖-3所示。
3.2.1.3 權(quán)限管理模塊 權(quán)限管理模塊中主要分配用戶權(quán)限。用戶分為超級管理員、系統(tǒng)管理員和普通用戶等三種,可根據(jù)用戶角色不同,分配不同的權(quán)限,即登陸后看到的菜單不同。超級管理員具有使用所有菜單的權(quán)限,見圖-4所示。
3.2.1.4 字典管理模塊 字典管理模塊具有維護常用數(shù)據(jù)的功能。
3.2.2 文本校對模塊 文本校對模塊共分5步進行處理。
第一步 文本預處理:通過程序界面錄入或?qū)胛谋?,讀取原始文本,將文本存入數(shù)據(jù)庫C_BEFORE字段中,在系統(tǒng)界面“校正前蒙古文”文本編輯器中顯示。
第二步 編碼轉(zhuǎn)換:將C_BEFORE字段中的文字轉(zhuǎn)換成對應的unicode編碼,存入U_BEFORE字段中,待校對。
第三步 文本查錯:根據(jù)已經(jīng)建立好的規(guī)則庫,查找U_BEFORE字段中的錯誤。
第四步 文本糾錯:將通過文本查錯功能查出的錯誤結(jié)合建立好的規(guī)則庫進行糾錯,并將糾正好的文本存儲到數(shù)據(jù)庫U_AFTER字段中。
第五步 編碼轉(zhuǎn)換:將U_AFTER字段中的unicode編碼轉(zhuǎn)換成對應文字并存入C_AFTER字段中,最終在系統(tǒng)界面“校正后蒙古文”文本編輯器中顯示,見圖-5所示。
本文利用自然語言信息處理技術(shù)的同時結(jié)合軟件工程相關(guān)理論,設(shè)計并實現(xiàn)了蒙醫(yī)藥校對系統(tǒng),通過系統(tǒng)的應用可以校對蒙醫(yī)藥信息化系統(tǒng)中文本錯誤,從而提高蒙醫(yī)藥信息化管理的質(zhì)量。