周曉航 周曉宇
摘? 要: 針對原有語義精準(zhǔn)抽取系統(tǒng)抽取結(jié)果精度較差的問題,設(shè)計基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)。硬件部分沿用原有系統(tǒng)硬件部分,僅對語義信息錄入設(shè)備與信息存儲設(shè)備設(shè)計。軟件部分設(shè)計,構(gòu)建自動語義知識庫,增加漢英雙語語料信息;根據(jù)tf?idf算法制定抽取規(guī)則;利用計算機(jī)編程語言控制抽取過程,實現(xiàn)精確抽取。至此,基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)設(shè)計完成。構(gòu)建測試環(huán)境,完成性能測試,通過與原有系統(tǒng)對比可知,此系統(tǒng)抽取準(zhǔn)確率與信息召回率遠(yuǎn)高于原有系統(tǒng)。由此可知,該系統(tǒng)抽取精度更高,更為有效。
關(guān)鍵詞: 語義抽取; 系統(tǒng)設(shè)計; 雙語語料; 制定抽取規(guī)則; 精準(zhǔn)抽取; 性能測試
中圖分類號: TN912.34?34; TP391? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)10?0156?04
Design of semantic precise extraction system based on Chinese?English bilingual corpus
ZHOU Xiaohang1, ZHOU Xiaoyu2
(1. Beijing University of Information Technology, Beijing 100192, China; 2. Institute of Automation, Heilongjiang Academy of Sciences, Harbin 150090, China)
Abstract: In allusion to the poor accuracy of the extraction results in the original semantic precise extraction system, a semantic precise extraction system based on Chinese?English bilingual corpus is designed. In the hardware part, the hardware part of original system is used, and the semantic information input equipment and information storage equipment are designed merely. In the software design part, the automatic semantic knowledge base is constructed and the Chinese?English bilingual corpus information is added; the extraction rules are set according to tf?idf algorithm; the extraction process is controlled by means of the computer programming language to achieve accurate extraction. Thus, the design of semantic precise extraction system based on Chinese?English bilingual corpus is completed. The testing environment is constructed to complete the performance test. In comparison with the original system, it can be seen that the extraction accuracy and information recall rate of this system are much higher than that of the original system. Therefore, this system has higher extraction accuracy and is more effective.
Keywords: semantic extraction; system design; bilingual corpus; set extraction rule; precise extraction; performance test
隨著信息技術(shù)的發(fā)展與應(yīng)用,程序設(shè)計的要求也隨之增加,越來越多的程序信息被創(chuàng)造出來。網(wǎng)絡(luò)信息呈爆炸式增長,如何從海量信息中提取所需的語義信息成了有待解決的問題,因此在過往對于語義的研究過程中,大量專家學(xué)者構(gòu)建語義精準(zhǔn)抽取系統(tǒng)[1?2]。但這些語義抽取系統(tǒng)對雙語語料的抽取效果較差,常常出現(xiàn)抽取精度差的問題[3]。針對這些問題,設(shè)計基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)。
1? 基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)硬件設(shè)計
此次設(shè)計僅針對語義抽取精度,相關(guān)的硬件設(shè)計僅針對此部分,其他硬件沿用原有程序部分,在硬件設(shè)計時注重此次設(shè)計硬件與原有硬件之間的連接與組合。為保證此次設(shè)計的有序性,對硬件設(shè)計部分的框架進(jìn)行約束,具體情況如圖1所示。
此次硬件設(shè)計包括語義信息的錄入設(shè)備以及信息存儲整理設(shè)備。通過這兩種設(shè)備在信息輸入與存儲過程中保證信息的精度[4?5]。在設(shè)計的過程中,注重設(shè)備的利用率與適用性。
1.1? 語義信息錄入設(shè)備設(shè)計
根據(jù)上述硬件框架設(shè)定,完成語義信息錄入設(shè)備的設(shè)計。在此次設(shè)計中,采用便攜式設(shè)計理念,將整體錄入設(shè)備采用微縮化處理[6],具體參數(shù)如表1所示。
采用上述參數(shù)設(shè)計出的設(shè)備,可適用于多種環(huán)境,錄入方式簡單、快捷。中英結(jié)合操作界面,在設(shè)備設(shè)計中,增加斷電保護(hù)功能,保證錄入信息的完整性和抽取時的精確度。
1.2? 語義信息存儲整理設(shè)備設(shè)計
采用設(shè)計后的語義錄入設(shè)備將錄入語義信息存儲在處理設(shè)備。此次設(shè)備設(shè)計中,采用Cortex?A57四核心1.7 GHz處理器及64位構(gòu)架,引擎部分為加密引擎。設(shè)備外觀設(shè)計如圖2所示。
存儲處理設(shè)備采用16 GB 內(nèi)存,設(shè)定一個DDR4 Long?DIMM插槽,支持SATA 6 Gb/s硬盤槽。機(jī)架型機(jī)身電源設(shè)定為ATX250W,AC 100~240 V。設(shè)備內(nèi)配置2個7 cm風(fēng)扇,可使用SSD快取支援。整體設(shè)備尺寸[7?8]為90 mm×490 mm×540 mm。此次設(shè)計中的信息錄入設(shè)備與信息存儲設(shè)備,保證了語義信息源頭的錄入精度,成為系統(tǒng)實現(xiàn)的基礎(chǔ)。
2? 基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)軟件設(shè)計
以上述硬件設(shè)計結(jié)果為基礎(chǔ),針對原有系統(tǒng)抽取精度差的問題,設(shè)計基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)軟件。
2.1? 構(gòu)建自動語義知識庫
針對原有問題,構(gòu)建對應(yīng)語義知識庫,需要一系列基于語料的信息抽取技術(shù),發(fā)掘大量非結(jié)構(gòu)化數(shù)據(jù)名詞概念以及其中對應(yīng)的語義關(guān)系。利用原有得到的概念以及語義關(guān)系知識庫完成此次自動語義知識庫構(gòu)建。
此次構(gòu)建需要概念抽取與語義抽取作為構(gòu)建基礎(chǔ)。在知識庫的構(gòu)建中,漢英雙語語料是其中的重要組成部分[9?10]。自動語義知識庫的構(gòu)建過程與構(gòu)造語義字典相同,在設(shè)計中設(shè)定自動知識庫中預(yù)存300萬個類別的概念,每一種類別的概念均有若干屬性,通過計算得出屬性之間的特定關(guān)系概率值。
知識庫構(gòu)建完成后,采用統(tǒng)一的對齊模式保存。此次采用GIZA++詞對齊工具[11],并在自動知識庫中構(gòu)建語料語義預(yù)處理模塊。將原始語料處理成詞對齊與句對齊的語料,為后續(xù)工作進(jìn)行鋪墊。
2.2? 制定抽取規(guī)則
根據(jù)上述自動知識庫的建立,設(shè)定相應(yīng)的語義抽取規(guī)則,在漢英雙語語料的基礎(chǔ)上,采用TF?IDF算法約束抽取過程,制定相應(yīng)抽取規(guī)則[12]。設(shè)定2個信息之間的緊密程度通過互信息模型體現(xiàn),公式為:
[Q=log2m(m+n+p+q)(m+n)(m+p)]? ? ? ?(1)
假設(shè)對應(yīng)漢英語義的兩個詞語[P],[Q],[m,n,p,q]分別表示兩個詞語同時出現(xiàn)、第一個出現(xiàn)第二個不出現(xiàn)、第一個不出現(xiàn)第二個出現(xiàn)以及均不出現(xiàn)的次數(shù)。設(shè)定[R]為語義對應(yīng)檢測值,公式為:
[R=m-(m+n)(m+p)a(m+n+p+q)] (2)
當(dāng)通過上述公式得出的數(shù)值與0接近時,這個信息則不為抽取信息,將此信息剔除[13]。使用TF?IDF算法結(jié)合上述公式,得出抽取規(guī)則如下:
[U=2m·logmN(m+n)(m+p)+n·lognN(m+n)(n+q)+]
[p·logpN(p+q)(m+p)+m·logqN(p+q)(n+q)] (3)
式中,[N]為知識庫中語義信息的個數(shù),通過計算,對信息語義進(jìn)行抽取,并約束抽取過程。
2.3? 實現(xiàn)語義精準(zhǔn)抽取
根據(jù)知識庫的信息存儲與抽取規(guī)則的制定,采用計算機(jī)編程的形式,實現(xiàn)語義精準(zhǔn)抽取。針對精度較差的問題,將抽取過程分割為信息數(shù)據(jù)的預(yù)處理、關(guān)鍵字抽取以及語義抽取過程。設(shè)定部分編程語句如下:
…
Event eld "序號"anchor="觸發(fā)詞"langType="語音"
Erelemeveld="所屬語義"tld"信息序號"
aliReled1="信息1"eld="信息2"TRID="序號"
ARType=“關(guān)系類型”? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? //抽取
…
為保證抽取過程的有效性,對流程進(jìn)行設(shè)定。首先,輸入所需要的語義信息;其次,對問題進(jìn)行分類,載入系統(tǒng)之中處理為目標(biāo)語句[14?15],對其進(jìn)行實體識別,并對所需語義進(jìn)行抽取;最后,保存抽取結(jié)果,展示給用戶,實現(xiàn)語義的精準(zhǔn)抽取工作。
3? 系統(tǒng)性能測試
針對本文設(shè)計的基于漢英語義雙語語料的語義精準(zhǔn)抽取系統(tǒng)的信息提取功能,構(gòu)建測試環(huán)境。將其與傳統(tǒng)語義提取系統(tǒng)進(jìn)行對比,測試兩者信息提取精度。通過對比測試結(jié)果得出本文設(shè)計系統(tǒng)的性能效果。
3.1? 構(gòu)建測試環(huán)境
為保證本文所設(shè)計系統(tǒng)的有效性與科學(xué)性,設(shè)計性能測試實驗對其性能進(jìn)行研究,構(gòu)建相應(yīng)的測試環(huán)境。對此次系統(tǒng)設(shè)計中使用的設(shè)備參數(shù)進(jìn)行設(shè)定,具體參數(shù)如表2所示。
根據(jù)上述環(huán)境參數(shù),構(gòu)建此次實驗的環(huán)境,以保證實驗過程的有效性與科學(xué)性。
3.2? 確定性能指標(biāo)
對語義精準(zhǔn)抽取系統(tǒng)進(jìn)行功能測試時,主要考察信息預(yù)處理過程、關(guān)鍵語義抽取功能以及語義相似度抽取功能能否正常運行,因而設(shè)定相應(yīng)的性能指標(biāo)。
[Precision=ef×100%] (4)
[Recall=eh×100%] (5)
[W=2·Recall·PrecisionPrecision+Recall] (6)
式中:[Precision]表示抽取的準(zhǔn)確率;[Recall]表示語義信息召回率;[W]為此次測試的精度權(quán)重;[h]表示有效發(fā)出信息;[e]表示抽取到的語義信息;[f]表示庫中的總信息數(shù)。
在此次功能測試中,共進(jìn)行10次抽取,發(fā)出信息100條,抽取相應(yīng)語義信息,通過表格統(tǒng)計的形式描述測試結(jié)果。
3.3? 測試結(jié)果分析
采用測試環(huán)境與測試指標(biāo),完成此次系統(tǒng)性能測試,具體測試結(jié)果對比如表3所示。
通過上述實驗結(jié)果可知,采用本文設(shè)計系統(tǒng)完成語義信息抽取工作,其準(zhǔn)確率明顯高于原有抽取系統(tǒng),而且其信息召回率也高于原有系統(tǒng)。通過精度權(quán)重對比可以看出,本文設(shè)計系統(tǒng)權(quán)重遠(yuǎn)高于原有系統(tǒng)。因此,本文設(shè)計系統(tǒng)在語義抽取的過程中,精度更高,效果更好。使用并普及本文設(shè)計系統(tǒng)可有效緩解原有系統(tǒng)造成的精準(zhǔn)度低的問題,實現(xiàn)高精準(zhǔn)度的語義抽取工作。
4? 結(jié)? 語
針對原有系統(tǒng)抽取精度較差的問題,設(shè)計新型的語義精準(zhǔn)抽取系統(tǒng),即基于漢英雙語語料的語義精準(zhǔn)抽取系統(tǒng)。在此次系統(tǒng)的設(shè)計中,采用自動語義知識庫的形式,為語義抽取提供相應(yīng)的抽取信息支持。設(shè)定新的抽取規(guī)則,保證在精準(zhǔn)抽取的前提下,實現(xiàn)漢英雙語語料的應(yīng)用。根據(jù)抽取規(guī)則,實現(xiàn)對語義的精準(zhǔn)抽取。目前精準(zhǔn)語義抽取系統(tǒng)的研發(fā)還在起步階段,因此該方向的研究還有廣闊的空間。在日后的研究中,將以本次研究成果作為基礎(chǔ),構(gòu)建更加精準(zhǔn)的語義抽取系統(tǒng)。
參考文獻(xiàn)
[1] 樊峰峰,李戰(zhàn)懷,陳群,等.一種基于離群點檢測的自動實體匹配方法[J].計算機(jī)學(xué)報,2017(10):3?17.
[2] 柳路芳,李波,陳鵬,等.基于詞向量與可比語料庫的雙語詞典提取研究[J].計算機(jī)工程與科學(xué),2018,40(2):368?373.
[3] 徐健,張棟,李壽山,等.基于雙語信息的問題分類方法研究[J].中文信息學(xué)報,2017(5):176?182.
[4] 陳雪梅,柴明颎.非平衡雙語者口譯語義加工路徑探究[J].上海大學(xué)學(xué)報(社會科學(xué)版),2018,35(5):127?136.
[5] 劉夢婕.英漢翻譯中語義重心的分析與處理[J].蘭州文理學(xué)院學(xué)報(社會科學(xué)版),2018(4):107?113.
[6] 朱順樂.融合深度學(xué)習(xí)特征的漢維短語表過濾研究[J].計算機(jī)技術(shù)與發(fā)展,2018(7):155?160.
[7] 夏國清,譚石堅,陳華珍.集散控制的智能精準(zhǔn)投料控制系統(tǒng)設(shè)計[J].現(xiàn)代信息科技,2019,3(2):167?169.
[8] 肖小林,張莉,羅海波.基于GIS的精準(zhǔn)扶貧作戰(zhàn)圖管理系統(tǒng)設(shè)計:以銅仁市為例[J].銅仁學(xué)院學(xué)報,2018(3):94?97.
[9] 王輝,郁波,洪宇,等.基于知識圖譜的Web信息抽取系統(tǒng)[J].計算機(jī)工程,2017,43(6):118?124.
[10] 黃政豪,崔榮一.基于術(shù)語自動抽取的科技文獻(xiàn)翻譯輔助系統(tǒng)的設(shè)計[J].延邊大學(xué)學(xué)報(自然科學(xué)版),2017,43(3):74?78.
[11] 馮慧敏,高娜娜,孟志軍,等.基于自動導(dǎo)航的小麥精準(zhǔn)對行深施追肥機(jī)設(shè)計與試驗[J].農(nóng)業(yè)機(jī)械學(xué)報,2018,49(4):60?67.
[12] 潘杰,王福平,焦方桐,等.基于LabVIEW開發(fā)環(huán)境下的農(nóng)田智能精準(zhǔn)灌溉系統(tǒng)設(shè)計[J].節(jié)水灌溉,2017(11):97?100.
[13] 俞琰,趙乃瑄.基于通用詞與術(shù)語部件的專利術(shù)語抽取[J].情報學(xué)報,2018(7):742?752.
[14] 江騰蛟,萬常選,劉德喜,等.基于語義分析的評價對象?情感詞對抽取[J].計算機(jī)學(xué)報,2017(3):12?15.
[15] 張志遠(yuǎn),趙越.基于語義和句法依存特征的評論對象抽取研究[J].中文信息學(xué)報,2018,32(6):85?92.