趙江江 秦兵
0引言
事件抽取任務(wù)隨著互聯(lián)網(wǎng)信息爆炸式的增長越來越凸顯其重要性,而事件元素抽取又是事件抽取中至關(guān)重要的-個研究點(diǎn)。該研究旨在將無結(jié)構(gòu)化文本中人們感興趣的事件以結(jié)構(gòu)化的形式存儲下來,以供自動文摘、自動問答、話題檢測等自然語言處理上層技術(shù)的使用和用戶方便的查看。早期的事件抽取研究一般采取模式匹配的方法,這種方法準(zhǔn)確率較高,但是模板的獲取是實(shí)現(xiàn)的瓶頸,后來人們逐漸采用機(jī)器學(xué)習(xí)的方法,這種方法靈活性好,不需要太多的人工參與,但是由于構(gòu)建的語料庫規(guī)模不是很大,會引起嚴(yán)重的數(shù)據(jù)稀疏問題,準(zhǔn)確率比模式匹配的方法低。因此針對這兩種方法的優(yōu)缺點(diǎn),采用結(jié)合背景知識庫的半指導(dǎo)方法可能解決上述問題。本文采用基于Bootstrapping方法獲取模式的事件元素抽取,由于Bootstrapping方法的引入,儀需從一個或少數(shù)幾個初始事件種子出發(fā),通過檢索WEB,即可自動學(xué)習(xí)出大量高準(zhǔn)確率的模板用于事件元素抽取。同時(shí)引入模板泛化的概念,以進(jìn)一步提高模板對語言現(xiàn)象的覆蓋率,并最終提高抽取的準(zhǔn)確率與召回率。