陳卓鄭帥
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 青島 266061)
根據(jù)公安部消防局公布的今年上半年的消防出警情況來(lái)看,消防隊(duì)伍已參與處置化危品事故7904起。平均每天44起化工突發(fā)事件造成危害已嚴(yán)重影響到人們的生活,因此對(duì)化工事件進(jìn)行有效的管理已經(jīng)刻不容緩,為了提高中文信息處理的效率,提高信息處理的準(zhǔn)確率幫助人們?nèi)娴卣莆兆约核枰男畔?,因此?guó)內(nèi)外研究人員對(duì)事件抽取的方法進(jìn)行了深入研究并提出了一系列的方法,但大致上可以分為基于模式匹配和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)兩種方法[1]。
模式匹配通常又稱為規(guī)則匹配。對(duì)于化工突發(fā)事件的抽取來(lái)說(shuō),化工突發(fā)事件的模式獲取是模式匹配方法中最關(guān)鍵的一步,這些模式規(guī)則可以通過(guò)手工方式,半手工方式,自動(dòng)方式等方式來(lái)進(jìn)行設(shè)定?;诨ね话l(fā)事件模式匹配的方法對(duì)所研究的語(yǔ)言,領(lǐng)域以及文本格式有著嚴(yán)重的依賴性,且可移植性弱,通常需要借助相關(guān)領(lǐng)域?qū)<业膸椭拍芡瓿?。此外,化工突發(fā)事件抽取的模式并不可能覆蓋所有事件,當(dāng)改變語(yǔ)料吋,需要重新編寫(xiě)相關(guān)的匹配模式,性價(jià)比不是很高。但是相對(duì)于機(jī)器學(xué)習(xí)的方法,模式匹配方法的準(zhǔn)確率相對(duì)要好。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法。因?yàn)閷W(xué)習(xí)算法中涉及了大量的統(tǒng)計(jì)學(xué)理論,機(jī)器學(xué)習(xí)與統(tǒng)計(jì)推斷學(xué)聯(lián)系尤為密切,也被稱為統(tǒng)計(jì)學(xué)習(xí)理論[2]。當(dāng)前機(jī)器學(xué)習(xí)比較常用的學(xué)習(xí)算法有線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM聚類等。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法主要研究的是詞語(yǔ)的分布情況,詞語(yǔ)的詞頻,以及是否是關(guān)鍵詞等等特征而不考慮其語(yǔ)義關(guān)系,統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不拘泥于語(yǔ)料的形式與內(nèi)容,但是特征選取、語(yǔ)料規(guī)模的大小等因素都影響了機(jī)器學(xué)習(xí)的結(jié)果,它們只是將事件抽取看作一種分類題,而沒(méi)有結(jié)合語(yǔ)義知識(shí),所以說(shuō)提取的結(jié)果不一定符合事件的特征。
基于上述所述,本文對(duì)其優(yōu)缺點(diǎn)進(jìn)行了整合提出了基于多算法融合的方法即規(guī)則模式及機(jī)器學(xué)習(xí)相結(jié)合的方法來(lái)進(jìn)行化工突發(fā)事件的信息抽取。
對(duì)于化工突發(fā)事件管理來(lái)說(shuō),常常需要對(duì)事件發(fā)生時(shí)間,發(fā)生地點(diǎn),發(fā)生原因,事件結(jié)果,事故善后,所涉及的化學(xué)品,事故類型信息進(jìn)行分析總結(jié)。所以對(duì)于化工突發(fā)事件的信息提取應(yīng)當(dāng)包含對(duì)上述7個(gè)方面類型信息的提取,圖1為算法的流程圖,本文將根據(jù)圖1算法流程圖按照文本預(yù)處理,模式獲取及匹配以及機(jī)器學(xué)習(xí)3方面展開(kāi)論述。
圖1 化工突發(fā)事件信息抽取算法流程圖
從外界提取的文字信息首先要整理為文本文件格式類型,本文統(tǒng)一以文本類型格式進(jìn)行抽取,然后進(jìn)行文本分句處理,文本以任意的標(biāo)點(diǎn)符號(hào)進(jìn)行斷句分句,以句子作為進(jìn)行文本處理的基本單位,這樣就可以把一篇化工突發(fā)事件報(bào)道分為一系列的句子,降低了分析處理的粒度。本文利用Ansj分詞器(ansj是一個(gè)開(kāi)源的Java中文分詞工具,基于中科院的ictclas中文分詞算法,比其他常用的開(kāi)源分詞工具的分詞準(zhǔn)確率更高。)進(jìn)行句子的切分和詞性標(biāo)注。接下來(lái)利用化工語(yǔ)料庫(kù)識(shí)別化工突發(fā)報(bào)道中所涉及的化學(xué)品。利用詞性可以識(shí)別出地點(diǎn)ns,時(shí)間t等命名實(shí)體詞。字典的構(gòu)建基于《危險(xiǎn)貨物品名表》(GB 12268—90)[3]中所出現(xiàn)的2110種化學(xué)品,構(gòu)建化學(xué)品字典時(shí)可以為每一個(gè)化學(xué)品建立兩條記錄,一條記錄用于存放化學(xué)品的名稱,另一條用于存放化學(xué)品相關(guān)的特性,可用于事故類型抽取,利用字典可以識(shí)別出報(bào)道中所涉及的化學(xué)品信息。
2.2.1 模式獲取
本文利用規(guī)則模式及機(jī)器學(xué)習(xí)相結(jié)合的方法來(lái)抽取化工突發(fā)事件中的相關(guān)信息。建立模式規(guī)則庫(kù)根據(jù)上述的化工突發(fā)事件所提取信息來(lái)構(gòu)建出模式規(guī)則庫(kù)——時(shí)間模式規(guī)則庫(kù),地點(diǎn)模式規(guī)則庫(kù),原因模式規(guī)則庫(kù),結(jié)果模式規(guī)則庫(kù),善后模式規(guī)則庫(kù)。根據(jù)化工突發(fā)事件文本信息的特點(diǎn)來(lái)構(gòu)建相應(yīng)的規(guī)則[4]。
根據(jù)發(fā)生時(shí)間,發(fā)生地點(diǎn)的特性分別構(gòu)建出時(shí)間規(guī)則庫(kù):^[0-9]+[年|月|日|點(diǎn)|時(shí)]+([u4e00-u9fa5]|[0-9]|:)*$,地點(diǎn)規(guī)則庫(kù):^([[0-9]|A-z|u4E00-u9FFF|()|()]+(鎮(zhèn)|區(qū)|縣|莊|省|市))([[0-9]|A-z|u4E00-u9FFF])*(,|.|。)$
在化工突發(fā)事件中,化工突發(fā)事件在事件的成因上無(wú)非可以概況成5大因素1)人工操作不當(dāng),操作失誤,或者違反規(guī)定進(jìn)行操作;2)由于機(jī)器設(shè)備故障,或者技術(shù)存在問(wèn)題;3)企業(yè)管理不當(dāng),違反電氣的安全,在吸煙,靜電等問(wèn)題沒(méi)有很好地管制;4)交通運(yùn)輸事故引發(fā)的化工突發(fā)事件;5)人為的損壞,破壞,如:恐怖分子襲擊;
通過(guò)這5大因素的特點(diǎn)即可總結(jié)出一些關(guān)鍵字詞如擅自,私自,機(jī)器設(shè)備故障,違章操作,引發(fā)等,從而可以歸納出一系列的匹配規(guī)則構(gòu)建出原因模式規(guī)則庫(kù)來(lái),作者根據(jù)語(yǔ)料構(gòu)建的部分原因規(guī)則庫(kù)信息如下:
1)^([[0-9]|A-z|\u4E00-\u9FFF])*(擅自|私自|自行|執(zhí)意)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$;
2)^([[0-9]|A-z|\u4E00-\u9FFF])*(違章操作)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$;
3)^([[0-9]|A-z|\u4E00-\u9FFF])*(大火|火災(zāi)|泄露|爆炸|故障|中毒|爆炸|爆燃|事故)+(系|由于|因?yàn)椋ǎ郏?-9]|A-z|\u4E00-\u9FFF])+(所致|導(dǎo)致|引發(fā)|發(fā)生)+(,|.|。|;|,)$;
其中符號(hào)^指的是句子的開(kāi)始,$指的是句子的結(jié)束,[0-9]的含義是0-9中任意的一個(gè)數(shù)字字符,[\u4E00-\u9FFF]是一個(gè)漢字字符,[A-z]指的是任意的一個(gè)英文字母,*的含義是重復(fù)任意的數(shù)量,可以是0次,+的含義是至少重復(fù)一次,|的含義是“或”。
事件所造成的結(jié)果同樣有著自己獨(dú)有的特征。從事故的結(jié)果內(nèi)部組成結(jié)構(gòu)來(lái)看它有著非常明顯的提示性的詞語(yǔ)[5]如:受傷,死亡,經(jīng)濟(jì)損失,中毒,失蹤,摧毀的詞語(yǔ),因此構(gòu)建事件結(jié)果模式規(guī)則庫(kù)也變得明朗起來(lái),以下是部分結(jié)果規(guī)則庫(kù)信息:
1) ^ ( [\u4e00-\u9fa5] * [0-9] +[\u4e00-\u9fa5]*(喪生|死亡|失蹤|受傷|失聯(lián)|中毒|搶救|傷))+(,|.|,|。|、)$
2)^([[0-9]|A-z|\u4E00-\u9FFF]*)(損失)([[0-9]|A-z|\u4E00-\u9FFF]*)(萬(wàn)元)([[0-9]|A-z|\u4E00-\u9FFF])*(,|.|。|;|,)$
3)^([[0-9]|A-z|\u4E00-\u9FFF]*)(造成)([[0-9]|A-z|\u4E00-\u9FFF]*)(結(jié)果)([[0-9]|A-z|\uE00-\u9FFF])*(,|.|。|;|,)$
同理,事件的善后信息關(guān)鍵字通常是疏散,撤離,補(bǔ)償,獲賠,賠款,控制等詞語(yǔ)由此構(gòu)建事件構(gòu)建出善后信息的規(guī)則庫(kù),以下是部分善后規(guī)則庫(kù)信息:
1)^[\u4e00-\u9fa5]*(獲賠|賠償|補(bǔ)償)+(,|,|.|。)$;
2)^([[0-9]|A-z|\u4E00-\u9FFF])*(疏散|撤離 |體 檢 |控 制 |撲 滅 |恢 復(fù) |治 療)+([[0-9]|A-z|\u4E00-\u9FFF])*(,|,|.|。)$
2.2.2 模式匹配及信息提取
通過(guò)上一節(jié)敘述所構(gòu)建的規(guī)則庫(kù)來(lái)匹配事故信息,并利用相關(guān)算法即可對(duì)相關(guān)事故信息進(jìn)行抽取,具體做法如下:
事件發(fā)生時(shí)間在事故新聞的描述位置上有著明顯的特征,作者對(duì)所收集的400篇預(yù)料中統(tǒng)計(jì)出了一些使用頻率非常高的詞匯,如爆發(fā),突發(fā),引發(fā),出現(xiàn),發(fā)生等等特征詞。事故的發(fā)生時(shí)間之后通常會(huì)出現(xiàn)上述詞匯。所以我們可以利用這個(gè)特征一旦檢測(cè)到這些特征詞語(yǔ)可以向前就近找出現(xiàn)的時(shí)間,所提取的時(shí)間就是事件的發(fā)生時(shí)間[6]。根據(jù)以上描述,發(fā)生時(shí)間提取算法步驟如圖2所示。
圖2 時(shí)間算法流程圖
利用詞性標(biāo)注結(jié)合時(shí)間模式規(guī)則庫(kù)中的規(guī)則識(shí)別出來(lái)的時(shí)間實(shí)體經(jīng)過(guò)檢測(cè)關(guān)鍵字,選取與關(guān)鍵字位置最為接近的那個(gè)時(shí)間即可提取發(fā)生時(shí)間。
作者對(duì)所收集的語(yǔ)料進(jìn)行分析和整理,通過(guò)對(duì)事故發(fā)生地點(diǎn)詞語(yǔ)特點(diǎn)的總結(jié),從而引申出事件發(fā)生地點(diǎn)的算法,事故發(fā)生地點(diǎn)詞語(yǔ)的特點(diǎn):1)首先同抽取發(fā)生時(shí)間一樣,根據(jù)漢語(yǔ)的表達(dá)特點(diǎn)作為事故的發(fā)生地點(diǎn)往往與發(fā)生,引發(fā),爆發(fā)等關(guān)鍵詞在距離上最為接近;2)經(jīng)過(guò)對(duì)語(yǔ)料的統(tǒng)計(jì)可以得出事件的發(fā)生地點(diǎn)往往也是描述性最長(zhǎng)的地點(diǎn)詞語(yǔ)[7]。所以事件發(fā)生地抽取算法如下:
1)通過(guò)地點(diǎn)詞性ns與地點(diǎn)模式規(guī)則庫(kù)匹配出來(lái)的地點(diǎn)集合S1;
2)對(duì)S1進(jìn)行篩選,選擇與事件關(guān)聯(lián)詞最為接近的地點(diǎn),如存在且唯一則把該地點(diǎn)作為發(fā)生地點(diǎn)并輸出;不存在或不唯一轉(zhuǎn)3);
3)選取描述性最長(zhǎng)的地點(diǎn)詞語(yǔ)作為發(fā)生地點(diǎn)并輸出;
事故發(fā)生原因,事故結(jié)果,事故善后的抽取在抽取方法上都有著統(tǒng)一性即都是依靠模式規(guī)則庫(kù)中的規(guī)則來(lái)抽取。利用文本預(yù)處理之后的語(yǔ)料進(jìn)行規(guī)則匹配[8],與原因模式規(guī)則庫(kù)中的規(guī)則匹配成功,這條語(yǔ)句就是事故的發(fā)生原因。與結(jié)果模式規(guī)則庫(kù)中的規(guī)則匹配成功后,此語(yǔ)句就是事故造成的結(jié)果。抽取步驟如圖3所示。
圖3 規(guī)則匹配及抽取信息流程圖
依照我們發(fā)布的《重大危險(xiǎn)源辨識(shí)》(GB18218-2000)[9]把化工類事故分為爆炸事故,火災(zāi)事故,中毒事故以及泄漏事故4大項(xiàng)。因?yàn)槲覀冊(cè)谖谋绢A(yù)處理時(shí)就可以通過(guò)相關(guān)語(yǔ)料庫(kù)識(shí)別出所涉及的化學(xué)品。而化學(xué)物品是事故的發(fā)生源因此可以根據(jù)危險(xiǎn)物品的特性來(lái)反推出所可能發(fā)生的事故類型[10]。例如:氫氣具有可燃的特性,根據(jù)其特性在文章沒(méi)有提及所發(fā)生事故類型的前提下可大致推斷事故的類型有可能是火災(zāi),所以事故類型抽取算法如下:
1)遍歷文章的所有分句,檢測(cè)是否含有爆炸,火災(zāi),中毒等相關(guān)關(guān)鍵字,如果存在則直接提取關(guān)鍵字作為事件類型信息,如果不存在進(jìn)行2);
2)根據(jù)所提取的化學(xué)物品,提取化學(xué)品字典中所具有的特性來(lái)作為事件的類型。
規(guī)則模式庫(kù)中規(guī)則的建立是抽取化工突發(fā)事件信息的最為重要的一個(gè)環(huán)節(jié),在2.1節(jié)所述規(guī)則模式庫(kù)的建立都是通過(guò)人工的方式手動(dòng)建立規(guī)則,本節(jié)所要敘述的是依靠人為的反饋,自動(dòng)地建立規(guī)則。
關(guān)鍵詞是建立規(guī)則的基礎(chǔ),本文首先依靠最大熵依存句法分析算法模型[11]來(lái)計(jì)算得到句子中各個(gè)成分之間的依存關(guān)系,通過(guò)人為的反饋計(jì)算得出一個(gè)句子的核心關(guān)心(關(guān)鍵詞語(yǔ)),最大熵模型有如下公式:
其中λi是最大熵模型的參數(shù),每個(gè)λi對(duì)應(yīng)于一個(gè)特征函數(shù)。Z是歸一化因子,確保整個(gè)模型是一個(gè)合法的概率分布。在依存句法分析中依存關(guān)系權(quán)重用λ3,…,λn表示;特征向量用 f1(c , y1),f2(c , y2),…,fn(c , yi)這些特征來(lái)表示,如果特征出現(xiàn)為1,否則為0。
最大熵依存句法分析算法如下:
1)通過(guò)對(duì)一個(gè)句子進(jìn)行分詞標(biāo)注;
2)然后根據(jù)式(1)利用最大熵模型估計(jì)任意兩個(gè)單詞之間最可能的依存關(guān)系以及概率,將概率的值取對(duì)數(shù)取相反數(shù)作為邊的花費(fèi);
3)接下來(lái)使用最小生成樹(shù)算法[12]計(jì)算出一棵全局最小的生成樹(shù)即可。
本文通過(guò)計(jì)算選取一個(gè)句子的核心關(guān)系來(lái)自動(dòng)構(gòu)建規(guī)則的模式。但是并不是每一個(gè)句子都能有核心關(guān)系,所以最大熵依存句法分析算法不能完全解決問(wèn)題的需要,因此本文通過(guò)使用關(guān)鍵字生成算法TextRank[13]所生成的關(guān)鍵字來(lái)輔助構(gòu)建正則表達(dá)式的生成,公式表達(dá)如下:
S(Vi)是結(jié)點(diǎn)Vi的重要性(分值)。d是阻尼系數(shù),一般設(shè)置為0.85。In(Vi)表示指向結(jié)點(diǎn)Vi的結(jié)點(diǎn)集合。Out(Vj)表示結(jié)點(diǎn)Vj所指向的節(jié)點(diǎn)集合。Wij表示由結(jié)點(diǎn)Vi指向Vj的邊的權(quán)重。
關(guān)鍵詞抽取的任務(wù)就是從一段給定的文本中自動(dòng)抽取出若干有意義的詞語(yǔ)或詞組。TextRank算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對(duì)后續(xù)關(guān)鍵詞進(jìn)行排序,直接從文本本身抽取。其主要步驟如下:
1)把給定的文本T按照完整句子進(jìn)行分割,即 T=[S1,S2,…,Sm];
2)對(duì)于每個(gè)句子Si∈T,進(jìn)行分詞和詞性標(biāo)注處理,并過(guò)濾掉停用詞,只保留指定詞性的單詞,如名詞、動(dòng)詞、形容詞,即 Si∈[ti,1,ti,2,…,ti,n],其中是ti,j∈Si保留后的候選關(guān)鍵詞。
3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中V為節(jié)點(diǎn)集,由式(2)生成的候選關(guān)鍵詞組成,然后采用共現(xiàn)關(guān)系構(gòu)造任兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對(duì)應(yīng)的詞匯在長(zhǎng)度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個(gè)單詞。
4)根據(jù)上面式(2),迭代傳播各節(jié)點(diǎn)的權(quán)重,直至收斂。
5)對(duì)節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,作為候選關(guān)鍵詞。
6)由5)得到最重要的T個(gè)單詞,在原始文本中進(jìn)行標(biāo)記,若形成相鄰詞組,則組合成多詞關(guān)鍵詞。例如,文本中有句子“清華北大都屬于名牌大學(xué)”,如果“清華”和“北大”均屬于候選關(guān)鍵詞,則組合成“清華北大”加入關(guān)鍵詞序列。
當(dāng)最大熵依存句法分析算法無(wú)法計(jì)算分析出核心關(guān)系時(shí),基于TextRank算法即可分析出句子的關(guān)鍵詞語(yǔ)來(lái)代替謂賓關(guān)系所構(gòu)建的規(guī)則。經(jīng)過(guò)實(shí)驗(yàn)得出此方法具有良好的效果。
本文的實(shí)驗(yàn)預(yù)料選自互聯(lián)網(wǎng)中的關(guān)于化工突發(fā)事件的新聞報(bào)道,主要來(lái)源于安全管理網(wǎng),化學(xué)品事故信息網(wǎng),中國(guó)化工制造網(wǎng)等400篇報(bào)道。本文算法可以對(duì)文章所提及的發(fā)生時(shí)間,地點(diǎn),原因,善后,結(jié)果,所涉及的化學(xué)品,事故類型進(jìn)行抽取。系統(tǒng)評(píng)價(jià)時(shí)采用的精度和召回率定義如下:精度=抽取出的正確個(gè)數(shù)/抽取出的全部個(gè)數(shù),召回率=抽取出的正確個(gè)數(shù)/應(yīng)該抽取出的正確個(gè)數(shù)。具體實(shí)驗(yàn)結(jié)果如表1~表4所示。從實(shí)驗(yàn)結(jié)果中可以看出,所抽取信息有著較高的準(zhǔn)確度。
表1 爆炸類型事故測(cè)試結(jié)果
表2 火災(zāi)類型事故測(cè)試結(jié)果
表3 泄漏類型事故測(cè)試結(jié)果
圖4為化工突發(fā)事件抽取系統(tǒng)主頁(yè)面,本系統(tǒng)的上半部分有上傳,瀏覽,展示的功能,通過(guò)Show按鈕展示化工突發(fā)報(bào)道,下半部分通過(guò)提取內(nèi)容按鈕進(jìn)行信息抽取從而形成結(jié)構(gòu)化的數(shù)據(jù)。
表4 中毒類型事故測(cè)試結(jié)果
圖4 系統(tǒng)主頁(yè)面
本文針對(duì)化工突發(fā)事件提出了基于多算法融合的方法即規(guī)則模式及機(jī)器學(xué)習(xí)相結(jié)合的方法來(lái)進(jìn)行信息抽取,首先對(duì)事件的不同信息實(shí)體作了較為詳盡的描述抽取方法,然后利用關(guān)鍵字提取算法以及依存句法分析算法相融合的方法對(duì)用戶所反饋的信息實(shí)現(xiàn)了規(guī)則模式的自動(dòng)生成。實(shí)驗(yàn)證明本文的算法對(duì)化工突發(fā)事件的信息抽取有著較高的準(zhǔn)確率,所抽取的結(jié)果較為可靠。
[1]楊爾弘.突發(fā)事件信息提取研究[D].北京:北京語(yǔ)言大學(xué),2005:10-12.
YANG Erhong.Study on the extraction of emergency infor?mation[D].Beijing:Beijing Language and Culture Uni?versity,2005:10-12.
[2]何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.
HE Qing,LI Ning,LUO Wenjuan,et al.A survey of ma?chine learning algorithms for large data[J].pattern rec?ognition and artificial intelligence,2014,27(4):327-336.
[3]GB12268-90,危險(xiǎn)貨物品名表[S].GB12268-90,List of dangerous goods[S].
[4]張亮,陳家駿.基于大規(guī)模語(yǔ)料庫(kù)的句法模式匹配研究[J].中文信息學(xué)報(bào),2007,21(5):31-35.
ZHANG Liang,CHEN Jiajun.Research on syntactic pat?tern matching based on large scale corpus[J].Journal of Chinese Information Processing,2007,21(5):31-35.
[5]蔣德良.基于規(guī)則匹配的突發(fā)事件結(jié)果信息抽取研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(14):3294-3297.
JIANG Deliang.Research on rule matching based informa?tion extraction for unexpected events[J].Computer engi?neering and design,2010,31(14):3294-3297.
[6]王昀,苑春法.基于轉(zhuǎn)換的時(shí)間—事件關(guān)系映射[J].中文信息學(xué)報(bào),2004,18(4):23-30.
WANG Yun,YUAN Chunfa.Time event relationship map?ping based on transformation[J].Journal of Chinese Infor?mation Processing,2004,18(4):23-30.
[7]李文捷,周明.基于語(yǔ)料庫(kù)的中文最長(zhǎng)名詞短語(yǔ)的自動(dòng)提取[J].計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用,1995:119-124.
LI Wenjie,ZHOU Ming.Corpus based automatic extrac?tion of Chinese longest noun phrases[J].Advances and ap?plications in Computational Linguistics,1995:119-124.
[8]Kiyoshi Sudo 2004.Unsupervised Diseovery of Extraction Patterns for Information Extraetion[D].Department of Computer Science.New York University,September,2004.
[9]GB18218-2000,重大危險(xiǎn)源辨識(shí)[S]GB18218-2000,Identification of major hazard installa?tions[S].
[10]孫宏林,俞士墳.淺層句法分析方法概述[J].當(dāng)代語(yǔ)育學(xué),2000,2(2):74-83.
SUN Honglin,YU Shiwen.Overview of shallow parsing methods[J].Contemporary language education,2000,2(2):74-83.
[11]辛宵,范士喜,王軒,等.基于最大熵的依存句法分析[J].中文信息學(xué)報(bào),2009,23(2):18-22.
XIN Xiao,F(xiàn)AN Shixi,WANG Xuan,et al.Dependency parsing based on maximum entropy[J].Journal of Chi?nese Information Processing,2009,23(2):18-22.
[12]李洪波,陳軍.Prim最小生成樹(shù)算法的動(dòng)態(tài)優(yōu)化[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(12):69-73.
LI Hongbo,CHEN Jun.Dynamic optimization of Prim minimum spanning tree algorithm[J].Computer engi?neering and Applications,2007,43(12):69-73.
[13]夏天.詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(9):30-34.
XIA Tian.Keyword extraction of word position weighted TextRank[J].New Technology of Library and Informa?tion Service,2013(9):30-34.