張春菊,張雪英,王曙,廖建平 ,陳曉丹
(1. 合肥工業(yè)大學 土木與水利工程學院,安徽 合肥,230009;2. 南京師范大學 虛擬地理環(huán)境教育部重點實驗室,江蘇 南京,210046)
中文文本的事件時空信息標注
張春菊1,張雪英2,王曙2,廖建平2,陳曉丹2
(1. 合肥工業(yè)大學 土木與水利工程學院,安徽 合肥,230009;2. 南京師范大學 虛擬地理環(huán)境教育部重點實驗室,江蘇 南京,210046)
基于文本數(shù)據(jù)源的地理空間信息解析研究側重于地名實體、空間關系等空間語義角色的標注和抽取,忽略了豐富的時間信息、主題事件信息及其時空一體化信息。該文通過分析中文文本中事件信息描述的語言特點和事件的時空語義特征,基于地名實體和空間關系標注研究成果,制定了中文文本的事件時空信息標注體系和標注模式,并以GATE(General Architecture for Text Engineering)為標注平臺,以網(wǎng)頁文本為數(shù)據(jù)源,構建了事件時空信息標注語料庫。研究成果為中文文本中地理信息的語義解析提供標準化的訓練和測試數(shù)據(jù)。
中文文本;時空信息;事件;標注體系;標注語料庫
地理信息是指與空間地理分布有關的信息,既包括空間定位和幾何信息,也包括時間、時空關系、物理、化學和生物等屬性和語義信息[1]。文本是人們時空認知結果的自然語言表現(xiàn)形式,已成為一種重要的地理信息來源[2]。特別是隨著互聯(lián)網(wǎng)技術的快速發(fā)展,網(wǎng)絡已經(jīng)成為人類信息的主要載體和交流平臺,其所匯聚的信息已經(jīng)覆蓋到人類社會、經(jīng)濟、生活等各個角落,網(wǎng)絡文本成為地理空間信息的重要收藏地[3],如新聞、博客、論壇、統(tǒng)計表格、Wiki等。事件是人們認識和理解世界的基本單位,包括時間、空間和主題三個基本特征,是文本(特別是網(wǎng)絡文本)信息表達的基本粒度和主要形式。事件成為文本數(shù)據(jù)源中地理信息表達的紐帶。實現(xiàn)文本中時空和主題事件信息的語義解析不僅可以為泛在時空信息動態(tài)關聯(lián)更新,時空信息實時挖掘分析提供數(shù)據(jù)源;而且可以建立自然語言與GIS計算模型之間的語義映射關系,將時間維、空間維和主題維數(shù)據(jù)有機地、交互地組織,推動地理信息檢索、智能導航、LBS等地理信息服務向動態(tài)化、多維化、主題化方向發(fā)展。
在文本描述中,事件時空信息采用特定類型的詞匯和定性的模式進行表達,具有非結構化、語義不確定性、定量與定性描述相結合的特點。語料庫是帶有特定語言信息的知識庫,是語言定性、定量分析的金本位,支持特定領域的應用系統(tǒng)開發(fā)[4]。標注體系構建的任務是對語言中特定信息進行分析,發(fā)現(xiàn)文本中特定領域信息的語言結構(例如,詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[5]。不同層次標注的語料庫是文本信息解析系統(tǒng)的必備資源,為其提供標準化的訓練和測試數(shù)據(jù)[4,6]。GUM(Generalized Upper Model)、TRML(Toponym Resolution Markup Language)、GeoTagger和TESLA(The Geospatial Language Annotator)等典型標記語言,側重于文本中空間語義(特別是地名實體)角色的標注[7-9]。SpatialML(Spatial Markup Language)和NaturalGML(Natural Geography Markup Language)研究了文本中地名實體標注和空間關系的結構化表達方法[10-12],但是忽略了文本中豐富的時間信息、時空一體化信息、主題事件信息,及其之間的時空語義關系,且尚未形成較為系統(tǒng)的標注體系和規(guī)范。語言學領域研究了主題事件信息標注和語料庫構建方法,包括事件相關的實體、時間表達、論元角色、句法、語義等,但是沒有從地理空間概念的角度進行時空語義信息的表達,特別是缺少時空一體化信息[13-15]。
每個事件系統(tǒng)都存在一個從萌芽、前兆、發(fā)生、演化、控制、衰減、直到最后消亡的生命周期,時空與屬性語義信息貫穿于生命周期的各個階段。時空語義表達事件發(fā)生位置、影響范圍、發(fā)生時刻,持續(xù)時間長短等信息;屬性特征表達事件在某個維度上的屬性信息,如強度、規(guī)模,經(jīng)濟損失、人員傷亡等。在文本描述中,事件與地名、空間關系、時間、屬性等信息之間的關聯(lián)關系,特別是事件時空演化過程信息的語義關系是一個復雜的語義不確定性和模糊性的過程,包括同一事件的演化過程和不同事件之間的關聯(lián)。
人們基于一定的詞匯系統(tǒng)和句法結構,可以組織各種各樣的語句對認知空間世界的事件信息進行描寫、敘述或說明[16]。一個事件實例一般包括名稱、時間信息、空間位置信息、屬性信息等語言單元,事件的語義表達通過一定的句法結構來鏈接各個語言單元。漢語中事件時空信息描述詞匯較為豐富,部分詞匯在一定程度上直接觸發(fā)事件時空語義信息。時間描述通常與表達時間單位的詞匯緊密結合,如“2013年1月1日”中的年、月、日,以及傍晚、去年、周六、五點等。省、山、湖等地名特征字,以及南邊、北郊、靠近、以東等空間關系詞匯對空間位置信息的表達具有強烈的指示作用。地震、暴雨、泥石流等事件類型詞匯,以及死亡、失蹤、震級、解救、降雨量、重傷等屬性信息詞匯均能夠在一定程度上指示事件的發(fā)生。此外,發(fā)生、爆發(fā)、突發(fā)等動詞,以及基本上、很大程度、嚴重等程度副詞可以輔助于事件時空信息的判斷。
作為時空認知外在表現(xiàn)的另一載體,GIS中事件時空與屬性信息存儲在專題數(shù)據(jù)庫中或者以專題地圖的形式展現(xiàn)。圖1為互聯(lián)網(wǎng)地圖和文本兩種形式對汶川地震時空信息表達的示例。
3.1 標注體系的基本框架
側重于事件實體在文本中的時空語義表達,同時考慮信息的兼容、共享與交換性能,本文以XML為標記元語言,設計了事件時空信息標注體系。由于事件實體、時間信息、空間信息、屬性信息及其語義關系在文本中描述具有各自的特征,其標注的基本策略是對事件描述的相關語言單元和語義結構分別進行表達,標注框架如圖2所示。其中,地名實體采用
圖1 互聯(lián)網(wǎng)地圖(數(shù)據(jù)來源: http: //map.baidu.com/)和文本中汶川地震時空信息表達示例
圖2 事件時空信息標注基本框架
3.2 時間信息標注模式
時間信息告訴人們某事何時發(fā)生、持續(xù)多長時間、發(fā)生頻率等。中文文本中包含大量的相對時間和時間段信息,如昨天、去年、五周等,需要借助于上下文參考時間才能確定其準確的時間信息。結合中文文本中時間信息描述特點,將時間短語分類如表1所示。根據(jù)能否直接定位到時間軸上判斷各時間類型是絕對時間或相對時間。絕對時間可以直接與日歷時間相對應,如“2007年3月5日”。具體時間、周或星期時間、段時間、時間詞和參照時間,由于缺少“年”時間單位的約束,而無法定位到時間軸上,稱為相對時間。相對時間基于參考時間進行推理后,可與日歷時間對應轉換。
表1 中文文本中時間信息分類
時間信息采用
(1) 日歷型時間標注
日歷型時間信息描述較為具體、完整,標注內(nèi)容包括時間值、時間類型和類型代碼。
截至2013年7月19日,漳州、廈門地區(qū)因強降雨造成死亡1人、失蹤1人。
(2) 日歷型時間與具體時間的組合
日歷型時間與具體時間的組合,如“2010年的春天”、“2008年5月的星期五”。為了保持時間信息的完整語義和推理的準確性,按照時間單元分別進行標注,并標注所參照的日歷型時間信息。同理,日歷型時間與時間詞、周/星期時間組合時,其標注方法相同。
2008年5月12日 14時28分04秒,四川汶川、北川,8級強震猝然襲來,大地顫抖,山河移位,滿目瘡痍,生離死別。
(3) 具體時間標注
尋找具體時間的上下文信息,若包含日歷型時間且具有參照關系,則按照日歷型時間與具體時間標注規(guī)則進行標注。若無參照關系的日歷型時間,則參照時間設置為缺省。
截止16時35分,最大的降雨量地區(qū)是202.3毫米。
(4) 參照時間標注
參照時間的標注,不僅要標注其值,還要標注其參照的絕對時間,以便于時間值的推理。特別是當其參照的絕對時間不是日歷型時間時,應尋找其上下文中最近距離的日歷型時間。
發(fā)表于南京日報2013年9月2日。8月23日,華潤蘇果發(fā)生搶劫案,在此前一天發(fā)生了盜竊事件。
(5) 段時間標注
點時間和段時間是由文本表述的時間尺度決定的。一般情況下,時間表達多為點時間,如“11月30日下午19: 00左右”。如果強調(diào)“多長時間”則為段時間,如“9天”、“l(fā)月14日至22日”。段時間需要標注其起點(StartID)、終點(EndID)和時間類型。對于非日歷型時間的段時間表達,需要標注其參照時間關系。
青海省玉樹縣于2010年4月14日晨發(fā)生地震,大小余震不斷,持續(xù)到4月25日。
(6) 時間修飾成分
例如,“昨天上午10時45分左右”、“截至昨天下午2時”、“2008年底前”等時間描述中,詞匯“左右、截止、前”均是對時間的修飾成分。
“昨天 上午 10時45分 左右”。
(7) 不可標注時間
部分文本描述與時間有緊密的聯(lián)系,但無法確定其值,如“在、從、自、到、至、才、然后、其次、后來、經(jīng)常、偶爾、多次、通常、反復、有時、從來”等。在上下文中不指示一定時間的時間詞匯,如“這里的冬天很冷”中的“冬天”。此類時間描述不予標注。
3.3 事件實體標注模式
時間、空間和屬性是事物本身固有的三個基本特征,是反映事物狀態(tài)和演變過程的重要構件[17],是事件客觀性判斷的依據(jù)。本文事件分類參照《突發(fā)公共事件分類(國發(fā)〔2005〕11號)》中分類標準。事件實體標注采用
(1) 事件名稱標注
對于蘊含具體地理位置、時間和屬性信息,或通過上下文能夠判斷其具有確定的時空與屬性信息的事件,則為具名事件,否則視為不具名事件。使用標簽form進行區(qū)分,NAM表示具體事件,NOM表示非事件。
汶川地震的8度區(qū)面積約27787平方公里。 汶川地震紀念碑是一座具有強烈震撼力的紀念碑!
(2) 事件觸發(fā)詞匯標注
當事件名稱缺失時,觸發(fā)詞匯在一定程度上標志事件的發(fā)生,包括描述事件概念類型的詞匯(如地震、暴雨、泥石流等)和屬性信息詞匯(如7.8級地震)。根據(jù)時空約束信息判斷觸發(fā)詞匯是否指示具體事件,并使用標簽form進行區(qū)分。事件描述中經(jīng)常出現(xiàn)“爆發(fā)”、“發(fā)生”等動詞,本規(guī)范不對其標注。
從本月12日開始,四川部分地方降大暴雨,引發(fā)多處特大泥石流災害。 地震又稱地動、地振動,是地殼快速釋放能量過程中造成振動。
(3) 事件觸發(fā)詞匯出現(xiàn)多個或者缺省
一個句子可能出現(xiàn)多個不同的事件觸發(fā)詞匯。當該觸發(fā)詞匯指示不同事件,則分別標注;若指示同一事件,則任選其一進行標注。若描述具體事件的句子中,沒有出現(xiàn)事件名稱和相關觸發(fā)詞匯,則標記為事件詞缺省NONE。
北京強暴雨事件引發(fā)房山地區(qū)山洪暴發(fā),據(jù)馬河上游洪峰下泄,不到24小時,已致37人遇難,190萬人受災。 經(jīng)過行竊者和老板一番搏斗,書店中一片狼藉,兩個人躺在地上,遍地是血。
(4) 事件昵稱的標注
部分事件描述出現(xiàn)“稱為××”、“視為××”等評價、程度信息,不做標注。
1998年洪水,是本世紀發(fā)生的又一次全流域型的特大洪水,稱為“百年不遇之洪水”。
(5) 事件名稱與地名實體組合
地名實體經(jīng)常與事件名稱或觸發(fā)詞匯描述連接在一起,或者作為事件名稱的組成部分,表示事件及其發(fā)生位置兩層語義信息。為了保證語義信息的完整性,本文分別標注地名實體、事件名稱或觸發(fā)詞匯,可以存在交叉標注現(xiàn)象。
截至2008年9月25日12時,四川汶川地震已確認69227人遇難,374643人受傷,失蹤17923人。
(6) 指代事件的標注
文本中,經(jīng)常出現(xiàn)上文中描述的事件信息,下文中省略事件的具體名稱或者觸發(fā)詞匯,以“該事件”、“此次災難”等指代形式表達。以段落為單位,對指代事件及其參照事件和目標事件進行標注。當指代事件跨段落時,只標注其觸發(fā)詞匯和事件類型,不標注其指代關系。
2008年5月12日14時28分04秒,汶川地震爆發(fā)。截至2008年9月25日12時,此災難已確認69227人遇難,374643人受傷,失蹤17923人。
(7) 預測性事件
文本中經(jīng)常出現(xiàn)預測性事件的描述,如詞匯“預測”、“預報”、“將”、“未來”等。本文只標注已經(jīng)發(fā)生的客觀性事件,對于預測性事件不予標注,或者標注為NOM并標注預測性的指示詞匯。
天氣預報顯示,17到18日晚、21日至23日,四川包括廣元、綿陽、成都等8個地區(qū)將有兩次強降雨過程,尤其是21日至23日,局部地區(qū)降雨量甚至將超過200毫米。
(8) 屬性信息標注
文本中蘊含豐富的事件屬性信息描述。在事件實體標注的基礎上,增加其屬性信息描述。本文中事件的屬性信息標注采用最大粒度,不對其進行細化。
震中位于北緯35.5°、東經(jīng) 99.5°,震源深度10 千米。
3.4 事件單元標注模式
事件實體和時空信息及其語義關聯(lián)關系構成完整的事件單元。在時間信息、地理位置信息(地名、空間關系)、事件實體、屬性各個要素單元標注的基礎上關聯(lián)完整的事件單元。事件單元的判斷與標注以段落為單位。事件單元采用
(1) 事件-時間關聯(lián)
包括EVEntity(事件實體)、TIME(時間信息)和TimeLINK(事件-時間關聯(lián))標簽信息。
2008年5月12日,四川汶川、北川,8級強震。
(2) 事件-空間關聯(lián)
包括標簽EVEntity(事件實體)、GNE(地名實體)、TLINK(拓撲關系)、DLINK(方向和距離關系)和LocLINK(事件-空間關聯(lián))。
北京時間2008年5月12日,四川省汶川縣發(fā)生里氏8.0級強震,地震烈度達到9度,嚴重破壞地區(qū)超過10萬平方千米。
在“事件-時間”、“事件-空間”關聯(lián)的基礎上,進行事件單元的標注。
2008年5月12日,四川省汶川縣發(fā)生8.0級強震,地震烈度達到9度,嚴重破壞地區(qū)超過10萬平方千米。
3.5 事件時序關系標注模式
事件與事件之間,以及事件與某個時間點之間存在時間上的先后順序關系,即時序關系。事件組成要素和事件單元作為單獨孤立的事件節(jié)點存在,而時序關系將孤立的事件節(jié)點在時間上進行關聯(lián)。為了保證事件時序關系的描述粒度較為適中,時間邊界較為清晰,本文將事件的時序關系分為前(Before)、后(After)和同時(Simultaneous)三種類型,分別表示一個事件發(fā)生在另一事件之前、之后、同時發(fā)生。事件時序關系標注采用
2008年5月12日,四川汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災害。
上例中完整的事件時空信息標注結果如下:
2008年5月12,汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災害。
4.1 語料庫標注
語料標注工作是在標注規(guī)范的約束下,人工進行文本識別和語義解析的過程。GATE是一個開源自然語言處理軟件,可接受XSD格式的schema文件,使用戶按照一定標注框架對文本進行標注,同時提供標注數(shù)據(jù)管理方案,經(jīng)過GATE處理的語料可統(tǒng)一存儲為XML格式。通過大規(guī)模新聞網(wǎng)頁語料的收集獲取、網(wǎng)頁去重與解析,以及分詞、詞性標注等預處理,形成網(wǎng)頁文本源數(shù)據(jù)(約200萬字)。以GATE為標注平臺,參考本文設計的事件時空信息標注體系,建立事件時空信息標注語料庫(見圖3)。
圖3 基于GATE的事件時空信息標注界面
實驗中隨機抽取流感、南海軍事演習、中國東盟會議、地震、暴雨、干旱六類事件的350個文件進行統(tǒng)計,共有事件單元標注實例1 057個。各類事件及其要素單元數(shù)量分布情況為: 流感事件330個(GNE為974個、Time為672個、Attribute為532個、Eventy為521個),南海軍事演習事件151個(GNE為1 031個、Time為312個、Attribute為688個、Eventy為330個),中國東盟會議事件78個(GNE為445個、Time為142個、Attribute為257個、Eventy為152個),暴雨事件139個(GNE為767個、Time為296個、Attribute為368個、Eventy為285個),地震事件171個(GNE為841個、Time為237個、Attribute為367個、Eventy為318個),干旱事件137個(GNE為538個、Time為333個、Attribute為262個、Eventy為244個)。事件單元描述與地名、時間、屬性和事件實體單個要素通常呈現(xiàn)一對多的關系,一方面因為事件本身存在時空語義的變化,涉及多個地理位置和時間信息;另一方面文本描述中也存在部分時空信息與事件實體不相關聯(lián)的情況??傮w上來講,語料庫語言描述特征帶有一定的普遍性,具有作為標準數(shù)據(jù)的研究和應用能力。
4.2 事件時空信息抽取實驗
(1) 基于規(guī)則模型的時間信息抽取
基于本文時間信息語料庫,構建時間詞匯詞典和時間信息描述模式庫,設計時間信息匹配算法,采用觸發(fā)詞和規(guī)則模型相結合的方式進行時間信息的抽取[18]。實驗結果發(fā)現(xiàn),準確率、召回率和F值分別為75.00%、88.24%和81.08%。同時,針對中文文本中時間信息描述的模糊、省略、指代等常見現(xiàn)象,設計了相對時間、特定時間和時間段的推理和規(guī)范化算法,進行中文文本中時間信息的語義解析。由于網(wǎng)頁文本中時間信息描述較為靈活,存在跨段落的省略和指代現(xiàn)象,標注者對時間信息的參照關系可能漏標或者標注錯誤,導致時間表達模板的數(shù)量和覆蓋性受到限制,從而在一定程度上影響時間信息的解析效果。
(2) 基于支持向量機模型的事件分類
事件分類是指判斷文本中描述的事件類型。觸發(fā)詞匯是事件判斷的必要條件,但包含了觸發(fā)詞匯的句子可能是事件,也可能不是事件。例如,“地震是一種正常的自然現(xiàn)象?!?,只是對地震的一種常識性描述。同時,部分事件描述文本不包含觸發(fā)詞匯,卻傳遞具體的事件信息,如“9月20日,映秀鎮(zhèn)死亡人數(shù)已經(jīng)達到30人”。時間、空間和屬性是事物本身固有的三個基本特征,是事件客觀性判斷的依據(jù)。根據(jù)事件的時空表達特性,基于事件時空信息標注語料,以時間信息、空間信息、屬性信息、事件名稱等標注結果作為上下文約束特征,采用支持向量機模型,進行中文文本中事件的分類[18]。實驗結果發(fā)現(xiàn),在封閉和開放測試中,分類的準確率分別為92.30%和80.60%??梢钥闯?,本文標注語料具有較好的平衡性,機器學習效果較好。
探討中文文本中事件時空信息的標注體系和語料庫標注方法,充分考慮中文文本的語言描述特點和事件信息的時空語義特征,對事件的各要素單元及其語義關聯(lián)進行標注。以網(wǎng)頁文本為源數(shù)據(jù)的標注語料庫,充分考慮語言描述的多樣性、自由性、普遍性,而且達到較大規(guī)模和較高標注質(zhì)量,對文本中地理信息的語義解析有重要意義。未來研究工作主要包括以下方面:
(1) 主題事件的發(fā)生往往會引發(fā)后續(xù)的系列次生事件,事件之間存在廣泛的時序語義關系。例如,暴雨事件發(fā)生在山區(qū)或者溝谷深壑地區(qū),會引發(fā)山體滑坡、泥石流等事件。事件之間的時序關系描述是一個復雜的語義不確定性和模糊性的過程。未來將進一步完善事件時空信息標注體系和規(guī)范,特別是事件之間時序關系的標注。
(2) 我國地域遼闊、歷史悠久,各個歷史時期、不同地域范圍的人們對事件時空信息有不同的描述方式。本論文研究主要針對簡體中文文本描述中的突發(fā)公共事件,尚未考慮地域方言,香港、澳門、臺灣地區(qū)的語言表達,以及歷史事件的時空信息結構化表達。
(3) 本文構建的標注語料庫為中文文本中事件時空信息解析提供標準化的訓練和測試數(shù)據(jù)。未來將基于該語料庫,探索事件時空信息的結構化表達和可視化重構方法,搭建事件時空信息的定性描述與GIS定量表達之間的橋梁。
[1] 閭國年,袁林旺,俞肇元. GIS技術發(fā)展與社會化的困境與挑戰(zhàn)[J].地球信息科學學報,2013,15(4): 483-490.
[2] Palkowsky B,MetaCarta I. A New Approach to Information Discovery—Geography Really Does Matter[C]//Proceedings of the SPE Annual Technical Conference and Exhibition,United States,2005: 3231-3234.
[3] Goodchild M F. Twenty Years of Progress: GIScience in 2010[J]. Journal of Spatial Information Science,2013,1: 3-20.
[4] 俞士汶,朱學鋒,段慧明. 大規(guī)?,F(xiàn)代漢語標注語料庫的加工規(guī)范[J]. 中文信息學報,2000,14(6): 58-65.
[5] 馮志偉. 標準通用置標語言SGML及其在自然語言處理中的應用[J]. 當代語言學(試刊),1998,4: 1-11.
[6] 俞士汶,段慧明,朱學鋒等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學報,2002,16(5): 1-23.
[7] Kim J D,Ohta T,Tsujii J I. Multilevel Annotation for Information Extraction Introduction to the GENIA Annotation[J].Linguistic Modeling of Information and Markup Languages,2010,41: 125-142.
[8] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names [D]. Edinburgh: University of Edinburgh,2008.
[9] Blaylock N,Swain B,Allen J. TESLA: A Tool for Annotating Geospatial Language Corpora[C]//Proceedings of the 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009: 45-28.
[10] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names[J]. University of Edinburgh,2007,41(2): 124-126.
[11] 張雪英,朱少楠,張春菊.中文文本的地理命名實體標注[J].測繪學報,2012,41(1): 115-120.
[12] 張雪英,張春菊,朱少楠.中文文本的地理空間關系標注[J].測繪學報,2012,41(3): 468-474.
[13] 鄒紅建. 突發(fā)事件信息的標注研究[D]. 碩士論文: 北京語言大學,2008.
[14] 張永奎,張晴,王磊.面向信息處理的突發(fā)事件新聞語料庫建設與應用研究[J]. 山西大學學報(自然科學版),2009,32(4): 546-551.
[15] 仲兆滿,劉宗田,周文等. 事件關系表示模型[J]. 中文信息學報,2009,23(6): 56-60.
[16] 方經(jīng)民. 空間方位參照的認知結構[J]. 世界漢語教學,1999,50 (4): 32-38.
[17] 吳信才,曹志月.時態(tài)GIS的基本概念、功能及實現(xiàn)方法[J].中國地質(zhì)大學學報,2002,27(3): 241-250.
[18] 張春菊.中文文本中事件時空與屬性信息解析方法研究[D].南京師范大學博士學位論文,2013.
Annotation of Spatial-Temporal Information of Event in Chinese Text
ZHANG Chunju1,ZHANG Xueying2,WANG Shu2,LIAO Jianping2,CHEN Xiaodan2
(1. School of Civil Engineering,Hefei University of Technology,Hefei,Auhui 230009,China;2. Key Laboratory of Uirtual Geographic Environments,Nanjing Normal University, Nanjing, Jiangsu 210046,China)
Text has become an important data source of geo-spatial information. Currently,researches on structured geo-spatial information expression focused on extraction of spatial information,such as place names and spatial relations in text. However,abundant temporal information,event information and spatial-temporal information are ignored. In this paper,annotation of spatial-temporal information of event in Chinese text is proposed. Firstly,the linguistic characteristics of spatial-temporal information of event in Chinese text are analyzed. Then,an annotation schema is presented,and the annotation specification is decribed in detail.Finally,GATE (General Architecture for Text Engineering) is introduced as the annotation platform,and a large-scale annotated corpus based on the Web data source is developed and evaluated. This study effectively addresses the current lack of related specification and standard data for interpretation of event and spatial-temporal information in Chinese text.
Chinese text; spatial-temporal information; event; annotation schema; annotated corpus
張春菊(1984—),博士,講師,主要研究領域為地理信息智能處理與服務。E?mail:zcjtwz@sina.com張雪英(1970—),博士,教授,主要研究領域為地理信息理論與應用研究。E?mail:zhangsnowy@163.com王曙(1989—),碩士,博士研究生,主要研究領域為地理信息形式化與空間化方法。E?mail:shuwang8951@hotmail.com
2014-05-09 定稿日期: 2014-12-23
國家自然科學基金(41401451,40971231),國家863項目(2012AA12A403-3),中央高?;究蒲袠I(yè)務項目(JZ2014HGBZ0064),江蘇省測繪地理信息科研項目(JSCHKY201502)
1003-0077(2016)03-0213-10
TP391
A