• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于《方志物產(chǎn)》的古籍知識組織路徑探析

      2016-12-06 02:28:28白振田
      古今農(nóng)業(yè) 2016年1期
      關(guān)鍵詞:物產(chǎn)方志內(nèi)容

      李 娜 白振田 包 平

      (南京農(nóng)業(yè)大學(xué)人文社會科學(xué)學(xué)院,江蘇 南京 210095)

      基于《方志物產(chǎn)》的古籍知識組織路徑探析

      李 娜 白振田 包 平

      (南京農(nóng)業(yè)大學(xué)人文社會科學(xué)學(xué)院,江蘇 南京 210095)

      方志類古籍作為古籍范疇中的大類,歷來被研究者重視。《方志物產(chǎn)》匯集了方志類古籍中與物產(chǎn)相關(guān)的著述,為農(nóng)史研究提供了寶貴的資料。通過《方志物產(chǎn)》內(nèi)容的閱讀和分析,總結(jié)其行文特點,包括大篇幅、無句讀、采用繁體字以及文本內(nèi)容結(jié)構(gòu)有一定規(guī)律但是書寫格式呈現(xiàn)多樣化等。在此基礎(chǔ)上,結(jié)合最新信息技術(shù)的發(fā)展與應(yīng)用,對適用于《方志物產(chǎn)》知識組織的相關(guān)技術(shù)進(jìn)行了探討,包括用于文本內(nèi)容格式化的、用于命名實體識別的、用于知識發(fā)現(xiàn)的、用于組織結(jié)果展示的技術(shù)等,為本領(lǐng)域的研究者提供較為深入的路徑分析。

      方志物產(chǎn);古籍整理;數(shù)據(jù)挖掘;可視化

      一、引言

      中國方志類古籍起源早、持續(xù)久、類型全、數(shù)量多,是文化遺產(chǎn)中的一個重要組成部分,既具有豐富堅實的史料基礎(chǔ),更具備取之不盡、足資參證的史料價值。據(jù)《中國地方志聯(lián)合目錄》的統(tǒng)計,僅保存至今的宋至民國時期的方志就有8264種,11萬余卷,占中國古籍的1/10左右。[1]

      《方志物產(chǎn)》是我國著名農(nóng)學(xué)家、中國農(nóng)史學(xué)科的主要創(chuàng)始人萬國鼎先生,在20世紀(jì)50年代組織數(shù)十人歷時六年,先后前往40多個大、中城市的100多個文史單位,從8000多部地方志中人工摘抄整理的專題性資料,內(nèi)容涉及農(nóng)業(yè)生產(chǎn)的各個方面,而以動植物品種資源和相關(guān)的種植飼養(yǎng)技術(shù)為主,具有極高的農(nóng)業(yè)科技、經(jīng)濟史料價值,受到國內(nèi)外相關(guān)學(xué)者的高度重視。[2]

      隨著計算機和信息技術(shù)的發(fā)展和應(yīng)用,古籍?dāng)?shù)字化整理逐漸興起,給古籍整理注入了新的活力。

      本文在《方志物產(chǎn)》數(shù)字化的基礎(chǔ)上,綜合分析其行文結(jié)構(gòu)等方面的特點,針對《方志物產(chǎn)》自身特點及數(shù)字化整理需要,厘清整理過程中可能用到的數(shù)字挖掘技術(shù),并結(jié)合內(nèi)容進(jìn)行一定的可行性分析,以期為《方志物產(chǎn)》的內(nèi)容數(shù)字化整理提供路徑選擇。

      二、工作基礎(chǔ)與研究進(jìn)展

      (一)工作與研究基礎(chǔ)

      20世紀(jì)80年代開始,隨著計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們嘗試將計算機應(yīng)用于方志史料的整理和利用。方志書目數(shù)據(jù)庫、方志索引、方志全文數(shù)據(jù)庫和專題數(shù)據(jù)庫、地情網(wǎng)等一系列數(shù)字化成果不斷涌現(xiàn)。中華農(nóng)業(yè)文明研究院在這方面的研究與開發(fā)成果豐碩,以王思明教授為首的研究團(tuán)隊對《方志物產(chǎn)》這一珍貴古籍資源進(jìn)行了數(shù)字化建設(shè),將3000余萬字的《方志物產(chǎn)》文獻(xiàn)掃描成圖像文件,并逐字輸入電腦,轉(zhuǎn)換成電子文檔,同時進(jìn)行文獻(xiàn)標(biāo)引和元數(shù)據(jù)編目,發(fā)布了《方志物產(chǎn)》的在線管理系統(tǒng),實現(xiàn)了在線瀏覽與檢索等相關(guān)功能。這一成果不僅解決了《方志物產(chǎn)》的長久保存問題,同時也通過資源共享的方式促進(jìn)了學(xué)術(shù)研究。

      隨著《方志物產(chǎn)》數(shù)字化程度的日益成熟和深入,基于內(nèi)容挖掘的數(shù)字化整理逐漸被提上日程,這就要求除了實現(xiàn)文本數(shù)字化,使其具有方便的瀏覽閱讀環(huán)境和強大的檢索功能外,還需要基于其內(nèi)容的深入研究,使其具有研究支持功能,即能夠提供有關(guān)方志內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計與計量信息,提供與方志內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具,進(jìn)一步推動學(xué)術(shù)研究的進(jìn)展。

      近年來,有學(xué)者嘗試將信息技術(shù)與傳統(tǒng)內(nèi)容相結(jié)合,進(jìn)行方志類古籍相關(guān)內(nèi)容的挖掘和研究,積累了一些成果。例如衡中青的《地方志知識組織及內(nèi)容挖掘研究》[3]、朱鎖玲的《方志類古籍地名識別及分析研究——以〈方志物產(chǎn)·廣東分卷〉為例》[2]等。

      (二)存在的局限

      現(xiàn)有的成果為進(jìn)一步研究提供了一定的基礎(chǔ)和思路,但仍然存在一些不足之處和提升的空間。

      從研究對象來看,已有成果或側(cè)重對方志外在形式的加工和整理,或側(cè)重對方志整理的智能化技術(shù)研究,都沒有基于《方志物產(chǎn)》內(nèi)容本身作相關(guān)整理研究,缺乏對方志內(nèi)容的深度開發(fā)與利用,未能充分發(fā)掘《方志物產(chǎn)》這一珍貴古籍的史料價值。

      從研究范圍來看,有研究通過識別《方志物產(chǎn)》中的引書和地名,探索《方志物產(chǎn)》的內(nèi)容挖掘,但他們僅從3000多萬字的《方志物產(chǎn)》中抽取了其中的廣東分卷作為研究對象進(jìn)行嘗試性研究,缺乏全國范圍內(nèi)的完整性和系統(tǒng)性。而在命名實體識別技術(shù)應(yīng)用的過程中,通過模式識別出來的物產(chǎn)和地名的對應(yīng)關(guān)系只是《方志物產(chǎn)》中的一部分,還有很多物產(chǎn)因為不符合模式的格式而沒有識別出來,因此還需要更全面的方法更完整地實現(xiàn)物產(chǎn)的識別。另外,除了物產(chǎn)于地名的對應(yīng)關(guān)系以外,還有其他一些關(guān)系,例如物產(chǎn)-別名、物產(chǎn)-功效、物產(chǎn)-分類等,也可以通過命名實體識別技術(shù)加以整理,為研究提供新的思路和范疇。

      從研究技術(shù)來看,將命名實體識別技術(shù)應(yīng)用到《方志物產(chǎn)》內(nèi)容挖掘的過程中,無疑是一種開拓創(chuàng)新的方式,但是已有的研究主要是從文本中找到規(guī)律,根據(jù)文中的規(guī)律構(gòu)建模式庫,導(dǎo)入文本,根據(jù)模式庫中統(tǒng)計出來的確定的規(guī)律對文本進(jìn)行分析,找出地名與物產(chǎn)名的對應(yīng)關(guān)系,但是《方志物產(chǎn)》的書寫并不是統(tǒng)一的,有的物產(chǎn)有產(chǎn)地描述性的注釋,有的沒有,而且沒有注釋的占了很大的比例,因此根據(jù)模式庫識別出來的地名與物產(chǎn)知識僅占整個《方志物產(chǎn)》中一部分,并不是全部。只有從理念上認(rèn)清和技術(shù)上突破,才能用更強大的挖掘技術(shù),更全面地挖掘其內(nèi)容。

      三、《方志物產(chǎn)》特點分析

      中文在文字結(jié)構(gòu)和書寫方式上都與其他文字有著很大的區(qū)別,古籍中的文字結(jié)構(gòu)和書寫方式與現(xiàn)代文獻(xiàn)也大相徑庭,《方志物產(chǎn)》屬于古籍的范疇,又具有自身鮮明的特點。

      (一)篇幅大,無句讀,采用繁體字

      簡體中文是20世紀(jì)50年代開始在中國大陸推廣使用的中文文字,而《方志物產(chǎn)》記載的多是明、清及民國時期的各地物產(chǎn),因此書寫時采用繁體字,由于古籍的書寫多不加標(biāo)點,沒有斷句,而《方志物產(chǎn)》在摘抄整理的過程中,嚴(yán)格忠于原著,所以,文中沒有句讀,例如“物產(chǎn)略者計其地上所出因以覘一邑之息耗焉襄垣古稱巨縣較之大江以南為財賦所自出或有不逮而地當(dāng)太行之麓則物產(chǎn)亦有可誌者縣地生產(chǎn)向以五榖煤礦為大宗自改革以來舉國注意實業(yè)而農(nóng)桑樹畜交換種類非復(fù)昔日之舊日新月異舉凡日用之所需供給罔缺故臚列亦如舊志不復(fù)另為一類云”①山西分卷第十本民國時期襄垣縣志,諸如此類的記載《方志物產(chǎn)》文中比較常見,不曾出現(xiàn)標(biāo)點符號,繁體字的運用由此可見一斑。

      《方志物產(chǎn)》內(nèi)容涉及地域范圍廣,包括遼寧、河南、河北、安徽、山東、山西、陜西、四川、廣東等多個省份,從多省、市、自治區(qū)的地方志中摘抄了物產(chǎn)相關(guān)的內(nèi)容,共431卷,總計3000多萬字,因此,字?jǐn)?shù)多、篇幅大、范圍廣也是其突出的特點。(二)文獻(xiàn)結(jié)構(gòu)有規(guī)律可循

      方志的編纂從宋代開始逐漸成熟起來,后代的方志編纂也越來越完備,《大元一統(tǒng)志》就是一部非常具有代表性的志書,清朝是方志編纂的鼎盛時期,重修周期都有明確的要求,行文也有一定的規(guī)范性,因此,雖然文中沒有句讀,但是通讀全文,還是能從文章結(jié)構(gòu)上找到一些行文規(guī)律。

      (1)每本志書的開始都是目錄部分,包括序號、縣志名稱、記錄年代的年號(含公元紀(jì)年)以及頁碼,如圖1所示,就是山西分卷第十一本的目錄部分。

      圖1 《方志物產(chǎn)》山西分卷第十一本目錄(部分)

      (2)內(nèi)容是按照先總后分的框架編寫的,即先寫出何時何地何主題,再對該主題進(jìn)行二級分類,最后在每一級分類下面羅列這個類別的物產(chǎn)名。例如“康熙潞城縣志物產(chǎn)榖屬黍(軟硬二種)稷(大小二種)梁 粟 麥(大小二種)秫(軟硬二種)蕎麥 小豆 豌豆 菉豆 匾豆 黑豆(大小二種又有麥查豆)黃豆 豇豆 蔴子 胡麻

      蔬屬 芹 茄 瓠蒜 芥 蔥 韮 白菜 菠菜 蘿蔔(有紅白水三種)蔓菁 葫蘆 莙薘 萵苣 芫荽 藤蒿 馬齒 瓜屬王瓜 南瓜 冬瓜北瓜菜瓜甜瓜……”②山西分卷第十一本康熙年間潞城縣志,先交代志書記載的是康熙年間潞城縣這個地方的物產(chǎn),再對物產(chǎn)進(jìn)行分類,分為谷屬、菜屬、瓜屬、果屬、木屬、花屬、草屬、藥屬、畜屬、毛屬、羽屬、蟲屬、物貨屬等十三個類別,最后列出每個類別下的物產(chǎn)名,例如菜屬下面有芹、茄、瓠、蒜、芥、蔥、韭、白菜、菠菜、羅葡、蔓菁、葫蘆、莙篷、萵苣、芫荽、藤蒿、馬齒等十七個品種,瓜屬下面有王瓜、南瓜、冬瓜、北瓜、菜瓜、甜瓜等六個品種。

      (3)物產(chǎn)名后面有注釋文字,用以說明該物產(chǎn)的產(chǎn)地、分類、別名、用途、引書等信息,例如“薥秫(齊民要術(shù)云莖高丈許穗大如帚其子可作米可食稭桿可織箔元扈先生曰北方地不宜稻麥者種此可濟荒俗名千歲榖)”①山西分卷第十一本光緒年間陵川縣志,括號中內(nèi)容就是對物產(chǎn)薥秫的注釋,說明《齊民要術(shù)》記載了物產(chǎn)“薥秫”的生物學(xué)特征,元扈先生評價了其適宜種植地區(qū)以及救荒價值,另外還說明了其別名叫“千歲榖”。

      (4)結(jié)構(gòu)上一般是某地志書開始處有序言,結(jié)尾處有結(jié)語,用以標(biāo)志這個地方志書的開始和結(jié)束。序言部分主要是對當(dāng)?shù)氐奈锂a(chǎn)及地理氣候概況,結(jié)語部分主要用來總結(jié)物產(chǎn)現(xiàn)況及變化。例如康熙黎城縣志的序言部分為“李吉曰洪範(fàn)三八政一曰食二曰貨食謂菽類貨謂布帛之類二者民所恃以為生王政之也周禮職方氏曰冀州其利松柏畜宜牛羊榖宜黍稷并州其利布帛畜宜五櫌榖宜五種黎右冀并地也無他奇產(chǎn)其土宜與夫所產(chǎn)者槩與昔同而食貨之外備物以利用凡可以厚民之生者不得以精粗巨細(xì)而有所遺也”②山西分卷第十一卷康熙年間黎城縣志,結(jié)語部分為“程大夏曰黎山高土瘠菽麥瓜果而外更無他產(chǎn)故其民習(xí)於農(nóng)桑終歲勤苦而不敢少休若山澤之利商賈之業(yè)黎未之有也舊志所載半屬子虛然物產(chǎn)無常有昔有而今無有今無而後有者故備列之而未敢意為去取云”③山西分卷第十一卷康熙年間黎城縣志。

      (三)行文格式多樣性

      由于《方志物產(chǎn)》涉及的地域比較廣,幾乎全國各省都有記載,而我國地大物博,人口眾多,且不同地域都形成了獨特的文化和習(xí)俗,因此,志書的書寫風(fēng)格也隨著各地的風(fēng)俗文化的差異而有所不同,呈現(xiàn)了行文格式多樣化的特征。

      (1)不是所有的志書都有序言和結(jié)語部分。從結(jié)構(gòu)上看,一本志書的完整結(jié)構(gòu)應(yīng)該是由序言、物產(chǎn)、結(jié)語三個部分組成,但并非所有志書皆如此,除物產(chǎn)部分是不可或缺的,序言和結(jié)語都不是必須的,如表1所示是幾種常見的文本結(jié)構(gòu)形式。

      表1 《方志物產(chǎn)》中常見文本結(jié)構(gòu)

      (2)《方志物產(chǎn)》的主要內(nèi)容是物產(chǎn)部分,記載了物產(chǎn)名稱及其屬性,書寫格式多樣化。第一種,不同的物產(chǎn)名之間有空格隔開,例如“蜂蝶蟬蛙蟋蟀蜻蜓蛇蜘蛛蚯蚓蝎”④山西分卷第十本乾隆年間襄垣縣志,這種以空格隔開的書寫方式比較多見;第二種,一個或者數(shù)個物產(chǎn)名稱單獨成一行,例如“光緒陵川縣志 絲/光緒陵川縣志 麻(出陵川者佳用作船攬以其從外朽也)/光緒陵川縣志 蜜”⑤安徽分卷第三本光緒年間陵川縣志⑥“/”標(biāo)示換行;第三種,物產(chǎn)名之間用特殊字符如“曰”“有”隔開,例如“草之屬曰芭蕉曰雁來紅曰映山紅曰藍(lán)曰莎曰苔曰鳯尾曰翠云曰吉祥曰萬年青曰虎耳曰蓼曰蘋曰荇”①安徽分卷第一本道光年間安徽通志鳳陽府物產(chǎn)、“獸之屬有兎有獐有獾有狐有貍有狼有黃鼠”②安徽分卷第五本康熙年間靈璧縣志;第四種,物產(chǎn)名之間沒有任何標(biāo)識,例如“木之屬有有桑柘槐榆柳栢檜椿棠橡楝黃楝梧桐白楊楮桃蠟樹”③安徽分卷第二本康熙年間五河縣志。上述比較常見的格式除可以獨立使用以外,還可以混合使用,當(dāng)然還存在其他不同的格式。

      (3)物產(chǎn)名之后常有文字注釋,但格式不一。首先在書寫格式上的區(qū)別如表2所示,是幾種比較常見的注釋形式,用括號將注釋內(nèi)容括起來緊跟在物產(chǎn)名的后面,或者用空格將物產(chǎn)名與注釋內(nèi)容分隔開,或者注釋內(nèi)容緊跟在物產(chǎn)名之后,中間沒有任何標(biāo)識,甚至還有雙重注釋的形式,即一部分注釋用括號的形式緊跟在物產(chǎn)名之后,還有一部分注釋內(nèi)容跟在括號的后面并另起一行。

      其次,注釋除了格式不同以外,內(nèi)容上也有區(qū)別,加括號的注釋類型最為常見,以此為例分析,有的括號的注釋內(nèi)容只描述一種特征,有的括號里的注釋內(nèi)容描述了兩種甚至數(shù)種特征,如表3所示。

      表2 《方志物產(chǎn)》中常見注釋類型及其案例④表中內(nèi)容引自《方志物產(chǎn)》

      表3 《方志物產(chǎn)》中常見注釋內(nèi)容及其案例⑤表中內(nèi)容引自《方志物產(chǎn)》

      四、《方志物產(chǎn)》知識組織技術(shù)梳理

      針對目前《方志物產(chǎn)》研究的不足,結(jié)合數(shù)據(jù)挖掘技術(shù)等信息技術(shù)的發(fā)展,對技術(shù)方法和路徑進(jìn)行系統(tǒng)和深入的梳理,為進(jìn)一步開展《方志物產(chǎn)》內(nèi)容挖掘與研究建立基礎(chǔ)。

      (一)適用于文本內(nèi)容格式化的技術(shù)

      標(biāo)點符號在現(xiàn)代漢語中扮演著重要的角色,而古文在書寫行文上,沒有句讀之說,如何將其合理斷句,是一項基礎(chǔ)工作。同時分詞也是古今中文信息處理的另一難題,對古籍整理來說,難度更高。目前在古文斷句方面,清華大學(xué)研究人員采用條件隨機場模型(conditional random field),引入互信息和t-測試差兩個統(tǒng)計量作為模型的特征,通過在《論語》與《史記》兩個語料庫上進(jìn)行實驗,獲得了較好的效果[4]。黃建年等應(yīng)用模式識別技術(shù)對自動斷句進(jìn)行了研究,通過句法特征詞、反義復(fù)合詞、引書標(biāo)志、時序、數(shù)量詞、重疊字詞、動名結(jié)構(gòu)及比較句法等進(jìn)行斷句嘗試[5]。

      在古文分詞方面,主要有詞典法、統(tǒng)計法等方法。李新福等人基于統(tǒng)計語言模型,對《續(xù)資治通鑒長編》進(jìn)行了統(tǒng)計分析,根據(jù)互信息特征抽取候選字串,并建立了宋史語料庫詞表[6]。蘇勁松、周昌樂、李翼鴻等通過統(tǒng)計抽詞來抽取結(jié)合程度較強的二字詞,建立了全宋詞切分語料庫[7]。這些都為《方志物產(chǎn)》文本內(nèi)容的格式化提供了參考和借鑒。

      (二)適用于命名實體識別的技術(shù)

      目前,命名實體識別方法主要有三種:基于規(guī)則和詞典的方法、基于統(tǒng)計的方法、基于二者混合方法?;谝?guī)則和詞典的方法是命名實體識別中最早使用的方法,多是采用手寫規(guī)則,由語言學(xué)專家手工構(gòu)造規(guī)則模板,包括關(guān)鍵字、指示詞、方向詞、位置詞、中心詞等,只有當(dāng)提取的規(guī)則能精確地反映語言現(xiàn)象時,基于規(guī)則和詞典的方法才具有優(yōu)越性,而基于統(tǒng)計的方法對篇幅也有要求,不適用于篇幅過短對象。[8]

      《方志物產(chǎn)》雖然沒有句讀,書寫格式也不統(tǒng)一,但是通讀全文,還是能發(fā)現(xiàn)一定的規(guī)律,用于命名實體識別,表4舉例列出了部分已知模式。

      表4 《方志物產(chǎn)》部分模式整理①表中模式出自《方志物產(chǎn)》

      (三)適用于知識發(fā)現(xiàn)的技術(shù)

      (1)主題聚類和關(guān)聯(lián)技術(shù)

      主題聚類技術(shù)是一種無監(jiān)督的機器學(xué)習(xí)技術(shù),可以根據(jù)文本自身特點,將文檔分成用戶可以理解的若干個簇,簇內(nèi)文檔相似性盡可能大,簇間文檔相似性盡可能小,使用戶可以迅速地把握文檔中的大量信息,加快分析速度和輔助決策。目前,常見的聚類方法包括基于層次的、基于劃分的、基于網(wǎng)格的、基于密度的、基于模型的、以及基于神經(jīng)網(wǎng)絡(luò)和遺傳的算法。[9]

      在《方志物產(chǎn)》內(nèi)容挖掘中,可以用來將物產(chǎn)根據(jù)類別歸類,進(jìn)而建立物產(chǎn)類別目錄體系,為進(jìn)一步的分析整理提供參考。例如“瓜品有東瓜有南瓜多王瓜多金瓜多西瓜多脆瓜多絲瓜多菜瓜”,“果品有枰果有柿有核桃有郁李有無花果有蓮子多杏多桃多李多梅多棗多葡萄多梨多沙果多石榴”,“菜有芹芥蔥韮茄瓠菁蒜萵苣藤蒿蕓薹芫荽白菜黃花葫白蘿蔔菠菜莙蓬至於香椿紫蕨菉葵猴頭羊肚藤花木耳則又異於他處”①山西分卷第十三本萬歷年間安邑縣志,以上是比較規(guī)范的書寫方式,因為《方志物產(chǎn)》涉及的范圍比較廣,書寫方式也有所不同,有的志書上的分類就沒有那么清晰,例如“菜 東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜 葫蘆

      萊菔 蔥 蒜 韭 薤 芥 白菜 菠菜

      茼蒿 莙蓬 萵苣 胡荽 茄 芹 薇

      蕨 莧 苜蓿 茶豆 刀豆 藤花 山藥

      百合 香椿 剌楸 茴香 漆皮頭 蔓菁(子可作油) 荏(子可作油)”②山西分卷第十三本康熙年間芮城縣志,此處分類將瓜類合并到了菜類里面。上述情況,可以使用主題聚類技術(shù),將“東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜”從菜類中提取出來,設(shè)置瓜類等。甚至在有的志書中,沒有給物產(chǎn)分類,直接把物產(chǎn)列舉出來,例如山西分卷第八本民國時期浮山縣志中的物產(chǎn)記載僅僅是羅列出來,而沒有進(jìn)行分類,為了更好地進(jìn)行內(nèi)容整理,使用主題聚類技術(shù)將物產(chǎn)歸類總結(jié)是十分必要且可行的。

      關(guān)聯(lián)技術(shù)主要用于物產(chǎn)、地域、時間三種元素的對應(yīng)上。這主要通過擴大搜索面,將各類物產(chǎn)、地域、時間拉長,放在一個較長歷史空間、地域空間中去考察,為今后的物產(chǎn)隨時間、地域的遷移規(guī)律發(fā)現(xiàn)作準(zhǔn)備。

      (2)同義、異名等發(fā)現(xiàn)技術(shù)

      在方志物產(chǎn)中,同義、異名詞大量存在。如何發(fā)現(xiàn)這些詞匯,對后期的知識發(fā)現(xiàn)、全文檢索、物產(chǎn)遷移分析等具有重要意義。衡中青以廣東方志物產(chǎn)為對象,通過異名別稱模式、引書模式識別等方法,自動抽取出特產(chǎn)名詞和引書名稱,其中引書識全率為48.95%,識準(zhǔn)率為72.88%,具有一定的實用參考價值[3]。

      (四)適用于挖掘結(jié)果展示的可視化技術(shù)

      不管是使用命名實體識別技術(shù),還是使用主題聚類、關(guān)聯(lián)技術(shù),以及知識發(fā)現(xiàn),得到的都是以文字或者表格形式呈現(xiàn)的結(jié)果,無法展現(xiàn)內(nèi)部結(jié)構(gòu),仍需要進(jìn)一步對其進(jìn)行總結(jié)和分析。人們迫切需要新的展示方法,可視化技術(shù)可以通過靜態(tài)或者動態(tài)的圖片更加直觀明了地展現(xiàn)結(jié)果。

      可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或者圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù),是一項涉及到計算機圖形學(xué)、圖像處理、計算機技術(shù)等多個領(lǐng)域的綜合技術(shù)。目前,常用的可視化方法包括社會網(wǎng)絡(luò)分析法和GIS技術(shù)。

      社會網(wǎng)絡(luò)分析法是基于社會學(xué)的角度,認(rèn)為社會是由網(wǎng)絡(luò)構(gòu)成的,通過探討網(wǎng)絡(luò)中關(guān)系的分析,探討網(wǎng)絡(luò)的結(jié)構(gòu)和屬性,有助于制定策略,UCNET、Pajek、Citespace等都是目前比較有代表性的社會網(wǎng)絡(luò)可視化軟件。UCNET是一個數(shù)據(jù)處理軟件,本身不具有可視化的功能,但是它輸出的數(shù)據(jù)可以導(dǎo)入到Pajek或者Citespace等具有可視化功能的軟件中,實現(xiàn)可視化。[10][11]

      GIS(Geographic Information System)是指地理信息系統(tǒng),又稱“地學(xué)信息系統(tǒng)”或者“資源與環(huán)境信息系統(tǒng)”,是一個綜合了計算機科學(xué)、地理學(xué)、測量學(xué)、地圖學(xué)等多門學(xué)科的技術(shù),采集、存儲、管理、描述、分析地球表面及空間和地理分布相關(guān)數(shù)據(jù)的信息系統(tǒng)。國外將GIS應(yīng)用于歷史學(xué)領(lǐng)域比較早,大約有二十余年的時間,開啟了“歷史GIS”分支領(lǐng)域,而國內(nèi)起步甚晚。近年來,有學(xué)者以廣東分卷為語料,嘗試將GIS應(yīng)用于《方志物產(chǎn)》內(nèi)容挖掘中,實現(xiàn)了物產(chǎn)分布、傳播等相關(guān)數(shù)據(jù)的管理和可視化制圖,并根據(jù)結(jié)果進(jìn)行了史料數(shù)據(jù)的空間分析。[12]可見,GIS技術(shù)是可以并且適用于《方志物產(chǎn)》研究的,在后續(xù)的研究中,要擴大應(yīng)用范圍,增強挖掘力度,首先在地理范圍上,從一省向多省份、大地區(qū)延伸,進(jìn)行多個省份的分析,形成一個或者數(shù)個片區(qū),例如東南沿海地區(qū)、長江流域、東北地區(qū)等,最后在全國范圍內(nèi)建立起完整的展示系統(tǒng)。

      五、結(jié)語

      陳寅恪先生在為陳垣先生所編的《敦煌劫余錄》序中提出:“一時代之學(xué)術(shù),必有其新材料與新問題。取用此材料以研求問題,則為此時代學(xué)術(shù)之新潮流。治學(xué)之士,得預(yù)于此潮流者,謂之預(yù)流。其未得預(yù)者,謂之未入流。此古今學(xué)術(shù)史之通義,非彼閉門造車之徒,所能同喻者也。”現(xiàn)代社會是信息社會,信息技術(shù)就是這個時代的新潮流。傳統(tǒng)的人工整理能夠保證較高的精確性,但是《方志物產(chǎn)》內(nèi)容龐大,格式多樣,在這樣大數(shù)據(jù)的范圍內(nèi),人工整理就有一定的局限性。而基于計算機技術(shù)的機器學(xué)習(xí)、規(guī)則、統(tǒng)計等知識發(fā)現(xiàn)方式正是應(yīng)處理大數(shù)據(jù)的需要而生,數(shù)據(jù)挖掘以及可視化技術(shù)能夠進(jìn)行數(shù)據(jù)分析并直觀展現(xiàn)結(jié)果。隨著應(yīng)用范圍的不斷延伸,各項技術(shù)也日趨成熟和規(guī)范,功能更加完善?;凇斗街疚锂a(chǎn)》的內(nèi)容整理是現(xiàn)在及將來一段時間研究的重點,我們將根據(jù)其自身特點,結(jié)合人工干預(yù),繼續(xù)探索如何應(yīng)用數(shù)據(jù)挖掘技術(shù)和可視化技術(shù),提高整理的深度、廣度和精確度,探索一套較為完善的自動化內(nèi)容整理方法和手段。[基金項目:1、校人文社科基金重大招標(biāo)項目“方志內(nèi)容挖掘及知識組織研究”(編號:SKZD201401);2、江蘇省2015年度普通高校研究生科研創(chuàng)新計劃項目“《方志物產(chǎn)》數(shù)字化整理研究——以山西分卷為例”(編號:KYZZ15_0172)]

      [1]朱鎖玲,包平.方志類古籍地名識別及系統(tǒng)構(gòu)建[J].中國圖書館學(xué)報,2011,03:118-124.

      [2]朱鎖玲.命名實體識別在方志內(nèi)容挖掘中的應(yīng)用研究[D].南京:南京農(nóng)業(yè)大學(xué),2011.

      [3]衡中青.地方志知識組織及內(nèi)容挖掘研究[D].南京:南京農(nóng)業(yè)大學(xué),2007.

      [4]張開旭,夏云慶.基于條件隨機場的古文自動斷句與標(biāo)點方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2009(10):163-166.

      [5]黃建年.農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點模式研究[J].中文信息學(xué)報,2008(7):32-36.

      [6]李新福,趙杰,梁巍.基于互信息的宋史語料庫詞表的提取[J].河北大學(xué)學(xué)報(自然科學(xué)版),2006,05:557-560.

      [7]蘇勁松,周昌樂,李翼鴻.基于統(tǒng)計抽詞和格律的全宋詞切分語料庫建立[J].中文信息學(xué)報.2007(2).

      [8]張曉艷,王挺,陳火旺.命名實體識別研究[J].計算機科學(xué),2005(04):第44-48頁.

      [9]李素建,文本內(nèi)容自動處理的相關(guān)研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2011(1):43-48.

      [10]梁辰,徐健.社會網(wǎng)絡(luò)可視化的技術(shù)方法與工具研究[J].現(xiàn)代圖書情報技術(shù),2012, 05:7-15.

      [11]顏端武,王曰芬,李飛.國外人際網(wǎng)絡(luò)分析的典型軟件工具[J].現(xiàn)代圖書情報技術(shù), 2009:6-11.

      [12]朱鎖玲,王明峰.GIS在方志類古籍開發(fā)利用中的應(yīng)用初探[J].大學(xué)圖書館學(xué)報, 2013,05:118-121.

      Analysis of Knowledge Organization on Ancient Books based on the Chronicles Property

      Li Na Bai Zhentian Bao Ping
      (College of Humanities and Social Science,Nanjing Agricultural University, Nanjing,Jiangsu 210095)

      Ancient books such as local chronicles are always valued by researchers as a big category.Chronicles property collects property-related contents in the ancient books such as local chronicles and provides valuable information for the study of agricultural history. Through reading and analyzing chronicles property,we can find some characters of the writing style including great length,no sentence reading,using complex characters,certain rules in the content structure but diversified in the writing format.On this basis,combining with the development and application of the latest information technology,the relevant technologies applied to chronicles property are discussed such as content formation,named entity recognition,visualization and so on.The research aims at providing a systematic global concept for the researchers.

      Chronicles property,Ancient books arrangement,Data mining,Visualization

      李娜(1985—),女,南京農(nóng)業(yè)大學(xué)人文社會科學(xué)學(xué)院2014級博士研究生;白振田(1971—),男,南京農(nóng)業(yè)大學(xué)副教授;包平(1964—),男,南京農(nóng)業(yè)大學(xué)教授、博士生導(dǎo)師。

      猜你喜歡
      物產(chǎn)方志內(nèi)容
      飛速發(fā)展的順平縣物產(chǎn)有限公司
      內(nèi)容回顧溫故知新
      Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
      物產(chǎn)環(huán)能:凈利潤兩版本 業(yè)績陷“羅生門”
      黑龍江民國方志所刊名家墨跡選
      書法賞評(2019年2期)2019-07-02 12:10:50
      嘉絨藏族地區(qū)的舊方志編纂
      西藏研究(2017年1期)2017-06-05 09:26:11
      主要內(nèi)容
      臺聲(2016年2期)2016-09-16 01:06:53
      物產(chǎn)美食
      Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
      風(fēng)險警示:香溢融通、物產(chǎn)中拓、申達(dá)股份
      山东| 巨野县| 荆门市| 马公市| 阿合奇县| 黎平县| 织金县| 石门县| 开江县| 宁都县| 砀山县| 崇州市| 囊谦县| 图们市| 简阳市| 南平市| 田东县| 屯昌县| 宁远县| 枣阳市| 舞钢市| 凤台县| 丰城市| 古丈县| 诸城市| 阿合奇县| 泰宁县| 嘉祥县| 平定县| 勃利县| 泗阳县| 东山县| 桐梓县| 兴安县| 萍乡市| 平和县| 北宁市| 北川| 尼勒克县| 水富县| 蒙城县|