• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      近五年我國(guó)中文分詞研究論文計(jì)量分析

      2009-01-11 07:39:28付英英孫濟(jì)慶
      現(xiàn)代情報(bào) 2009年11期
      關(guān)鍵詞:文獻(xiàn)計(jì)量

      付英英 孫濟(jì)慶

      〔摘 要〕本文依據(jù)文獻(xiàn)計(jì)量學(xué)的原理與方法,對(duì)2004-2008年5年發(fā)表的有關(guān)中文分詞研究領(lǐng)域的論文進(jìn)行了分析研究。通過(guò)對(duì)中文分詞研究作者分析和文獻(xiàn)分布分析,對(duì)我國(guó)在中文分詞領(lǐng)域的研究現(xiàn)狀進(jìn)行了探討。

      〔關(guān)鍵詞〕中文分詞;文獻(xiàn)計(jì)量;作者分析

      〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)11-0161-02

      Bibliometric Study on Chinese Word Segmentation

      Papers of China in the Past Five YearsFu Yingying Sun Jiqing

      (Library,Institute of Science and Technology,Shanghai 200237,China)

      〔Abstract〕By using the principles and methods of bibliometrics,this paper analyzed the Chinese Word Segmentation papers published from 2003 to 2007 and discussed the current research situation of Chinese Word Segmentation in China through the author analysis and the distribution of literature on Chinese word segmentation.

      〔Keywords〕chinese word segmentation;bibliometrics;author analysis

      中文分詞是中文信息處理系統(tǒng)中的一個(gè)核心內(nèi)容,長(zhǎng)期以來(lái)為了達(dá)到中文信息的智能化處理,對(duì)中文分詞作了多領(lǐng)域的研究,但是信息檢索系統(tǒng)對(duì)分詞的速度和準(zhǔn)確率仍然不盡如人意。期間不同領(lǐng)域的學(xué)者對(duì)于中文分詞技術(shù)作了深入的研究,為方便相關(guān)研究者了解近五年的研究現(xiàn)狀,本文通過(guò)中文科技期刊數(shù)據(jù)庫(kù),檢索了2004-2008年5年發(fā)表的論文,并對(duì)其作了計(jì)量研究分析,以供參考。

      1 中文分詞研究作者分析

      2004-2008年,我國(guó)中文分詞研究領(lǐng)域共發(fā)表論文246篇,其中單一作者論文為46篇,占總論文總量的18.70%;二人合作論文數(shù)為79篇,占了論文總數(shù)的32.11%;總的合作者率為81.30%,這表明該領(lǐng)域的研究著者以合作研究為主,合作研究較多,可以促進(jìn)中文分詞研究向縱深層次不斷發(fā)展。對(duì)2004-2008年中文分詞領(lǐng)域研究的論文作者所在單位按第一作者進(jìn)行統(tǒng)計(jì)分析,246篇文獻(xiàn)共來(lái)自152個(gè)單位,平均每單位1.6篇。作者單位類型分布見(jiàn)表1。

      表2列出發(fā)文量大于3篇的單位,共有20個(gè);而發(fā)文量為2篇的單位有21個(gè),1篇的有111個(gè);其中發(fā)文量最高的清華大學(xué)5年發(fā)表相關(guān)論文只有11篇,科研院所中則以中國(guó)科學(xué)院最多,只有8篇。同時(shí)也可以看出,我國(guó)該領(lǐng)域研究大都集中在高等院校,占了論文總數(shù)的90.56%,這充分說(shuō)明,我國(guó)中文分詞研究領(lǐng)域發(fā)展尚處于理論研究階段,企業(yè)參與很少;而且5年單位平均發(fā)文才1.6篇,研究的集中度很低,缺乏長(zhǎng)期連續(xù)的深入研究與高水平的應(yīng)用研究。顯示了國(guó)內(nèi)的論文仍處于低水平的重復(fù)研究階段。

      對(duì)核心作者的分析同樣能反映這一現(xiàn)象。所謂活躍作者群是指在某一刊物上發(fā)表論文較多、影響較大的作者集合,也稱核心作者。根據(jù)文獻(xiàn)計(jì)量學(xué)的普賴斯理論。即杰出作者中發(fā)表論文數(shù)量最少的作者所發(fā)表的論文數(shù)M等于發(fā)表論文數(shù)最多的作者所發(fā)表論文數(shù)Nmax的平方根的0.749倍:

      M=0.749(Nmax)1/2

      若僅取第一作者,則由統(tǒng)計(jì)可得Nmax=4,于是上式求出中文分詞研究領(lǐng)域的活躍作者群(或者稱為核心作者)的最低發(fā)表論文數(shù)為:M=0.749×41/2=1.498≈2(篇)。以M≥2統(tǒng)計(jì)2004-2008年在這5年間只有15名作者;其論文數(shù)34篇,占總數(shù)的13.82%。表3列出了2004-2008年在這5年間共有15位核心作者。

      對(duì)比表2與表3我們可以發(fā)現(xiàn)發(fā)文量大的單位與核心作者的單位缺乏相關(guān)性,這也證明了研究的偶然性,長(zhǎng)期深入的研究不足,這也是中文分詞研究技術(shù)上難以突破的可能原因這一。

      2 文獻(xiàn)分布分析

      2.1 發(fā)文時(shí)間分布表

      從表4可以看出,2004-2008年有關(guān)中文分詞研究的論文數(shù)量總體上呈現(xiàn)出上升的趨勢(shì),說(shuō)明這一領(lǐng)域研究的關(guān)注度處于上升趨勢(shì)。論文量的分布能反映某學(xué)科、專題研究的發(fā)展歷程,某一時(shí)期論文數(shù)量的增加速度和數(shù)量,在某種意義上不僅說(shuō)明這一領(lǐng)域研究的理論水平和發(fā)展速度,也可以在一定程度上反映研究者和實(shí)踐者對(duì)該領(lǐng)域的研究程度,因而說(shuō)明我國(guó)在中文分詞領(lǐng)域的技術(shù)研究方面總體上是逐步擴(kuò)大和深入。

      2.2 發(fā)表期刊分布分析

      對(duì)2004-2008年中文分詞領(lǐng)域研究的論文發(fā)表期刊進(jìn)行統(tǒng)計(jì),246篇文獻(xiàn)一共分布在110種期刊上,載文量十分分散。論文主要發(fā)表在計(jì)算機(jī)科學(xué)與情報(bào)科學(xué)領(lǐng)域,其中以計(jì)算機(jī)科學(xué)為主,說(shuō)明目前計(jì)算機(jī)科學(xué)領(lǐng)域?qū)χ形姆衷~的研究領(lǐng)先于情報(bào)科學(xué)領(lǐng)域。中文信息學(xué)報(bào)目前是該領(lǐng)域載文量最高的期刊,是中文分詞研究的核心期刊與主要交流陣地。

      2.3 文獻(xiàn)內(nèi)容主題分析

      對(duì)2004-2008中文分詞領(lǐng)域研究的論文,按照研究?jī)?nèi)容進(jìn)行分析,按發(fā)文量主要有八大研究主題,即:分詞算法研究、分詞系統(tǒng)開(kāi)發(fā)研究、檢索應(yīng)用研究、搜索引擎應(yīng)用研究、分詞歧義切分研究、綜述性論文、未登錄詞研究、分詞規(guī)則研究,如表6所示。其中內(nèi)容涉及算法研究的論文數(shù)量最多,占了80篇,說(shuō)明目前對(duì)分詞效率的研究還是在算法方面。分詞的應(yīng)用研究已成為研究重點(diǎn),系統(tǒng)開(kāi)發(fā)、檢索系統(tǒng)應(yīng)用、搜索引擎應(yīng)用研究,相加達(dá)到142篇,達(dá)58%,這說(shuō)明中文分詞研究已從理論研究階段進(jìn)入實(shí)際應(yīng)用階段。中文分詞研究的難點(diǎn),歧義切分與未登錄詞、仍然得到中文分詞研究者的重視。

      3 結(jié) 語(yǔ)

      經(jīng)過(guò)上述分析,可以看出,隨著中文信息計(jì)算機(jī)智能化處理的發(fā)展和人們對(duì)信息檢索效率的要求的提高,為中文分詞研究提供了廣闊的應(yīng)用前景與研究空間。相關(guān)領(lǐng)域的期刊也為中文分詞研究者提供了完善的學(xué)術(shù)交流陣地,相信中文分詞研究的傳統(tǒng)重點(diǎn)、難點(diǎn)問(wèn)題,在研究者的不斷努力下將逐步有所突破。

      參考文獻(xiàn)

      [1]劉穎,唐永林,曾媛.我國(guó)專利地圖研究的文獻(xiàn)計(jì)量分析[J].現(xiàn)代情報(bào),2008,(10):153-157.

      [2]呂海萍,喬建生.從對(duì)《計(jì)量學(xué)報(bào)》論文作者的分析看我國(guó)計(jì)量學(xué)科隊(duì)伍的現(xiàn)狀[J].計(jì)量學(xué)報(bào),1998,19(3):234-240.

      [3]劉芬.2007年《情報(bào)科學(xué)》載文、作者與引文統(tǒng)計(jì)分析[J].情報(bào)科學(xué),2008,26(11):1699-1702.

      猜你喜歡
      文獻(xiàn)計(jì)量
      基于文獻(xiàn)計(jì)量的MOOC課程文獻(xiàn)綜述
      基于文獻(xiàn)計(jì)量分析的國(guó)內(nèi)農(nóng)業(yè)生態(tài)補(bǔ)償研究態(tài)勢(shì)
      基于CNKI的國(guó)內(nèi)檔案學(xué)博碩士學(xué)位論文研究
      檔案管理(2017年1期)2017-01-17 19:11:16
      基于文獻(xiàn)計(jì)量的數(shù)據(jù)素養(yǎng)及其教育領(lǐng)域研究態(tài)勢(shì)分析
      國(guó)內(nèi)電子商務(wù)學(xué)術(shù)研究進(jìn)展分析
      我國(guó)醫(yī)學(xué)數(shù)字圖書(shū)館研究的文獻(xiàn)計(jì)量分析
      國(guó)內(nèi)外智庫(kù)研究態(tài)勢(shì)知識(shí)圖譜對(duì)比分析
      國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
      基于文獻(xiàn)計(jì)量分析我國(guó)生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
      高校通識(shí)選修課的研究綜述
      临颍县| 靖西县| 汤阴县| 方城县| 静安区| 桦川县| 宁化县| 新乡市| 民权县| 长子县| 宣城市| 西乌珠穆沁旗| 胶州市| 岚皋县| 夏邑县| 贵南县| 闽清县| 庄河市| 加查县| 潮安县| 丰台区| 庐江县| 蓬溪县| 南汇区| 方正县| 樟树市| 霍城县| 佛教| 延庆县| 横山县| 雷山县| 玛多县| 平谷区| 临夏县| 光泽县| 德令哈市| 涞水县| 哈尔滨市| 庆安县| 沾化县| 台前县|