• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      乘冪擬合法在確定洛特卡分布和定律參數(shù)中的應(yīng)用*

      2014-03-13 01:31:37張海燕
      圖書館論壇 2014年1期
      關(guān)鍵詞:洛特定律線性

      張海燕

      乘冪擬合法在確定洛特卡分布和定律參數(shù)中的應(yīng)用*

      張海燕

      乘冪擬合是曲線擬合的一種類型。洛特卡定律的數(shù)學(xué)表達(dá)式y(tǒng)x=C/xn本身就是乘冪的形式,根據(jù)曲線擬合后所對應(yīng)的乘冪方程,可以直接得出n值和C值,非常簡便準(zhǔn)確。

      乘冪擬合 洛特卡定律 分布 參數(shù) K-S檢驗(yàn)

      1 洛特卡定律的基礎(chǔ)性研究現(xiàn)狀

      目前業(yè)界對洛特卡定律的基礎(chǔ)性研究薄弱、墨守陳規(guī)。在洛特卡定律的基礎(chǔ)性研究中,繼20世紀(jì)90年代張賢澳[1-3]后鮮有人問津,嚴(yán)重制約了文獻(xiàn)計(jì)量學(xué)的發(fā)展和應(yīng)用。計(jì)算機(jī)技術(shù)的發(fā)展和各種便捷高效的統(tǒng)計(jì)軟件出現(xiàn)為改善文獻(xiàn)計(jì)量學(xué)的基礎(chǔ)研究方法提供了可能。文獻(xiàn)計(jì)量學(xué)歸根到底是應(yīng)用學(xué)科,只有不斷引入先進(jìn)的分析工具才能推動其發(fā)展。

      1.1 n值及C值的一般求法繁瑣

      在洛特卡定律的數(shù)據(jù)統(tǒng)計(jì)和分析過程中,現(xiàn)在普遍采用的是1986年由美國學(xué)者米蘭德·李·鮑(Miranda Lee Pao)提出的以普賴斯和揚(yáng)布蘭斯基準(zhǔn)則為依據(jù)的刪除離差大的高產(chǎn)著者的數(shù)據(jù),逐一擬合比較,從中選出最優(yōu)的回歸直線的方法,即以回歸分析為基礎(chǔ)的擬合方法[4]。但是n值及C值的一般求法非常繁瑣(詳見下面公式),很容易在計(jì)算過程中出現(xiàn)錯誤。

      1.2 高產(chǎn)作者的確定方法模糊

      在實(shí)際應(yīng)用過程中,洛特卡定律只適用于作者群體中占絕對數(shù)量優(yōu)勢的低產(chǎn)作者,而高產(chǎn)作者作為特殊群體,不適用于洛特卡定律,所以要將高產(chǎn)作者的數(shù)據(jù)刪除。而為了方便起見,高產(chǎn)作者往往按照作者總數(shù)的1%或者是按普萊斯定律就是科學(xué)家總?cè)藬?shù)開平方所得到的人數(shù)來確定。之所以這樣處理,原因并不明確,因此高產(chǎn)作者的數(shù)據(jù)都是估算的,缺乏嚴(yán)謹(jǐn)?shù)慕忉屨f明。

      2 乘冪擬合法在確定洛特卡分布和定律參數(shù)中的應(yīng)用

      現(xiàn)在其實(shí)完全可以通過利用常用的統(tǒng)計(jì)軟件如Excel來解決這一類過去難以突破的問題。在Excel的圖表向?qū)е?,通過添加趨勢線的方法來選擇最合適的分析類型對數(shù)據(jù)進(jìn)行擬合是可行的解決方案。在運(yùn)用洛特卡定律時,可以通過以下步驟來實(shí)施:

      2.1 選擇合適數(shù)據(jù)

      對論文數(shù)和作者數(shù)各取對數(shù)后,在Excel的圖表向?qū)е羞x擇線性關(guān)系對這兩組數(shù)據(jù)進(jìn)行擬合,在全部數(shù)據(jù)中選取連續(xù)多組數(shù)據(jù)逐一進(jìn)行線性擬合比較,參考相關(guān)系數(shù)并從中選出最合適的擬合直線。而不在線性范圍內(nèi)的那一部分高產(chǎn)作家數(shù)據(jù)就是要被刪除的數(shù)據(jù),所以要去掉的高產(chǎn)作家不一定剛好是總?cè)藬?shù)的1%,也不一定是總?cè)藬?shù)開平方所得到的人數(shù),而是不在線性范圍內(nèi)的那一部分。這和米蘭德·李·鮑的刪除離差大的高產(chǎn)著者的數(shù)據(jù)是一致的。

      2.2 求n值和C值即洛特卡分布參數(shù)

      對選擇好的數(shù)據(jù)進(jìn)行下一步分析。算出各個作者數(shù)在總作者數(shù)中(已經(jīng)刪除高產(chǎn)作者)的百分比,然后對論文數(shù)和作者百分比這兩組數(shù)據(jù)在Excel的圖表向?qū)е羞x擇乘冪關(guān)系進(jìn)行擬合。筆者發(fā)現(xiàn),選擇乘冪的分析類型是最直接和準(zhǔn)確的。洛特卡定律的數(shù)學(xué)表達(dá)式y(tǒng)x=C/xn本身就是乘冪的形式,根據(jù)曲線擬合后所對應(yīng)的乘冪方程,可以直接得出n值和C值,非常簡便和準(zhǔn)確。

      2.3 K-S檢驗(yàn)

      在乘冪擬合或線性擬合的圖形中,通過觀察第一組數(shù)據(jù)理論值與實(shí)際值的吻合度,可以初步判斷該組數(shù)據(jù)能否通過檢驗(yàn),計(jì)算出第一組數(shù)據(jù)的差值D1和D臨界,如果D1>D臨界,就可以判斷該組數(shù)據(jù)不能通過K-S檢驗(yàn),也不用再進(jìn)行其它數(shù)據(jù)的計(jì)算,從而簡化K-S檢驗(yàn)過程。

      綜合運(yùn)用線性擬合和曲線擬合兩種方法,先通過線性擬合選擇合適的研究數(shù)據(jù),再對其進(jìn)行乘冪擬合從而直接得出洛特卡分布函數(shù)表達(dá)式的方法直觀、簡便,值得推廣。

      3 例證

      本文以3例文獻(xiàn)數(shù)據(jù)來解釋乘冪擬合法在確定洛特卡分布和定律參數(shù)中的應(yīng)用。

      例1采用邱均平等發(fā)表在《圖書情報研究》2009年第2期論文中的表7[5]的數(shù)據(jù),制成表1。

      表1 1978-1982年情報學(xué)作者分布表

      因原表取前6組數(shù)據(jù)計(jì)算,故亦取同樣數(shù)據(jù)繪制圖1。

      圖1 作者原始數(shù)據(jù)的乘冪擬合圖(對應(yīng)于表1)

      可見,論文數(shù)x與作者數(shù)y相關(guān)良好,且最高點(diǎn)基本為曲線起點(diǎn),即x=1時的y值的理論值和實(shí)際值吻合度高。故初步推斷該組數(shù)據(jù)符合洛特卡分布。

      表2 1978-1982年情報學(xué)作者分布的K-S檢驗(yàn)表

      取顯著性水平α=0.01時,D臨界=1.63/√975=0.0522,Dmax=0.0062,故Dmax<D臨界,該組數(shù)據(jù)可以通過K-S檢驗(yàn)。與原文結(jié)果一致。

      圖2中乘冪方程式y(tǒng)=0.774x-2.5563(x=1,2,……)即洛特卡分布函數(shù)表達(dá)式,與原文結(jié)果F (x)=0.76407x-2.57348基本相符,細(xì)微差別是由于在計(jì)算過程中有效數(shù)字的處理略有差異造成的。

      圖2 作者百分比的乘冪擬合圖(對應(yīng)于表2)

      例2采用李麗娜發(fā)表在《情報雜志》2009年第5期論文中的表2[6]的數(shù)據(jù),制成表3。

      表3 十年間我國圖書情報領(lǐng)域論文文獻(xiàn)的作者分布

      圖3 作者原始數(shù)據(jù)乘冪擬合圖(對應(yīng)于表3)

      原文取表中12組數(shù)據(jù)研究,本文亦然。可見,論文數(shù)x與作者數(shù)y相關(guān)尚好,但擬合曲線的起點(diǎn)即理論最高點(diǎn)比實(shí)際最高點(diǎn)高出很多,即x=1時的y值的理論值和實(shí)際值相差甚遠(yuǎn),故初步推斷該組數(shù)據(jù)不能通過K-S檢驗(yàn)。

      取顯著性水平α=0.01時,D臨界=1.63/√49084=0.0073;x=1時的y值的理論百分比與實(shí)際百分比的差值D1=(34081-28214)/49084 =0.1195,故D1>D臨界,其它累積差值可以不計(jì)算了,該組數(shù)據(jù)不能通過K-S檢驗(yàn)。這與原文的檢驗(yàn)結(jié)果一致;n=1.9539也與原文結(jié)果n=1.954相符。

      例3 采用邱均平等發(fā)表在《圖書情報工作》2011年第10期論文中的表4[7]的數(shù)據(jù),制成表4。

      表4 2007-2010年科學(xué)網(wǎng)信息科學(xué)學(xué)科博文博主分布情況

      圖4 博文與博主原始數(shù)據(jù)乘冪擬合圖(對應(yīng)于表4)

      原文取全部10組數(shù)據(jù)研究,本文亦然??梢?,博文數(shù)x與博主數(shù)y相關(guān)尚好,但可以看出最高點(diǎn)與理論值有偏差,故先取x=1時的差值D1進(jìn)行比較。

      取顯著性水平α=0.01時,D臨界=1.63/√392=0.0823;x=1時的差值 D1=(123.72-121)/392=0.1195,故D1>D臨界,其它累積差值則不必計(jì)算了,該組數(shù)據(jù)不能通過K-S檢驗(yàn)。這與原文結(jié)果一致;n=0.9223與原文結(jié)果n=0.92228相符。

      通過以上3個例子可以看出,在確定洛特卡分布和定律參數(shù)的過程中,乘冪擬合作圖法與常規(guī)使用的公式法的結(jié)果完全一致,證明這種方法可行;而且采用這種方法可以大大減少易于出錯的繁瑣的計(jì)算過程,同時對洛特卡定律的理解和把握更直觀且準(zhǔn)確。

      4 結(jié)語

      在文獻(xiàn)計(jì)量學(xué)發(fā)展的各個不同階段,洛特卡定律表現(xiàn)出強(qiáng)大的生命力,其持續(xù)發(fā)展而成為科學(xué)研究不可或缺的重要量化工具。國內(nèi)外圖書情報學(xué)者對它的完善和發(fā)展進(jìn)行了積極探索,且成果豐碩。很多科研團(tuán)隊(duì)都會在自己的研究領(lǐng)域中通過運(yùn)用洛特卡定律來尋找該領(lǐng)域的核心作者等重要信息,加深對研究主題的認(rèn)識,并進(jìn)一步找到研究方向。

      可是洛特卡定律是幾十年前產(chǎn)生的經(jīng)驗(yàn)定律,當(dāng)時研究者只能借助手工統(tǒng)計(jì)和計(jì)算,過程非常繁瑣且易于出錯。現(xiàn)在可以用更為先進(jìn)有效的統(tǒng)計(jì)手段來化繁為簡。本文通過借助于數(shù)據(jù)統(tǒng)計(jì)軟件Excel,沒有采用線性擬合的常規(guī)方法,而是改為直接使用曲線擬合的方法,通過對論文數(shù)及相應(yīng)作者原始數(shù)據(jù)或百分比數(shù)據(jù)進(jìn)行乘冪擬合,試圖在方法學(xué)上對洛特卡定律有所改進(jìn)。本文選取3個例證來解釋乘冪擬合如何在確定洛特卡分布和定律參數(shù)中發(fā)揮作用,與常規(guī)方法相比,因?yàn)榫€性擬合需要將論文數(shù)和作者數(shù)都轉(zhuǎn)化為對數(shù)后再進(jìn)行處理而使過程略顯麻煩,此時乘冪擬合直接簡便的優(yōu)勢非常突出,當(dāng)然這是建立在Excel強(qiáng)大的統(tǒng)計(jì)功能基礎(chǔ)上的。但是乘冪擬合的數(shù)據(jù)效果特別是對高產(chǎn)作者的剔除不如線性擬合更直觀明顯。所以對于洛特卡定律,綜合運(yùn)用線性和乘冪的分析方法較為合適,即先通過線性擬合選擇合適的研究數(shù)據(jù)、刪掉不合適的高產(chǎn)作者數(shù)據(jù),再對選擇后的數(shù)據(jù)進(jìn)行乘冪擬合從而直接得出洛特卡分布的函數(shù)表達(dá)式。同時注意觀察圖像中的高點(diǎn)位置,據(jù)此來初步判斷研究數(shù)據(jù)能否通過K-S檢驗(yàn),從而簡化K-S檢驗(yàn)過程。本文采用的作圖法較之常規(guī)使用的公式法更為直觀簡便,類似這種方法學(xué)上的改進(jìn),還可以應(yīng)用在其它文獻(xiàn)計(jì)量學(xué)定律如布拉德福定律等的研究上,值得在各學(xué)科和各領(lǐng)域文獻(xiàn)的計(jì)量學(xué)研究方面推廣。

      [1]張賢澳.非回歸分析的洛特卡定律參數(shù)n、c的直接估算[J].圖書情報工作,1991(12):27-35.

      [2]張賢澳.洛特卡定律研究的方法探討[J].圖書情報工作,1995(3):11-18.

      [3]張賢澳,李美文.廣義洛特卡定律參數(shù)特征的研究[J].情報探索,1996(6):10-15.

      [4]M.L.Pao.An Empirical Examination of Lotka's law[J]. Journal of American Society for Information Science,1986(1):29-31.

      [5]邱均平,楊思洛,王明芝.改革開放30年來我國情報學(xué)研究的回顧與展望(二)—情報學(xué)研究論文的作者分析[J].圖書情報研究,2009(2):8-13.

      [6]李麗娜.多角度對圖書情報領(lǐng)域洛特卡分布的驗(yàn)證[J].情報雜志,2009(5):5-7.

      [7]邱均平,余凡.網(wǎng)絡(luò)學(xué)術(shù)信息作者分布規(guī)律研究——以科學(xué)網(wǎng)博客為例[J].圖書情報工作,2011(10):15-18.

      Applying Exponentiation Fitting to Determine Lotka's Distribution and the Parameters of Lotka's Law

      ZHANG Hai-yan

      Fitting Exponentiation is a type of curve fitting and the mathematical expression of Lotka's law yx=C/xnis a form of exponentiation.According to the exponentiation equation,N and C values can be obtained directly and simply.

      exponentiation fitting;Lotka's law;distribution;parameters;K-S test

      格式 張海燕.乘冪擬合法在確定洛特卡分布和定律參數(shù)中的應(yīng)用[J].圖書館論壇,2014(1):18-21.

      張海燕(1978-)女,碩士,廣東藥學(xué)院圖書館館員。

      2013-03-29

      *本文系廣東藥學(xué)院人文思政研究專項(xiàng)課題“醫(yī)學(xué)領(lǐng)域論文的計(jì)量規(guī)律研究”(課題編號:RWSZ201123)研究成果之一

      猜你喜歡
      洛特定律線性
      卡洛特水電站:清潔能源賦能“中巴經(jīng)濟(jì)走廊”
      中國三峽(2022年8期)2022-11-30 08:39:24
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      線性回歸方程的求解與應(yīng)用
      多一盎司定律和多一圈定律
      蘇州高洛特電子科技有限公司
      真空與低溫(2019年5期)2019-10-18 09:08:32
      倒霉定律
      二階線性微分方程的解法
      萬有引力定律
      耐人尋味的定律
      妥洛特羅貼劑治療嬰幼兒哮喘的療效觀察
      通道| 广河县| 揭西县| 朔州市| 绥化市| 哈巴河县| 象山县| 通山县| 门头沟区| 晋中市| 门源| 惠安县| 泰安市| 乐都县| 云林县| 呼和浩特市| 乌海市| 曲周县| 阳泉市| 唐海县| 娱乐| 隆子县| 垫江县| 方城县| 法库县| 尉犁县| 布拖县| 易门县| 榕江县| 孟州市| 重庆市| 屏山县| 定南县| 莫力| 隆回县| 汤阴县| 沾化县| 兰西县| 江油市| 临漳县| 泰顺县|