• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PAM聚類的學科隊伍構建方法研究*

      2020-06-10 03:38:42
      圖書館研究與工作 2020年6期
      關鍵詞:中心點科研成果分類號

      張 月

      (淮陰工學院高等教育研究所、學報編輯部 江蘇淮安 223001)

      1 引言

      2015年8月18日,中央全面深化改革領導小組會議審議通過《統(tǒng)籌推進世界一流大學和一流學科建設總體方案》并于同年11月由國務院印發(fā),決定統(tǒng)籌推進建設世界一流大學和一流學科,學科建設被提到了重要的戰(zhàn)略高度。2017年10月18日,習近平同志在十九大報告中指出,“要加快一流大學和一流學科建設”[1],為高校的發(fā)展指明了方向。隨著“雙一流”建設的推進,全國高校掀起了加強學科建設的高潮。學科是高校發(fā)展最基本、最基層的學術組織,學科建制雖小,但學科建設卻是一項復雜的、宏大的系統(tǒng)工程[2],主要包括制度建設、人才隊伍建設、基地與平臺建設、人才培養(yǎng)、學術研究五個方面的內(nèi)容。其中人才隊伍是學科建設的主體,是學科建設的決定性因素[3]。作為地方高校,學科隊伍建設的質(zhì)量直接決定著學科建設的質(zhì)量。

      目前,學科隊伍主要通過一些傳統(tǒng)的方法建立,如依據(jù)學科帶頭人的帶動方式來建立,學科帶頭人確定學科定位,做好業(yè)務表率,通過選拔、培養(yǎng)與引進人才的方式建立學科隊伍[2,4-5]。這是一種行之有效的學科隊伍構建方法,但也存在缺陷,如過于依賴學科帶頭人的帶動作用,無論從學科帶頭人的選定還是從學科帶頭人自身的素養(yǎng)與業(yè)務能力來看,都存在著許多不確定因素,一旦出現(xiàn)學科帶頭人能力不足或判斷失誤等問題,就可能會導致學術隊伍向著不恰當?shù)姆较蛉グl(fā)展。同時,這種傳統(tǒng)的學科隊伍建設方法還存在著學科方向相對固定,難以快速吸引不同學科方向人才加入隊伍,進而通過學科交叉等方式產(chǎn)生新方向的問題。隨著學科建設的不斷發(fā)展,科技創(chuàng)新的要求不斷提高,學科交叉正成為新形勢下學科產(chǎn)生新方向的主要方式。學科交叉不能通過生硬的嫁接方式僅依靠學術帶頭人指定,而應該從現(xiàn)有的學術人才庫中通過信息化等手段去發(fā)掘。

      本文從學術人才的科研成果數(shù)據(jù)分析著手,運用數(shù)據(jù)聚類技術發(fā)現(xiàn)科研成果的內(nèi)在聯(lián)系,從而將科研成果相似度高、學科交叉可能性大的學術人才匯聚到一起,構建科學合理的學科隊伍。聚類方法不同于分類方法,它不指定分類標準,只通過數(shù)據(jù)分析得到自然聚類,能夠得到潛在的知識[6],因此,運用聚類方法構建學科隊伍時能夠獲得未經(jīng)指定的學科方向,它可能與現(xiàn)有的學科隊伍代表的學科方向一致,也極有可能是潛在的學科交叉新方向。對于高校而言,在“雙一流”建設大力推進的大好時機下,這種相對快速合理的信息化方法能夠為學科建設提供強勁有力的支持,為高校的學術創(chuàng)新與科研實力提升提供更加廣闊的空間。

      2 學科成員相似度度量

      學科成員的科研成果決定了他的科研方向。本文通過對學科成員科研成果的分析發(fā)掘其內(nèi)在聯(lián)系,對科研人員進行聚類,將科研方向相似度大的科研人員歸為一類,進而構建學科隊伍。運用聚類算法,首先要確定學科成員的相似度,學科成員的相似度則是基于文獻相似度度量確定的。目前,多種文獻相似度計算方法如利用詞頻向量空間模型VSM[7]、利用語義角色標注[8]及通過構造領域本體進而進行文獻相似度計算的方法[9]等,這些計算方法往往存在著當運用不同的概念抽取方法時抽取的概念差異較大的問題,其對計算結果的影響也很大,抽取方法的準確程度制約了相似度計算。學科隊伍的建設是基于科研人員研究領域的相似或相關程度,對于學術人才發(fā)表的科研成果而言,只要取其所在領域,分析其與別的科研人員的研究領域相似度就足夠了。為敘述方便,文中提到的文獻僅指代科研論文。本文利用中國圖書館分類法(以下簡稱“中圖分類法”),結合文獻作者與領域?qū)<业囊庖妼⑽墨I進行分類,進而通過類間相似度的確定來定義文獻的相似度。在文獻數(shù)據(jù)量比較小的情況下,這種分類方法的精準度高,能夠為文獻相似度的度量提供可靠的計算基礎。

      2.1 文獻的預處理

      為了計算文獻相似度,需要先將文獻按中圖分類法進行分類。一般情況下,中文文獻自身帶有文獻分類號,中國知網(wǎng)等數(shù)據(jù)庫也有為文獻分配的文獻分類號,在計算精度要求不高的情況下,可以就這兩種文獻分類號運用本文提出的計算方法計算文獻間的相似度,進而進行粗略聚類。當需要更加精確的學科隊伍聚類結果時,往往需要作者與領域?qū)<抑匦路峙湮墨I分類號。另外,外文文獻也需要通過類似的方式加上中圖分類號,對于已有分類號的外文文獻可以通過相關轉(zhuǎn)換[10]實現(xiàn)與中圖分類號的統(tǒng)一。

      對于一篇文獻而言,一個分類號往往不能概括其所在的領域,這時可以對一篇文獻分配多個分類號,對于存在學科交叉的文獻而言一般分配兩個分類號比較恰當(當文獻分類號過多時其分類權重也逐漸減少,為敘述方便,本文研究的數(shù)據(jù)將文獻分類號限制在三個以內(nèi))。當一篇文獻的分類號不止一個時,還需要對不同的分類號分配不同的權重,這是因為文獻涉及的領域側(cè)重程度是不同的,如表1所示。

      2.2 基于中圖分類法的文獻相似度度量方法

      基于中圖分類法的文獻相似度度量方法原理是在文獻分類的基礎上考察兩文獻所在類之間的相似度,以確定兩文獻的相似度。當兩文獻處于不同的底層分類中,將其相似度稱為類間相似度;當兩文獻處于相同的底層分類中,稱其為類內(nèi)相似度,需考察此類內(nèi)文獻間的相似度。類間相似度與類內(nèi)相似度根據(jù)分類號目錄深度與分類相關度綜合專家意見定義。

      表1 文獻分類號分配示例

      文獻相似度的定義遵循以下四個原則:①類間相似度定義值的賦予僅限于從同一個類劃分出的多個類,即從不同的高層類劃分出的類之間不具有相似度定義值,如圖1所示,A1與A2之間相似度定義值為0.12,而A2與B1之間由于不存在共同的上一級類,其類間無直接的相似度定義值;②從同一個高層類劃分出的所有類之間的相似度值是相同的,如A21與A22的相似度值為0.26,A21與A23之間的相似度值為0.26,A22與A23之間的相似度值也為0.26,它們具有相同的高層類A2;③高層類劃分到低層類后,得到的類間相似度大于高層類間相似度,如A11與A12兩類的相似度總高于A1與A2之間的相似度,層級越高,同層類間的相似度越低;④任何兩個類或文獻之間的相似度都不大于1。

      圖1 基于中圖分類法的文獻相似度定義示例

      處于底層的類,除了類間的相似度需要定義之外,還需要定義類內(nèi)文獻的相似度,以便于衡量兩文獻處于同一個底層類時文獻間的類內(nèi)相似度。

      2.3 文獻相似度的計算

      以an表示文獻,其中n為文獻序號,n>0,以clp表示中圖分類號所代表的類,p>0,以Db函數(shù)表示文獻間相似度,Dc函數(shù)表示類間或類內(nèi)相似度。為敘述方便,先考察任一文獻只有1個中圖分類號的情況。利用上述文獻相似度定義,可以確定兩文獻am與an之間的相似度:當am與an屬于兩個不同的底層類時,尋找兩文獻所在類之間的相似度定義值,若無定義值,則向上一級尋找其父類之間的相似度定義值,直到找到有相似度定義值的兩個類clp與clq為止,則兩文獻的相似度即為此兩個類的相似度定義值,即Db(am,an)=Dc(clp,clq);當am與an屬于同一底層類即p=q時,文獻間的相似度可以表示為Db(am,an)=Dc(clp,clq)或Db(am,an)=Dc(clp),此時Dc(clp)表示的是底層類clp的類內(nèi)相似度。

      根據(jù)上述文獻相似度計算的方法,考慮文獻具有多個中圖分類號的情況,即文獻的中圖法分類數(shù)大于1的情況。對于某個文獻而言,它可能屬于多個中圖法類,不同的類具有不同的權重,文獻分類相關的參數(shù)表示方法如表2所示。

      表2 文獻參數(shù)表示法

      其中,an_t取值范圍為{1,2,3},文獻具有的分類表示為an_clt,分類對應的權重為an_wt。若an_t=3,則文獻an具有3個分類,它們分別是an_cl1,an_cl2和an_cl3,這3個類對應的權重分別是an_w1,an_w2和 an_w3。任意兩文獻am與an之間的相似度可以通過兩文獻所屬類間的相似度計算確定:

      此相似度計算公式考慮了文獻所具有的不同類所占的權重因素,同一篇文獻具有的所有類的權重之和為1。顯然,文獻a與文獻b的相似度和文獻b與文獻a的相似度計算值是相同的,

      2.4 學科成員相似度的度量

      學科成員相似度的度量可以通過考察其科研成果的相似度確定,通常情況下,學科成員會有多個科研成果即科研成果集,考察兩個學科成員的相似度即是計算其科研成果集的相似度。在上述文獻相似度度量的基礎上可以進一步定義科研成果集的相似度度量方法。以學科成員A的單一科研成果與學科成員B的所有科研成果逐一進行比較,將結果相加即可得到A的單一科研成果與B的科研成果集的相似度,將學科成員A的所有單一科研成果與B的成果集進行比較即可得到A與B的總相似度。這種相似度的度量方法不同于生硬地使用歐幾里得距離函數(shù)的方法,它在文獻相似度度量的基礎上考慮兩學科成員成果集的相似度,能有效地反映出學科成員科研成果集的領域相似度。

      設有學科成員A(a1,a2,…,an),即A的科研成果集為{a1,a2,…,an},其中an表示其科研成果,n>0;學科成員B(b1,b2,…,bk),科研成果集為{b1,b2,…,bk},其中k>0,假設上述兩者的任一科研成果只屬于1個中圖法類,即任一文獻的中圖法分類數(shù)都為1,則學科成員A與B的相似度S(A,B)可以通過以下公式計算:

      考慮到不同的學科成員科研成果量雖然不同,但作為科研主體,每個學科成員的總成果量應具有相同的權值,即不論其科研成果量多少,計算兩個學科成員的成果相似程度時應保證兩個學科成員的重要性是一致的。基于此,在計算相似度時應將任一學科成員的任一科研成果賦予相同的權重,若科研成果量為n,則單篇文獻所占權重應為1/n。兩個學科成員的相似度計算應為:文獻兩兩比較相似度之和/(n×k),其中n×k為兩學科成員的所有文獻兩兩比較的次數(shù),則單次比較在所有比較次數(shù)中所占的權重為1/(n×k)。顯然,學科成員A與學科成員B的相似度和學科成員B與學科成員A的相似度計算值是相同的,即S(A,B)=S(B,A)。

      3 利用PAM算法進行學科成員聚類

      相較于傳統(tǒng)的指定學科帶頭人或指定學科方向建立學科隊伍的方式,聚類方法的優(yōu)勢在于它是基于數(shù)據(jù)分析的自動化過程,能發(fā)現(xiàn)潛在的學科交叉方向,同時凝練出相應的學科隊伍,能夠跟隨數(shù)據(jù)的更新隨時調(diào)整學科隊伍的成員。本文采用基于劃分的聚類算法,目前相關的典型算法有K平均與K中心點算法[6]。K平均算法需要計算簇中對象的平均值,且對“噪音”和孤立點(離其他數(shù)據(jù)點非常遠的數(shù)據(jù)點)敏感。由于學科成員的科研成果數(shù)量不一,科研方向多樣,導致“噪音”和孤立點較多,故而不適用于學科成員數(shù)據(jù)的聚類。PAM算法是典型的K中心點算法,相較于其他的劃分聚類算法,PAM算法對“噪音”和孤立點數(shù)據(jù)不敏感,且能夠處理不同類型的數(shù)據(jù),適用于學科成員的聚類計算。

      3.1 PAM算法概述

      PAM算法的目的是對n個數(shù)據(jù)對象給出k個劃分。PAM算法的基本策略[11]:先為每個簇隨意選擇一個代表對象(中心點),剩余的對象根據(jù)其與代表對象的相異度或距離分配給最近的一個簇。然后反復地用非代表對象來替換代表對象,以提高聚類的質(zhì)量;聚類質(zhì)量由代價函數(shù)來估算。該函數(shù)用來判斷一個非代表對象是否是當前某代表對象的好的代替,如果是則進行替換,否則不替換,最后給出正確的劃分。代價函數(shù)的計算基于學科成員相似度的計算。

      3.2 算法過程

      為了在學科成員數(shù)據(jù)庫D中找到k個學科成員簇,需要為每一個簇定義1個代表成員。該代表成員被稱為中心點,即這個代表成員是其所在的簇中最中心的學科成員。當k個中心點選定以后,剩余的n-k個非選中成員被劃分到k個簇中,劃分規(guī)則是:將非選中成員劃分到離它最近的代表成員所代表的簇,為此,需要依據(jù)學科成員相似度計算方法確定非選中成員到代表成員的距離。

      為了找出k個中心點,PAM算法首先隨機地選擇了k個學科成員。然后在每一步中,用一個非選中成員Rh替換一個選中成員Ri,只要這樣的替換能夠提高聚類質(zhì)量。為了估量Rh與Ri之間替換的效果,PAM算法為每一個非選中成員Rj計算代價Cjih。根據(jù)Rj屬于下列哪種情況,Cjih用不同的公式定義。

      第一種情況:Rj當前屬于Ri所代表的簇,并且Rj離Ri2比Rh近,即此處Ri2是Rj的第二接近中心點。這樣,如果Ri被Rh替換作為中心點,Rj將屬于Ri2所代表的簇,因此就Rj而言替換的代價為:

      第二種情況:Rj當前屬于Ri所代表的簇,并且Rj離Rh比Ri2近,即此處Ri2是Rj的第二接近中心點。這樣,如果Ri被Rh替換作為中心點,Rj將屬于Rh所代表的簇,因此就Rj而言替換的代價為:

      第三種情況:Rj當前屬于另一個非Ri所代表的簇,Ri2是Rj所屬簇的代表成員,并且Rj離Ri2比Rh近,即這樣,如果Ri被Rh替換作為中心點,Rj將留在Ri2所代表的簇,因此就Rj而言替換的代價為:

      第四種情況:Rj當前屬于另一個非Ri所代表的簇,Ri2是Rj所屬簇的代表成員,并且Rj離Rh比Ri2近,即這樣,如果Ri被Rh替換作為中心點,Rj將從Ri2所代表的簇中跳入Rh所代表的簇中,因此就Rj而言代價為:

      綜合考慮以上四種情況,對所有n-k個Rj的代價Cjih求和,用Rh替換Ri的總代價為:此處符號Σj表示對當前所有n-k個非中心點成員Rj的代價Cjih求和。

      算法處理流程如下:

      算法:學科成員數(shù)據(jù)的PAM聚類

      輸入:預期學科成員簇的數(shù)目k,包含n個學科成員及其對應科研成果(文獻)的數(shù)據(jù)庫;

      輸出:k個學科成員簇,使得所有學科成員與其最近代表學科成員的相似度總和最大;

      Step1:隨機選擇k個學科成員作為初始的代表成員;

      Step2:repeat;

      Step3:指派n-k個剩余的學科成員給離它最近的中心點所代表的簇;

      Step4:對于代表對象Mi,任意選擇一個非代表學科成員Mh;

      Step5:計算用Mh代替Mi的總代價;

      Step6:如果TCih<0,則用Mh替換Mi形成新的k個代表學科成員的集合;

      Step7:until所有形成的k個學科成員簇不再發(fā)生變化。

      需要說明的是,算法中涉及任意兩個成員距離與替代代價的計算都離不開學科成員相似度的計算,因為相似度與距離是相反的,即相似度越大,距離越遠,因此距離計算本質(zhì)上與相似度計算是可以直接換算的。運用上述PAM聚類算法時需要輸入預期得到的學科成員簇數(shù)量。當輸入不同的初始簇數(shù)值時,得到的聚類結果必然不同,一方面,調(diào)整初始簇數(shù)目增加了學科建設需要考慮的因素,不恰當?shù)某跏即財?shù)目的輸入可能會導致不恰當?shù)木垲惤Y果;另一方面,通過對初始簇數(shù)目的調(diào)整可以得到多樣化的聚類結果,有利于對比分析,根據(jù)結果的合理性人為地在更多的可能結果中做出最恰當?shù)倪x擇。預期學科成員簇數(shù)量的確定需要考慮的因素主要有原有的學科隊伍數(shù)量、每支學科隊伍的大致人數(shù)及科研群體的科研能力等,原則上可以在原有的學科隊伍數(shù)量上逐步加大,通過分析選取最恰當?shù)闹怠?/p>

      4 實驗與分析

      以某高校學科隊伍建設為例,以2018年元月為時間基準點,以該校所有教職工近五年的科研成果作為分析數(shù)據(jù),預期聚類結果12個成員簇。經(jīng)篩選形成該校所有符合近五年內(nèi)有科研成果的學科成員基本信息表,學科成員數(shù)為516,其片段如表3所示。

      表3 學科成員信息表片段

      與表3對應的是所有學科成員的科研成果表,經(jīng)數(shù)據(jù)收集與整理,基于CNKI數(shù)據(jù)庫已標注的中圖分類號,結合領域?qū)<乙庖姶_定科研成果的分類及其權重,形成學科成員成果表,其片段如表4所示。

      根據(jù)該校原有學科隊伍數(shù)量與隊伍的平均成員數(shù),調(diào)整聚類預期簇數(shù)為12,同時將以上兩表作為基礎數(shù)據(jù),經(jīng)PAM算法處理,最終得到12個聚類簇。為方便表示,將其統(tǒng)計結果片段如表5所示。

      表4 學科成員成果表片段

      表5 聚類結果統(tǒng)計片段示例

      分析聚類結果,發(fā)現(xiàn)其中10個簇與原有的學科隊伍數(shù)量、各學科隊伍成員構成基本一致,另2個簇不一致,其中簇3人數(shù)較少不具備構成學科隊伍的條件,簇12從學科成員數(shù)量與學科方向來看符合學科隊伍構建的條件。經(jīng)分析簇12中學科成員普遍存在2-3個研究領域有交叉的科研成果,如通信與信息系統(tǒng)、環(huán)境工程、有色金屬。我們將該簇稱為有效簇,其相關數(shù)據(jù)片段如表6所示。

      表6 有效簇相關數(shù)據(jù)片段示例

      預期的簇數(shù)對結果的影響很大,如果對聚類結果不滿意可以調(diào)整預期簇數(shù)作為輸入重新計算,直到得到合適的聚類結果為止。

      通過上述實驗結果得到的學科隊伍與傳統(tǒng)的通過指定學科成員的方法建立的學科隊伍對比可以看出,本文的方法能夠得到一些難以人為發(fā)現(xiàn)的學科方向,同時列出對應的學科成員構成,這是傳統(tǒng)的方法難以做到的。但是初始的聚類結果可能會存在少許不合理的情形,如科研成果相關度并不大的某個成員被納入某個簇中,這是因為原始數(shù)據(jù)中出現(xiàn)的人員必會被分配到某個簇中,從數(shù)據(jù)聚類的角度上來看這種分配是合理的,但是從實際學科相關性上來看卻未必合理,這時就需要在聚類結果的基礎上加以人工分析,從相關簇中剔除一些不合理成員以達到優(yōu)化聚類結果、實現(xiàn)學科隊伍合理構建的目的。

      5 結語

      本文針對學科成員的科研成果數(shù)據(jù)的特性提出了科研成果的相似度計算方法,進而提出學科成員相似度的度量方法,運用基于劃分的PAM聚類算法對學科成員進行聚類,以期找出合理的學科隊伍的成員構成。實驗結果表明,本文提出的學科隊伍構建方法是有效的,相較于傳統(tǒng)的學科成員構建方法,它能發(fā)現(xiàn)潛在的難以確定的學科方向,同時列出對應的學科成員,結合人工分析對結果進行優(yōu)化,構建合理的學科隊伍。運用信息化處理的手段從海量的數(shù)據(jù)中分析并得到合理的學科隊伍聚類,對于當前大力開展學科隊伍建設的科研院所與高校來說是有益的嘗試,尤其對于需要尋找學科交叉新方向的機構而言,它的作用更加明顯。目前相關研究雖處于初級階段,但是相較于傳統(tǒng)的學科隊伍建設方法,它的優(yōu)勢是顯而易見的,隨著相關研究的進一步深入、各種信息化方法的不斷完善,相信學科隊伍建設必將越來越科學、越來越合理,也必能為我國的學科建設提供更多的選擇,為“雙一流”建設提供強有力的技術支持。

      猜你喜歡
      中心點科研成果分類號
      科研成果轉(zhuǎn)化
      水運工程(2022年7期)2022-07-29 08:36:12
      中國科研成果震撼全球
      Scratch 3.9更新了什么?
      電腦報(2020年12期)2020-06-30 19:56:42
      如何設置造型中心點?
      電腦報(2019年4期)2019-09-10 07:22:44
      加強醫(yī)療科技自主創(chuàng)新和科研成果轉(zhuǎn)化
      審批復雜 科研成果落地難
      A Study on the Change and Developmentof English Vocabulary
      漢字藝術結構解析(二)中心點處筆畫應緊奏
      尋找視覺中心點
      大眾攝影(2015年9期)2015-09-06 17:05:41
      Translation on Deixis in English and Chinese
      桃江县| 桦甸市| 临湘市| 东阿县| 阳高县| 万年县| 鹤庆县| 佛教| 章丘市| 甘南县| 清苑县| 荃湾区| 阿拉善左旗| 濉溪县| 包头市| 饶平县| 公安县| 兴化市| 延庆县| 观塘区| 临沂市| 竹山县| 武陟县| 体育| 叶城县| 江华| 闵行区| 揭东县| 天水市| 睢宁县| 酒泉市| 新民市| 抚州市| 陆丰市| 新田县| 太仆寺旗| 洪泽县| 白朗县| 新泰市| 府谷县| 南木林县|