王 鳴
(華南師范大學經濟與管理學院,廣東 廣州 510006)
數據挖掘應該更準確地被命名為“從數據中挖掘知識”,在產業(yè)界、媒體和研究界,“數據挖掘”通常被用來表示整個知識發(fā)現過程??梢砸暈榱硗庖粋€流行術語數據中的知識發(fā)現(KDD)的同義詞,因此,廣義的數據挖掘的定義是:從大量數據中發(fā)掘有趣模式和知識的過程,數據源包括數據庫、數據倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數據。
(一)標準性。數據多為標準字段,而不是文字描述。比如人員信息中,姓名、單位名稱、單位屬性、職稱、學歷、畢業(yè)院校等;成果中論文作者、論文名稱、發(fā)表時間、發(fā)表刊物等;項目成果里的項目名稱、立項時間、項目起止時間、經費等。標準數據有利于數據的收集、比對和整理。
(二)延續(xù)性。連續(xù)的科研過程很重要。比如一般的系統(tǒng),都是記錄該人員已發(fā)表或立項了的成果,這類信息不夠全面。特別是對于項目申報、課題立項,到課題完成這些時間點的記錄比較零散。如果數據能記錄時間上的屬性,則可以挖掘出很多有用的信息。隨著科研管理信息系統(tǒng)的使用,院校每年在各類科研申報中都能產生大量具備時間屬性的數據。
(三)周期性。數據產生有一定的周期性。比如各類型科研項目的申報、立項、管理在每年不同時段都有較固定的時間。以科研項目為例,國家社會科學基金項目申請時間一般為每年的2-3月,國家自然科學基金項目 (管理科學)一般為3月,全國教育科學規(guī)劃項目一般為3-5月,等等,這些數據隨著年份的推進,其產生具有一定的周期性。
(四)實時性??蒲泄芾硇畔⑾到y(tǒng)能提供數據的實時錄入和實時查詢。系統(tǒng)是以人員、管理單位為用戶。教師個人、各級管理單位都通過賬戶登錄系統(tǒng)填報或查詢。由此產生實時性、標準化的數據。同時各級管理用戶都能查看到這些實時數據,包括用戶的操作記錄,比如用戶登錄、查詢和點擊記錄等。
(五)關聯(lián)性??蒲泄芾硇畔⑾到y(tǒng)的數據由于具有人員、成果、活動、時間四個維度的多種組合,具有高度的關聯(lián)性。特定的人員與特定的成果、活動、時間相關聯(lián),同理兩兩相關,共可衍生出16類數據,如人員-成果、人員-活動、人員-時間、人員-人員;等等。以人員-成果為例,用于分析特定人員范圍的成果,而成果-人員則用于分析特定成果的人員組成。其他潛在的關聯(lián)性可通過數據挖掘來揭示。
(一)以科研成果匯總為主題。這是利用科研數據的首要主題,也是目前最為普遍應用的主題??蒲谐晒膮R總主要以三個維度為基礎:(1)時間范圍;(2)人員范圍;(3)成果范圍。這些匯總可提供各類統(tǒng)計數據。首先是常規(guī)性的科研業(yè)績考核,需要將每年度每個單位的科研成果匯總。其次是項目性的整體績效反饋,比如211三期驗收、第九輪省重點學科建設總結等,需要提供整體績效數據。
(二)以學科建設支持為主題。在各高等院校、科研院所越來越重視學科建設的背景下,這一主題越來越得到關注。通過收集單位內外科研活動、科研成果等信息,包括人才引進、團隊組建、沙龍活動、信息平臺(QQ群、微博、其他學習型社區(qū))等,結合科研單位的學科發(fā)展情況,可以得出一些學科發(fā)展規(guī)律,為單位的學科建設提供決策支持,有意識地引導單位的學科發(fā)展,從而更好地指導未來的學科建設。
(三)以科研人員培養(yǎng)為主題??蒲腥藛T的成才成長規(guī)律一直是高等教育學、人才學等學科關注的主題,然而以往難以找到合適的定量技術加以研究。數據挖掘技術的出現和成熟,為這一主題提供了工具。以人員活動為主題的挖掘也有一些有用的應用,比如:記錄教師的一些重要的科研活動信息,包括學術交流(內容、日期)、發(fā)表論文的日期、創(chuàng)建科研團隊等,再結合一些成果信息或學界對其評價肯定[1],也可得出一些規(guī)律。
(一)挖掘的內容??蒲袛祿锌晒┩诰虻母黝愊嚓P、關聯(lián)關系:
(1)人員信息與科研成果關系
(2)本單位發(fā)表的期刊偏好,這里指發(fā)表單位與期刊之間的雙向選擇
(3)個人與單位整體的科研成果關系
(4)科研成果與科研活動的關系
(5)學科發(fā)展與各類科研活動關系
(6)各類成果之間的關系,包括時間先后關系、相關相似關系、緊密或松散關系
(7)人員操作習慣隱含的科研導向性,比如通過點擊頻率或查詢詞頻,可揭示某類主題的受關注度,從而更好地為科研人員提供該方面的管理服務
(8)每個科研信息在發(fā)布過程中被關注的過程,比如響應的快慢等,依此完善系統(tǒng)
以申報國家基金為例,如果能記錄申報項目和該項目最后是否立項,再匹配上人員的各種背景信息(比如學歷、學位、畢業(yè)院校類型、研究基礎等等),則能挖掘出很多具有指導性的信息。比如國家自然科學基金的立項偏好,每個教師的科研成長規(guī)律。等等。
(二)挖掘的方法。數據挖掘是使用智能的方法提取數據的模式。一般來說,數據挖掘采用以下幾種方法:描述統(tǒng)計、分類和聚類、關聯(lián)和相關、預測、優(yōu)化、結構方程模型。此外,挖掘方法還需考慮諸如數據的噪聲、不確定性和不完全性等問題。
(三)挖掘的準備。(1)數據清理,主要是消除噪聲和刪除不一致數據。比如教師在填報過程中的漏登漏報或錯等錯報的數據。
(2)數據集成,這里指把不同來源、格式、特點、性質的數據有機地集中,從而為科研院所提供全面的數據共享。
(3)數據選擇,主要是指從數據庫中提取與分析任務相關的數據。比如選擇所有廣東省哲學社會科學項目獲資助者的情況等。
(4)數據變換,主要是通過匯總或聚焦操作,把數據變換和統(tǒng)一成適合挖掘的形式。[2]
(四)挖掘的評估。模式評估是指根據某種興趣度度量,識別代表知識的真正有趣的模式。指示有趣的模式聯(lián)系,常見的有全置信度、最大置信度、Kulczynski、余弦、提升度和χ2這幾種度量方法。在這些方法中,只有后四種具有零不變性。值得推薦的度量是Kluz與不平衡配合使用。[3]
(五)挖掘的可視化展現。知識表示,這里主要指使用可視化和知識表示技術,向系統(tǒng)用戶提供挖掘的知識。數據可視化最直觀的形式就是圖形,有些甚至是動態(tài)圖形。最簡單的應用,比如科研院所最近10年發(fā)表的CSSCI學術論文數可用坐標曲線展現出來,由此反映科研總體實力在各年間的變化;而最近10年國家社會科學基金申請數和立項數也可用兩條曲線表示出來,以反映本單位該項目的立項申報比,從一個側面反映申報的質量。后者如果加進第三維數據如這10年間的科研活動,則可探尋科研活動與立項申報比的關系。
此外,科研數據可視化展現還有以下幾個方面的應用:
(1)科研成果的關聯(lián)性展示
各類成果之間的關聯(lián),比如立項項目的關鍵詞,與當期教師發(fā)表論文的主題關鍵詞一致性,或滯后性,相關性等。由此有意識地指導項目申報或論文發(fā)表。
(2)基于地理位置的標注
直觀地展示成果的地理環(huán)境關聯(lián),是可視化技術的一大應用。比如可將近5年本單位教師的橫向項目簽約單位的輻射區(qū)域在地圖上標注出來。顏色表示年度,大小表示每個項目的經費數,可直觀地展示有關社會服務的某些規(guī)律。
(3)基于上下文的內容推薦
在系統(tǒng)用戶查詢特定內容時,能將“用戶可能關心的內容”展現出來。采用基于上下文的查詢擴展方法,解決用戶信息檢索查詢所使用的詞可能與文檔集中使用的詞不匹配從而影響檢索效果的問題。
(4)最新信息的實時顯示
在科研交流信息,可實時顯示更新的“最新最熱門關鍵詞或主題”等。這將有助于教師及時、實時了解科研動態(tài)。
(六)挖掘的優(yōu)化。在大數據的情況下,保證科研數據查詢、處理等的效率不會顯著降低,是必須要考慮和解決的重要問題,也是影響架構設計的重要因素。特別是隨著時間累積,系統(tǒng)產生越來越大量數據的情況下,還應該針對大數據的查詢、處理等可能導致系統(tǒng)瓶頸的問題進行分析,提出優(yōu)化解決方案。因此,需保證系統(tǒng)能夠滿足硬件條件(包括主機系統(tǒng)、存儲系統(tǒng)、網絡配置等)的約束,在目前的基礎設施上流暢運行,并且能適應未來若干年科研發(fā)展的要求。
科研管理信息系統(tǒng)已越來越在各大科研院所普及,然而傳統(tǒng)的科研成果數據匯總已不能滿足為學科建設提供決策依據的需要。對系統(tǒng)產生的大量科研數據進行數據挖掘,具有重要的應用前景。數據自身的標準性、延續(xù)性、周期性、實時性、關聯(lián)性為數據挖掘提供基礎,通過應用數據挖掘技術對科研數據進一步分析,有益于更科學地了解科研規(guī)律,指導科研活動,促進學科建設。
[1]吳小妹,陳敏玲,繆仁炳.基于科技創(chuàng)新人才信息平臺數據挖掘的科研能力評價模型研究.科技通報,2011(1):154-160
[2]胡佳.數據挖掘技術在高??蒲泄芾硐到y(tǒng)中的應用研究.華東師范大學碩士學位論文,2011:36-39.
[3]Jiawei Han,Micheline Kamber,Jian Pei著.范明,孟小峰譯.數據挖掘概念與技術(原書第3版).北京:機械工業(yè)出版社,2012.173-175.