薛中玉+李春梅+楊思維
基金項目:國家科技支撐計劃課題“面向產(chǎn)業(yè)集群的協(xié)同創(chuàng)新服務平臺研究與開發(fā)”(課題編號:2012BAH25F07)階段成果之一。
作者簡介:薛中玉(1981-),男,工程師,碩士,研究方向:數(shù)據(jù)挖掘、信息檢索。·信息資源開發(fā)與利用·
〔摘要〕針對產(chǎn)業(yè)集群特點,面向數(shù)據(jù)檢索要求,對數(shù)據(jù)挖掘推薦系統(tǒng)需求進行分析,研究數(shù)據(jù)挖掘推薦系統(tǒng)相關技術和算法,設計系統(tǒng)功能模塊架構,研究分析處理流程,構建數(shù)據(jù)挖掘推薦系統(tǒng),實現(xiàn)產(chǎn)業(yè)集群信息的智能化挖掘推薦服務。產(chǎn)業(yè)集群數(shù)據(jù)挖掘推薦系統(tǒng)具有用戶需求信息挖掘推薦、相關服務信息挖掘、潛在協(xié)作伙伴挖掘推薦及科技成果動態(tài)感知等功能,能為用戶推送更多有價值的信息,便于用戶發(fā)現(xiàn)協(xié)作伙伴和潛在客戶,促進產(chǎn)業(yè)集群和集群企業(yè)的協(xié)同創(chuàng)新發(fā)展。
〔關鍵詞〕產(chǎn)業(yè)集群;協(xié)同創(chuàng)新服務平臺;數(shù)據(jù)挖掘;推薦系統(tǒng)
DOI:10.3969/j.issn.1008-0821.2014.04.012
〔中圖分類號〕TP31〔文獻標識碼〕A〔文章編號〕1008-0821(2014)04-0058-04
Research and Design of Data Mining Recommending
System for the Industrial ClusterXue Zhongyu1Li Chunmei2Yang Siwei1
(1.Anhui Jingnuo Technology & Development Co.,Ltd,Bengbu 233010,China;
2.Beijing Zhongjikehai Technology & Development Co.,Ltd,Beijing 100048,China)
〔Abstract〕According to the characteristics of industry cluster and the platform of data retrieval,this paper analyzed data mining recommended system requirements,studied related recommendations technology and relative algorithm of data mining,designed system function module architecture,researched and analyzed process,constructed data mining recommending system,and realized intelligent information recommendation service of industry cluster.The system contains four main functional modules:user demand information mining and recommending,related service information mining,potential partnership mining and recommending and dynamic perception of scientific literature.This system can push more valuable information and find partners and potential customers easily for users,and promotes the innovation development of industrial clusters and enterprises.
〔Keywords〕industrial clusters;collaborative innovation service platform;data mining;recommended system
產(chǎn)業(yè)集群是將區(qū)域集中的特定產(chǎn)業(yè)、具有分工合作關系和不同規(guī)模等級的眾多企業(yè)與其發(fā)展有關的各種機構組織等主體,緊密聯(lián)系在一起的空間積聚體,是經(jīng)濟發(fā)展過程中形成的一種新形態(tài)。產(chǎn)業(yè)集群形成特點表現(xiàn)在:圍繞特定產(chǎn)業(yè);采購本地化;中小企業(yè)占多數(shù);市場滲透力強;自發(fā)形成;學習效應強。在產(chǎn)業(yè)集群形成的過程中,為了不斷提高集群自身和企業(yè)的競爭力,構建了眾多的服務平臺,這些平臺為產(chǎn)業(yè)集群和企業(yè)提供信息、知識、技術成果等資源協(xié)作共享服務,加強了產(chǎn)業(yè)集群間協(xié)同,推進了我國產(chǎn)業(yè)集群信息化的快速發(fā)展。
但是,隨著平臺服務信息的累積,用戶無法在海量數(shù)據(jù)中快速、準確地獲取想要的信息。簡單的信息積累和低效的數(shù)據(jù)檢索缺乏生命力,不利于平臺長遠發(fā)展。應面向產(chǎn)業(yè)集群平臺,建立專門的數(shù)據(jù)挖掘推薦系統(tǒng),利用有效信息實現(xiàn)平臺高效的知識管理,主動提供用戶關心和有潛在價值的信息服務,加強用戶間、用戶與平臺間的聯(lián)動,從而形成良性發(fā)展趨勢。
本文是“十二五”國家科技支撐計劃課題“面向產(chǎn)業(yè)集群的協(xié)同創(chuàng)新服務平臺研究與開發(fā)”的研究成果。針對產(chǎn)業(yè)集群特點和檢索需求,基于數(shù)據(jù)挖掘技術,建立了面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng),實現(xiàn)產(chǎn)業(yè)集群信息智能推薦功能。系統(tǒng)可根據(jù)用戶的基本信息、需求信息、業(yè)務信息等研究用戶的興趣偏好,進行個性化挖掘,由系統(tǒng)發(fā)現(xiàn)用戶的興趣點,將用戶感興趣的信息、產(chǎn)品和服務等推薦給用戶,為產(chǎn)業(yè)集群用戶提供高效的平臺服務,促進產(chǎn)業(yè)集群的發(fā)展。
1數(shù)據(jù)挖掘推薦系統(tǒng)需求分析
數(shù)據(jù)挖掘是從存儲于數(shù)據(jù)庫、數(shù)據(jù)倉庫或者其他非結構化的信息倉庫的大量數(shù)據(jù)中挖掘出有用知識的過程,是數(shù)據(jù)處理的高級階段。面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)根據(jù)產(chǎn)業(yè)集群平臺不同類型用戶關注點推送對其有潛在價值的信息,主要包括用戶需求信息挖掘推薦、服務信息相關關系挖掘、潛在協(xié)作伙伴挖掘推薦及科技文獻動態(tài)感知幾方面需求。
11用戶需求信息挖掘推薦
產(chǎn)業(yè)集群企業(yè)用戶需求可為每個用戶提供豐富的外部規(guī)模經(jīng)濟,又可形成集群內部或外部規(guī)模性、專業(yè)化的生產(chǎn),對用戶需求的正確把握具有重要作用。通過數(shù)據(jù)挖掘分析,基于用戶發(fā)布的相關信息、用戶的專業(yè)和研究方向,分析用戶服務需求,挖掘平臺服務庫中相關信息,向用戶推薦符合的需求信息。
12服務信息相關關系挖掘
產(chǎn)業(yè)集群與服務信息之間存在著相互促進的自增強關系,在新經(jīng)濟時代,產(chǎn)業(yè)布局不再像工業(yè)經(jīng)濟時代各行各業(yè)簡單地聚集在一起,而是相互關聯(lián)、高度專業(yè)化的產(chǎn)業(yè)有規(guī)律地聚集在一個區(qū)域,形成各具特色的產(chǎn)業(yè)集群。產(chǎn)業(yè)集群平臺所提供的服務信息之間具有極強的關聯(lián)特性,基于對每條服務信息內容的挖掘分析,尋找與之相關的服務信息,通過對服務信息的相關性分析總結,獲取潛在的信息價值。
13潛在協(xié)作伙伴挖掘推薦
產(chǎn)業(yè)集群企業(yè)間的分工協(xié)作關系是決定集群效應和本質的主要特征,對潛在協(xié)作伙伴的發(fā)掘可帶來巨大的市場效益。系統(tǒng)提供潛在協(xié)作伙伴推薦功能,自動將地域相近、業(yè)務相關、供應鏈上下游關系、通訊平臺聯(lián)系的用戶或具有協(xié)作需求互補的用戶彼此添加為潛在合作伙伴。
endprint
14科技文獻動態(tài)感知
產(chǎn)業(yè)集群不但有生產(chǎn)性的企業(yè),還有大量為生產(chǎn)提供輔助性科技成果的服務機構,如大學、研發(fā)機構、咨詢公司等緊密地聯(lián)系在一起,形成利益共同體,互相促進,協(xié)同發(fā)展。整合各類科技成果服務機構信息,利用互聯(lián)網(wǎng)信息整合技術,根據(jù)設定的主題對常用的科技成果網(wǎng)站進行自動監(jiān)測,當網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關的新科技成果時,立即通知,及時了解相關主題科技成果變化情況。
2數(shù)據(jù)挖掘推薦系統(tǒng)模型及關鍵技術
21系統(tǒng)模型
面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)基本模型如圖1所示,包括3個重要組成要素:集群用戶、推薦對象、推薦方法。集群用戶可以向推薦系統(tǒng)主動提供個人偏好信息或推薦請求,系統(tǒng)也可主動采集用戶偏好信息需求,將采集到的數(shù)據(jù)分析得到的推薦結果返回給用戶。
圖1面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)基本模型
22系統(tǒng)關鍵技術
221基于內容的推薦技術
基于內容的推薦技術是信息過濾技術的延續(xù)和發(fā)展,它在內容信息上做出推薦,不需要依據(jù)用戶評價意見,而是用機器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。系統(tǒng)建立用戶偏好資料庫并進行學習,了解用戶興趣方向。如通過用戶發(fā)布的歷史信息、最常瀏覽的信息、近期關注的信息等,找出用戶可能感興趣的內容,為用戶推送相關信息。
222協(xié)同過濾的推薦技術
協(xié)同過濾技術采用最近鄰技術,利用用戶的歷史喜好,計算用戶之間的距離,然后利用目標用戶的最近鄰居用戶,來預測目標用戶對特定信息的喜好程度,根據(jù)這一喜好程度對目標用戶進行推薦。與基于內容的推薦技術不同,協(xié)同過濾推薦技術關注的是用戶之間的聯(lián)系,具有相似興趣的用戶關注的信息也相類似。如產(chǎn)業(yè)集群內的兩家汽車配件制造商,在使用平臺過程中,一方的關注點也可能是另一方感興趣的,通過協(xié)同過濾推薦技術可以起到事半功倍的效果。
以上兩種推薦技術既有區(qū)別又有聯(lián)系,前者利用信息資源與用戶興趣的相似性來過濾信息,后者利用用戶之間興趣的相似性來過濾信息,將二者結合起來,可以提高推薦系統(tǒng)的可靠性和實用性。
3數(shù)據(jù)挖掘推薦系統(tǒng)架構及功能
31系統(tǒng)架構
面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)包括集群用戶界面、集群用戶信息庫、數(shù)據(jù)挖掘分析、數(shù)據(jù)管理、內部資源庫及外部數(shù)據(jù)的檢索與獲取等,系統(tǒng)架構如圖2所示。
圖2面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)架構
32系統(tǒng)功能模塊
321發(fā)布、獲取信息
(1)發(fā)布信息
集群用戶登錄平臺發(fā)布信息,信息可由信息名稱、一級欄目、二級欄目、關鍵字、信息內容等組成,這樣的結構有利于數(shù)據(jù)庫管理與數(shù)據(jù)挖掘推薦。
(2)獲取信息
用戶在平臺中瀏覽各類信息,每條信息提供相關信息,方便用戶快速查看。用戶瀏覽系統(tǒng)自動生成的推薦資源,包括相關信息推薦、相關集群用戶推薦等。相關信息為符合用戶需求的信息,用戶可查看信息內容并留言;相關集群用戶是與用戶可能有合作價值的其他用戶,用戶可以采用留言或郵件溝通方式進一步了解合作意向;相關信息是系統(tǒng)根據(jù)用戶專業(yè)領域在外部科技網(wǎng)站搜尋的相關科技動態(tài)、科技成果等信息。
322集群用戶信息庫
集群用戶信息庫是有關用戶個性化特征的信息。如用戶姓名、單位、單位地址、專業(yè)、研究方向和職業(yè)等;用戶歷次請求任務如分類、主題詞、查詢范圍等;IP地址、標題、瀏覽時間、關鍵詞頻率等;請求時間、被請求信息URL等一系列特征信息。
323數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘分析包括用戶需求分析和智能推薦。系統(tǒng)要為不同集群用戶推薦不同對象,需要直接或間接得到用戶的需求信,用戶需求分析模塊的流程是:通過用戶主動描述,獲取用戶需求;嵌入智能代理Agent或BP神經(jīng)網(wǎng)絡,主動跟蹤搜集用戶平時感興趣的信息,從中分析用戶的偏好特點和背景知識,建立用戶個性化需求模式;智能推薦是系統(tǒng)中信息流控制的中心,采用內容過濾技術,提取信息內容特征,過濾出與用戶興趣相關的信息,推薦給用戶;采用協(xié)同過濾技術,建立用戶分類和推薦機制,根據(jù)用戶之間的相似性或相關性進行信息推薦。
324數(shù)據(jù)管理
數(shù)據(jù)管理模塊完成對知識的數(shù)據(jù)分類、抽取和規(guī)則生成,是數(shù)據(jù)挖掘的起始端。主要功能是運用關聯(lián)分析、序列模式分析、分類分析、聚類分析以及OLAP等知識發(fā)現(xiàn)算法,對信息源進行智能處理和管理。
325系統(tǒng)資源庫
系統(tǒng)資源庫包含信息資源庫和查詢記錄信息庫。信息資源是平臺供所有集群用戶公開使用的數(shù)據(jù),是平臺的內容主體。用戶使用平臺搜索功能,實現(xiàn)對平臺數(shù)據(jù)庫資源的檢索,查詢記錄信息庫主要存儲系統(tǒng)查詢信息,這些信息有可能成為用戶需求的數(shù)據(jù)。
326外部信息的檢索與獲取
主要功能是獲取與推薦集群用戶所需信息,根據(jù)設定的主題,對相關網(wǎng)站進行自動監(jiān)測,當網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關的新科技成果時,推薦給平臺相關用戶,及時獲取相關領域科技信息。
33系統(tǒng)處理流程
數(shù)據(jù)挖掘推薦系統(tǒng)處理流程如圖3~圖6所示。
集群用戶需求信息挖掘、相關服務信息挖掘、潛在協(xié)作伙伴挖掘3個功能模塊主要針對內部數(shù)據(jù)庫進行數(shù)據(jù)挖掘推薦,工作核心是分析集群用戶在使用平臺的過程中發(fā)布的需求、服務和協(xié)作等信息,從而發(fā)現(xiàn)平臺用戶之間以及用戶信息之間的關聯(lián)關系,完成相應的信息推送,為用戶提供主動服務,避免用戶在大量的數(shù)據(jù)中進行低效率查圖3用戶需求挖掘推薦流程圖
圖4相關服務信息挖掘流程圖
圖5潛在合作伙伴挖掘推薦流程圖
找??萍嘉墨I動態(tài)感知模塊架設了平臺內部與外部數(shù)據(jù)源聯(lián)系的橋梁,外部數(shù)據(jù)源根據(jù)平臺需要而定,可根據(jù)設定的主題對常用的科技成果網(wǎng)站進行自動監(jiān)測。當網(wǎng)站數(shù)據(jù)庫中出現(xiàn)與主題相關的新科技成果時,立即通知,及時了解相關主題科技成果發(fā)展情況。圖6科技文獻動態(tài)感知流程圖
4結束語
本文針對產(chǎn)業(yè)集群特點和平臺數(shù)據(jù)檢索要求,提出面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)需求,研究面向產(chǎn)業(yè)集群的數(shù)據(jù)挖掘推薦系統(tǒng)相關技術和算法,設計系統(tǒng)功能模塊架構,研究分析處理流程,構建數(shù)據(jù)挖掘推薦系統(tǒng),實現(xiàn)產(chǎn)業(yè)集群信息的智能化挖掘推薦服務。產(chǎn)業(yè)集群挖掘推薦系統(tǒng)能為集群用戶推送更多有價值的信息,便于用戶發(fā)現(xiàn)協(xié)作伙伴和潛在客戶,為平臺使用者和管理者提供決策支持,加強提高用戶協(xié)作的力度和效率,更大限度地發(fā)揮平臺智能化信息服務作用,形成良性可持續(xù)化發(fā)展的趨勢,促進產(chǎn)業(yè)集群和集群企業(yè)的協(xié)同創(chuàng)新發(fā)展,研究成果對其他服務平臺和數(shù)據(jù)挖掘等相關研究可提供參考。參考文獻
[1]孫仙閣.數(shù)據(jù)挖掘技術在圖書情報領域的應用與影響[J].情報檢索,2009,(8):85-87.
[2]Thomas ARunkler.data Mining:Methoden und Algorithmen intelligenter Datenanalyse[M].Germany:Vieweg+Teubner Verlag,2009:1-3.
[3]吳恒亮.Web挖掘在電子商務推薦系統(tǒng)中的應用研究[J].中國商貿(mào),2010,(4):48.
[4]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.
[5]丁雪.基于數(shù)據(jù)挖掘的圖書智能推薦系統(tǒng)研究[J].情報理論與實踐,2010,33(5):107-110.
[6]古麗拜天·卡米爾,賀愷,鄧曉衡.個性化推薦系統(tǒng)中Web使用挖掘技術的研究[J].企業(yè)技術開發(fā),2010,29(2):1-2.
(本文責任編輯:孫國雷)
endprint