李娜娜
摘 要:現(xiàn)代信息技術(shù)和商業(yè)模式發(fā)展迅速,數(shù)據(jù)挖掘技術(shù)的應用對海量商業(yè)信息處理有著極大的現(xiàn)實意義?;ヂ?lián)網(wǎng)的不斷發(fā)展使得數(shù)據(jù)挖掘技術(shù)成為現(xiàn)代商業(yè)獲取市場信息的重要載體。目前,在大量商業(yè)活動中,借助數(shù)據(jù)自動分析技術(shù)可以獲得真實、可靠的市場信息,為企業(yè)各項商業(yè)活動提供更多的商業(yè)利潤決策信息。Internet可以說是一個海量信息資源儲備庫,在商務活動中,企業(yè)希望各類訪問、分析、使用等均是科學、有效的,從而為數(shù)據(jù)挖掘提供更好的發(fā)展空間。數(shù)據(jù)挖掘是基于企業(yè)已定目標,深入分析企業(yè)各項數(shù)據(jù),揭示企業(yè)中潛在的未知規(guī)律,從而將其模型化,以此來支持企業(yè)各項商業(yè)決策活動。簡述了Web數(shù)據(jù)挖掘技術(shù),深入分析了數(shù)據(jù)挖掘方法在商業(yè)信息中的使用規(guī)則,探析了數(shù)據(jù)挖掘技術(shù)在商業(yè)信息中的應用策略。
關(guān)鍵詞:商業(yè)信息;數(shù)據(jù)挖掘技術(shù);Web技術(shù);數(shù)據(jù)庫
中圖分類號:TP311.13 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.05.024
隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘技術(shù)應運而生,屬于一種新型信息技術(shù)。自20世紀90年代以來,經(jīng)濟全球化、貿(mào)易自由化、信息現(xiàn)代化進展迅速,信息技術(shù)、商務技術(shù)和管理技術(shù)等的結(jié)合提高了現(xiàn)代生產(chǎn)力。在現(xiàn)代商業(yè)中,計算機Web技術(shù)在不斷推動著部門經(jīng)濟、區(qū)域經(jīng)濟、國民經(jīng)濟和世界經(jīng)濟的發(fā)展?,F(xiàn)代化商業(yè)運轉(zhuǎn)模式屬于一種全新的商業(yè)模式,是基于網(wǎng)絡平臺,采用現(xiàn)代化信息技術(shù)手段,著眼于提升經(jīng)濟效益的現(xiàn)代化商業(yè)模式。這一模式的應用使得各項商務活動網(wǎng)絡化、數(shù)字化?,F(xiàn)代化商業(yè)模式的產(chǎn)生打破了企業(yè)傳統(tǒng)的經(jīng)營理念、管理方式和支付手段,促進了社會各大領(lǐng)域的不斷改革。應用功能強大的Web數(shù)據(jù)挖掘技術(shù),可輔助企業(yè)更加深入地分析網(wǎng)絡上所收集的各項數(shù)據(jù),引導企業(yè)合理調(diào)整營銷策略。這樣,有助于為客戶提供動態(tài)、個性且高效的服務。
1 Web數(shù)據(jù)挖掘技術(shù)概論
1.1 Web數(shù)據(jù)挖掘技術(shù)簡述
數(shù)據(jù)挖掘主要是數(shù)據(jù)開采,是從新角度將數(shù)據(jù)庫技術(shù)、KDD技術(shù)與統(tǒng)計學合理結(jié)合,依據(jù)企業(yè)既定目標,在各項數(shù)據(jù)中更深入地挖掘其內(nèi)部潛在性信息,且有效處理各項知識的過程。在數(shù)據(jù)挖掘過程中,高效率獲取大量數(shù)據(jù),或者基于一定應用領(lǐng)域找出數(shù)據(jù)之間所存在的關(guān)系,可有效提升算法效率。數(shù)據(jù)挖掘大都是為達到一定目的而進行數(shù)據(jù)收集,這就使得數(shù)據(jù)挖掘難度較大。在數(shù)據(jù)挖掘中,重要的數(shù)據(jù)極易丟失,未知性和不完全性等均存在于其中。Web數(shù)據(jù)挖掘大都是從眾多Web站點和文檔集合中深層挖掘潛在有效信息,這也是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應用。Web數(shù)據(jù)挖掘技術(shù)是一項綜合技術(shù),其涉及多個學科,比如計算機語言學、統(tǒng)計學和信息學等。Web數(shù)據(jù)挖掘一般可分為Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web訪問信息挖掘等。其中,Web結(jié)構(gòu)挖掘即挖掘Web潛在的鏈接結(jié)構(gòu)模式;Web內(nèi)容挖掘是對Web頁面內(nèi)容進行挖掘,從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程;Web訪問信息挖掘即用戶從Web站點的訪問數(shù)據(jù)中發(fā)現(xiàn)有價值的信息。近年來,現(xiàn)代商業(yè)發(fā)展迅速,用戶量逐年增長,Web數(shù)據(jù)庫包含的數(shù)據(jù)資源日趨多樣。自動收集數(shù)據(jù),并將挖掘數(shù)據(jù)轉(zhuǎn)換為商業(yè)行為,從而滿足數(shù)據(jù)挖掘條件,這也使現(xiàn)代商業(yè)成為了Web數(shù)據(jù)挖掘的一大領(lǐng)域。
1.2 Web數(shù)據(jù)挖掘技術(shù)分析
路徑分析技術(shù)的應用使網(wǎng)絡中的信息劇增。用戶不可能在短時間內(nèi)就找出自己所需的各類信息,需要從一個頁面鏈接至另一個頁面,同時由這一頁面鏈接至其他頁面。這樣的訪問路徑均會被記錄于服務器日志文件中。路徑分析屬于深層分析路徑中所含的日志文件,所得的結(jié)果有助于網(wǎng)站管理人員以多數(shù)用戶的對應需求改善各網(wǎng)站結(jié)構(gòu)。分類分析技術(shù)是基于示例數(shù)據(jù)來分析模型,同時運用此類模式分類描述網(wǎng)上的數(shù)據(jù)。將分類分析技術(shù)應用于網(wǎng)絡銷售中,可為用戶提供他們喜歡的產(chǎn)品。聚類技術(shù)則是有效分析和整理海量用戶訪問數(shù)據(jù),比如用戶喜歡的各種商品及其訪問網(wǎng)頁等,且基于相關(guān)規(guī)則分類,從而給出相應的特征描述,比如網(wǎng)絡營銷中的聚類技術(shù)。這有助于企業(yè)將用戶分為不同群體,同時給出該類群體的關(guān)鍵喜好和需求,依據(jù)用戶網(wǎng)站上的訪問記錄具有關(guān)聯(lián)性的深層分析,基于用戶習慣和喜好提供便捷的訪問方式,并為用戶推薦他們喜歡的相關(guān)商品和對應服務。
1.3 Web數(shù)據(jù)挖掘流程
在現(xiàn)代商業(yè)中,計算機Web數(shù)據(jù)挖掘流程為:①發(fā)現(xiàn)資源。在目標Web文檔中,由相關(guān)任務可獲得對應的數(shù)據(jù)。信息資源不僅局限于在線Web文檔中的數(shù)據(jù),還包括新聞組、電子文檔、電子郵件、網(wǎng)站日志數(shù)據(jù)庫、交易數(shù)據(jù)庫中的海量數(shù)據(jù)。②選擇和預處理信息。在獲得Web資源的過程中,應用Web數(shù)據(jù)挖掘技術(shù)可將無用信息有效去除,合理調(diào)配有用信息。比如在Web文檔中,將廣告了解、自動識別字段或者段落、多余格式標記等去除,且將數(shù)據(jù)有效組合,建立具有內(nèi)在邏輯性的關(guān)系表。③模式發(fā)現(xiàn)。自動模式發(fā)現(xiàn)可于多個站點或者同一站點內(nèi)進行。數(shù)據(jù)發(fā)現(xiàn)主要是通過模式識別中的數(shù)據(jù)挖掘算法加工、分析用戶日志文件,掌握用戶訪問站點習慣和流量模式,便于企業(yè)進行決策改進和市場目標制訂。數(shù)據(jù)發(fā)現(xiàn)中應進行的操作主要是,先決定如何產(chǎn)生假設,然后再選擇適當?shù)墓ぞ?,從而深入發(fā)掘知識操作,最終證實所發(fā)掘的知識。④分析模式。該階段應表述數(shù)據(jù)挖掘結(jié)果,且深層分析和選擇處理提取的信息,合理區(qū)分最具價值的信息,經(jīng)由決策支持工具而將信息交于決策人,最終通過可視化技術(shù)用圖形界面充分展示挖掘成果。
2 數(shù)據(jù)挖掘方法在商業(yè)信息中的使用規(guī)則
將數(shù)據(jù)挖掘技術(shù)應用于商業(yè)中,采用高度自動化技術(shù)分析商業(yè)原始數(shù)據(jù),以作出歸納性推理,深層挖掘數(shù)據(jù)中的潛在性模式,嚴格預測客戶多方面的行為,這樣可幫助商業(yè)決策者合理調(diào)整市場策略,以便降低市場投資風險,確保決策者作出正確的決策,這也充分體現(xiàn)了決策支持的整個過程。
2.1 商業(yè)信息泛化、簡約和特征提取規(guī)則
商業(yè)信息泛化大多是為了商業(yè)數(shù)據(jù)能被深入理解和掌握,而將實際數(shù)據(jù)信息抽象為更高層次的信息;商業(yè)信息簡約是使用對應手段對信息進行描述;商業(yè)信息特征提取則是為了從海量信息中找尋信息通用特征。
2.2 商業(yè)信息分類技術(shù)規(guī)則
商業(yè)信息分類是依據(jù)一組商業(yè)信息對象特征對信息對象進行劃分。該類模式可深入反映數(shù)據(jù)庫中的大量數(shù)據(jù)信息,并將其提供于給定類別中。
2.3 商業(yè)信息聚類規(guī)則
商業(yè)信息聚類是為了識別一組信息對象的內(nèi)在性規(guī)則而將對象分組,以組成類似的對象類,從中找出數(shù)據(jù)信息的分布規(guī)律,深入分析一組混雜數(shù)據(jù)信息的潛在性分類規(guī)則。聚類則是盡量縮短一組個體間的距離,同時確保不同類別個體間的距離較遠。
2.4 商業(yè)信息關(guān)聯(lián)規(guī)則
商業(yè)信息關(guān)聯(lián)規(guī)則主要是在商業(yè)數(shù)據(jù)挖掘中基于概念層次關(guān)聯(lián)規(guī)則而發(fā)現(xiàn)的。關(guān)聯(lián)規(guī)則是研究者于大型商場顧客購買上衣和褲子時總結(jié)出來的。經(jīng)分析發(fā)現(xiàn),大約10%的顧客會同時購買上衣和褲子,這體現(xiàn)出了一定的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則在時間和序列方面存在一定的規(guī)律,比如不同季節(jié)購買的商品不同,不同層次或者不同年齡的人購買的商品也不同。
3 數(shù)據(jù)挖掘技術(shù)在商業(yè)信息中的應用策略
數(shù)據(jù)挖掘技術(shù)屬于現(xiàn)代商業(yè)信息處理中常見的處理技術(shù),可為商業(yè)領(lǐng)域中的數(shù)據(jù)庫和復雜信息提取有價值的知識,從而提升信息的利用率,這對企業(yè)相應策略的制訂有著重要的現(xiàn)實意義。
3.1 在電子商務網(wǎng)站數(shù)據(jù)中的應用
隨著Web技術(shù)的飛速發(fā)展,電子商務網(wǎng)站成為了各大企業(yè)和商家的必爭之地。企業(yè)或商家如果想要吸引客戶,就要提升客戶忠誠度。電子商務網(wǎng)站每天都有上百萬次的在線交易,會生成大量記錄文件和登記表。對這些數(shù)據(jù)進行深層分析,可幫助商家了解客戶的喜好和購買模式,以滿足不同客戶群體的需求。企業(yè)或商家要從提升自身競爭力的角度出發(fā),創(chuàng)建個性化網(wǎng)站。這些都是企業(yè)或商家生存、獲勝的關(guān)鍵手段。
網(wǎng)站數(shù)據(jù)挖掘所需的數(shù)據(jù)主要來自于客戶背景信息和瀏覽者點擊流。客戶背景信息主要是客戶登記表,而瀏覽者點擊流則是考察客戶的各種行為表現(xiàn)。但有時,客戶對自己的背景信息保密,不愿意將信息盡數(shù)填寫在登記表上,這就給數(shù)據(jù)分析和挖掘帶來了很大的難度。這時,就不得不從瀏覽者的各項表現(xiàn)數(shù)據(jù)著手,以此推測客戶背景信息,且將所得信息進行有效運用。從分析、建模技術(shù)和算法來講,網(wǎng)站數(shù)據(jù)挖掘與之前的數(shù)據(jù)挖掘差異較小,很多方式和分析思想均可借用。不同的網(wǎng)站數(shù)據(jù)格式均來自于點擊流,與傳統(tǒng)的數(shù)據(jù)格式差別很大,這為電子商務網(wǎng)站進行數(shù)據(jù)挖掘和電子商務運行提供了數(shù)據(jù)支持。
3.2 在金融領(lǐng)域中的應用
金融事務處理均需搜集相關(guān)數(shù)據(jù)。深層分析此類數(shù)據(jù)且總結(jié)其主要模式和特征,發(fā)現(xiàn)消費群體或金融組織的商業(yè)興趣,密切觀察相應金融市場的主要變化趨勢。將數(shù)據(jù)挖掘技術(shù)應用于銀行信息中時,商業(yè)銀行的業(yè)務利潤和風險是共存的。為了確保最大利潤和最小風險,應對賬戶展開嚴格的分析和歸類,同時對銀行信用進行評估。其間,應有效運用數(shù)據(jù)挖掘工具,根據(jù)客戶消費模式來預測何時給客戶提供何類產(chǎn)品。銀行應嚴格督促新開銀行網(wǎng)點盡早盈利,結(jié)合GPS來推理信息系統(tǒng)和商業(yè)智能應用系統(tǒng),務必詳細記錄客戶的常駐地、客戶到此銀行網(wǎng)點辦理的業(yè)務等客戶信息。同時,銀行商業(yè)智能系統(tǒng)會自動記錄客戶的各項操作信息和銀行網(wǎng)點信息。利用各類記錄而獲得客戶常駐地至銀行網(wǎng)點的關(guān)鍵路線后會發(fā)現(xiàn),某個地區(qū)進行各項業(yè)務操作的客戶較多,但因周邊沒有銀行網(wǎng)點而去別的地方辦理。此時,銀行應于該地方開辦銀行網(wǎng)點。
將數(shù)據(jù)挖掘技術(shù)應用于證券信息中時,上市企業(yè)都會定期作財務報告。這里包含了很多信息,比如當期會計盈余數(shù)據(jù)信息體現(xiàn)于股票市價上。對于中長期投資者來講,其可預見未來,質(zhì)地較好或是未來有高盈利增長能力的企業(yè)屬中長期投資者,包括普通投資者和券商等。這些均是普通關(guān)注對象,此類公司可帶給投資者更高的回報。財務報告中有著大量描述公司經(jīng)營狀況的相關(guān)數(shù)據(jù)。最終所獲得的數(shù)據(jù)為投資者提升企業(yè)未來盈利能力的關(guān)鍵信息,中長期投資者應合理利用此類信息挖掘其中盈利水平高、成長性好的企業(yè)。應用數(shù)據(jù)挖掘技術(shù)來挖掘財務報告中的關(guān)鍵信息,還可獲得更精準的預測效果,其所選擇的投資組合可獲得更好的收益。這些對投資者來說都非常關(guān)鍵。
3.3 在企業(yè)市場營銷中的應用
數(shù)據(jù)挖掘技術(shù)早已被普遍應用于企業(yè)市場營銷中,其基于市場營銷學的市場細分原理,基本假定消費者早期行為為未來消費傾向更好的體現(xiàn)。收集、加工和處理大都涉及消費者各項消費行為的大量信息,確保滿足特定消費群體、個體的興趣和消費習慣等各方面需求,從而嚴格推斷其相關(guān)消費群體,或者個體的繼續(xù)消費行為?;诖?,給予識別的消費群體特定內(nèi)容的定向營銷,比傳統(tǒng)的大規(guī)模營銷更能節(jié)約營銷成本,提升營銷效果和利潤。這些數(shù)據(jù)信息經(jīng)組合之后,用超級計算機及并行處理和神經(jīng)元網(wǎng)絡等方式有效處理,獲得商家特定消費群體或個體定向營銷的決策信息。
4 結(jié)束語
隨著計算機技術(shù)的飛速發(fā)展,人們對數(shù)據(jù)挖掘技術(shù)提出了更高的要求。數(shù)據(jù)挖掘技術(shù)是一種新型信息技術(shù),Web挖掘形式及其研究方向持續(xù)更新變化?,F(xiàn)代化商業(yè)領(lǐng)域的發(fā)展與變化更是十分迅速,這也要求未來Web數(shù)據(jù)挖掘技術(shù)具備更高的效率,大量商業(yè)活動均需經(jīng)過自動、有效的數(shù)據(jù)分析技術(shù)獲得真實、可靠的市場信息,為企業(yè)各項活動提供更多的利潤決策信息。現(xiàn)代化商業(yè)模式打破了企業(yè)傳統(tǒng)的經(jīng)營理念、管理方式和支付手段,也促進了社會各大領(lǐng)域的不斷改革,企業(yè)及時調(diào)整自身營銷策略,提供動態(tài)且個性化的高效率服務非常重要。
參考文獻
[1]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用[J].電腦知識與技術(shù),2010(2).
[2]龐英智.Web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用[J].情報科學,2011(2).
[3]由海涌,姜達.淺談Web數(shù)據(jù)挖掘技術(shù)的應用[J].電子技術(shù)與軟件工程,2013(6).
〔編輯:劉曉芳〕