• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模糊關(guān)聯(lián)規(guī)則在電子商務(wù)數(shù)據(jù)挖掘中的研究

      2009-03-14 06:59:50劉永紅李惠君
      物流科技 2009年1期
      關(guān)鍵詞:數(shù)據(jù)源數(shù)據(jù)挖掘電子商務(wù)

      劉永紅 李惠君

      摘要:數(shù)據(jù)挖掘是一種新興的信息處理技術(shù),它通過對(duì)商業(yè)數(shù)據(jù)的分析處理,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)中的商業(yè)知識(shí),挖掘數(shù)據(jù)內(nèi)在的聯(lián)系、規(guī)則和模式,輔助商業(yè)決策。在電子商務(wù)環(huán)境下的數(shù)據(jù)挖掘的研究,主要是進(jìn)行客戶訪問信息的挖掘,文章在考慮了數(shù)據(jù)來源之后,簡(jiǎn)要介紹數(shù)據(jù)預(yù)處理過程,最后給出了模糊集與傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘結(jié)合的算法。

      關(guān)鍵詞:電子商務(wù);數(shù)據(jù)源;數(shù)據(jù)挖掘;算法;模糊關(guān)聯(lián)規(guī)則

      中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1002-3100(2009)01-0040-03

      Abstract: Data mining is a new method to process information, it can discover the business knowledges, dig internal relationships、rules and modes,and assist business decision by analysing and processing business data. The disscusion about data sources and data preprocessing method for EC's data mining was presented, then the algorithm of mining fuzzy associate rules was introduced.

      Key words:EC; data resource; datamining; algorithm; fuzzy correlation rules

      電子商務(wù)是采用數(shù)字化電子方式,在Internet上進(jìn)行的商務(wù)數(shù)據(jù)交換和開展的商務(wù)業(yè)務(wù)活動(dòng)。隨著數(shù)據(jù)庫技術(shù)的迅猛發(fā)展以及Internet的廣泛應(yīng)用,電子商務(wù)正顯示越來越強(qiáng)大的生命力,電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,服務(wù)器上積累了越來越多的業(yè)務(wù)數(shù)據(jù),目前的數(shù)據(jù)庫系統(tǒng)可以高效實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)庫中存在的關(guān)系的規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì),利用數(shù)據(jù)挖掘技術(shù)可以有效地發(fā)現(xiàn)大量數(shù)據(jù)背后的規(guī)律性,提供數(shù)據(jù)里面隱藏的知識(shí)和手段,消除數(shù)據(jù)“爆炸但知識(shí)貧乏”的現(xiàn)象。

      1電子商務(wù)中數(shù)據(jù)挖掘的數(shù)據(jù)源

      數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),那么進(jìn)行數(shù)據(jù)挖掘首先要考慮從什么樣的數(shù)據(jù)中挖掘知識(shí),也就是說進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源??傮w上說,電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)來源包括以下幾種。

      1.1用戶的背景信息

      此類信息主要來自于用戶的注冊(cè)信息。注冊(cè)信息是指用戶在瀏覽器頁面上填寫的、需要提交給遠(yuǎn)端服務(wù)器的有關(guān)資料,比如用戶的個(gè)人資料,用戶要訂購的商品資料,用戶提出的一些問題和要求等。但許多用戶不愿意透露自己真實(shí)的個(gè)人信息,因此將不會(huì)如實(shí)地填寫注冊(cè)表,這將造成數(shù)據(jù)挖掘的原始數(shù)據(jù)質(zhì)量低下。在這種情況下,就不得不從瀏覽者的瀏覽信息中來推測(cè)用戶的背景信息,進(jìn)而再加以利用。

      1.2瀏覽信息

      瀏覽信息主要來自于瀏覽者的單擊流(Click-stream),這部分?jǐn)?shù)據(jù)主要用于考察用戶的行為表現(xiàn)。Web上有海量的數(shù)據(jù)信息,人們?cè)跒g覽網(wǎng)站時(shí),包含了大量的潛在的信息,如個(gè)人姓名和住址,單擊了哪一個(gè)連接,在哪里瀏覽時(shí)間最多等。通常來說,這些信息可以分為兩類:瀏覽者自身信息和瀏覽內(nèi)容信息。

      在Internet電子商務(wù)中,客戶訪問服務(wù)器時(shí)就會(huì)在服務(wù)器上產(chǎn)生相應(yīng)的服務(wù)器數(shù)據(jù),這樣可以通過網(wǎng)絡(luò)包分析器和服務(wù)器的log文件來收集用戶對(duì)網(wǎng)站的訪問。

      服務(wù)器的log文件:用戶每訪問一個(gè)頁面,Web服務(wù)器的日志中就會(huì)增加一條記錄,可通過記錄Cookies和CGI的查詢參數(shù)來描述各個(gè)不同用戶的行為。例如,通過對(duì)購買某產(chǎn)品客戶的域名分析,知道來自哪個(gè)國(guó)家或地區(qū)購買者的人數(shù)較多,相應(yīng)的根據(jù)此信息調(diào)整電子商務(wù)中的在線市場(chǎng)策略,增加在哪些地區(qū)或國(guó)家的商務(wù)活動(dòng)。不過考慮到Web環(huán)境中的各種Cach的影響和用POST方法傳送的參數(shù)沒有記錄下來,此記錄可能不準(zhǔn)確。但Log文件是最簡(jiǎn)單和最方便的數(shù)據(jù)來源,很多時(shí)候只用log文件就能得到分析所用的足夠數(shù)據(jù)。

      最準(zhǔn)確和靈活的Web流量收集方法是網(wǎng)絡(luò)包分析器。包分析器在網(wǎng)絡(luò)層監(jiān)聽網(wǎng)絡(luò)上傳輸?shù)乃袛?shù)據(jù)包,分析其中所包含的內(nèi)容,把用戶對(duì)網(wǎng)站的所有請(qǐng)求(HTTP命令)和Web服務(wù)器對(duì)用戶的應(yīng)答都記錄下來。包分析器能夠記錄比Web服務(wù)器的log更詳細(xì)的內(nèi)容,比如記錄用戶在下載網(wǎng)頁的過程中是否單擊了“停止”按鈕和一張網(wǎng)頁的下載時(shí)間。通過分析這些數(shù)據(jù),企業(yè)能更好地了解用戶的感受。

      1.3Internet自身信息

      這類信息來自于Web自身,包括web內(nèi)容、Web結(jié)構(gòu)等。

      Web結(jié)構(gòu)包括www上的組織結(jié)構(gòu)和鏈接關(guān)系中知識(shí)的推導(dǎo)。由于超文本文檔間的關(guān)聯(lián)關(guān)系使得www不僅僅可以揭示文檔中所包含的信息,同時(shí)也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對(duì)頁面進(jìn)行排序、發(fā)現(xiàn)重要的頁面。

      Web內(nèi)容主要包括文檔內(nèi)容和多媒體兩類,其中文檔內(nèi)容為主,包括直接文檔內(nèi)容、從文檔中抽取的關(guān)鍵信息及用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行的摘要或解釋。

      電子商務(wù)中的數(shù)據(jù)挖掘,是將用戶注冊(cè)信息、服務(wù)器日志和其自身信息三種來源有效地結(jié)合起來進(jìn)行分析,可以提高挖掘的精度和深度,得出更理想的結(jié)果。

      2電子商務(wù)中數(shù)據(jù)挖掘預(yù)處理

      從電子商務(wù)數(shù)據(jù)源中得到的原始記錄,不僅數(shù)據(jù)量巨大,而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等,直接在其上進(jìn)行挖掘非常困難。而事實(shí)上數(shù)據(jù)挖掘最后成功與否,是否有經(jīng)濟(jì)效益,數(shù)據(jù)準(zhǔn)備起到了至關(guān)重要作用,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成、選擇和變換。

      2.1數(shù)據(jù)清理

      主要是針對(duì)電子商務(wù)多個(gè)數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題進(jìn)行相應(yīng)的清洗操作,過濾、剔除一些無關(guān)數(shù)據(jù),平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),并添加數(shù)據(jù)中缺失的數(shù)據(jù)域。

      2.2數(shù)據(jù)集成

      數(shù)據(jù)挖掘需要對(duì)數(shù)據(jù)進(jìn)行集成,也就是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性并存放在統(tǒng)一的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫、數(shù)據(jù)庫等)中,電子商務(wù)的數(shù)據(jù)源包括頁面、圖像、圖形、多媒體、URL路徑及有關(guān)的日志文件等,涉及三個(gè)方面問題:實(shí)體識(shí)別的模式集成、刪除數(shù)據(jù)冗余和檢測(cè)與處理數(shù)據(jù)值的沖突。

      2.3數(shù)據(jù)選擇

      數(shù)據(jù)選擇是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量,通過數(shù)據(jù)選擇可以使數(shù)據(jù)的規(guī)律性和潛在特性更加明顯。在縮減數(shù)據(jù)規(guī)模的同時(shí),數(shù)據(jù)選擇應(yīng)完整,需要覆蓋業(yè)務(wù)目標(biāo)所涉及的相關(guān)數(shù)據(jù)。搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。

      2.4數(shù)據(jù)變換

      將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。主要包括:數(shù)據(jù)離散化、新建變量、轉(zhuǎn)換變量、拆分?jǐn)?shù)據(jù)及格式變換。

      在數(shù)據(jù)實(shí)際挖掘過程中,數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換不一定都用到。此外,它們的使用沒有先后順序,某一種預(yù)處理可能先后要多次進(jìn)行。

      3模糊關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的算法

      關(guān)聯(lián)規(guī)則的目的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而找到客戶對(duì)網(wǎng)站上各種文件之間關(guān)聯(lián)規(guī)則。實(shí)現(xiàn)關(guān)聯(lián)分析的技術(shù)主要是統(tǒng)計(jì)學(xué)中的置信度和支持度分析。一般來說,只有置信度和支持度均較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣的、有用的連接規(guī)則。

      模糊集是表示和處理不確定性數(shù)據(jù)的重要方法,以隸屬函數(shù)概念代表模糊集合,它不僅可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),還可以用于開發(fā)數(shù)據(jù)的不確定性模型,能夠提供比傳統(tǒng)方法更靈巧、更平滑的性能。

      把傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘與模糊集結(jié)合起來的一個(gè)關(guān)鍵方法是,首先將各屬性模糊集中的元素作為數(shù)據(jù)庫的屬性對(duì)待,然后在關(guān)聯(lián)規(guī)則挖掘的剪枝步驟中將具有相同屬性的項(xiàng)集刪除。

      假設(shè)D是一個(gè)典型事務(wù)的集合,即數(shù)據(jù)庫,記為D=t,t,t,…,t,其中t1≤i≤n為D中的第i個(gè)事務(wù),數(shù)據(jù)庫所包含的屬性為集合R=r,r,r,…,r,其中r1≤j≤m即數(shù)據(jù)庫中所有字段,d為數(shù)據(jù)項(xiàng)。

      引入模糊集概念,將R=r,r,r,…,r中的屬性r根據(jù)領(lǐng)域?qū)<抑R(shí)劃分為若干模糊集,r=r,r,r,…,rh>0,相應(yīng)的隸屬度函數(shù)為fr={fr, fr,…, fr},事務(wù)數(shù)據(jù)庫D轉(zhuǎn)化為具有更細(xì)屬性劃分的數(shù)據(jù)庫D。

      在傳統(tǒng)的布爾關(guān)聯(lián)規(guī)則及量化關(guān)聯(lián)規(guī)則的挖掘中,事務(wù)對(duì)屬性的支持計(jì)數(shù)(vote)是以該事務(wù)在所有事務(wù)中出現(xiàn)的次數(shù)來計(jì)算的。

      規(guī)則XY在事務(wù)數(shù)據(jù)庫D中的支持度(support)S是事務(wù)集中包含X和Y的事務(wù)數(shù)與事務(wù)總數(shù)之比,記為S(XY),即

      S(XY)=|{T:X∪YT,T∈D}|/|D|

      規(guī)則XY在交易集中的可信度(confidence)C是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為C (XY),即C(XY)=|{T:X∪YT,T∈D}|/|{T:XT,T∈D}|。

      在進(jìn)行挖掘之前,和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘一樣,必須定義最小支持度S和最小置信度C。

      而在模糊關(guān)聯(lián)規(guī)則的挖掘中,支持計(jì)數(shù)是通過具有模糊屬性數(shù)據(jù)庫D的數(shù)據(jù)項(xiàng)對(duì)各屬性的隸屬度來計(jì)算的,是一個(gè)介于0和1之間的實(shí)數(shù)。數(shù)據(jù)庫D中數(shù)據(jù)項(xiàng)d對(duì)于其模糊屬性r的隸屬度為:

      d= fd

      屬性r,其中j表示第j個(gè)模糊屬性集,即第j列,p表示該屬性集中的第p個(gè)屬性。

      對(duì)于任一屬性,將全部事務(wù)對(duì)該屬性的支持計(jì)數(shù)相加后除以總的事務(wù)數(shù)n,即得到全部事務(wù)對(duì)該列所對(duì)應(yīng)屬性的支持度:

      vote. R=dn

      如vote.r=(d+d+d+…+d)/n即為所有事務(wù)對(duì)屬性r的支持度。在得到所有屬性的支持度后,將支持度小于S的屬性刪除,就得到了頻繁1-項(xiàng)集L。

      下面的步驟和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘相似。對(duì)頻繁j-項(xiàng)集Lj(j≥1)進(jìn)行連接運(yùn)算,得到候選(j+1)-項(xiàng)集C,計(jì)算C中的每個(gè)項(xiàng)集的支持度S:

      假設(shè)<X,A>代表一個(gè)“項(xiàng)集-模糊集”對(duì),X是屬性x的集合x∈X,A是模糊集a的集合a∈A。每個(gè)事務(wù)的支持計(jì)數(shù)是由x的隸屬度函數(shù)來計(jì)算的,用tx來表示第i個(gè)事務(wù)中x的值,Atx是t的隸屬度,一個(gè)事務(wù)的支持計(jì)數(shù)大于0,即其滿足<X,A>。在得到一個(gè)事務(wù)中所有x的隸屬度之后,就可以得到該記錄t對(duì)<X,A>的總支持計(jì)數(shù):

      Z=∏atx

      將所有記錄的支持計(jì)數(shù)相加,除以總的事務(wù)TotalD,就得到了支持度S。

      S=

      在得到所有項(xiàng)集的支持度后,對(duì)C剪枝。剪枝包括三個(gè)部分的內(nèi)容:①刪除C中支持度小于S的項(xiàng)集;②刪除C中的含有非頻繁集的項(xiàng)集;③刪除C中含有屬于同一模糊集屬性的項(xiàng)集,這樣的項(xiàng)集對(duì)于最后產(chǎn)生的關(guān)聯(lián)規(guī)則沒有實(shí)際意義,既可簡(jiǎn)化算法,同時(shí)也降低了計(jì)算量。重復(fù)以上步驟,直到L=Φ,得到包含最多屬性的頻繁j-項(xiàng)集L(滿足j為最大值,且各項(xiàng)集的支持度大于S),由L產(chǎn)生頻繁項(xiàng)集L,最后由L產(chǎn)生關(guān)聯(lián)規(guī)則。

      4結(jié)束語

      數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用是一個(gè)將信息轉(zhuǎn)化為商業(yè)知識(shí)的過程。首先,明確數(shù)據(jù)挖掘的對(duì)象,確定商業(yè)應(yīng)用主題;其次,圍繞商業(yè)主體收集數(shù)據(jù)源,并對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、集成等技術(shù)處理,并選取合適的數(shù)據(jù)挖掘算法,構(gòu)建數(shù)據(jù)挖掘模型,從目標(biāo)數(shù)據(jù)中提取有價(jià)值的商業(yè)知識(shí),對(duì)結(jié)果進(jìn)行分析和驗(yàn)證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實(shí)用性。最后,將商業(yè)知識(shí)集成到電子商務(wù)中心,融合專家知識(shí)與領(lǐng)域規(guī)則,為商業(yè)活動(dòng)提供決策支持。

      隨著電子商務(wù)發(fā)展的勢(shì)頭越來越強(qiáng)勁,面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋€(gè)非常有前景的領(lǐng)域。

      參考文獻(xiàn):

      [1] 張?jiān)茲?,龔? 數(shù)據(jù)挖掘原理與技術(shù)[M]. 北京:電子工業(yè)出版社,2004.

      [2] 朱水林. 電子商務(wù)概念[M]. 北京:清華大學(xué)出版社,2004.

      [3] David Hand, Heikki Mannila, Padhraic Smyth. 數(shù)據(jù)挖掘原理[M]. 張銀奎,廖麗,宋俊,譯. 北京:機(jī)械工業(yè)出版社,2003.

      [4] 熊平,朱天清,黃天戍. 模糊關(guān)聯(lián)規(guī)則挖掘算法及其在異常檢測(cè)中的應(yīng)用[J]. 武漢大學(xué)學(xué)報(bào),2005,30(9):841-844.

      [5] 黃解軍,萬幼川. 基于數(shù)據(jù)挖掘的電子商務(wù)策略[J]. 計(jì)算機(jī)應(yīng)用與軟件,2004,21(7):12-13.

      注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

      猜你喜歡
      數(shù)據(jù)源數(shù)據(jù)挖掘電子商務(wù)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      《電子商務(wù)法》如何助力直銷
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      電子商務(wù)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      關(guān)于加快制定電子商務(wù)法的議案
      跨境電子商務(wù)中的跨文化思考
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      米泉市| 宜兴市| 泸定县| 平果县| 湟源县| 区。| 图木舒克市| 岳西县| 梅州市| 阳高县| 天峻县| 宾川县| 边坝县| 峨眉山市| 千阳县| 楚雄市| 张家界市| 萨迦县| 竹溪县| 马关县| 巫溪县| 东明县| 平远县| 南澳县| 桂平市| 凭祥市| 万州区| 张家港市| 迁西县| 清新县| 丘北县| 定襄县| 遂宁市| 黑龙江省| 塔城市| 神农架林区| 隆回县| 双鸭山市| 玉树县| 阿尔山市| 新郑市|