【摘要】針對房產(chǎn)銷售困難問題,提出了采用離群數(shù)據(jù)挖掘技術(shù)從客戶信息集中提取隱含知識的方案,該方案具有效率高、成本低的特點。方案利用LOF挖掘算法發(fā)現(xiàn)現(xiàn)有客戶集中具有潛在購房意向者,并對試驗結(jié)果質(zhì)量進(jìn)行評價. 算例結(jié)果驗證了方案的可行性。
【關(guān)鍵詞】 數(shù)據(jù)挖掘;離群數(shù)據(jù);基于密度;房產(chǎn)銷售;潛在客戶
1、引言
隨著房地產(chǎn)銷售行業(yè)競爭加劇,房地產(chǎn)商的資金回籠率降低,這直接影響到房產(chǎn)業(yè)的健康發(fā)展。
根據(jù)Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,用戶將更多的需要采用新技術(shù)來挖掘市場值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點”。數(shù)據(jù)挖掘[1]技術(shù)(Data Mining, DM)將在未來的商業(yè)領(lǐng)域中扮演越來越重要的角色。在房產(chǎn)銷售客戶數(shù)據(jù)庫中,知識發(fā)現(xiàn)(Knowledge Discovery from Database, KDD)可以從日常經(jīng)營的海量客戶信息中發(fā)現(xiàn)潛在的、有成交意向的客戶,從而促進(jìn)成交,必然能取得更好的經(jīng)營效果,增強企業(yè)自身的核心競爭力。
2、離群數(shù)據(jù)挖掘算法的關(guān)鍵技術(shù)
數(shù)據(jù)集中明顯偏離大部分?jǐn)?shù)據(jù),不滿足數(shù)據(jù)的一般行為或模式,通常被稱為離群數(shù)據(jù)。該數(shù)據(jù)一開始并沒有受到人們的重視,通常以為是錄入錯誤或者測量錯誤等造成的噪聲。然而,部分離群數(shù)據(jù)可能比正常數(shù)據(jù)更有價值,它背后可能蘊藏著更多新穎的知識。Hawkins在80年代給出了一個關(guān)于離群點[2]的定義,該定義在一定程度上揭示了離群數(shù)據(jù)點的本質(zhì),他說:“離群點與其他數(shù)據(jù)是如此的不同,以至于讓人們懷疑它是不同的機(jī)制產(chǎn)生的?!?/p>
2.1 離群數(shù)據(jù)挖掘算法
離群數(shù)據(jù)挖掘[3-4]在國外已經(jīng)獲得了廣泛的應(yīng)用,代表性的有MM Breunig的Optics、D Yu的Findout、T Johnson的DEEPHLOC、Hp knegel的Lof、M Joshi的prule、E Knorr的FindAllouts D等方法。從選取數(shù)據(jù)集種類上可以分為:
基于統(tǒng)計的方法、基于深度的方法、基于偏離的方法、基于聚類的方法、基于距離的方法和基于密度的方法。其中,基于統(tǒng)計的方法只能在那些只有一個屬性值的數(shù)據(jù)中檢測離群點,無法對實際中的多維數(shù)據(jù)進(jìn)行挖掘。而基于深度的方法需要復(fù)雜的幾何運算,對于高維數(shù)據(jù)的計算效率低下。再者,基于偏離的方法尚處于理論研究階段,實際中較少采用。最后,基于密度的離群挖掘算法[5-9]無需獲取過多的數(shù)據(jù)集的先驗知識,只需要專注于離群特性本身,在局部范圍內(nèi)挖掘,這樣既避免參數(shù)選取困難,又可最大限度的避免離群數(shù)據(jù)漏檢。
例如圖1是一個二維數(shù)據(jù)集,數(shù)據(jù)集中有兩個聚類,分別是C1和C2,可以看出C1和C2的密度有很大不同,其中C1稀疏,C2稠密,依照Hawkins的離群點定義,對象O1和O2是離群點,但如果按基于距離的方法,O1能被輕易的挖掘出來,但要挖掘O2卻很困難。假如設(shè)定參數(shù)p和d的值,使得O2是離群點,那么C1中的某些點都變成了離群點。為了能夠避免以上情況發(fā)生,Breunig在2000年就提出了局部離群因子---LOF(Local Outlier Factor)。加入LOF的算法中解決了局部離群程度的度量和挖掘問題。算法的基本過程如下:
定義1 對象p的k距離:p與它的k個最近鄰居中相距最遠(yuǎn)的點的距離,計為k-distance(p)。計算p的k距離是為了檢測哪些數(shù)據(jù)是p的鄰居。對象p的k距離是p與數(shù)據(jù)集中對象的o的距離d(p,o),其中對象滿足兩個條件:(1)至少有k個對象o’∈D\{p},滿足d(p,o’)≤d(p,o);至多有k-1個對象o” ∈D\{p},使得d(p,o”) 對于任意兩個數(shù)據(jù)對象,xi,yj 有xi={Vi1,Vi2,…Vim} 和Yj={Vj1, Vj2,…Vjm}。則歐幾里徳距離為: 如果數(shù)據(jù)對象屬于標(biāo)度區(qū)間類型,其應(yīng)為曼哈頓距離: 總之,其距離可以表示為明考斯距離: 其中,h=1表示曼哈頓距離,h=2表示歐幾里得距離。 從公式可以看出,p的LOF函數(shù)為p的所有k距離鄰居的局部可達(dá)密度與p的局部可達(dá)密度的比值的平均值。p的局部可達(dá)密度相比于它的k鄰居越小,則LOF的值就會越高,p的離群程度就會越高,從此證明了LOF離群因子的有效性。 3、密度離群挖掘算法的指標(biāo)評價 我們可以通過準(zhǔn)確度(Precision)、召回率(Recall)和排序度(Rankpower)來評價信息系統(tǒng)質(zhì)量,當(dāng)然也可以通過對這三個指標(biāo)適當(dāng)裁剪,用以評價LOF算法的基于密度的離群數(shù)據(jù)挖掘有效性。假設(shè)數(shù)據(jù)D=D0∪Dn,在這里,D0表示數(shù)據(jù)集中離群數(shù)據(jù)的集合,Dn表示數(shù)據(jù)集中正常數(shù)據(jù)的集合。當(dāng)m≥1(m為正整數(shù)),Dm表示該算法中排在前m的離群點的集合,且n(n∈m)個離群點構(gòu)成的集合為R0。三個指標(biāo)可以表示為: 4、算法實現(xiàn) 本數(shù)據(jù)源采用杭州某房產(chǎn)公司(2013-2014年度新增客戶)統(tǒng)計數(shù)據(jù),該數(shù)據(jù)集有550條數(shù)據(jù),16個屬性。根據(jù)相關(guān)知識,我們先對屬性集進(jìn)行清洗、轉(zhuǎn)化和裁剪,取出來訪次數(shù)、年齡、家庭年收入、職業(yè),四項數(shù)據(jù)進(jìn)行研究。針對該房產(chǎn)項目排屋項目的單套房總價格區(qū)間[900萬-1400萬],采用LOF算法來挖掘數(shù)據(jù)集中的離群數(shù)據(jù),根據(jù)以往經(jīng)驗最近鄰居個數(shù)取值為14,另外,為了保護(hù)個人信息,本研究對客戶姓名用英文字母來代替,圖2為運算結(jié)果的前6條記錄: 從以上結(jié)果分析,離群度高的C先生,來訪4次,民營企業(yè)主,年收入較高,對于總價千萬的排屋項目,購買意向較大,是可以爭取的對象。D女士,來訪次數(shù)5次,收入較高,金融工作者,離群度較高,成交的幾率較大。 結(jié)論: 營銷管理中采用數(shù)據(jù)挖掘技術(shù),能有效地從大量營銷數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間有價值的模式或規(guī)律,從而幫助企業(yè)管理層做出精準(zhǔn)且及時的反應(yīng),并能為企業(yè)可持續(xù)發(fā)展注入新活力。 參考文獻(xiàn): [1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2002. [2]Hawkins D. Identifi-cation of Outliers[M].London: Chapman and hall,1980. [3]Edwin M Knorr, Raymond T Ng,Vladimir Tuckov.Distance-based outliers:algorithms and application[J].VLDB Journal, 2000,8(3-4):237-253. [4] Breunig M,Kriegel H. P,Ng R T,et al.LOF: Identifying density-based local outliers[C].In:Proe.Of ACM SIGMODC on ference,Dallas,2000:93-104. [5]唐志剛,楊炳儒,楊珺.一種基于馬爾科夫鏈的高緯離群點挖掘算法[J].系統(tǒng)工程與電子技術(shù),2010,32(12):71-74. [6] 劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的研究和改進(jìn) [D].重慶.重慶大學(xué),2014,4. [7]史東輝.基于規(guī)則的分類數(shù)據(jù)離群挖掘方法研究[J].計算機(jī)研究與發(fā)展,2000,37(9):1094-1100. [8]Malik Agyemang.Local Sparsity Coefficient-Based Mining of Outliers[J].Windsor Ontario:University of Windsor, 2003:75-103. [9]S.P.Lloyd.Least Squares Quantization in PCM[J].IEEE Trans.Information Theory,1982,28:128-137. 作者簡介: 呂圣軍(1975-),男,碩士,講師,主要研究方向: 數(shù)據(jù)挖掘及其應(yīng)用