張凱萍
互聯(lián)網(wǎng)的發(fā)展、計(jì)算機(jī)通信技術(shù)的普及、網(wǎng)絡(luò)購(gòu)物的平民化,使傳統(tǒng)實(shí)體經(jīng)濟(jì)越來(lái)越多地“搬運(yùn)”到了網(wǎng)絡(luò)上,這使得個(gè)人信息、通訊信息、消費(fèi)信息等海量數(shù)據(jù)都成為了有跡可循的數(shù)據(jù)資源,這些數(shù)據(jù)資源已經(jīng)演變成信息科學(xué)中一個(gè)非常重要的研究課題.但是,我們?cè)谙硎苄畔⒓夹g(shù)帶來(lái)的方便的同時(shí),也存在一些問(wèn)題,例如信息的處理速度跟不上數(shù)據(jù)增長(zhǎng)的速度;信息的提取技術(shù)有待提高;信息的真實(shí)性難以確認(rèn);個(gè)人隱私的保密制度和技術(shù)急需完善等.因此,許多相關(guān)議題成為了學(xué)術(shù)界關(guān)注的熱點(diǎn),比如快速、高效率地在大數(shù)據(jù)中獲取有價(jià)值的信息,再進(jìn)一步利用這些信息反映出來(lái)的規(guī)律來(lái)指導(dǎo)市場(chǎng)經(jīng)濟(jì)、社會(huì)走向,以及快速、高效率地在大量的數(shù)據(jù)中找出隱藏的信息,使數(shù)據(jù)挖掘技術(shù)的發(fā)展速度進(jìn)一步加快等.
數(shù)據(jù)挖掘的本質(zhì)是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏的知識(shí)內(nèi)容,是當(dāng)今社會(huì)人工智能和數(shù)據(jù)處理領(lǐng)域重點(diǎn)研究的課題.之所以稱(chēng)為“挖掘”,是因?yàn)檫@項(xiàng)技術(shù)所尋找的知識(shí)是之前并不確定的、具有潛在價(jià)值的、隱藏的內(nèi)容.數(shù)據(jù)挖掘的過(guò)程就是決策支持的過(guò)程,數(shù)據(jù)挖掘就是以統(tǒng)計(jì)學(xué)、大數(shù)據(jù)技術(shù)為基礎(chǔ),以自動(dòng)化學(xué)習(xí)、AI智能以及識(shí)別技術(shù)等為基礎(chǔ),非常規(guī)化地自動(dòng)分析來(lái)自各行各業(yè)的數(shù)據(jù),并總結(jié)出一定的關(guān)系網(wǎng)絡(luò),從中發(fā)現(xiàn)隱藏的模式或潛力,來(lái)協(xié)助決策人員引導(dǎo)市場(chǎng)發(fā)展、降低風(fēng)險(xiǎn),做出正確的預(yù)判.
從技術(shù)上講,數(shù)據(jù)挖掘是需要從一些大量的問(wèn)題數(shù)據(jù)中提取隱藏的知識(shí)和有效信息,并且保證提取出來(lái)的信息和知識(shí)是之前不知道的,確保具有一定的潛在價(jià)值.這些問(wèn)題數(shù)據(jù)包含不完整的數(shù)據(jù),有缺損的數(shù)據(jù),不能完全識(shí)別的數(shù)據(jù),以及隨機(jī)的應(yīng)用數(shù)據(jù).其中,數(shù)據(jù)的來(lái)源必須要真實(shí),數(shù)據(jù)量要大,提取的信息必須是目標(biāo)用戶(hù)群所感興趣的,并且在實(shí)際操作中要可行[1].
對(duì)于原始數(shù)據(jù),可以是來(lái)自各行各業(yè)的數(shù)據(jù)庫(kù),例如關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù);一些文本、視頻資料等半結(jié)構(gòu)化數(shù)據(jù);例如在網(wǎng)絡(luò)上散布的非常零散的沒(méi)有任何關(guān)聯(lián)的數(shù)據(jù).針對(duì)提取有效信息和知識(shí)的方法包含演繹、歸納整理、數(shù)學(xué)模型、非數(shù)學(xué)模型等.提取出來(lái)的知識(shí)可以用在信息檢索、快速查詢(xún)、過(guò)程控制等,還可以用于維護(hù)數(shù)據(jù)本身.因此,數(shù)據(jù)挖掘是一項(xiàng)混合技術(shù),它能夠把數(shù)據(jù)充分利用起來(lái),從簡(jiǎn)單的查詢(xún)到復(fù)雜的演繹,從簡(jiǎn)單的表層知識(shí)到深入的隱藏知識(shí),這都是當(dāng)今社會(huì)進(jìn)行決策和引導(dǎo)的關(guān)鍵技術(shù)知識(shí).
分類(lèi)技術(shù)指的是在數(shù)據(jù)源中尋找出一組數(shù)據(jù)對(duì)象,這組數(shù)據(jù)對(duì)象具有相同的特點(diǎn),可以根據(jù)事先規(guī)定的模式進(jìn)行不同的分類(lèi),把數(shù)據(jù)源中的數(shù)據(jù)對(duì)象聯(lián)結(jié)到某種特殊的類(lèi)別當(dāng)中.例如可以把某一組數(shù)據(jù)對(duì)象聯(lián)結(jié)到顧客的分類(lèi)中,然后對(duì)顧客的屬性進(jìn)行分析,對(duì)顧客的特點(diǎn)進(jìn)行分析,做滿(mǎn)意度調(diào)查、然后評(píng)判顧客的購(gòu)買(mǎi)意向以及購(gòu)買(mǎi)力.以某一個(gè)汽車(chē)廠商為例,如果這個(gè)汽車(chē)廠商把數(shù)據(jù)源中的顧客依據(jù)對(duì)汽車(chē)的愛(ài)好分門(mén)別類(lèi),這樣一線的銷(xiāo)售人員便可以把握主動(dòng),直接向這類(lèi)顧客銷(xiāo)售相應(yīng)的產(chǎn)品,投其所好,大大提高了效率.
這種分析方法是將一組數(shù)據(jù)源按照是否相似以及相似的程度分為幾個(gè)層級(jí),制定覆蓋面廣而又詳盡的相似性判斷制度,使相同類(lèi)別的數(shù)據(jù)源具有極高的相似度,使不同類(lèi)別的數(shù)據(jù)源具有極低的相似度.市場(chǎng)銷(xiāo)售中經(jīng)常用到聚類(lèi)這種分析方法,例如尋找客戶(hù)的時(shí)候,挖掘潛在客戶(hù)的時(shí)候,維系與客戶(hù)的聯(lián)系的時(shí)候,分析商品周期的時(shí)候,預(yù)判銷(xiāo)售情況的時(shí)候等等,都可以使用聚類(lèi)的分析方法.
關(guān)聯(lián)是描述數(shù)據(jù)源中各項(xiàng)數(shù)據(jù)之間關(guān)系的規(guī)則,簡(jiǎn)單地說(shuō),就是一類(lèi)數(shù)據(jù)源中出現(xiàn)某些項(xiàng),很可能導(dǎo)致另一類(lèi)數(shù)據(jù)源中產(chǎn)生相應(yīng)的反映,有因而產(chǎn)生果,隱藏在數(shù)據(jù)源中的知識(shí)也隨之被發(fā)現(xiàn)[2].例如,當(dāng)你在維護(hù)和客戶(hù)的關(guān)系的時(shí)候,就可以在該企業(yè)的客戶(hù)數(shù)據(jù)源中挖掘有效信息,在大量的關(guān)系交流的記錄中挖掘有效信息,挖掘有價(jià)值的線索,挖掘出不明顯的影響市場(chǎng)的關(guān)鍵節(jié)點(diǎn),這對(duì)商品價(jià)格預(yù)判、銷(xiāo)售走勢(shì)、客戶(hù)類(lèi)群分辨、銷(xiāo)售整體方向的規(guī)劃等具有重要的參考價(jià)值.
該方法是利用數(shù)據(jù)源在時(shí)間上的特征性,制定一個(gè)把數(shù)據(jù)類(lèi)別回歸到預(yù)測(cè)變量的函數(shù)中,通過(guò)相關(guān)的數(shù)學(xué)理論,對(duì)變量和變量之間的關(guān)系進(jìn)行挖掘分析,其中回歸分析的重點(diǎn)有以下幾點(diǎn):數(shù)據(jù)類(lèi)別之間的關(guān)系分析,預(yù)判的走向分析,以及數(shù)據(jù)變量的趨勢(shì)分析等.
數(shù)據(jù)源也可以根據(jù)特征進(jìn)行數(shù)據(jù)分類(lèi),從中提取關(guān)于這些特征的特征式,這類(lèi)公式可以提現(xiàn)該數(shù)據(jù)源的整體特點(diǎn).例如在一線的銷(xiāo)售人員在預(yù)防顧客流失的時(shí)候就可以先將顧客按照特征進(jìn)行分類(lèi),然后再?gòu)闹刑崛〕鲱櫩土魇卣鞯奶卣魇?,就可以很快分找出造成顧客流失的很多原因以及特征了,然后再?gòu)奶卣髦姓页鲋饕卣骱痛我卣?,通過(guò)對(duì)這些顧客流失的特征分析就可以提前預(yù)防顧客流失的情況了.
數(shù)據(jù)源里面的偏差含有許多隱藏的知識(shí)和有效信息,例如模式中反?,F(xiàn)象,數(shù)據(jù)分類(lèi)中的反?,F(xiàn)象,實(shí)際與期望的偏差等,對(duì)于偏差的分析旨在探究實(shí)際結(jié)果與參照之間有價(jià)值的差別.在大型企業(yè)的危機(jī)預(yù)警系統(tǒng)中,管理人員更應(yīng)該注意的是一些反?,F(xiàn)象和規(guī)則,對(duì)于這些偏差的分析以及深入挖掘,可以提前嗅探到危機(jī),讓企業(yè)提前應(yīng)對(duì),避免不良后果的產(chǎn)生.
隨著互聯(lián)網(wǎng)的普及,越來(lái)越多的人開(kāi)始通過(guò)網(wǎng)絡(luò)通信進(jìn)行交互,這導(dǎo)致互聯(lián)網(wǎng)上的數(shù)據(jù)極其豐富,通過(guò)對(duì)互聯(lián)網(wǎng)的數(shù)據(jù)挖掘,可收集到有關(guān)經(jīng)濟(jì)的各種信息、有關(guān)金融的各種信息、有關(guān)對(duì)手企業(yè)的各種信息、有關(guān)人力資源供求的各種信息、以及潛在客戶(hù)群體的各種信息等等,接下來(lái)再重點(diǎn)關(guān)注對(duì)企業(yè)會(huì)造成重大影響的內(nèi)、外因素,或者潛在影響的內(nèi)、外因素,根據(jù)數(shù)據(jù)挖掘的結(jié)果對(duì)危機(jī)進(jìn)行預(yù)判和預(yù)警,合理利用,從而達(dá)到統(tǒng)籌運(yùn)營(yíng)、恰當(dāng)決策的目的.
在一些大型企業(yè)中,數(shù)據(jù)挖掘技術(shù)在市場(chǎng)銷(xiāo)售中廣受青睞,它的應(yīng)用基礎(chǔ)是市場(chǎng)細(xì)分原理,通過(guò)對(duì)顧客日常消費(fèi)行為的分析來(lái)判斷其將來(lái)的消費(fèi)行為[3].
具體地說(shuō),就是先廣泛的搜集一切和消費(fèi)者的日常行為有關(guān)的信息,并進(jìn)行加工處理,做好分類(lèi),通過(guò)不同分類(lèi)的消費(fèi)群體的消費(fèi)水平,偏向愛(ài)好以及消費(fèi)趨勢(shì)來(lái)對(duì)消費(fèi)群體的消費(fèi)行為做出預(yù)判,然后以此為準(zhǔn),對(duì)每一類(lèi)消費(fèi)群體進(jìn)行定向推銷(xiāo),類(lèi)似于“漫灌”改“滴灌”,可以將銷(xiāo)售的準(zhǔn)確度大大提升,進(jìn)而銷(xiāo)售效率就會(huì)提升,企業(yè)積累的顧客越來(lái)越多,利潤(rùn)也就會(huì)越來(lái)越大.
其中的消費(fèi)數(shù)據(jù)信息來(lái)自于多種渠道.當(dāng)我們?cè)谏暾?qǐng)辦理借記卡時(shí)、購(gòu)買(mǎi)商品進(jìn)行登記時(shí)、郵寄物品填寫(xiě)表格時(shí)等等,只要是需要填寫(xiě)個(gè)人信息的公共場(chǎng)合,在填寫(xiě)信息之后,一些私人信息就會(huì)自動(dòng)納入相對(duì)應(yīng)的數(shù)據(jù)庫(kù);例如當(dāng)你每一次刷信用卡產(chǎn)生消費(fèi)的時(shí)候,企業(yè)就會(huì)通過(guò)你的信用卡的賬單來(lái)計(jì)算分析你的消費(fèi)信息,并且還可以統(tǒng)計(jì)出每一次的消費(fèi)時(shí)間,消費(fèi)地點(diǎn),消費(fèi)內(nèi)容,消費(fèi)能力等;除了企業(yè)自身收集相關(guān)信息,也可以通過(guò)購(gòu)買(mǎi)的形式從其他商業(yè)公司購(gòu)買(mǎi).
來(lái)源于多種渠道的用戶(hù)信息被重組,利用計(jì)算機(jī)、AI智能分析、模型算法等多種信息處理辦法進(jìn)行綜合處理,從中提取對(duì)于企業(yè)有利的決策性、判斷性信息,用來(lái)對(duì)消費(fèi)群體進(jìn)行定向銷(xiāo)售等.舉例說(shuō)明,當(dāng)銀行系統(tǒng)對(duì)交易業(yè)務(wù)進(jìn)行數(shù)據(jù)挖掘后,篩選到一個(gè)銀行用戶(hù)要求辦理雙人關(guān)聯(lián)賬戶(hù),且明確這是該消費(fèi)者第一次要求辦理,那么數(shù)據(jù)挖掘軟件會(huì)預(yù)判這名用戶(hù)即將結(jié)婚,相應(yīng)地便可以對(duì)其定向推薦房屋按揭等業(yè)務(wù),甚至可能把這份資料售賣(mài)給婚慶服務(wù)行業(yè).
在市場(chǎng)經(jīng)濟(jì)發(fā)達(dá)的國(guó)家,很多大型企業(yè)已經(jīng)開(kāi)始在原有信息基礎(chǔ)上通過(guò)數(shù)據(jù)挖掘進(jìn)行深層加工,從而建立起自己的優(yōu)勢(shì),提升競(jìng)爭(zhēng)力,擴(kuò)大經(jīng)營(yíng)范圍.比如美國(guó)運(yùn)通公司,建立了一個(gè)記錄信用卡消費(fèi)記錄的數(shù)據(jù)庫(kù),只要業(yè)務(wù)量在增加,數(shù)據(jù)庫(kù)的內(nèi)容就會(huì)一直更新.而美國(guó)運(yùn)通公司就會(huì)在這些數(shù)據(jù)中挖掘隱藏的信息,制定出了非常有效的“關(guān)聯(lián)結(jié)算優(yōu)惠”策略,簡(jiǎn)單地說(shuō),就是一個(gè)用戶(hù)在使用信用卡購(gòu)買(mǎi)了一套衣服,如果在同一地方再買(mǎi)一雙皮鞋,那么就會(huì)有巨大優(yōu)惠.如此以來(lái),商店和銀行都賺取了更多的利潤(rùn).
預(yù)判型推銷(xiāo),是以數(shù)據(jù)挖掘?yàn)榛A(chǔ),可以按照消費(fèi)者之前的消費(fèi)水平,向其推薦與之相當(dāng)?shù)漠a(chǎn)品.例如卡夫食品擁有一個(gè)幾千萬(wàn)顧客資料的數(shù)據(jù)庫(kù),其內(nèi)容是不同的消費(fèi)人群對(duì)該公司曾經(jīng)發(fā)放過(guò)的消費(fèi)券、代金券等的反饋,卡夫食品以此為基礎(chǔ)進(jìn)行數(shù)據(jù)挖掘,向特定的人群發(fā)送其偏好的食品,并且進(jìn)一步推薦與之有關(guān)的卡夫食譜.再例如美國(guó)讀者出版公司,建立了一個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù),并且已經(jīng)累積了幾十年,業(yè)務(wù)數(shù)據(jù)庫(kù)的內(nèi)容已經(jīng)包含全球范圍上億個(gè)顧客的相關(guān)資料和信息,并且業(yè)務(wù)數(shù)據(jù)庫(kù)還在7*24小時(shí)的運(yùn)行,從來(lái)沒(méi)有間斷過(guò),確保數(shù)據(jù)庫(kù)的內(nèi)容可以實(shí)時(shí)更新.所以正是因?yàn)橛辛藬?shù)據(jù)庫(kù)信息的挖掘技術(shù),讀者出版公司在高層決策中實(shí)行了方向引導(dǎo),讓公司的業(yè)務(wù)得到進(jìn)一步拓展,從一開(kāi)始的普通雜志擴(kuò)展到專(zhuān)業(yè)雜志,從一開(kāi)始的普通書(shū)刊擴(kuò)展到音像制品,從而公司的利潤(rùn)也是得到了很大的提升.
大數(shù)據(jù)在給人們帶來(lái)方便的同時(shí),也存在許多安全隱患,尤其是個(gè)人的隱私容易被不法分子進(jìn)行數(shù)據(jù)化分析.
比如,通過(guò)對(duì)人口健康數(shù)據(jù)、基因測(cè)序數(shù)據(jù)的挖掘,可以預(yù)判國(guó)民身體健康走向;通過(guò)對(duì)移動(dòng)消費(fèi)的數(shù)據(jù)挖掘,可以得出國(guó)民消費(fèi)的金融數(shù)據(jù);通過(guò)對(duì)社會(huì)文化的分析可以得出國(guó)民的文娛喜好和思想文化偏好,這些分析結(jié)果很可能會(huì)被不法分子利用,進(jìn)而影響國(guó)家層面的安全.
由于利益驅(qū)使,個(gè)人信息的售賣(mài)已經(jīng)形成完整的產(chǎn)業(yè)鏈條,依據(jù)目前的網(wǎng)絡(luò)法律法規(guī),這些不法現(xiàn)象還很難得到整治.但換一個(gè)角度,大數(shù)據(jù)只有在充分流動(dòng)和共享交換的模式下才能發(fā)揮最大作用,要用辯證的眼光看待當(dāng)今社會(huì)大數(shù)據(jù)帶來(lái)的利和弊,只有完善法規(guī)、合理引導(dǎo),才能使大數(shù)據(jù)發(fā)揮其應(yīng)有的作用.
大數(shù)據(jù)時(shí)代的到來(lái),使得數(shù)據(jù)挖掘技術(shù)成為極具影響力的工具,顛覆了以往各個(gè)領(lǐng)域的運(yùn)作模式,使得各行各業(yè)能夠把握更高效的運(yùn)行方案.隨著數(shù)據(jù)挖掘帶給人們方便的同時(shí),個(gè)人隱私的安全問(wèn)題也亟待解決,只有建立完善的法律法規(guī),加強(qiáng)數(shù)據(jù)基礎(chǔ)設(shè)施保護(hù),充分發(fā)揮標(biāo)準(zhǔn)的指導(dǎo)和引領(lǐng)作用,才能讓數(shù)據(jù)挖掘技術(shù)更好地為社會(huì)服務(wù).
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2018年8期