高永梅,琚春華,鮑福光
(1.杭州職業(yè)技術(shù)學(xué)院 杭州310018;2.浙江工商大學(xué) 浙江310018)
近年來,各國政府高度關(guān)注大數(shù)據(jù)的研究和應(yīng)用,2012年美國政府投資2億美元開展 “大數(shù)據(jù)研究和發(fā)展計(jì)劃”,歐盟投入1億歐元建設(shè)科學(xué)數(shù)據(jù)的基礎(chǔ)設(shè)施。中國計(jì)算機(jī)學(xué)會(huì)等組織也多次組織關(guān)于大數(shù)據(jù)的學(xué)術(shù)討論會(huì)。在科學(xué)界,大數(shù)據(jù)的研究也得到了高度重視,國際頂級(jí)的學(xué)術(shù)期刊《Science》、《Nature》等相繼出版了關(guān)于大數(shù)據(jù)研究的專題期刊。
隨著信息技術(shù)在電信領(lǐng)域長期而廣泛的應(yīng)用,各電信企業(yè)已擁有海量的用戶信息和業(yè)務(wù)數(shù)據(jù)。智能手機(jī)的普及,移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,給電信行業(yè)帶來了新的革命,產(chǎn)生了大量的互聯(lián)網(wǎng)訪問、社交媒體等數(shù)據(jù)。2012年,Eric Hsueh-Chan Lu 等構(gòu)建了 MCE(mobile commerce explorer)框架,挖掘并預(yù)測了移動(dòng)用戶的運(yùn)動(dòng)軌跡和購買趨向[1],Tzung-Shi Chen等人創(chuàng)建了UMBPs挖掘方法,研究移動(dòng)用戶的移動(dòng)行為模式[2]。2010年,張蕓等人通過改進(jìn)的N-gram預(yù)測模型有效預(yù)測了用戶的行為傾向[3]。2013年,陳娜等人構(gòu)建了基于Hadoop的BSS大數(shù)據(jù)平臺(tái),為大數(shù)據(jù)背景下的個(gè)性化消費(fèi)定制提供了支持[4]。
電信企業(yè)決策的正確與否依賴于如何從不同來源、不同渠道的數(shù)據(jù)中提取到有價(jià)值的信息,如何科學(xué)地管理和合理開發(fā)這些內(nèi)部和外部信息資源,這也是增強(qiáng)企業(yè)競爭力、吸引更多用戶的關(guān)鍵所在。運(yùn)營商對(duì)海量數(shù)據(jù)進(jìn)行有效挖掘和分析,能更精準(zhǔn)地掌握用戶需求及特征,從而更加高效地為電信用戶推薦適合他們的服務(wù),定制與用戶相適應(yīng)的消費(fèi)產(chǎn)品。
電信領(lǐng)域數(shù)據(jù)能夠折射出用戶的很多特征,CRM系統(tǒng)中存儲(chǔ)了用戶的姓名、性別、職業(yè)、地區(qū)等基礎(chǔ)信息,BOSS(business&operation support system)中詳細(xì)記錄了用戶的通話、短信、流量等消費(fèi)行為和消費(fèi)清單,微博、微信等社交平臺(tái)折射出用戶的人際交往、時(shí)尚特征、生活軌跡,互聯(lián)網(wǎng)訪問軌跡反映了用戶的興趣、愛好、購買意愿等。
基于電信領(lǐng)域的用戶行為分析、提取用戶特征是精準(zhǔn)營銷[5]、個(gè)性化推薦[6,7]的前提。針對(duì)電信領(lǐng)域用戶的精準(zhǔn)營銷應(yīng)建立在了解用戶的興趣、愛好、社會(huì)影響力、文化層次、年齡階段等的基礎(chǔ)上,對(duì)用戶進(jìn)行個(gè)性化業(yè)務(wù)推薦,需要了解用戶的業(yè)務(wù)偏好、消費(fèi)習(xí)慣等。
從電信領(lǐng)域考慮,構(gòu)建用戶特征模型,如圖1所示,以便開展精準(zhǔn)營銷和個(gè)性化服務(wù)。
針對(duì)電信領(lǐng)域的用戶,本文對(duì)用戶基本興趣特征信息做了如下定義。
定義1 (用戶)用戶是指在某電信營運(yùn)商處注冊(cè)的且能被唯一識(shí)別的用戶。在電信營運(yùn)商注冊(cè)的用戶集合定義為用戶集 U={u1,u2,…,uN}。
定義2 (自然特征)用戶基本屬性集是用戶已知存在的多種特征因素的集合,包括性別(gender)、年齡(age)、職業(yè)(occupation)、婚姻狀態(tài)(marriage)、城市(city)、教育程度(education)、專業(yè)(major)和收入(income)等,定義用戶背景集為 :UBE={gender,age,occupation,marriage,city,education,major,income,…}。
定義3 (影響力特征)用戶影響力特征指的是該用戶所處用戶群和經(jīng)常聯(lián)系的朋友圈與移動(dòng)人際網(wǎng)絡(luò),包括通話時(shí)間最長的聯(lián)系人 (long-time contact)、最常聯(lián)系的人(contact)、飛信朋友圈(Fetion)、微信朋友圈(WeChat),這些因素都會(huì)影響該用戶的相關(guān)行為和偏好。定義影響力特征為:INF={long-time contact,contact,F(xiàn)etion,WeChat,…}。
定義4 (電信特征)電信特征指的是用戶已經(jīng)啟用或者曾經(jīng)使用的電信業(yè)務(wù)和活動(dòng),包括用戶級(jí)別、業(yè)務(wù)偏好、在網(wǎng)時(shí)間、月移動(dòng)網(wǎng)絡(luò)流量、月短信量和通話時(shí)間等。定義用戶電信特征為:TBS。
定義5 (生活軌跡)用戶生活軌跡指記錄用戶的活動(dòng)位置和位置情景,包括出差位置、旅游偏好等位置情境。生活軌跡位置情境定義為一組非空屬性集Si={Si1,Si2,…,Sim},每個(gè)屬性 Sij(j=1,2,…,m)都有一組屬性值Sij={Sij1,Sij2,…,Sijr};對(duì)于推薦過程中的時(shí)刻t,Si都唯一具有一個(gè)屬性值相應(yīng)地,在時(shí)刻t,情境對(duì)象Si都具有特定狀態(tài)在不同的推薦位置下,影響電信用戶行為的因素是不同的[8]。
定義6 (用戶行為特征集)指用戶通過移動(dòng)網(wǎng)絡(luò)進(jìn)行的網(wǎng)絡(luò)行為和偏好,包括移動(dòng)閱讀、常見網(wǎng)頁、關(guān)注品牌、常用應(yīng)用和購買評(píng)價(jià)等。UIC表示電信用戶在通過移動(dòng)網(wǎng)絡(luò)訪問的資源進(jìn)行分類后的興趣內(nèi)容集合:UIC={P1,P2,…,Pl}∪{L1,L2,…,Lm}∪{C1,C2,…,Cn}={UIC1,UIC2,…,UICm},其 中 ,P表示應(yīng)用的一個(gè)組件頻道,L表示相關(guān)鏈接,C表示標(biāo)簽內(nèi)容,UIC是采用概念分層方法分類生成的興趣內(nèi)容,則有對(duì)應(yīng)的興趣概念集:∑={σx|1≤x≤Z},堝UIC|→σx,σx為興趣內(nèi)容特征概念,|→表示興趣內(nèi)容到特征概念的映射關(guān)系。
從系統(tǒng)學(xué)角度考慮,移動(dòng)用戶模型包括輸入、處理和輸出等部分,其中輸入部分主要包括顯性數(shù)據(jù)和隱性數(shù)據(jù)[9]。顯性數(shù)據(jù)是用戶在電信運(yùn)營商處自行注冊(cè)留下的相關(guān)信息,包括用戶基本特征(注冊(cè)名、出生日期、性別、學(xué)歷、職業(yè)和所在城市等)和電信業(yè)務(wù)特征(用戶級(jí)別、業(yè)務(wù)、在網(wǎng)時(shí)間和月消費(fèi)量)等;隱性數(shù)據(jù)是電信用戶通過移動(dòng)網(wǎng)絡(luò)進(jìn)行的各種活動(dòng)和行為數(shù)據(jù),包括影響力特征(通話時(shí)間最長的聯(lián)系人、最常聯(lián)系的人、飛信朋友圈、微信朋友圈)、生活軌跡和文化特征等。
電信移動(dòng)用戶模型構(gòu)建框架如圖2所示,由用戶興趣本體獲取、修正和用戶群的組建3部分組成。其中,電信移動(dòng)用戶興趣本體獲取涉及用戶的基本特征、電信業(yè)務(wù)特征及其領(lǐng)域本體的構(gòu)建等;電信移動(dòng)用戶興趣模型的修正是根據(jù)用戶的生活軌跡、文化特征和影響力特征等業(yè)務(wù)行為來升級(jí)本體,實(shí)現(xiàn)用戶興趣本體的學(xué)習(xí)更新;用戶群則通過眾多電信移動(dòng)用戶興趣本體的相似度計(jì)算來獲得,從而組建的。
根據(jù)用戶的興趣情境信息,在構(gòu)建用戶本體情境中,將用戶情境劃分為用戶個(gè)體情境、用戶環(huán)境情境以及用戶設(shè)備情境。本體通常采用層次概念樹的形式,用戶情境的某一元素就是通過樹中的每個(gè)節(jié)點(diǎn)來表示的,即構(gòu)建情境本體樹。用戶情境采用形式化的描述模型可做如下定義。
定義7(用戶情境)用戶情境UserContext=(UPC,UEC,UDC),其中UPC表示用戶個(gè)體基本情境,UEC表示用戶環(huán)境情境,UDC表示用戶設(shè)備情境。UPC表示為:UPC=(UIC,UBE,TBS);UEC 表示為:UEC=(daytime,location),daytime 表示用戶網(wǎng)絡(luò)行為所處的時(shí)間,location表示用戶網(wǎng)絡(luò)行為所處的位置或IP地址;UDC表示為:UDC=(hardware,software),即用戶的軟硬件設(shè)備。
情境相似度指的是兩個(gè)用戶之間的情境相似度,用于用戶情境聚類,從而進(jìn)行用戶相似推薦。設(shè)G為當(dāng)前用戶情境本體樹CT1中的某個(gè)非子節(jié)點(diǎn),G有N個(gè)子節(jié)點(diǎn)G1,G2,…,GN,G′為與 G 相對(duì)應(yīng)的歷史用戶情境本體樹 CT2的節(jié)點(diǎn),則G與G′的相似度為:
其中,Σwi=1,wi為第i個(gè)子節(jié)點(diǎn)的權(quán)重。
對(duì)于兩個(gè)概念Gi′與Gi之間的相似度,本文采用基于Levenstein編輯距離的字符串相似度計(jì)算式[10]:
其 中 ,ed(Gi,Gi′)就 是 Gi與 Gi′之 間 的 Levenstein 編 輯距離。
用戶情境相似度的算法思路:比較當(dāng)前用戶情境模型與歷史情境模型的相似度,即根據(jù)本體模型的層次關(guān)系,通過對(duì)子層節(jié)點(diǎn)概念屬性相似度的計(jì)算,回推其父節(jié)點(diǎn)概念屬性的相似度,直到求出根節(jié)點(diǎn)概念屬性的相似度。
具體算法步驟如下。
輸入:當(dāng)前用戶情境CT1和歷史用戶情境CT2
輸出:用戶情境相似度CTSim(G,G′)
步驟 1 設(shè) CTSim(G,G′)=0。
步驟2 取出CT1中的某個(gè)概念Gi,如果存在轉(zhuǎn)入下一步,否則結(jié)束。
步驟3 在CT2中找出與Gi對(duì)應(yīng)的概念Gi′,如果存在轉(zhuǎn)步驟4,否則轉(zhuǎn)回步驟2。
步驟4 循環(huán)計(jì)算G與G′所有子節(jié)點(diǎn)Gi與Gi′的相似度 CTSim(G,G′)+=wi×CTSim(Gi,Gi′),得到綜合相似度。
電信領(lǐng)域的數(shù)據(jù)可分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)主要來自CRM系統(tǒng)的用戶數(shù)據(jù)、BOSS的業(yè)務(wù)數(shù)據(jù)以及用戶通過各種電子渠道留下的訪問軌跡,外部數(shù)據(jù)涉及用戶在移動(dòng)互聯(lián)網(wǎng)、公共社交平臺(tái)等方面的訪問及社交媒體數(shù)據(jù)??纱篌w上將電信運(yùn)營商能獲取的數(shù)據(jù)分為以下六大類:
·消費(fèi)行為數(shù)據(jù),用戶在電信運(yùn)營商各業(yè)務(wù)系統(tǒng)中產(chǎn)生的消費(fèi)記錄數(shù)據(jù);
·訪問行為數(shù)據(jù),用戶通過運(yùn)營商的短信營業(yè)廳、網(wǎng)上營業(yè)廳、掌上營業(yè)廳等渠道進(jìn)行消費(fèi)查詢、業(yè)務(wù)辦理等行為產(chǎn)生的訪問軌跡;
·用戶信息數(shù)據(jù),用戶的自然屬性,如性別、職業(yè)、年齡、入網(wǎng)時(shí)間、ARPU值等;
·業(yè)務(wù)類型數(shù)據(jù),電信運(yùn)營商提供的業(yè)務(wù),如基礎(chǔ)類、套餐類、通信類、商務(wù)類等;
·公眾平臺(tái)數(shù)據(jù),用戶在各種公眾平臺(tái)留下的痕跡,如微博、微信等社交媒體數(shù)據(jù);
·上網(wǎng)軌跡數(shù)據(jù),用戶使用手機(jī)訪問互聯(lián)網(wǎng)的痕跡。
對(duì)以上電信領(lǐng)域的海量數(shù)據(jù)進(jìn)行采樣,僅僅采用普通的數(shù)據(jù)庫存取方式,在性能上是遠(yuǎn)遠(yuǎn)不能滿足需求的。為更好地滿足性能需求,需要采用分布式的存取方式。而Hadoop是一個(gè)開源的、可進(jìn)行分布式計(jì)算的分布式系統(tǒng)基礎(chǔ)架構(gòu),也是目前應(yīng)用最廣泛的云計(jì)算框架。它以數(shù)據(jù)處理量大、可靠性高、成本低、效率高和擴(kuò)展靈活等優(yōu)勢,贏得了市場的認(rèn)可。MapReduce和HDFS(Hadoop distributed file system)是Hadoop技術(shù)體系兩個(gè)主要的核心組件,HDFS是一個(gè)分布式文件系統(tǒng),適合構(gòu)建于普通的廉價(jià)計(jì)算機(jī)集群之上,MapReduce是一個(gè)編程模型和軟件構(gòu)架,能夠在計(jì)算機(jī)集群上編寫并行化程序,對(duì)大數(shù)據(jù)進(jìn)行快速處理[11]。Hadoop技術(shù)體系中還包含很多其他非常實(shí)用的技術(shù),如HBase是一個(gè)分布式的數(shù)據(jù)庫,它是一個(gè)面向列的開源數(shù)據(jù)庫,適合于非結(jié)構(gòu)化的大數(shù)據(jù)存儲(chǔ);ZooKeeper用來維護(hù)Hadoop集群的配置信息、命名信息等,是一個(gè)分布式應(yīng)用程序協(xié)調(diào)器,能提供分布式鎖同步功能和群組管理功能。結(jié)合電信領(lǐng)域數(shù)據(jù)特點(diǎn)以及Hadoop分布式架構(gòu),構(gòu)建如圖3所示的電信領(lǐng)域數(shù)據(jù)采集與存儲(chǔ)架構(gòu)。
數(shù)據(jù)采集層主要是通過不同的傳輸協(xié)議和API從各個(gè)數(shù)據(jù)源采集移動(dòng)用戶的相關(guān)數(shù)據(jù)。網(wǎng)上營業(yè)廳、掌上營業(yè)廳等供用戶自助服務(wù)的電子渠道,可采用HTTP獲取用戶的訪問軌跡;短信營業(yè)廳、熱線電話IVR(interactive voice response,互動(dòng)式語音應(yīng)答)、CRM系統(tǒng)和BOSS為電信運(yùn)營商內(nèi)部系統(tǒng),這些系統(tǒng)一般都提供了對(duì)外的API,可以利用這些接口獲取用戶數(shù)據(jù);微博、微信等社會(huì)公共平臺(tái)為豐富平臺(tái)的各類應(yīng)用,提供了開放性的API,以便吸納第三方用戶開發(fā)的精品應(yīng)用,可以通過此接口從公共平臺(tái)獲取相關(guān)信息;移動(dòng)用戶通過智能終端訪問互聯(lián)網(wǎng)時(shí),網(wǎng)關(guān)是流量必經(jīng)之地,在網(wǎng)關(guān)處可以獲得用戶訪問互聯(lián)網(wǎng)的所有痕跡。
數(shù)據(jù)存儲(chǔ)層負(fù)責(zé)將上一層發(fā)送過來的數(shù)據(jù)進(jìn)行分類與整合,并將這些數(shù)據(jù)存儲(chǔ)在非結(jié)構(gòu)化的分布式數(shù)據(jù)庫(HBase)中。將CRM系統(tǒng)中獲取的數(shù)據(jù)存儲(chǔ)在用戶信息數(shù)據(jù)集中;將從網(wǎng)上營業(yè)廳、短信營業(yè)廳、掌上營業(yè)廳、IVR中獲取的數(shù)據(jù)存儲(chǔ)在訪問行為數(shù)據(jù)集中;將BOSS中獲取的數(shù)據(jù)存儲(chǔ)在消費(fèi)行為數(shù)據(jù)集和業(yè)務(wù)類型數(shù)據(jù)集中;將微信、微博等公共平臺(tái)獲取的數(shù)據(jù)存儲(chǔ)在公共平臺(tái)數(shù)據(jù)集中;將互聯(lián)網(wǎng)訪問軌跡存儲(chǔ)在上網(wǎng)軌跡數(shù)據(jù)集中。再對(duì)各類數(shù)據(jù)集進(jìn)行挖掘分析,生成特征庫和索引庫,方便業(yè)務(wù)服務(wù)的挖掘,這部分內(nèi)容將在后面進(jìn)行詳述。同時(shí)該層還負(fù)責(zé)將數(shù)據(jù)內(nèi)容存儲(chǔ)到分布式文件系統(tǒng)中。
文件存儲(chǔ)層基于HDFS,它主要是一些計(jì)算機(jī)集群節(jié)點(diǎn),包含存儲(chǔ)控制節(jié)點(diǎn) (namenode)、數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)(datanode)和集群監(jiān)控節(jié)點(diǎn)3類。namenode是HDFS的管理者,管理文件系統(tǒng)的命名空間,維護(hù)文件系統(tǒng)的元數(shù)據(jù),同時(shí),該節(jié)點(diǎn)還保存了文件與數(shù)據(jù)塊在datanode中的對(duì)應(yīng)關(guān)系。Hadoop為了避免因namenode出現(xiàn)故障而影響整個(gè)系統(tǒng)的運(yùn)行,設(shè)計(jì)了secondary namenode作為namenode的同步備份節(jié)點(diǎn)。datanode是HDFS存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn),datanode有很多,它會(huì)定期向namenode匯報(bào)所存儲(chǔ)的數(shù)據(jù)塊列表,方便使用者直接獲取數(shù)據(jù)。集群監(jiān)控節(jié)點(diǎn)主要負(fù)責(zé)監(jiān)控各節(jié)點(diǎn)的工作是否正常,一旦出現(xiàn)故障立即做出相應(yīng)的處理。
網(wǎng)上營業(yè)廳和掌上營業(yè)廳是電信運(yùn)營商為方便用戶查詢?cè)捹M(fèi)余額、賬務(wù)清單、業(yè)務(wù)套餐、話費(fèi)充值等業(yè)務(wù)而開發(fā)的電子服務(wù)渠道,通過分析用戶在網(wǎng)上營業(yè)廳和掌上營業(yè)廳的點(diǎn)擊行為,可以發(fā)現(xiàn)用戶的消費(fèi)趨向[12]。通過在網(wǎng)上營業(yè)廳和掌上營業(yè)廳網(wǎng)站內(nèi)植入JavaScript代碼,跟蹤鼠標(biāo)點(diǎn)擊行為,并通過HTTP提交給Web服務(wù)器,經(jīng)過數(shù)據(jù)存儲(chǔ)接口存儲(chǔ)到訪問行為數(shù)據(jù)集中,同時(shí)將訪問記錄寫入索引庫。通過對(duì)訪問行為數(shù)據(jù)集進(jìn)行分析挖掘,得到用戶電信特征:如經(jīng)常進(jìn)行余額及消費(fèi)清單查詢的用戶為消費(fèi)敏感型,近期經(jīng)常查看套餐業(yè)務(wù)的用戶為新業(yè)務(wù)嘗試型等,根據(jù)用戶特征設(shè)置相應(yīng)的個(gè)性化服務(wù),如圖4所示。
短信營業(yè)廳是電信運(yùn)營商通過短信向用戶提供服務(wù)功能的渠道,移動(dòng)用戶可以通過發(fā)送短信進(jìn)行話費(fèi)查詢、業(yè)務(wù)辦理等操作,隨時(shí)隨地,方便實(shí)用。而IVR是電信運(yùn)營商通過語音提供服務(wù)功能的渠道。電信運(yùn)營商擁有短信營業(yè)廳和熱線電話的存儲(chǔ)數(shù)據(jù)庫,同時(shí)熱線電話有通話日志(calllog),用戶通過短信營業(yè)廳和IVR進(jìn)行業(yè)務(wù)咨詢或辦理帶有明確的目的性,能夠準(zhǔn)確反映用戶近期的動(dòng)態(tài)。所以對(duì)短信營業(yè)廳和IVR的數(shù)據(jù)進(jìn)行分析更具有針對(duì)性,通過API從短信營業(yè)廳、IVR數(shù)據(jù)庫和calllog中提取數(shù)據(jù),經(jīng)過數(shù)據(jù)存儲(chǔ)接口存入訪問行為數(shù)據(jù)集,同時(shí)將數(shù)據(jù)索引存入索引庫。獲取的數(shù)據(jù)多為文本信息,為提取有用信息,需對(duì)獲取的文本信息進(jìn)行關(guān)鍵詞提取、詞性標(biāo)注及中文切分詞處理,最后將獲取的特征信息存入特征庫,根據(jù)用戶特征制定個(gè)性化服務(wù)策略,如圖5所示。
電信運(yùn)營商的CRM系統(tǒng)積累了大量的用戶信息數(shù)據(jù),BOSS內(nèi)存儲(chǔ)了運(yùn)營商的業(yè)務(wù)服務(wù)產(chǎn)品類型以及用戶消費(fèi)的詳細(xì)信息。CRM系統(tǒng)和BOSS作為電信運(yùn)營商的內(nèi)部系統(tǒng),數(shù)據(jù)真實(shí)可靠,對(duì)這些數(shù)據(jù)進(jìn)行有效挖掘,對(duì)用戶消費(fèi)行為進(jìn)行細(xì)分,按照用戶消費(fèi)行為的各個(gè)指標(biāo)對(duì)用戶進(jìn)行分類,用戶的消費(fèi)指標(biāo)可設(shè)定為消費(fèi)金額、消費(fèi)類型、消費(fèi)時(shí)間、消費(fèi)頻率、在網(wǎng)時(shí)間等。數(shù)據(jù)采集處理過程及個(gè)性化服務(wù)與推薦如圖6所示,通過內(nèi)部API獲取用戶信息及消費(fèi)數(shù)據(jù),經(jīng)過數(shù)據(jù)存取接口分別將數(shù)據(jù)存入用戶信息數(shù)據(jù)集、業(yè)務(wù)類型數(shù)據(jù)集和消費(fèi)行為數(shù)據(jù)集,同時(shí)將用戶信息索引、業(yè)務(wù)類型索引和消費(fèi)行為索引存入索引庫,再采用改進(jìn)的k-means聚類[13]等算法對(duì)用戶進(jìn)行細(xì)分,提取特征存入特征庫。提取用戶的性別、年齡、地區(qū)等存入用戶自然特征庫;根據(jù)用戶消費(fèi)情況提取用戶電信特征存入電信特征庫,如夜間大流量型、多語音業(yè)務(wù)型、多短信業(yè)務(wù)型、增值業(yè)務(wù)型等;根據(jù)用戶漫游情況提取用戶的生活軌跡,如省內(nèi)出差型、省際出差型、國際出差型等。根據(jù)用戶的自然特征、電信特征和生活軌跡特征,進(jìn)行套餐推薦等個(gè)性化服務(wù)。
隨著互聯(lián)網(wǎng)和智能終端技術(shù)的飛速發(fā)展,越來越多的人們通過社交網(wǎng)絡(luò)進(jìn)行各種社會(huì)活動(dòng),在線社交平臺(tái)成為真實(shí)人際關(guān)系在互聯(lián)網(wǎng)上的重現(xiàn),能夠折射出用戶的興趣、愛好、影響力、消費(fèi)趨向等特點(diǎn)。最近得以迅猛發(fā)展的微博、微信等社交平臺(tái),擁有海量用戶及其用戶留下的信息,從這些海量數(shù)據(jù)中挖掘有價(jià)值的信息,實(shí)現(xiàn)精準(zhǔn)營銷和服務(wù)推薦,也是各大運(yùn)營商所期待的。微信中的朋友圈、微博中的粉絲數(shù)量真實(shí)地體現(xiàn)了該用戶的影響力,微博、微信中發(fā)表的文字、語音等內(nèi)容包含用戶的生活軌跡、興趣愛好、品牌趨向等特征。
數(shù)據(jù)采集處理過程及個(gè)性化服務(wù)與推薦如圖7所示:微博、微信等第三方社交平臺(tái),大多提供了API技術(shù),通過外部API獲取用戶粉絲情況、關(guān)注情況、朋友圈以及發(fā)布的文字信息、語音信息等,經(jīng)過數(shù)據(jù)存取接口將數(shù)據(jù)存入公共平臺(tái)數(shù)據(jù)集,同時(shí)將信息索引存入索引庫。將接收到的語音信息通過轉(zhuǎn)換工具轉(zhuǎn)換成文字,連同獲取到的文本信息,使用文本聚類算法,提取用戶的影響力特征、品牌特征、文化特征、生活軌跡等,分別存入相應(yīng)的特征庫,并根據(jù)用戶特征挖掘相應(yīng)的服務(wù)與推薦。
圖6 CRM/BOSS數(shù)據(jù)采集與服務(wù)挖掘應(yīng)用
圖7 微博、微信等公眾平臺(tái)數(shù)據(jù)采集與服務(wù)挖掘應(yīng)用
隨著智能手機(jī)的普及、網(wǎng)絡(luò)的優(yōu)化,越來越多的用戶通過手機(jī)訪問互聯(lián)網(wǎng)。用戶通過手機(jī)訪問互聯(lián)網(wǎng)的數(shù)據(jù)是海量的,而網(wǎng)關(guān)是所有用戶流量必經(jīng)之地。所以,用戶訪問互聯(lián)網(wǎng)的數(shù)據(jù)可以在網(wǎng)關(guān)處采集。記錄用戶訪問的互聯(lián)網(wǎng)地址URL,使用爬蟲器獲取該地址的頁面內(nèi)容,然后使用文本聚類算法提取特征信息,存入特征庫。數(shù)據(jù)采集處理與服務(wù)推薦過程如圖8所示。
通過數(shù)據(jù)采集和融合方法,獲取電信領(lǐng)域海量數(shù)據(jù),包括用戶基本特征數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶偏好特征數(shù)據(jù)、電信特征數(shù)據(jù)、社交影響力特征數(shù)據(jù)以及用戶生活軌跡等,并經(jīng)過處理形成特征庫,根據(jù)融合的數(shù)據(jù)構(gòu)建電信移動(dòng)用戶服務(wù)模型,為電信運(yùn)營商后續(xù)運(yùn)營決策和套餐制定與推薦提供支持。
(1)消費(fèi)定制
根據(jù)構(gòu)建的電信移動(dòng)用戶服務(wù)模型,進(jìn)行短信定制、套餐定制、彩鈴定制、信息服務(wù)定制、音樂定制、新聞定制和行業(yè)信息服務(wù)的定制等營銷決策。定制消費(fèi)可以涵蓋移動(dòng)電信相關(guān)信息服務(wù),消費(fèi)群從個(gè)人、家庭到團(tuán)體,可以涵蓋不同區(qū)域、不同職業(yè)、不同領(lǐng)域以及不同年齡段的用戶。
(2)個(gè)性化推薦與城市交叉推薦
個(gè)性化推薦服務(wù)在電商已有一些應(yīng)用,如“你可能喜歡……”、“購買了這款物品的人還購買了……”等之類的挖掘推薦。電信運(yùn)營商的產(chǎn)品和服務(wù)更具有針對(duì)性和情境移動(dòng)等特點(diǎn),根據(jù)移動(dòng)網(wǎng)絡(luò)的特點(diǎn)和位置情境的要求,電信移動(dòng)用戶的推薦更具有靈活性和真實(shí)性,因此移動(dòng)網(wǎng)絡(luò)的個(gè)性化推薦能夠發(fā)揮更大的效能。同時(shí),結(jié)合相似電信移動(dòng)消費(fèi)群體的特征和偏好,進(jìn)行城市間的交叉業(yè)務(wù)推薦,進(jìn)而將成功的營銷和方案推廣到其他相似用戶群,提升績效。
圖8 上網(wǎng)軌跡數(shù)據(jù)采集與服務(wù)挖掘應(yīng)用
(3)精確營銷
精確預(yù)測用戶的需求,根據(jù)用戶的瀏覽記錄,點(diǎn)擊流來做預(yù)測,構(gòu)建動(dòng)態(tài)的移動(dòng)用戶興趣模型,可采用規(guī)則引擎技術(shù)來實(shí)現(xiàn)。
1 Lu E H C,Ying J J C,Chen H S,et al.Simulation framework for travel trajectory generation and mobile transaction modeling.Proceedings of International Conference on Information Security and Intelligence Control(ISIC),Yunlin,Taiwan,China,2012
2 Chen T S,Chou Y S,Chen T C.Mining user movement behavior patterns in a mobile service environment.IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2012,42(1)
3 張蕓.智能空間中情景感知的系統(tǒng)模型和預(yù)測研究.北京郵電大學(xué)碩士學(xué)位論文,2010
4 陳娜,徐歆壹,宋紅兵等.基于Hadoop的電信BSS大數(shù)據(jù)平臺(tái)建設(shè)研究.電信科學(xué),2013,29(3)
5 楊軍.基于移動(dòng)通信客戶行為分析的精確營銷策略研究.電子設(shè)計(jì)工程,2012(8):141~143
6 余肖生,孫珊.基于網(wǎng)絡(luò)用戶信息行為的個(gè)性化推薦模型.重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2013(1)
7 嚴(yán)雋薇,黃勛,劉敏等.基于本體用戶興趣模型的個(gè)性化推薦算法.計(jì)算機(jī)集成制造系統(tǒng),2010(12):2757~2762
8 胡慕海.面向動(dòng)態(tài)情境的信息推薦方法及系統(tǒng)研究.華中科技大學(xué)博士學(xué)位論文,2011
9 琚春華,鮑福光.基于情境和主體特征融入性的多維度個(gè)性化推薦模型研究.通信學(xué)報(bào),2012,33(9A):17~27
10 何娟,高志強(qiáng),陸青健.基于詞匯相似度的元素級(jí)本體匹配.計(jì)算機(jī)工程,2006,32(16):185~187
11 琚春華,鄒江波,張芮等.基于MapReduce技術(shù)的并行集成分類算法.電信科學(xué),2012,28(7):40~47
12 薛立宏,張?jiān)迫A,曹敏.移動(dòng)互聯(lián)網(wǎng)運(yùn)營關(guān)鍵問題及商業(yè)模式探討.電信科學(xué),2009,25(5):11~17
13 左國才,周榮華,黎自強(qiáng).改進(jìn)k-means算法在電信CRM客戶分類中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(11)