徐 勇,汪 倩,武雅利,李曉宇,張心蕊
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 蚌埠 233000)
2018年8月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第42次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,據(jù)報告中顯示,截至2018年6月,我國上網(wǎng)用戶人數(shù)已超過8億,互聯(lián)網(wǎng)普及率達(dá)到57.7%;18年上半年新增的網(wǎng)民數(shù)量為2968萬人,同比上一年增長了3.8%;而我國使用手機(jī)上網(wǎng)的用戶規(guī)模已達(dá)7.88億,上網(wǎng)用戶通過手機(jī)連接互聯(lián)網(wǎng)的比例高達(dá)98.3%[1]。如此大規(guī)模的用戶使用網(wǎng)絡(luò),并不斷在網(wǎng)絡(luò)上留下他們所生成的評論、留言、點(diǎn)贊,以及上網(wǎng)過程中留下的瀏覽記錄、搜索痕跡等,造成了大量的數(shù)據(jù)殘留,從而導(dǎo)致用戶無法迅速便捷的在網(wǎng)絡(luò)上查找到所需信息。因此,學(xué)者開始思考如何有效從大規(guī)模的數(shù)據(jù)中挖掘它所隱藏的價值,從而緩解甚至消除這些問題。用戶畫像在這時逐漸被學(xué)者們所關(guān)注,相關(guān)的研究文獻(xiàn)也在不斷增多。
用戶畫像是一種建立在用戶數(shù)據(jù)之上的數(shù)學(xué)模型,它也是一種數(shù)據(jù)分析工具。通過對收集到的用戶數(shù)據(jù)進(jìn)行統(tǒng)計分析,將用戶的屬性特征分為自然屬性、社會屬性、心理屬性等,從而以標(biāo)簽的形式表示出用戶的“全貌”。正是由于用戶畫像能展示出用戶的特征偏好,使得目前對于用戶畫像的研究不斷深入,且將其應(yīng)用于各種環(huán)境當(dāng)中,以實(shí)現(xiàn)精準(zhǔn)營銷[2]、個性化推薦[3-6]、行為預(yù)測[7-10]、異常檢測[11-12]等。本文以中國知網(wǎng)的中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫作為數(shù)據(jù)源,利用文獻(xiàn)計量的方法,對用戶畫像相關(guān)的文獻(xiàn)進(jìn)行統(tǒng)計分析,對其文獻(xiàn)特征進(jìn)行分析,主要從時序分布、期刊來源、作者分布、科研機(jī)構(gòu)分布幾方面進(jìn)行介紹,對關(guān)鍵詞進(jìn)行共詞和聚類分析發(fā)現(xiàn)研究的熱點(diǎn)問題,總結(jié)出現(xiàn)有研究存在的問題與挑戰(zhàn),并提出了相關(guān)建議。
本文是以中國知網(wǎng)的中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫作為數(shù)據(jù)源,以“用戶畫像”為檢索詞,并以“主題”為檢索范圍,時間跨度2010年1月1日到2018年8月31日,共檢索出470篇相關(guān)文獻(xiàn),去除報紙、學(xué)術(shù)輯刊等非學(xué)術(shù)文獻(xiàn)后,最終得到466篇文獻(xiàn)。利用中國知網(wǎng)的文獻(xiàn)管理中心輸出相關(guān)字段,主要包括“作者、題名、文獻(xiàn)來源、摘要、引文、關(guān)鍵詞” 等(檢索時間為2018年12月20日)。
文獻(xiàn)計量法是通過使用統(tǒng)計學(xué)、數(shù)學(xué)等計量方法,統(tǒng)計分析文獻(xiàn)的分布情況、數(shù)量特點(diǎn)等,從而通過數(shù)據(jù)的形式來分析文獻(xiàn)的變化規(guī)律的一種研究方法[13]。本文利用Excel 和citespace對所得到的相關(guān)研究文獻(xiàn)的文獻(xiàn)特征和研究熱點(diǎn)進(jìn)行深入分析。對于用戶畫像的發(fā)文時間、作者分布、期刊分布以及科研機(jī)構(gòu)分布等文獻(xiàn)特征,采用一般的統(tǒng)計分析的方法實(shí)現(xiàn),以揭示目前我國用戶畫像整體的發(fā)展現(xiàn)狀。對用戶畫像研究中的關(guān)鍵詞進(jìn)行共詞分析以及聚類分析方法,以分析并發(fā)現(xiàn)我國用戶畫像的研究熱點(diǎn)及發(fā)展趨勢,并描述了用戶畫像現(xiàn)有研究中的主要問題以及未來的研究趨勢[14]。共詞分析是由Callon M于1986年提出的,其基本原理是通過統(tǒng)計文獻(xiàn)中詞匯對同時出現(xiàn)在同一篇文獻(xiàn)的次數(shù),以此來展示出這些關(guān)鍵詞之間的關(guān)聯(lián)度,進(jìn)而反映出此領(lǐng)域的研究熱點(diǎn)問題,分析學(xué)科領(lǐng)域的發(fā)展過程和結(jié)構(gòu)演化[15]。聚類分析是根據(jù)關(guān)鍵詞之間的關(guān)聯(lián)強(qiáng)度,將最相關(guān)的一組詞聚類成簇,從而實(shí)現(xiàn)相關(guān)的詞聚在一起,實(shí)現(xiàn)研究熱點(diǎn)主題的發(fā)現(xiàn)。
發(fā)文數(shù)量作為對某一研究領(lǐng)域中直觀的顯示文獻(xiàn)數(shù)量變化的一個重要指標(biāo),可反應(yīng)出其研究的熱門程度[14]。對中國知網(wǎng)的中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫得到的466篇文獻(xiàn)進(jìn)行統(tǒng)計分析,逐年變化情況見圖1。由圖1可以看到國內(nèi)最早正式提出“用戶畫像”一詞是在2010年,而2011年到2015年之間,相關(guān)研究文獻(xiàn)還是很少,加起來僅有37篇,說明此階段用戶畫像一詞仍未引起學(xué)者的注意。直到2016年開始至今,研究文獻(xiàn)數(shù)量持續(xù)增加,2016年一年就有72篇, 2017年已達(dá)到180篇,而2018年9月前達(dá)到177篇,數(shù)量增長迅速,說明用戶畫像一詞逐漸開始被學(xué)者關(guān)注,越來越多的學(xué)者開始進(jìn)行這一方面的研究。
圖1用戶畫像研究文獻(xiàn)發(fā)文數(shù)量分布
通過對所檢索到的466篇文獻(xiàn)進(jìn)行統(tǒng)計,它們共包含724位作者。實(shí)際研究中較核心的作者通常是群體合作的,畢竟單個學(xué)者成為核心作者在發(fā)文數(shù)量較群體研究來說處于弱勢。美國著名的學(xué)者普萊斯(PriceD.S.)提出的普萊斯定律是目前對于核心作者分析中應(yīng)用較廣的一種方法[16]。因此,本文用此方法確定核心研究學(xué)者團(tuán)體。經(jīng)過對用戶畫像中相關(guān)學(xué)者的發(fā)文數(shù)量的統(tǒng)計,最多的是張慧敏和李雅坤兩位學(xué)者,都發(fā)表了3篇,據(jù)此得發(fā)文數(shù)量在2篇及以上的作者是用戶畫像研究中的核心作者。
用戶畫像研究領(lǐng)域中的49位核心作者共發(fā)表了論文100篇,占發(fā)表的論文總數(shù)的21.46%,遠(yuǎn)遠(yuǎn)低于了普萊斯定律50%的標(biāo)準(zhǔn)要求。這顯示出我國目前對于用戶畫像的研究雖已經(jīng)開展了不少時間,但仍然未形成重點(diǎn)的核心研究團(tuán)隊(duì),此領(lǐng)域的大多學(xué)者都只是潛在的提及了用戶畫像這一名詞,而并沒有專門的去研究這一主題,因此,未來學(xué)者可針對此領(lǐng)域展開大量研究,使研究更加深入進(jìn)行,促進(jìn)用戶畫像研究的進(jìn)一步開展。
通過使用citespace 軟件對作者的合作情況進(jìn)行分析,如圖2所示。字體大小代表發(fā)表的論文數(shù)量的多少,其中,字體越大,代表發(fā)布的論文越多,反之字體越小,代表發(fā)表的論文數(shù)量越少。節(jié)點(diǎn)間的連線的粗細(xì)代表合作的次數(shù),合作的次數(shù)越多,連線越粗。由圖2可以看出由4人組成的團(tuán)隊(duì)有3個,2人組成的團(tuán)隊(duì)也有3個,其余均為單人。第1個是以大連理工大學(xué)林鴻飛為中心,楊亮、徐博以及古麗孜熱·艾尼外圍繞其周圍形成的團(tuán)隊(duì);第2個是燕山大學(xué)的劉海鷗為中心,張亞明、孫晶晶、蘇妍嫄形成的團(tuán)隊(duì);第3個是北京大學(xué)的黃文彬,吳家輝、徐山川、王軍圍繞其周圍構(gòu)成團(tuán)隊(duì)。此外,還包括3個2人組成的團(tuán)隊(duì)。
圖2作者合作分布
通過對檢索的466篇文獻(xiàn)的第一作者所屬的機(jī)構(gòu)進(jìn)行分析發(fā)現(xiàn),發(fā)文量最高的是高等院系的作者,共有332篇論文,達(dá)到論文總數(shù)的71.24%;其次是企業(yè)作者,論文數(shù)量為45篇,占論文總數(shù)的9.66%;研究所作者論文數(shù)量為32篇,占比6.87%;高校圖書館作者論文數(shù)量為15篇,占比3.22%。具體統(tǒng)計數(shù)據(jù)見表1。
表1 文獻(xiàn)作者機(jī)構(gòu)分布情況
從表1可知高校院系是撰寫論文的主要力量,絕大多數(shù)文獻(xiàn)均是由高校院系提供的,其原因在于他們擁有大量的時間進(jìn)行閱讀和學(xué)習(xí),專門研究各種算法模型,尋找用戶畫像這個領(lǐng)域的空白點(diǎn),不斷深入挖掘該領(lǐng)域。而企業(yè)、高校圖書館、研究所在這方面的文獻(xiàn)相對較少,可以加強(qiáng)這方面的研究。同時,各個機(jī)構(gòu)可以相互合作,這樣可以彌補(bǔ)對方的不足,從而得到快速提升。
表2 論文期刊分布情況
通過對466篇文獻(xiàn)的來源期刊進(jìn)行統(tǒng)計分析,可以發(fā)現(xiàn),刊載了有關(guān)用戶畫像的期刊較為分散,有264種。其中刊載2篇及以下的文獻(xiàn)有231種,因此,實(shí)際上有關(guān)用戶畫像研究的論文主要集中于33種期刊。而北京郵電大學(xué)、華南理工大學(xué)、北京交通大學(xué)、郵電設(shè)計技術(shù)、情報理論與實(shí)踐、電腦知識與技術(shù)、電子科技大學(xué)、哈爾濱工業(yè)大學(xué)、圖書館學(xué)研究、現(xiàn)代情報、有線電視技術(shù)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)是發(fā)表用戶畫像領(lǐng)域論文較多的期刊,排名前十的期刊發(fā)表論文104篇,占樣本的比重為22.32%,如表2所示。這反映了目前國內(nèi)并沒有形成集中研究用戶畫像領(lǐng)域的期刊群。
一篇文獻(xiàn)中闡述了整篇文章核心內(nèi)容以及研究主題的正是文獻(xiàn)的關(guān)鍵詞,一般由幾個核心詞組組成。因此,當(dāng)所研究領(lǐng)域中的一些關(guān)鍵詞不斷在文獻(xiàn)中出現(xiàn)時,說明該關(guān)鍵詞所反映的研究內(nèi)容是該領(lǐng)域的研究熱點(diǎn)問題。因此,通過對高頻關(guān)鍵詞共現(xiàn)關(guān)系分析,可以進(jìn)一步明晰若干熱點(diǎn)研究領(lǐng)域。本文通過使用citespace軟件進(jìn)行關(guān)鍵詞共詞分析,對關(guān)鍵詞對在同一篇文章中出現(xiàn)的頻次進(jìn)行統(tǒng)計分析,以生成共詞圖譜直觀展示出研究的重要主題。(如圖3所示)[17]。
圖3 關(guān)鍵詞共現(xiàn)圖譜
圖3中的關(guān)鍵詞出現(xiàn)的頻次越高,則該節(jié)點(diǎn)越大; 節(jié)點(diǎn)之間的連線越粗,則說明關(guān)鍵詞之間的共現(xiàn)強(qiáng)度越大。從圖中可以看出,在用戶畫像的研究領(lǐng)域中出現(xiàn)頻次最多的關(guān)鍵詞是“用戶畫像”,其次是“大數(shù)據(jù)”和“精準(zhǔn)營銷”,此外。還有“數(shù)據(jù)挖掘”“推薦系統(tǒng)”“個性化推薦”“協(xié)同過濾”“畫像”“機(jī)器學(xué)習(xí)”“hadoop”“用戶”等關(guān)鍵詞提及頻次也較高。這些關(guān)鍵詞的內(nèi)容顯示了用戶畫像研究領(lǐng)域研究的主體內(nèi)容。
共現(xiàn)聚類分析法是一種通過文獻(xiàn)計量和聚類統(tǒng)計相結(jié)合的方法,計算關(guān)鍵詞在同一篇文獻(xiàn)共同出現(xiàn)的頻率,將距離較近的關(guān)鍵詞聚集在一起,形成一個個概念相互獨(dú)立的類團(tuán),使得類團(tuán)內(nèi)屬性相似性最大,類團(tuán)間屬性相似性最小。運(yùn)用citespace軟件,由于該軟件提供了三種聚類算法,即TF-IDF、LLR以及MI三種。因此,比較聚類結(jié)果后最終選擇了LLR算法對關(guān)鍵詞進(jìn)行聚類,得到8個類團(tuán)(如表3所示)。
對數(shù)似然算法LLR是指當(dāng)在類團(tuán)Lj中,由詞wi 的頻度(α)、集中度(β)和分散度(γ)等指標(biāo)構(gòu)成了向量 Vij (α,β,γ),從而根據(jù)向量Vij 選出能夠代表類團(tuán)Lj 的特征詞[18]。計算公式如下:
(1)
由這8個類團(tuán)可以總結(jié)出用戶畫像主要集中在用戶畫像的構(gòu)建和用戶畫像的應(yīng)用兩個方面。其中,集群4和5主要集中于用戶畫像的構(gòu)建方法,它通過使用大數(shù)據(jù)分析技術(shù),運(yùn)用聚類、文本分類、隨機(jī)森林、統(tǒng)計分析、主題模型、深度學(xué)習(xí)等方式,對采集到的與用戶相關(guān)的各類數(shù)據(jù)進(jìn)行處理和分析,挖掘用戶的潛在特征和偏好,來實(shí)現(xiàn)用戶畫像建模。集群1、2、3、6、7和8主要集中在用戶畫像的應(yīng)用方面,用戶畫像是基于用戶在網(wǎng)絡(luò)上生成的各種行為數(shù)據(jù),運(yùn)用各種數(shù)據(jù)挖掘方法,提取用戶特征,并以標(biāo)簽的形式盡可能的勾勒出用戶全貌。因此,用戶畫像被用于推薦系統(tǒng)、協(xié)同過濾,通過使用用戶畫像技術(shù),基于表現(xiàn)出來的特征來對產(chǎn)品或服務(wù)進(jìn)行匹配,尋找符合用戶需求的產(chǎn)品或服務(wù),并將最符合用戶特征的推薦給用戶,減少用戶的查詢時間,進(jìn)而提高用戶購買或使用率。也可以依據(jù)用戶畫像來對用戶行為進(jìn)行預(yù)測,判斷用戶的價值或潛在行為。用戶畫像的應(yīng)用領(lǐng)域也在不斷擴(kuò)展,包括電子商務(wù)、移動運(yùn)營商、教育、圖書館、互聯(lián)網(wǎng)金融、社交網(wǎng)絡(luò)等。
表3 共現(xiàn)關(guān)鍵詞聚類分析
用戶畫像是一種數(shù)據(jù)分析工具,它相對于其他的數(shù)據(jù)分析工具更加深入與直觀,主要基于用戶在網(wǎng)絡(luò)上的行為數(shù)據(jù),運(yùn)用各種數(shù)據(jù)分析與文本挖掘方法,以標(biāo)簽的形式將得到的用戶特征表示出來,使得更加生動與直觀,即使當(dāng)你對一個你完全不相識的用戶推薦商品,也能夠快速依據(jù)用戶畫像,了解用戶需求,并依據(jù)此需求尋找最符合的商品推薦給用戶,而不需要通過詢問用戶來了解用戶偏好,減少用戶使用時間,提高用戶使用滿意度。然而,目前用戶畫像在國內(nèi)的研究仍處于起步階段,各方面的研究都相對淺顯,本文通過對國內(nèi)用戶畫像相關(guān)文獻(xiàn)的梳理,利用文獻(xiàn)計量的方法,對相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計分析,主要從時序分布、期刊來源、作者分布、科研機(jī)構(gòu)分布幾方面進(jìn)行介紹。并對關(guān)鍵詞進(jìn)行共詞和聚類分析來發(fā)現(xiàn)研究熱點(diǎn)。
未來對于用戶畫像的研究還存在一些難點(diǎn)以及重點(diǎn)。首先需要著重考慮用戶的隱私問題,由于用戶畫像的構(gòu)建完全是依賴于從網(wǎng)絡(luò)上獲取的數(shù)據(jù)以及其他一些數(shù)據(jù),這就可能造成企業(yè)為了深入了解用戶,運(yùn)用一些違法行為來獲取各種用戶相關(guān)數(shù)據(jù),這是一種可怕的現(xiàn)象。因此,對于如何合法的獲取數(shù)據(jù),保護(hù)用戶的隱私安全,是一個重要問題。其次,目前用戶畫像的應(yīng)用主要集中在電子商務(wù)、社交網(wǎng)絡(luò)當(dāng)中,未來可以將其推廣到更多的應(yīng)用場景中,如在線旅游領(lǐng)域、在線教育領(lǐng)域、醫(yī)療領(lǐng)域等等,以實(shí)現(xiàn)用戶畫像研究的普及和深入。然后,用戶畫像的構(gòu)建目前只針對于某一具體領(lǐng)域構(gòu)建,尚沒有一個構(gòu)建用戶畫像的統(tǒng)一框架,使得用戶畫像不易推廣開來。因此,未來可將不同領(lǐng)域的用戶數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,使其既能彌補(bǔ)用戶數(shù)據(jù)稀疏的問題,也能構(gòu)建一個更加全面細(xì)致的用戶畫像,使得用戶畫像能夠應(yīng)用于各個領(lǐng)域而不需制作專門的用戶畫像。最后,用戶畫像基于離線數(shù)據(jù)構(gòu)建的,是一種靜態(tài)畫像,只能顯示出用戶短期內(nèi)的一個用戶特征與偏好,而實(shí)際生活中用戶的興趣隨時間可能會發(fā)生改變。因此,變化后的興趣無法通過過去的用戶畫像顯示出來,造成畫像使用時產(chǎn)生偏差,實(shí)時畫像的構(gòu)建顯得尤為重要,未來可探討用戶興趣的變化規(guī)律以及如何實(shí)現(xiàn)用戶畫像的實(shí)時更新。