• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的回顧與展望

    2018-05-04 05:57:23李月琳章小童
    信息資源管理學(xué)報(bào) 2018年2期
    關(guān)鍵詞:日志社交圖書(shū)館

    李月琳 章小童

    (南開(kāi)大學(xué)商學(xué)院信息資源管理系,天津,300071)

    1 引言

    信息行為研究是情報(bào)學(xué)的主要研究領(lǐng)域之一。對(duì)人類(lèi)信息行為的關(guān)注可以追溯到1849年遞交到英國(guó)國(guó)會(huì)的一份關(guān)于圖書(shū)館的效用及讀者閱讀行為的報(bào)告[ 1]。雖然該報(bào)告并非嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)研究,但也可由此窺見(jiàn)信息行為研究的悠久歷史。

    信息行為研究是一個(gè)不斷演進(jìn)的過(guò)程,早期的研究主要關(guān)注讀者的閱讀行為和習(xí)慣[ 2]及公共圖書(shū)館的使用[ 3],其目的在于改善圖書(shū)館的服務(wù)。隨著社會(huì)的發(fā)展,信息行為研究的內(nèi)容不斷豐富,學(xué)者們的關(guān)注點(diǎn)從用戶(hù)對(duì)單一信息源的使用轉(zhuǎn)移到對(duì)不同信息渠道和信息源的使用行為研究上;相關(guān)研究的視角也不斷多元化,從用戶(hù)信息搜尋、信息搜索、信息偶遇、信息保留、信息組織等不同方面開(kāi)展了一系列研究;研究方法上,較多地使用了問(wèn)卷調(diào)查、訪(fǎng)談、用戶(hù)日記等傳統(tǒng)的社會(huì)科學(xué)研究方法[ 4]。隨著信息技術(shù)的發(fā)展和廣泛應(yīng)用,互聯(lián)網(wǎng)已成為信息快速傳播的重要平臺(tái),數(shù)字圖書(shū)館、移動(dòng)圖書(shū)館、搜索引擎、門(mén)戶(hù)網(wǎng)站、社交媒體等信息資源均依托互聯(lián)網(wǎng)成為了用戶(hù)的主要信息來(lái)源之一。這些變革也同時(shí)引領(lǐng)信息行為研究進(jìn)入了新的時(shí)代。其中重要的變化之一便是用戶(hù)在系統(tǒng)和網(wǎng)絡(luò)上留下的“痕跡”,即他們與系統(tǒng)交互的事務(wù)日志(transactionlog)成為信息行為研究重要的數(shù)據(jù)來(lái)源。日志數(shù)據(jù)客觀地記錄了用戶(hù)與系統(tǒng)的交互行為,此類(lèi)記錄規(guī)模大、更新快、類(lèi)型多樣,對(duì)信息行為特征、模式的研究具有重要價(jià)值。對(duì)各類(lèi)搜索引擎、信息檢索系統(tǒng)以及各類(lèi)信息服務(wù)系統(tǒng)的用戶(hù)交互過(guò)程的日志數(shù)據(jù)挖掘,可以幫助我們研究和分析用戶(hù)信息行為規(guī)律,包括信息行為習(xí)慣、信息行為偏好、信息需求等,從而加深對(duì)信息用戶(hù)的了解,為信息系統(tǒng)的優(yōu)化提供借鑒,幫助信息系統(tǒng)構(gòu)建更為精準(zhǔn)的、個(gè)性化的信息搜索與獲取服務(wù)[ 5]。區(qū)別于傳統(tǒng)的信息行為研究,也同時(shí)呼應(yīng)大數(shù)據(jù)時(shí)代的信息行為研究的發(fā)展,我們將此類(lèi)研究稱(chēng)之為“數(shù)據(jù)驅(qū)動(dòng)”的信息行為研究。

    相較于傳統(tǒng)的信息行為研究,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究更多地關(guān)注用戶(hù)與各類(lèi)信息系統(tǒng)平臺(tái)及信息本身自然交互過(guò)程中留下來(lái)的 “痕跡”,這些“痕跡”數(shù)據(jù)是外在的、非介入性的、且客觀的,它為用戶(hù)信息行為模式的識(shí)別、用戶(hù)行為偏好的揭示、用戶(hù)需求內(nèi)容的解讀提供了新的研究思路和途徑。文章將聚焦于日志數(shù)據(jù)驅(qū)動(dòng)的信息行為研究,通過(guò)回顧已有的研究,揭示當(dāng)前此類(lèi)研究的主題、特征,分析此類(lèi)研究的優(yōu)勢(shì)和局限性,并探討未來(lái)的發(fā)展方向。

    2 文獻(xiàn)來(lái)源及主題識(shí)別

    為盡可能涵蓋相關(guān)文獻(xiàn),我們檢索了CNKI、萬(wàn)方、維普、WebofScience、GoogleScholar、百度學(xué)術(shù)及其他相關(guān)數(shù)據(jù)庫(kù),共獲得56篇中文文獻(xiàn)及115篇英文文獻(xiàn),以此作為文章分析的基礎(chǔ)。借助Ucinet與NetDraw軟件工具對(duì)國(guó)內(nèi)外文獻(xiàn)的關(guān)鍵詞進(jìn)行聚類(lèi)分析,以識(shí)別出已有研究中的相關(guān)主題,結(jié)果分別如圖1和圖2所示。圖1表明,國(guó)內(nèi)該領(lǐng)域的研究還沒(méi)有形成明顯的核心主題,但顯示了2種研究路徑:①基于網(wǎng)絡(luò)搜索引擎日志數(shù)據(jù)的用戶(hù)信息行為研究,以用戶(hù)行為分析、搜索引擎、計(jì)算機(jī)應(yīng)用、中文信息處理、用戶(hù)行為、點(diǎn)擊信息分析、網(wǎng)絡(luò)信息檢索、Web日志挖掘、日志分析、搜索日志、移動(dòng)搜索等關(guān)鍵詞組成的詞群為標(biāo)識(shí)。 ②基于數(shù)字圖書(shū)館系統(tǒng)用戶(hù)行為日志分析的信息行為研究, 以O(shè)PAC、圖書(shū)館、搜索行為、高校用戶(hù)、日志挖掘、信息行為、非移動(dòng)圖書(shū)館、移動(dòng)圖書(shū)館、用戶(hù)檢索行為等關(guān)鍵詞為標(biāo)識(shí)。由此可見(jiàn),Web搜索引擎日志分析和數(shù)字圖書(shū)館系統(tǒng)日志分析是當(dāng)前國(guó)內(nèi)研究的兩大主題。這些研究以發(fā)現(xiàn)用戶(hù)信息需求及揭示用戶(hù)搜索行為、瀏覽行為、點(diǎn)擊行為、查詢(xún)行為、訪(fǎng)問(wèn)路徑、網(wǎng)頁(yè)深度、搜索策略、瀏覽興趣路徑等行為特征與模式為目的,從而實(shí)現(xiàn)改進(jìn)和優(yōu)化各類(lèi)信息系統(tǒng)包括搜索引擎、數(shù)字圖書(shū)館系統(tǒng)等的性能,包括用戶(hù)個(gè)性化、界面友好性等等。然而,部分關(guān)鍵詞如虛擬社區(qū)、網(wǎng)絡(luò)輿情、微博等關(guān)鍵詞也顯示了數(shù)據(jù)驅(qū)動(dòng)的用戶(hù)信息行為研究的新方向——社交媒體用戶(hù)信息行為研究。

    圖2顯示的國(guó)外相關(guān)研究的主題相對(duì)明顯,且具有較為明晰的研究熱點(diǎn)。其中,最大的關(guān)鍵詞群包括userunderstanding、documentunderstanding、queryunderstanding、monitoring、experimentation、informationseeking、intentmining、web、search、informationsearching等關(guān)鍵詞,表明基于日志數(shù)據(jù)挖掘的研究主要關(guān)注用戶(hù)、文獻(xiàn)獲取、交互、搜尋等主題。此外,不同的聚類(lèi)顯示數(shù)據(jù)驅(qū)動(dòng)的信息行為研究集中在不同的情境,包括數(shù)字圖書(shū)館、網(wǎng)絡(luò)及社交媒體,如subjectcomparisons、searchprocess、informationseeking、e-journals、searchtactics、e-resource、searchlogmining等關(guān)鍵詞表征了數(shù)字圖書(shū)館環(huán)境下(包括圖書(shū)館的OPAC系統(tǒng)及各類(lèi)電子資源)的用戶(hù)信息行為研究是主要的研究對(duì)象;以weblogmining、sessionidentification、logindex、pathextraction、referrerheuristics等關(guān)鍵詞表征的基于網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的用戶(hù)行為研究;以datamining、diabetes、termanalysis、socialmedia、internetloganalysis、informationseeking等關(guān)鍵詞為表征的基于互聯(lián)網(wǎng)日志分析的社交媒體用戶(hù)信息行為研究、健康信息行為研究等??傊?,相較于國(guó)內(nèi)的相關(guān)研究,國(guó)外學(xué)者們的研究?jī)?nèi)容及情境更為具體,其研究?jī)?nèi)容和用戶(hù)行為數(shù)據(jù)來(lái)源類(lèi)別劃分更為細(xì)致,更多是從微觀層面研究用戶(hù)在某一特定信息系統(tǒng)中的行為特征,并基于研究結(jié)果,對(duì)不同信息系統(tǒng)的優(yōu)化提出建議。

    圖1 國(guó)內(nèi)數(shù)據(jù)驅(qū)動(dòng)的信息行為相關(guān)研究的主題結(jié)構(gòu)

    圖2 外文文獻(xiàn)數(shù)據(jù)驅(qū)動(dòng)的信息行為相關(guān)研究的主題結(jié)構(gòu)

    可見(jiàn),無(wú)論是國(guó)內(nèi)還是國(guó)外,數(shù)字驅(qū)動(dòng)的信息行為研究大致可歸納為3個(gè)方面:數(shù)字圖書(shū)館用戶(hù)的信息行為研究、Web搜索引擎用戶(hù)信息行為研究及社交媒體用戶(hù)信息行為研究。

    數(shù)據(jù)驅(qū)動(dòng)的用戶(hù)行為研究最早可以追溯到20世紀(jì)60年代。1981—1983年,OCLC(OnlineComputerLibraryCenter)對(duì)OPAC(onlinepublicaccesscatalogs)檢索系統(tǒng)進(jìn)行了研究,使用了事務(wù)日志分析和焦點(diǎn)小組訪(fǎng)談,分析了系統(tǒng)的使用情況和用戶(hù)的感知易用性,并將這些研究發(fā)現(xiàn)應(yīng)用到系統(tǒng)的優(yōu)化中。這一較早期的研究為用戶(hù)信息行為研究提供了日志數(shù)據(jù)分析的新思路和新方法。隨著Web技術(shù)的不斷發(fā)展,以O(shè)PAC系統(tǒng)為代表的數(shù)字圖書(shū)館系統(tǒng)和網(wǎng)絡(luò)搜索引擎逐漸成為人們搜尋和獲取信息的主要來(lái)源,起始于OPAC系統(tǒng)的用戶(hù)行為日志挖掘方法被應(yīng)用到了Web搜索引擎用戶(hù)行為分析中,為搜索引擎的服務(wù)優(yōu)化提供了重要的方法和工具。隨著Web2.0時(shí)代社交媒體的盛行,用戶(hù)常使用Twitter、Facebook、微博、微信以及虛擬社區(qū)進(jìn)行信息交流與分享,這些用戶(hù)的信息行為也逐漸受到關(guān)注,而日志數(shù)據(jù)的分析為其提供了重要的方法和路徑。可見(jiàn),數(shù)據(jù)驅(qū)動(dòng)的信息行為研究是隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展而不斷演進(jìn)的:從以O(shè)PAC系統(tǒng)為代表的數(shù)字圖書(shū)館系統(tǒng)到Web搜索引擎再到Web2.0時(shí)代的社交媒體(如圖3所示)。以下結(jié)合主題識(shí)別的結(jié)果,從這三個(gè)方面回顧并展望數(shù)據(jù)驅(qū)動(dòng)的信息行為研究。

    圖3 數(shù)據(jù)驅(qū)動(dòng)的用戶(hù)信息行為研究的發(fā)展

    3 數(shù)字圖書(shū)館用戶(hù)信息行為研究

    該領(lǐng)域較早地開(kāi)始使用大規(guī)模用戶(hù)日志數(shù)據(jù)分析用戶(hù)的信息行為特征,并評(píng)價(jià)系統(tǒng)易用性,以?xún)?yōu)化系統(tǒng)設(shè)計(jì)[ 6]。相關(guān)研究表明,用戶(hù)搜索日志主要包括兩類(lèi):搜索查詢(xún)?nèi)罩竞忘c(diǎn)擊流日志[ 7-8],這些日志數(shù)據(jù)是分析用戶(hù)使用行為和評(píng)價(jià)系統(tǒng)服務(wù)質(zhì)量的重要基礎(chǔ)。

    早在1999年,研究圖書(shū)館協(xié)會(huì)(AssociationofResearchLibraries,ARL)就啟動(dòng)了一個(gè)統(tǒng)計(jì)分析電子資源使用的研究項(xiàng)目,經(jīng)過(guò)長(zhǎng)達(dá)6個(gè)月的流量捕獲,獲得了72個(gè)用戶(hù)的15500個(gè)會(huì)話(huà)記錄和1300000個(gè)系統(tǒng)頁(yè)面,據(jù)此分析了用戶(hù)的結(jié)構(gòu)特征,包括背景、知識(shí)結(jié)構(gòu)、年齡結(jié)構(gòu)等[ 9]。隨著研究的不斷深入和發(fā)展,用戶(hù)日志數(shù)據(jù)分析已經(jīng)被廣泛應(yīng)用于OPAC系統(tǒng)的用戶(hù)搜索行為研究中,它可以對(duì)大規(guī)模的用戶(hù)交互行為特征及模式進(jìn)行分析。如Mahoui與Cunningham以及Jones等就通過(guò)分析2個(gè)數(shù)字圖書(shū)館系統(tǒng)的日志數(shù)據(jù),研究了用戶(hù)查詢(xún)語(yǔ)句的復(fù)雜度問(wèn)題,發(fā)現(xiàn)大多數(shù)的查詢(xún)式復(fù)雜度都很低,而且大部分用戶(hù)傾向于系統(tǒng)默認(rèn)設(shè)置,而不是根據(jù)自己的需求進(jìn)行重新設(shè)定[ 10-11];在Mahoui與Cunningham的后續(xù)研究中通過(guò)對(duì)會(huì)話(huà)日志和查詢(xún)?nèi)罩镜姆治?,發(fā)現(xiàn)只有少數(shù)搜索是通過(guò)引文和文獻(xiàn)搜索查詢(xún)開(kāi)始的,并主要以數(shù)字圖書(shū)館系統(tǒng)主搜索頁(yè)面為起點(diǎn)。此項(xiàng)研究表明了基于大規(guī)模日志數(shù)據(jù)分析的用戶(hù)行為研究雖不能像直接調(diào)查用戶(hù)那樣深入回答“用戶(hù)的搜索行為為何如此”的問(wèn)題,但它的方法優(yōu)勢(shì)和功能也是大部分定性研究或調(diào)查研究所不能媲美的[ 12]。其后,Assadi等基于日志數(shù)據(jù)對(duì)數(shù)字圖書(shū)館系統(tǒng)的用戶(hù)多樣性進(jìn)行了分析,并識(shí)別了不同的用戶(hù)群體[ 13]。Koch等基于230萬(wàn)Renardus用戶(hù)的使用日志數(shù)據(jù),分析了用戶(hù)的行為特征,發(fā)現(xiàn)大多數(shù)用戶(hù)有主題明確的瀏覽行為[ 14]。Hopfgartner等通過(guò)分析用戶(hù)大規(guī)模日志文件,提取了影像檢索系統(tǒng)界面的用戶(hù)模型[ 15];在此基礎(chǔ)上,Christel等通過(guò)事務(wù)日志數(shù)據(jù)分析了數(shù)字影像圖書(shū)館用戶(hù)行為,發(fā)現(xiàn)用戶(hù)在第一個(gè)會(huì)話(huà)中輸入的查詢(xún)?cè)~往往是不準(zhǔn)確的[ 15]。而Chen等人則通過(guò)網(wǎng)絡(luò)日志的分析研究了在線(xiàn)數(shù)字圖書(shū)館的兒童圖書(shū)閱讀行為[ 16]。以上研究表明,基于日志數(shù)據(jù)的挖掘可回答信息行為研究關(guān)注的不同問(wèn)題,有助于理解用戶(hù)行為特征,揭示用戶(hù)的行為模式。

    國(guó)內(nèi)研究成果也較為豐富。如任立肖基于圖書(shū)館web網(wǎng)絡(luò)日志數(shù)據(jù)的分析,比較研究了高校圖書(shū)館、公共圖書(shū)館和科研圖書(shū)館的用戶(hù)信息行為差別,研究表明用戶(hù)的信息需求、信息行為頻次、信息行為目的、信息行為時(shí)間偏好等方面均存在顯著差異[ 17]。其后,王澤賢等人則進(jìn)行了基于ILASIIOPAC系統(tǒng)訪(fǎng)問(wèn)日志的用戶(hù)行為建模研究[ 18];而馬驊使用數(shù)據(jù)挖掘方法對(duì)用戶(hù)信息行為日志進(jìn)行了分析, 提出了數(shù)據(jù)挖掘在OPAC系統(tǒng)用戶(hù)行為研究的發(fā)展方向和前景[ 19]。隨著OPAC系統(tǒng)不斷優(yōu)化和使用,相關(guān)研究更是不斷深化發(fā)展,如黃崑等基于OPAC的用戶(hù)查詢(xún)?nèi)罩緮?shù)據(jù)對(duì)其提問(wèn)調(diào)整模式進(jìn)行了研究[ 20];姜婷婷等人通過(guò)對(duì)武漢大學(xué)圖書(shū)館OPAC系統(tǒng)為期18天的用戶(hù)搜索日志分析,發(fā)現(xiàn)用戶(hù)所輸入的查詢(xún)式較短,高頻率查詢(xún)?cè)~主要集中在數(shù)學(xué)、社會(huì)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科領(lǐng)域,而且中文與非中文會(huì)話(huà)時(shí)長(zhǎng)有較大差異[ 21];其后,該研究團(tuán)隊(duì)基于用戶(hù)日志數(shù)據(jù)進(jìn)一步研究了訪(fǎng)問(wèn)武漢大學(xué)圖書(shū)館OPAC系統(tǒng)的用戶(hù)搜尋路徑[ 22]。此外,朱玲與聶華通過(guò)構(gòu)建產(chǎn)生和記錄數(shù)字圖書(shū)館用戶(hù)搜索日志的中間平臺(tái)獲取大量日志數(shù)據(jù),從檢索方式、查詢(xún)?cè)~優(yōu)化、查詢(xún)語(yǔ)言、查詢(xún)長(zhǎng)度、分面點(diǎn)擊行為等方面分析了數(shù)字圖書(shū)館系統(tǒng)用戶(hù)的搜索行為[ 23];王建冬與王繼民則基于對(duì)大型期刊數(shù)據(jù)庫(kù)的用戶(hù)查詢(xún)?nèi)罩痉治觯芯苛瞬煌咝S脩?hù)的查詢(xún)?cè)~長(zhǎng)度分布、特殊檢索比例分布、訪(fǎng)問(wèn)時(shí)間分布以及檢索策略分布[ 24];王偉則基于數(shù)據(jù)挖掘技術(shù),整合分析圖書(shū)館信息咨詢(xún)記錄、圖書(shū)流通記錄、Web日志數(shù)據(jù)等多類(lèi)型數(shù)據(jù),構(gòu)建了用戶(hù)行為偏好模型及分析體系[ 25]??梢?jiàn),日志數(shù)據(jù)分析能從多方面揭示數(shù)字圖書(shū)館用戶(hù)的信息行為特征和模式。

    此外,該方法也是移動(dòng)圖書(shū)館用戶(hù)行為研究的主要研究方法之一。吳丹和董晶根據(jù)某高校移動(dòng)圖書(shū)館的用戶(hù)日志數(shù)據(jù)分析了移動(dòng)圖書(shū)館用戶(hù)查詢(xún)式的關(guān)聯(lián)性、查詢(xún)式主題分布、查詢(xún)重構(gòu)模式等問(wèn)題,研究發(fā)現(xiàn)查詢(xún)式間內(nèi)容關(guān)聯(lián)較弱,直線(xiàn)模式和重復(fù)模式是最為常用的查詢(xún)重構(gòu)模式,用戶(hù)的查詢(xún)主題具有較強(qiáng)的連續(xù)性[ 26]。他們還以高校圖書(shū)館OPAC系統(tǒng)日志數(shù)據(jù)為分析基礎(chǔ),對(duì)移動(dòng)圖書(shū)館與非移動(dòng)圖書(shū)館用戶(hù)后續(xù)點(diǎn)擊行為、用戶(hù)檢索點(diǎn)進(jìn)行了比較研究[ 27-28]。其后,吳丹等通過(guò)對(duì)大學(xué)生15天的手機(jī)日志的挖掘分析,研究了大學(xué)生移動(dòng)會(huì)話(huà)、APP交互與查詢(xún)式間的關(guān)系,以及信息搜索主題、時(shí)間與APP類(lèi)型間的關(guān)系[ 29],他們的一系列研究為國(guó)內(nèi)數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的理論、方法等提供了重要參考,推動(dòng)了相關(guān)研究的進(jìn)一步發(fā)展。

    4 Web搜索引擎用戶(hù)信息行為分析

    該領(lǐng)域的研究始于20世紀(jì)90年代,早期的研究數(shù)據(jù)主要來(lái)源于Lycos、Excite、Inktomi等系統(tǒng)[ 30-31]。如Jansen等就基于Excite系統(tǒng)的18113位用戶(hù)提交的51473個(gè)查詢(xún),從會(huì)話(huà)、查詢(xún)式、術(shù)語(yǔ)詞等方面對(duì)用戶(hù)網(wǎng)絡(luò)信息查詢(xún)行為的特征、偏好等進(jìn)行了分析[ 32]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,特別是以Google、Yahoo!為代表的商業(yè)搜索引擎的巨大成功,越來(lái)越多的學(xué)者被吸引到Web搜索引擎的用戶(hù)行為日志分析中。以下從用戶(hù)的信息需求識(shí)別與表達(dá)、用戶(hù)信息搜尋行為、搜尋結(jié)果組織結(jié)構(gòu)與呈現(xiàn)3個(gè)方面綜述基于日志數(shù)據(jù)分析的Web搜索引擎用戶(hù)信息行為研究。

    (1)信息需求識(shí)別與表達(dá)

    通過(guò)對(duì)Web搜索引擎用戶(hù)行為日志數(shù)據(jù)的挖掘,能在用戶(hù)搜索信息時(shí)對(duì)其進(jìn)行查詢(xún)推薦、查詢(xún)擴(kuò)展[ 9],幫助用戶(hù)更快、更精確地識(shí)別和表達(dá)自己的需求,從而支持其完成信息搜尋任務(wù)。Chuang等以臺(tái)灣地區(qū)兩個(gè)常用搜索引擎Dreamer與GAIS的用戶(hù)查詢(xún)?nèi)罩緮?shù)據(jù)為基礎(chǔ),構(gòu)建了實(shí)時(shí)更新的主題詞表,幫助用戶(hù)識(shí)別檢索意圖,為用戶(hù)自動(dòng)推薦相關(guān)檢索詞或術(shù)語(yǔ)[ 33]。其后,一些學(xué)者對(duì)Chuang等人提出的方法進(jìn)行了優(yōu)化[ 34-35],進(jìn)一步提升了用戶(hù)查詢(xún)?nèi)罩緮?shù)據(jù)分析在幫助用戶(hù)精確識(shí)別信息需求上的作用。Anick基于AltaVista的用戶(hù)日志分析了用戶(hù)與系統(tǒng)的交互行為,并以用戶(hù)的文檔點(diǎn)擊數(shù)據(jù)作為相關(guān)性反饋的基礎(chǔ)[ 36],幫助用戶(hù)重構(gòu)查詢(xún)式。Zhang與Nasraoui基于中文搜索引擎日志評(píng)價(jià)了單個(gè)會(huì)話(huà)中查詢(xún)式的覆蓋范圍和推薦范圍,為進(jìn)一步優(yōu)化查詢(xún)推薦功能提供了建議[ 37-38]。王浩等對(duì)Web中文用戶(hù)的查詢(xún)行為也進(jìn)行了研究,發(fā)現(xiàn)中文用戶(hù)查詢(xún)?cè)~的輸入存在特定規(guī)律[ 39];而陳紅濤等基于對(duì)中文搜索引擎用戶(hù)搜索日志的分析,指出搜索過(guò)程中歷史搜索詞再使用是大概率事件,充分利用歷史搜索詞是幫助用戶(hù)構(gòu)建查詢(xún)式的重要手段[ 40];岑榮偉等基于web日志數(shù)據(jù),對(duì)用戶(hù)搜索信息過(guò)程中不同類(lèi)型的查詢(xún)集合進(jìn)行了分析,對(duì)查詢(xún)類(lèi)型進(jìn)行分類(lèi)可以為用戶(hù)提供更多查詢(xún)式參考[ 41]。

    除了查詢(xún)推薦外,查詢(xún)擴(kuò)展也是幫助用戶(hù)更精確地表達(dá)其信息需求的重要方式,查詢(xún)擴(kuò)展主要通過(guò)分析搜索日志數(shù)據(jù),計(jì)算查詢(xún)術(shù)語(yǔ)與文檔術(shù)語(yǔ)間相關(guān)關(guān)系,從而對(duì)用戶(hù)輸入的查詢(xún)術(shù)語(yǔ)進(jìn)行自動(dòng)擴(kuò)展。Cui等、Shi和Yang基于用戶(hù)與系統(tǒng)累積交互日志數(shù)據(jù),計(jì)算查詢(xún)術(shù)語(yǔ)與文檔描述術(shù)語(yǔ)間的相關(guān)關(guān)系,使用戶(hù)在無(wú)需輸入足夠長(zhǎng)的查詢(xún)?cè)~的情況下就能滿(mǎn)足其查詢(xún)需求,其中,用戶(hù)的累積交互數(shù)據(jù)不僅僅來(lái)源于用戶(hù)自己,還來(lái)源于其他具有相似需求的用戶(hù)的會(huì)話(huà)日志數(shù)據(jù)[ 42-45]。而White等則采用偽相關(guān)反饋的方法對(duì)用戶(hù)查詢(xún)術(shù)語(yǔ)進(jìn)行擴(kuò)展,以滿(mǎn)足用戶(hù)信息需求[ 46]。有研究發(fā)現(xiàn),用戶(hù)較多地使用日常用詞進(jìn)行信息檢索而很少思考如何用專(zhuān)業(yè)術(shù)語(yǔ)來(lái)表達(dá),于是,學(xué)者們提出基于用戶(hù)日志數(shù)據(jù)分析的查詢(xún)式重構(gòu)的方式來(lái)幫助用戶(hù)修正查詢(xún)式[ 47]。另外,跨語(yǔ)言查詢(xún)擴(kuò)展也是幫助用戶(hù)更好地識(shí)別和表達(dá)信息需求的重要手段[ 48-50]。近年來(lái),在Web用戶(hù)搜索日志的研究中,一些學(xué)者希望通過(guò)結(jié)合用戶(hù)搜索反饋數(shù)據(jù)來(lái)提高搜索引擎的質(zhì)量,如通過(guò)分析搜索日志中的查詢(xún)?cè)~、點(diǎn)擊的映射關(guān)系等,發(fā)現(xiàn)相似查詢(xún),用于向用戶(hù)推薦查詢(xún)術(shù)語(yǔ)或擴(kuò)展查詢(xún)范圍[ 42,51-52]。

    (2)用戶(hù)信息搜索行為

    基于大規(guī)模日志分析的研究不僅可以幫助識(shí)別和表達(dá)用戶(hù)信息需求,還可以幫助更好地理解用戶(hù)與信息系統(tǒng)間的交互行為,從而在用戶(hù)搜索過(guò)程中提供必要的幫助,以提高其信息搜索效率。Srikant與Yang發(fā)現(xiàn)用戶(hù)在當(dāng)前站點(diǎn)無(wú)法找到所需要的信息時(shí),會(huì)選擇回溯或返回的策略,為了避免頁(yè)面回溯或返回造成信息搜索過(guò)程的中斷而分散用戶(hù)的注意力,他們建議在當(dāng)前頁(yè)面設(shè)置一個(gè)通向用戶(hù)目標(biāo)頁(yè)面的鏈接,以幫助用戶(hù)更好地獲取所需信息[ 53]。Teevan等發(fā)現(xiàn)用戶(hù)在近期會(huì)話(huà)中曾使用的查詢(xún)式是分析和預(yù)測(cè)用戶(hù)將要獲取信息的重要指標(biāo)[ 7],他們還進(jìn)一步對(duì)阻礙信息再檢索的影響因素進(jìn)行了分析[ 8,54]。而Smyth等、Freyne等、Smyth和Balfe基于用戶(hù)重復(fù)使用的查詢(xún)體現(xiàn)了用戶(hù)的選擇傾向或信息偏好的假設(shè),提出了基于用戶(hù)搜索日志分析的協(xié)同查詢(xún)[ 55-57]。郭巖等人通過(guò)對(duì)web訪(fǎng)問(wèn)日志的挖掘,也發(fā)現(xiàn)日志數(shù)據(jù)中蘊(yùn)含著穩(wěn)定的用戶(hù)興趣和偏好,可以幫助用戶(hù)在信息搜尋過(guò)程中快速定位其所需的信息[ 58]。

    用戶(hù)信息搜索過(guò)程中主題會(huì)隨著時(shí)間的變化而變化,理解用戶(hù)查詢(xún)的時(shí)間變化規(guī)律和特征是系統(tǒng)提供有效信息服務(wù)需要關(guān)注的重要問(wèn)題。Beitzel等基于美國(guó)在線(xiàn)搜索引擎(AmericanOnlinesearchengine)為期7天的大規(guī)模用戶(hù)查詢(xún)?nèi)罩痉治觯芯苛瞬樵?xún)?nèi)罩镜目v向時(shí)間變化特征[ 59-61];而Sun等則從查詢(xún)?nèi)罩局谐槿r(shí)間系列數(shù)據(jù),以分析查詢(xún)之間的因果聯(lián)系[ 62],這些研究均在時(shí)間的維度,以用戶(hù)行為數(shù)據(jù)為基礎(chǔ),探究了用戶(hù)信息搜索行為特征。還有學(xué)者基于Web搜索引擎日志數(shù)據(jù),對(duì)用戶(hù)在信息搜索過(guò)程中的點(diǎn)擊路徑[ 63]、查詢(xún)?cè)~使用特點(diǎn)[ 64]、停留時(shí)間等[ 65]進(jìn)行了深入的剖析,并建立了用戶(hù)搜索行為過(guò)程模型。

    隨著移動(dòng)互聯(lián)網(wǎng)的普及和發(fā)展,移動(dòng)端的Web搜索引擎用戶(hù)信息行為研究也得到了越來(lái)越多的關(guān)注[ 66]。另外,有研究者提出,在借助用戶(hù)網(wǎng)絡(luò)日志數(shù)據(jù)分析用戶(hù)信息搜索行為時(shí),需要注意一個(gè)問(wèn)題:很多信息搜索行為是由計(jì)算機(jī)程序完成的,如爬蟲(chóng)軟件,這些日志數(shù)據(jù)對(duì)于分析用戶(hù)行為是沒(méi)有意義的,這成為Web搜索引擎用戶(hù)信息行為研究的一個(gè)障礙,也是基于日志數(shù)據(jù)分析的信息搜索行為研究需要解決的問(wèn)題[ 67]。

    (3)搜索結(jié)果的組織與呈現(xiàn)

    信息搜索結(jié)果的組織和呈現(xiàn)主要涉及到基于用戶(hù)反饋的相關(guān)文檔重排序、基于情境因素的結(jié)果呈現(xiàn)、基于查詢(xún)類(lèi)型的查詢(xún)結(jié)果重組織[ 9]。Miller等將日志數(shù)據(jù)整合到用戶(hù)反饋鄰接矩陣中,提出了使用權(quán)重輸入(UsageWeightedInput)算法,此算法能從一定程度上個(gè)性化地呈現(xiàn)用戶(hù)的搜索結(jié)果。其后,White等則從用戶(hù)的顯性相關(guān)反饋和隱性相關(guān)反饋的數(shù)據(jù)中分析查詢(xún)結(jié)果的相關(guān)程度,并對(duì)匹配結(jié)果進(jìn)行再組織、再排序[ 68-69]。然而,當(dāng)搜索結(jié)果由于查詢(xún)主題模糊而呈現(xiàn)出多樣性時(shí),基于日志數(shù)據(jù)相關(guān)性計(jì)算的重組織、重排序方法則無(wú)法達(dá)到用戶(hù)的預(yù)期效果,此時(shí)更好的處理方法是對(duì)搜索結(jié)果進(jìn)行分類(lèi),類(lèi)與類(lèi)間并列排序,類(lèi)內(nèi)則仍按照相關(guān)性計(jì)算排序,這樣用戶(hù)則可以很容易找到自己感興趣的相關(guān)信息。Wang與Zhai基于這樣的分類(lèi)思想,讓系統(tǒng)先通過(guò)用戶(hù)搜索日志來(lái)學(xué)習(xí)用戶(hù)不同方面的興趣,然后將檢索結(jié)果按這些不同的興趣進(jìn)行分類(lèi),基于MSN搜索日志數(shù)據(jù)集的實(shí)驗(yàn)證明了這一策略的有效性。用戶(hù)信息搜索情境因素也是影響搜索結(jié)果組織與呈現(xiàn)的重要因素。Jones和Diaz從日志數(shù)據(jù)中定位用戶(hù)的時(shí)間和空間位置,從而分析用戶(hù)信息搜索時(shí)的情境,并根據(jù)分析結(jié)果對(duì)信息搜索結(jié)果進(jìn)行重排序[ 70]。當(dāng)然,查詢(xún)類(lèi)型信息也可以被用來(lái)重新組織信息搜索結(jié)果,如Maslov等人提出了一種提取新聞中與最近發(fā)生、正在發(fā)生或即將發(fā)生的現(xiàn)實(shí)生活事件有關(guān)的搜索結(jié)果的方法,通過(guò)對(duì)RussianYandexNewsservice用戶(hù)行為日志數(shù)據(jù)的研究,他們發(fā)現(xiàn)與新聞?dòng)嘘P(guān)的查詢(xún)同一般Web搜索查詢(xún)相比,其長(zhǎng)度分布具有較大差異[ 71]。Sekine與Suzuki還研究了命名實(shí)體(NamedEntity)查詢(xún)特征,如人物、位置、組織等類(lèi)型的信息查詢(xún),通過(guò)查詢(xún)?nèi)罩究煞直娉銎洳煌樵?xún)類(lèi)型的特性,并根據(jù)相應(yīng)的用戶(hù)查詢(xún)信息的特征進(jìn)行搜索結(jié)果的再組織和呈現(xiàn)[ 72]。

    可見(jiàn),用戶(hù)日志數(shù)據(jù)的分析在Web環(huán)境下具有多樣性,既可服務(wù)于用戶(hù)信息需求的識(shí)別、查詢(xún)式的擴(kuò)展,也可揭示用戶(hù)行為特征、規(guī)律,幫助搜索結(jié)果的再組織和重構(gòu),在提升系統(tǒng)性能,改善用戶(hù)服務(wù)方面發(fā)揮了積極的作用。

    5 社交媒體用戶(hù)信息行為數(shù)據(jù)分析

    社交媒體是Web2.0時(shí)代的產(chǎn)物,它與數(shù)字圖書(shū)館系統(tǒng)、Web搜索引擎有著本質(zhì)區(qū)別,最大特點(diǎn)體現(xiàn)在“社交”方面,即用戶(hù)之間的知識(shí)分享、情感交流。社交媒體用戶(hù)的信息行為更多的表現(xiàn)形式不是搜尋或搜索,而是內(nèi)容生成、信息分享、情感交流。隨著用戶(hù)生成內(nèi)容的累積,社交媒體信息已成為重要的信息資源。社交媒體上的海量信息是伴隨著用戶(hù)對(duì)社會(huì)熱點(diǎn)問(wèn)題的反應(yīng)而產(chǎn)生的,這些大規(guī)模數(shù)據(jù)信息是社會(huì)現(xiàn)象分析、社會(huì)輿情分析、用戶(hù)行為分析的重要數(shù)據(jù)來(lái)源[ 73]。隨著社交媒體日益發(fā)展,社交媒體用戶(hù)的信息行為研究也備受關(guān)注。關(guān)于社交網(wǎng)站、微信、微博、論壇、博客、播客等社交媒體用戶(hù)的信息行為研究取得了一定的研究成果?;诖髷?shù)據(jù)分析的社交媒體用戶(hù)信息行為研究可總結(jié)為以下3個(gè)方面:一般使用行為、信息獲取與利用、群體互動(dòng)行為[ 74]。

    (1)一般使用行為

    一般使用行為是指以單個(gè)用戶(hù)為考察單元的社交媒體行為活動(dòng),這些行為活動(dòng)是用戶(hù)在社交媒體上的行為方式。Benevenuto等基于對(duì)用戶(hù)HTTP請(qǐng)求數(shù)量數(shù)據(jù)的分析,發(fā)現(xiàn)不同社交媒體用戶(hù)的一般使用行為主要有:個(gè)人資料與朋友、照片、剪切簿、社區(qū)、搜索、私信、評(píng)論、登錄等[ 75]。Gyarmati等對(duì)Tagged、Bebo、Netlog、MySpace等社交媒體80000個(gè)用戶(hù)的行為數(shù)據(jù)分析,發(fā)現(xiàn)用戶(hù)社交媒體的使用時(shí)間符合韋伯分布,用戶(hù)線(xiàn)上會(huì)話(huà)時(shí)間服從冪律分布[ 76]。夏雨禾則基于“新浪微博”中438篇博文的分析,將微博用戶(hù)分為:微博達(dá)人、人氣草根、普通草根、媒體微博等4個(gè)類(lèi)型,并分析了不同用戶(hù)的行為特征[ 77]。王仁武與袁毅通過(guò)對(duì)網(wǎng)絡(luò)社區(qū)的海量Web日志數(shù)據(jù)的分析,研究了用戶(hù)在社區(qū)內(nèi)訪(fǎng)問(wèn)路徑的行為特征[ 78]。邱林等人則以用戶(hù)情感為研究視角,以142名微博用戶(hù)一個(gè)月內(nèi)發(fā)表的微博內(nèi)容作為分析對(duì)象,發(fā)現(xiàn)外向型用戶(hù)更傾向于正向情感表達(dá)[ 79]。肖強(qiáng)與朱慶華也基于微博用戶(hù)產(chǎn)生的海量數(shù)據(jù)進(jìn)行研究,將微博用戶(hù)分為6個(gè)不同類(lèi)型:退出用戶(hù)、潛在活躍用戶(hù)、活躍用戶(hù)、潛在忠實(shí)用戶(hù)、忠實(shí)用戶(hù)以及邊緣用戶(hù),他們發(fā)現(xiàn)忠實(shí)用戶(hù)和潛在忠實(shí)用戶(hù)在信息流動(dòng)上的控制力較大,能夠快速獲取或發(fā)布信息[ 80]。其他研究中還將用戶(hù)位置信息[ 81]、用戶(hù)人格特質(zhì)[ 82]、用戶(hù)人口統(tǒng)計(jì)學(xué)[ 83]與社交媒體信息行為數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,構(gòu)建了不同的用戶(hù)行為預(yù)測(cè)模型。另有學(xué)者通過(guò)對(duì)用戶(hù)的在線(xiàn)點(diǎn)播時(shí)間[ 84]、微博博文發(fā)布時(shí)間[ 85]、在線(xiàn)游戲時(shí)間[ 86]等社交媒體信息行為的時(shí)間分布進(jìn)行了分析,發(fā)現(xiàn)在傳統(tǒng)環(huán)境下用戶(hù)行為服從泊松分布,而在社交媒體環(huán)境下,行為的發(fā)生間隔分布呈現(xiàn)出明顯的冪律分布特征,且具有“長(zhǎng)尾效應(yīng)”。

    (2)內(nèi)容獲取與利用行為

    社交媒體已成為用戶(hù)分享信息的重要平臺(tái),同時(shí)用戶(hù)也通過(guò)關(guān)注、搜索、瀏覽、收藏等行為方式對(duì)社交媒體的信息內(nèi)容進(jìn)行獲取和利用,有研究者將這些信息行為稱(chēng)作是社交媒體信息消費(fèi)行為,并將其分為主動(dòng)性消費(fèi)和被動(dòng)性消費(fèi)行為[ 74]。Fabrício等通過(guò)對(duì)Orkut系統(tǒng)用戶(hù)的點(diǎn)擊流數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)社交媒體用戶(hù)在獲取信息的過(guò)程中大部分用戶(hù)主要采取瀏覽的策略[ 87]。Zwol則從時(shí)間、空間、社交三個(gè)維度對(duì)Flickr系統(tǒng)的用戶(hù)訪(fǎng)問(wèn)日志進(jìn)行分析,具體分析了用戶(hù)瀏覽行為發(fā)生的時(shí)間、地點(diǎn)、動(dòng)機(jī)等問(wèn)題[ 88]。瀏覽是用戶(hù)信息獲取的首要方式,其次是搜索和提問(wèn)[ 89]。當(dāng)前,社交媒體已經(jīng)提供了較強(qiáng)大的內(nèi)容搜索功能,以幫助用戶(hù)獲取信息;同時(shí),用戶(hù)也常利用媒體的社交性發(fā)布自己的問(wèn)題,等待“朋友圈”為其提供答案,以滿(mǎn)足自己的信息需求。如Vosecky等對(duì)微博用戶(hù)發(fā)布的個(gè)性化信息問(wèn)題進(jìn)行了研究,基于數(shù)據(jù)分析,構(gòu)造了主題模型與語(yǔ)言模型的雙層模型[ 90];Younus等也使用了語(yǔ)言模型對(duì)用戶(hù)信息內(nèi)容獲取與利用行為進(jìn)行建模,試圖給微博個(gè)性化搜索問(wèn)題提供解決方案[ 91]。

    (3)信息互動(dòng)行為

    互動(dòng)是社交媒體用戶(hù)信息行為的重要特性,這種信息互動(dòng)行為帶來(lái)更多的是網(wǎng)絡(luò)信息的傳播、擴(kuò)散,涉及到網(wǎng)絡(luò)輿情探測(cè)問(wèn)題和商業(yè)推廣問(wèn)題,本文僅對(duì)用戶(hù)間信息互動(dòng)行為本身規(guī)律和特性的相關(guān)研究進(jìn)行梳理,對(duì)于諸如商業(yè)廣告投放、輿情控制問(wèn)題不作過(guò)多闡述。Marlow等、Huberman等基于對(duì)Facebook和Twitter日志數(shù)據(jù)的分析,將用戶(hù)間信息互動(dòng)關(guān)系定義為:雙向連接關(guān)系、單向連接關(guān)系以及保持連接關(guān)系[ 92];而Aral等基于對(duì)Facebook中近130萬(wàn)用戶(hù)的信息行為數(shù)據(jù)與信息內(nèi)容的分析發(fā)現(xiàn),具有相似興趣愛(ài)好的用戶(hù)更容易互相轉(zhuǎn)發(fā)信息[ 93]。Romero等對(duì)用戶(hù)相互轉(zhuǎn)發(fā)時(shí)間與概率的關(guān)系進(jìn)行了研究,發(fā)現(xiàn)大多數(shù)社交媒體信息發(fā)布后,在內(nèi)容被轉(zhuǎn)發(fā)次數(shù)為2—4/小時(shí)時(shí),該信息被轉(zhuǎn)發(fā)的概率將達(dá)到最大值,隨后該內(nèi)容被關(guān)注的概率便呈下降趨勢(shì)[ 94]。Oulasvirta等對(duì)微博用戶(hù)信息發(fā)布頻率與用戶(hù)粉絲量的關(guān)系進(jìn)行了研究,并闡釋了粉絲互動(dòng)及反饋與微博用戶(hù)信息分享持續(xù)性間的相關(guān)關(guān)系[ 95]。平亮等則以新浪微博明星用戶(hù)為研究對(duì)象,構(gòu)建了微博用戶(hù)間“關(guān)注”與“被關(guān)注”的網(wǎng)絡(luò)拓?fù)潢P(guān)系,基于社會(huì)網(wǎng)絡(luò)分析,揭示了該微博社交網(wǎng)絡(luò)及信息互動(dòng)特征[ 96]。王曉光也以新浪微博用戶(hù)為研究對(duì)象,基于對(duì)3000篇微博博文的挖掘,揭示了微博的一般結(jié)構(gòu)、信息互動(dòng)或擴(kuò)散的一般特征,此研究還發(fā)現(xiàn)關(guān)注數(shù)、粉絲數(shù)、博文數(shù)量之間存在著顯著正相關(guān)關(guān)系[ 97]。趙文兵等以財(cái)經(jīng)微博為例,基于用戶(hù)博文數(shù)量、被關(guān)注數(shù)量、關(guān)注他人數(shù)量的分析,探討了微博用戶(hù)的分類(lèi)問(wèn)題[ 98]。劉宇則通過(guò)大規(guī)模社交媒體用戶(hù)行為數(shù)據(jù)的分析,揭示了用戶(hù)間信息互動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)特征及用戶(hù)影響力特征[ 99]??傊?,用戶(hù)的信息互動(dòng)行為研究主要分布在信息互動(dòng)行為類(lèi)型、信息內(nèi)容選擇、用戶(hù)信息互動(dòng)網(wǎng)絡(luò)特征分析等方面,以社交媒體生成內(nèi)容、用戶(hù)行為記錄等大規(guī)模的結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)為主,揭示了社交媒體用戶(hù)信息互動(dòng)行為的特征。

    6 討論與展望

    綜上,數(shù)據(jù)驅(qū)動(dòng)的研究無(wú)疑已成為信息行為研究領(lǐng)域異軍突起的一個(gè)重要分支,自上世紀(jì)60年代發(fā)端、經(jīng)歷了70、80年代的草創(chuàng)時(shí)期,90年代中期之后蓬勃發(fā)展。互聯(lián)網(wǎng)技術(shù)的迅速普及為該領(lǐng)域的研究帶來(lái)了新的機(jī)遇,研究方法日益走向成熟。Jansen曾詳述基于事務(wù)日志分析的研究方法、過(guò)程、優(yōu)勢(shì)及局限性[ 100],從方法論上為該領(lǐng)域的研究提供了保障,也為該領(lǐng)域進(jìn)一步走向成熟奠定了基礎(chǔ)。進(jìn)入21世紀(jì),虛擬社區(qū)、社交媒體等Web2.0產(chǎn)品,吸引了大量的用戶(hù),同時(shí)也留下了寶貴的日志數(shù)據(jù),從而推動(dòng)用戶(hù)信息行為研究進(jìn)入大數(shù)據(jù)時(shí)代。

    借助非介入性研究方法,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究克服了傳統(tǒng)研究方法由于研究樣本(用戶(hù))的主觀觀點(diǎn),及可能無(wú)意或有意地偏離真實(shí)情境所帶來(lái)的研究結(jié)果偏差的弊端,提供了一種基于更為真實(shí)、客觀的日志數(shù)據(jù),以揭示用戶(hù)信息行為的研究路徑。用戶(hù)日志數(shù)據(jù)為信息行為研究提供了更為客觀、真實(shí)、大規(guī)模的研究數(shù)據(jù),這些數(shù)據(jù)來(lái)源于用戶(hù)與系統(tǒng)的自然交互,既是用戶(hù)真實(shí)信息行為的表現(xiàn),也是用戶(hù)真實(shí)信息需求的客觀表達(dá),用戶(hù)信息行為沒(méi)有受到外界的“入侵”和干擾。通過(guò)這種形式獲取的大規(guī)模、異構(gòu)的數(shù)據(jù),為信息行為研究提供了充分的原材料[ 100],其研究結(jié)果更客觀、更具有代表性。此外,相較于日志數(shù)據(jù)分析,傳統(tǒng)的研究方法(如觀察法、訪(fǎng)談法、問(wèn)卷調(diào)查法)往往因?yàn)闀r(shí)間和資源的限制而無(wú)法獲取大規(guī)模的樣本,數(shù)據(jù)形式也相對(duì)單一,妨礙了用戶(hù)信息行為研究的進(jìn)一步拓展。日志數(shù)據(jù)的利用則克服了小樣本數(shù)據(jù)的局限性,提供了大規(guī)模的樣本,并借助各種數(shù)據(jù)分析方法,對(duì)其進(jìn)行挖掘,從中發(fā)現(xiàn)用戶(hù)行為特征、模式、路徑,這是傳統(tǒng)的研究方法所無(wú)法比擬的。可見(jiàn),日志數(shù)據(jù)分析方法突破了信息行為研究長(zhǎng)期以來(lái)僅依靠傳統(tǒng)的社會(huì)科學(xué)研究方法、樣本始終偏小的束縛,幫助我們更全面、真實(shí)地了解用戶(hù)的信息行為。而且,隨著社交媒體的廣泛使用,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)上海量的、異質(zhì)的用戶(hù)行為“痕跡”數(shù)據(jù)的收集與分析,從而可以更及時(shí)、準(zhǔn)確地揭示用戶(hù)的信息需求和行為特征,實(shí)現(xiàn)傳統(tǒng)研究方法無(wú)法企及的目標(biāo)[ 100]。

    然而,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的局限性也十分明顯。首先,用戶(hù)行為日志ID字段記錄的是訪(fǎng)問(wèn)服務(wù)器或本地客戶(hù)端的IP地址,而一個(gè)IP地址極有可能被多個(gè)用戶(hù)分享使用,表現(xiàn)出的行為特征可能會(huì)存在較大差異,在用戶(hù)行為日志數(shù)據(jù)分析過(guò)程中無(wú)法對(duì)這樣的數(shù)據(jù)進(jìn)行識(shí)別或剔除,而是把同一IP地址的不同用戶(hù)的信息行為當(dāng)作是同一個(gè)用戶(hù)的信息行為特征來(lái)分析,導(dǎo)致結(jié)果偏差。要解決這一問(wèn)題,則需要使用用戶(hù)的cookie文件,而cookie文件涉及用戶(hù)個(gè)人隱私,此問(wèn)題的解決還需進(jìn)一步的探索。其次,用戶(hù)行為日志數(shù)據(jù)具有不完整性,是使用非介入性方法在自然情境中收集到的,數(shù)據(jù)項(xiàng)目中無(wú)法包含用戶(hù)的人口統(tǒng)計(jì)學(xué)信息、外界環(huán)境信息;而且,由于緩存(cache)文件的存在,部分用戶(hù)重復(fù)的查尋行為無(wú)法被完整記錄,導(dǎo)致誤差,從而限制了日志分析方法的效用。第三,用戶(hù)行為日志分析無(wú)法回答用戶(hù)信息行為動(dòng)機(jī)及其影響因素的問(wèn)題。用戶(hù)行為日志數(shù)據(jù)是對(duì)用戶(hù)外在搜索行為的客觀反映,無(wú)法還原用戶(hù)信息搜尋情境與情感體驗(yàn),對(duì)于用戶(hù)的知識(shí)背景、認(rèn)知、心理、情感等方面的內(nèi)在影響因素的相關(guān)數(shù)據(jù)無(wú)法獲取[ 28],若想深入分析用戶(hù)信息行為動(dòng)機(jī)及其影響因素還需借助其他方法,如問(wèn)卷調(diào)查法、深度訪(fǎng)談、觀察法、實(shí)驗(yàn)法等[ 21]。最后,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的重要基礎(chǔ)是用戶(hù)日志數(shù)據(jù),因而,數(shù)據(jù)的來(lái)源和數(shù)據(jù)的質(zhì)量是核心的問(wèn)題。然而,如何獲得高質(zhì)量的數(shù)據(jù)依然是制約該研究領(lǐng)域的問(wèn)題。

    基于以上的分析及整合綜述的相關(guān)內(nèi)容,我們認(rèn)為該領(lǐng)域未來(lái)的發(fā)展將著重體現(xiàn)在以下方面:

    (1)移動(dòng)情境下的用戶(hù)信息行為

    隨著網(wǎng)絡(luò)技術(shù)、信息技術(shù)的不斷發(fā)展,人們的生活方式隨之改變,網(wǎng)絡(luò)用戶(hù)行為活動(dòng)將逐漸向智能移動(dòng)終端轉(zhuǎn)移,移動(dòng)終端也日漸成為用戶(hù)信息獲取、溝通和娛樂(lè)的重要活動(dòng)平臺(tái)[ 29]。用戶(hù)信息行為研究作為情報(bào)學(xué)、計(jì)算機(jī)科學(xué)等關(guān)注的重要領(lǐng)域,在移動(dòng)情境下有了新的特點(diǎn)和特性。一些學(xué)者已開(kāi)始了移動(dòng)用戶(hù)信息搜索行為的研究,如Kamvar等[ 101-103]、Baeza-Yates等[ 104]、Yi等[ 105]、Church等[ 106]就對(duì)Yahoo!、谷歌等搜索引擎移動(dòng)用戶(hù)的信息搜索行為進(jìn)行了研究,主要分析了用戶(hù)信息需求、查詢(xún)式的構(gòu)建、搜索主題、搜索情境等行為特征。研究發(fā)現(xiàn),傳統(tǒng)PC環(huán)境下的信息行為研究成果已經(jīng)很難解釋移動(dòng)互聯(lián)網(wǎng)環(huán)境下用戶(hù)信息行為的特征,特別是移動(dòng)APP的廣泛使用,移動(dòng)互聯(lián)網(wǎng)生態(tài)圈也逐漸形成并成熟,“移動(dòng)”成為用戶(hù)與信息系統(tǒng)交互的日常情境,移動(dòng)端的信息行為問(wèn)題也成為了學(xué)者們關(guān)注的焦點(diǎn)。作為信息行為研究的重要方法,用戶(hù)日志數(shù)據(jù)分析也已經(jīng)延伸到移動(dòng)端用戶(hù)的信息行為分析。而移動(dòng)用戶(hù)的搜索行為多發(fā)生在碎片時(shí)間,且其信息需求隨地域的變化而變化[ 107],如何獲取這些數(shù)據(jù),又如何利用大數(shù)據(jù)分析方法或工具挖掘這些數(shù)據(jù)中隱藏的信息行為規(guī)律,從而改善移動(dòng)搜索系統(tǒng)的性能,以提高移動(dòng)信息服務(wù)的個(gè)性化、智能化,是有待進(jìn)一步研究的問(wèn)題[ 108]。

    (2)社交媒體用戶(hù)信息行為與大數(shù)據(jù)挖掘

    近年來(lái),基于數(shù)據(jù)的社交媒體用戶(hù)信息行為研究也越來(lái)越受到計(jì)算機(jī)科學(xué)、情報(bào)學(xué)、公共安全管理等學(xué)科領(lǐng)域的關(guān)注。隨著社交媒體向縱深發(fā)展,其用戶(hù)體量越來(lái)越大,用戶(hù)信息行為復(fù)雜度也越來(lái)越高,傳統(tǒng)的用戶(hù)信息行為研究的外延和內(nèi)涵均得到了新的發(fā)展。此外,更多研究還聚焦于用戶(hù)的發(fā)布、轉(zhuǎn)發(fā)、關(guān)注、@、回復(fù)與評(píng)論等行為,這些行為包含的網(wǎng)絡(luò)關(guān)系以及產(chǎn)生的交互內(nèi)容,如粉絲關(guān)注度、意見(jiàn)領(lǐng)袖、話(huà)題關(guān)聯(lián)、知識(shí)、情感等,已經(jīng)成為當(dāng)前極具價(jià)值的研究熱點(diǎn)[ 109]。已有研究從身份識(shí)別、社群檢測(cè)、用戶(hù)影響力計(jì)算、用戶(hù)關(guān)系強(qiáng)度計(jì)算、信息傳播、影響力最大化、特征提取與選擇、話(huà)題事件挖掘、多媒體數(shù)據(jù)分析、情感分析等方面展開(kāi)[ 110],這些研究主要基于用戶(hù)在社交媒體上自然產(chǎn)生的行為“痕跡”大數(shù)據(jù),相關(guān)研究成果也較為豐富,但在數(shù)據(jù)分析和用戶(hù)行為理解上還有較多需要解決的問(wèn)題和需要應(yīng)對(duì)的挑戰(zhàn),例如:如何對(duì)信息行為大數(shù)據(jù)進(jìn)行語(yǔ)義分析和理解?用戶(hù)異構(gòu)信息行為數(shù)據(jù)如何融合分析?社交媒體用戶(hù)群體信息行為如何分析與挖掘?等等,均是國(guó)內(nèi)外社交媒體用戶(hù)信息行為研究必須面對(duì)的挑戰(zhàn),也是未來(lái)數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的重要課題。

    (3)融合日志分析與傳統(tǒng)研究方法的信息行為研究

    如前所述,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究可避免用戶(hù)在接受調(diào)查的過(guò)程中受到外部環(huán)境的影響而不能自然地表達(dá)真正的事實(shí)、想法和情感,即常說(shuō)的觀察者效應(yīng)、霍桑效應(yīng)等問(wèn)題。這種非介入性研究能更準(zhǔn)確地回答“用戶(hù)做了什么”、“如何做”的問(wèn)題,但難以對(duì)不同用戶(hù)行為影響因素(如知識(shí)背景、認(rèn)知心理、心智模型等等)以及用戶(hù)信息行為內(nèi)在機(jī)理進(jìn)行深入研究。因而,這還需要介入性研究方法,如問(wèn)卷調(diào)查、深度訪(fǎng)談、參與觀察、實(shí)驗(yàn)等,彌補(bǔ)僅僅基于日志數(shù)據(jù)的不足??梢?jiàn),數(shù)據(jù)驅(qū)動(dòng)的非介入性用戶(hù)信息行為研究是傳統(tǒng)介入性信息行為研究的有益補(bǔ)充。前者是借力科學(xué)技術(shù)進(jìn)步、信息系統(tǒng)的廣泛應(yīng)用以及大數(shù)據(jù)時(shí)代發(fā)展而誕生的新方法,代表了一種新的研究理念、思路和研究路徑,它的特點(diǎn)在于其被分析的行為數(shù)據(jù)體量大、用戶(hù)行為不受干擾;后者的優(yōu)勢(shì)則在于能深入探究用戶(hù)信息行為深層次的影響因素或內(nèi)在機(jī)理,兩種研究路徑具有明顯的互補(bǔ)性,形成信息行為研究的“雙輪驅(qū)動(dòng)”機(jī)制,如圖4所示。因而,不管是傳統(tǒng)的介入性信息行為研究,還是日益發(fā)展成熟的數(shù)據(jù)驅(qū)動(dòng)的非介入性信息行為研究,都是當(dāng)下用戶(hù)信息行為研究的重要組成部分,兩者的優(yōu)勢(shì)互補(bǔ)將使得用戶(hù)信息行為研究領(lǐng)域隨著日新月異的信息技術(shù)的發(fā)展而進(jìn)入一個(gè)嶄新的時(shí)代。

    圖4 信息行為研究的介入性研究與非介入性研究的“雙輪驅(qū)動(dòng)”

    (4)數(shù)據(jù)挖掘技術(shù)在日志數(shù)據(jù)分析中的應(yīng)用與深化發(fā)展

    數(shù)據(jù)驅(qū)動(dòng)的信息行為研究之所以備受青睞,主要是因?yàn)樗源笠?guī)模的用戶(hù)行為數(shù)據(jù)為基礎(chǔ),能夠極大程度地反映用戶(hù)自然情境下的信息行為特征[ 9]。然而,用戶(hù)日志數(shù)據(jù)具有大數(shù)據(jù)的屬性,它的4V(Volume、Velocity、Variety、Value)特性向信息行為研究提出了新的挑戰(zhàn)。如何獲取到大規(guī)模、異質(zhì)性的用戶(hù)行為數(shù)據(jù),如何組織、管理這些數(shù)據(jù),又如何對(duì)其進(jìn)行合理有效的分析,是數(shù)據(jù)驅(qū)動(dòng)的信息行為研究未來(lái)需要關(guān)注的重要問(wèn)題。針對(duì)此問(wèn)題,吳凱、蘇新寧等曾引入大數(shù)據(jù)思維和云計(jì)算模式,對(duì)大數(shù)據(jù)時(shí)代的用戶(hù)信息行為研究的行為理論、分布式數(shù)據(jù)挖掘以及數(shù)據(jù)可視化分析等關(guān)鍵問(wèn)題進(jìn)行了闡釋和分析[ 111],并指出數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用水平一定程度上決定著數(shù)據(jù)驅(qū)動(dòng)的用戶(hù)信息行為研究能“走多遠(yuǎn)”和“飛多高”。已有研究中,數(shù)據(jù)挖掘技術(shù)的引介和應(yīng)用已初見(jiàn)成效,如統(tǒng)計(jì)分析法、建模分析與預(yù)測(cè)、序列模式分析、關(guān)聯(lián)規(guī)則分析、聚類(lèi)分析[ 100]等數(shù)據(jù)挖掘技術(shù)在分析用戶(hù)信息行為特征、識(shí)別用戶(hù)行為模式、揭示用戶(hù)信息偏好以及如何構(gòu)建和優(yōu)化個(gè)性化信息系統(tǒng)等問(wèn)題上展現(xiàn)出較強(qiáng)的優(yōu)越性[ 40,112-114]。隨著個(gè)性化信息檢索的深入發(fā)展以及社交媒體用戶(hù)行為的社會(huì)化、日?;?,社會(huì)網(wǎng)絡(luò)分析、文本挖掘、語(yǔ)義分析、機(jī)器學(xué)習(xí)等較為高級(jí)的數(shù)據(jù)挖掘技術(shù)也開(kāi)始被引入到用戶(hù)行為數(shù)據(jù)的分析中,但其深度和寬度還不夠。隨著時(shí)間的推移,各種用戶(hù)信息行為數(shù)據(jù)的累積量呈指數(shù)級(jí)增長(zhǎng),這些數(shù)據(jù)對(duì)信息行為研究來(lái)說(shuō)極具價(jià)值,而數(shù)據(jù)挖掘技術(shù)毫無(wú)疑問(wèn)將發(fā)揮重要的作用,其應(yīng)用與深化也將是一個(gè)極具挑戰(zhàn)性的焦點(diǎn)問(wèn)題。

    7 結(jié)語(yǔ)

    本文基于大數(shù)據(jù)時(shí)代背景下用戶(hù)信息行為研究的新發(fā)展,對(duì)日臻成熟的數(shù)據(jù)驅(qū)動(dòng)的信息行為研究進(jìn)行了較為全面的考察。從宏觀視角分析了該領(lǐng)域的研究主題,對(duì)基于日志數(shù)據(jù)的信息行為研究進(jìn)行了較為系統(tǒng)的闡述。研究發(fā)現(xiàn),已有研究主要分布在數(shù)字圖書(shū)館系統(tǒng)用戶(hù)信息行為研究、Web搜索引擎用戶(hù)信息行為研究、社交媒體用戶(hù)信息行為研究三大方面。根據(jù)已有研究成果和時(shí)代發(fā)展趨勢(shì),可以預(yù)見(jiàn)移動(dòng)情境下的用戶(hù)信息行為研究、社交媒體用戶(hù)信息行為研究是未來(lái)最有發(fā)展前景的兩個(gè)領(lǐng)域。此外,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和成熟,數(shù)據(jù)驅(qū)動(dòng)的信息行為研究領(lǐng)域也必將獲得更多的方法支持,從而進(jìn)一步完善該領(lǐng)域的方法體系。當(dāng)然,由于基于用戶(hù)行為日志數(shù)據(jù)分析的非介入性研究方法存在一定的局限性,加之未來(lái)用戶(hù)信息行為日漸復(fù)雜,需要介入性研究方法與非介入性研究方法相互補(bǔ)充、支持,才能更有效和全面地揭示用戶(hù)信息行為的全貌,同時(shí)構(gòu)建新的社會(huì)和技術(shù)環(huán)境下的信息行為研究新范式。

    [1]CaseDO,GivenLM.Lookingforinformation:Asurveyofresearchoninformationseeking,needs,andbehavior[M].Bingley:EmeraldGroupPublishingLimited,2016:41-42.

    [2]WilsonTD.Informationneedsanduses:Fiftyyearsofprogress[EB/OL]. [2018-04-25].https://www.researchgate.net/publication/246471766_Information_needs_and_uses_Fifty_years_of_progress.

    [3]BerelsonB.Thelibrary’spublic[M].NewYork:ColumbiaUniversityPress,1949.

    [4]CaseDO,GivenLM.Lookingforinformation:Asurveyofresearchoninformationseeking,needs,andbehavior[M].Bingley:EmeraldGroupPublishingLimited,2016:247-257.

    [5] 應(yīng)璇,孫濟(jì)慶.面向大數(shù)據(jù)的用戶(hù)檢索行為研究[J].情報(bào)雜志,2014,33(02):140-143,176.

    [6]TolleJE.Transactionloganalysis:Onlinecatalogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,1983:147-160.

    [7]TeevanJ,AdarE,JonesR,etal.Historyrepeatsitself:RepeatqueriesinYahoo'slogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:703-704.

    [8]TeevanJ,PottsMAS,PottsMAS,etal.Informationre-retrieval:RepeatqueriesinYahoo'slogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:151-158.

    [9]AgostiM,CrivellariF,NunzioGMD.Webloganalysis:Areviewofadecadeofstudiesaboutinformationacquisition,inspectionandinterpretationofuserinteraction[J].DataMining&KnowledgeDiscovery,2012,24(3):663-696.

    [10]MahouiM,CunninghamSJ.Acomparativetransactionloganalysisoftwocomputingcollections[EB/OL].[2018-03-16].https://researchcommons.waikato.ac.nz/bitstream/handle/10289/1028/uow-cs-wp-2000-12.pdf;jsessionid=87347051C5BCA7C2346B2E51881887BD?sequence=1.

    [11]JonesS,CunninghamSJ,McnabR,etal.Atransactionloganalysisofadigitallibrary[J].InternationalJournalonDigitalLibraries,2000,3(2):152-169.

    [12]MahouiM,CunninghamSJ.Searchbehaviorinaresearch-orienteddigitallibrary[C]//EuropeanConferenceonResearchandAdvancedTechnologyforDigitalLibraries.Springer-Verlag,2001:13-24.

    [13]AssadiH,BeauvisageT,LupoviciC,etal.UsersandusesofonlinedigitallibrariesinFrance[EB/OL].[2018-03-14].http://xueshu.baidu.com/s?wd=paperuri%3A%28f343a33f5c8170f69c36fe3b5797b07f%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3D4CD62CC012EF9D9F49DAC6C9F261CA3E%3Fdoi%3D10.1.1.63.9982%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=4179971989666836086.

    [14]KochT,ArdoA,GolubK.BrowsingandsearchingbehaviorintheRenardusWebservice:Astudybasedonloganalysis[C]//IEEEConferenceonDigitalLibraries.IEEE,2004:378.

    [15]HopfgartnerF,UrrutyT,VillaR,etal.Exploitinglogfilesinvideoretrieval[C]//ACM/IEEE-CSJointConferenceonDigitalLibraries.ACM,2008:454-454.

    [16]ChenR,RoseA,BedersonBB.Howpeoplereadbooksonline:Miningandvisualizingweblogsforuseinformation[C]//EuropeanConferenceonResearchandAdvancedTechnologyforDigitalLibraries.Springer-Verlag,2009:364-369.

    [17] 任立肖.基于Web日志的三大類(lèi)型圖書(shū)館用戶(hù)信息行為比較研究[J].圖書(shū)情報(bào)知識(shí),2006(6):28-32.

    [18] 王澤賢, 李美紅.ILASIIOPAC系統(tǒng)訪(fǎng)問(wèn)日志建模初探[J].圖書(shū)情報(bào)工作,2010,54(7):119-122.

    [19] 馬驊. 數(shù)據(jù)挖掘在OPAC中的發(fā)展應(yīng)用分析[J].新世紀(jì)圖書(shū)館,2011(11):75-77.

    [20] 黃崑,張路路,鐘村,等.基于OPAC日志的高校圖書(shū)館用戶(hù)提問(wèn)調(diào)整模式研究——以北京師范大學(xué)圖書(shū)館為例[J].圖書(shū)情報(bào)工作,2015,59(23):51-58.

    [21] 姜婷婷,王淼,高慧琴.OPAC系統(tǒng)用戶(hù)搜索行為日志分析——以武漢大學(xué)圖書(shū)館為例[J]. 圖書(shū)情報(bào)知識(shí),2015(5):46-56.

    [22] 姜婷婷,陳舜昌,高慧琴.大學(xué)圖書(shū)館OPAC系統(tǒng)用戶(hù)信息搜尋路徑的可視化分析[J].大學(xué)圖書(shū)館學(xué)報(bào),2017,35(1):63-71.

    [23] 朱玲,聶華.通過(guò)日志挖掘研究圖書(shū)館資源發(fā)現(xiàn)服務(wù)用戶(hù)的搜索行為[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,27(12):74-78.

    [24] 王建冬,王繼民.基于日志挖掘的高校用戶(hù)期刊數(shù)據(jù)庫(kù)檢索行為研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(1):29-36.

    [25] 王偉.基于數(shù)據(jù)挖掘的圖書(shū)館用戶(hù)行為分析與偏好研究[J].情報(bào)科學(xué),2012,30(03):391-394,418.

    [26] 吳丹,董晶.移動(dòng)圖書(shū)館用戶(hù)查詢(xún)式構(gòu)造行為分析[J].圖書(shū)情報(bào)工作,2016,60(18):6-13.

    [27] 吳丹,金鑫,王林琳.移動(dòng)圖書(shū)館與非移動(dòng)圖書(shū)館用戶(hù)后續(xù)點(diǎn)擊行為比較分析[J].圖書(shū)情報(bào)工作,2016,60(18):27-34.

    [28] 吳丹,畢仁敏.移動(dòng)圖書(shū)館與非移動(dòng)圖書(shū)館用戶(hù)檢索點(diǎn)比較分析[J].圖書(shū)情報(bào)工作,2016,60(18):21-26.

    [29] 吳丹,梁少博,唐源.APP交互視角下的大學(xué)生移動(dòng)搜索行為研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2017,43(3):72-86.

    [30]CockburnA,JonesS.Whichwaynow?AnalysingandeasinginadequaciesinWWWnavigation[J].InternationalJournalofHuman-ComputerStudies,1996,45(1):105-129.

    [31]TauscherL,GreenbergS.Howpeoplerevisitwebpages:Empiricalfindingsandimplicationsforthedesignofhistorysystems[J].InternationalJournalofHuman-ComputerStudies,1997,47(1):97-137.

    [32]JansenBJ,SpinkA,SaracevicT.Reallife,realusers,andrealneeds:Astudyandanalysisofuserqueriesontheweb[J].InformationProcessing&Management,2000,36(02):207-227.

    [33]ChuangSL,PuHT,LuWH,ChienLF.Auto-constructionofalivethesaurusfromsearchtermlogsforinteractivewebsearch[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2000:334-336.

    [34]PuHT,ChuangSL,YangC.Subjectcategorizationofquerytermsforexploringwebusers'searchinterests[J].JournaloftheAmericanSocietyforInformationScience&Technology,2002,53(08):617-630.

    [35]ChuangSL,ChienLF.Automaticquerytaxonomygenerationforinformationretrievalapplications[J].OnlineInformationReview,2003,27(04):243-255.

    [36]ParikhJ,KapurS.Unity:Relevancefeedbackusinguserquerylogs[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:689-690.

    [37]ZhangZ,NasraouiO.Miningsearchenginequerylogsforqueryrecommendation[C]//InternationalConferenceonWorldWideWeb.ACM,2006:1039-1040.

    [38]ZhangZ,NasraouiO.Miningsearchenginequerylogsforsocialfiltering-basedqueryrecommendation[J].AppliedSoftComputingJournal,2008,8(04):1326-1334.

    [39] 王浩,姚長(zhǎng)利,郭琳,等.基于中文搜索引擎網(wǎng)絡(luò)信息用戶(hù)行為研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(12):4665-4668.

    [40] 陳紅濤,楊放春,陳磊.基于大規(guī)模中文搜索引擎的搜索日志挖掘[J].計(jì)算機(jī)應(yīng)用研究,2008,25(6):1663-1665.

    [41] 岑榮偉,劉奕群,張敏,等.基于日志挖掘的搜索引擎用戶(hù)行為分析[J].中文信息學(xué)報(bào),2010,24(3):49-54.

    [42]CuiH,WenJR,NieJY,etal.Probabilisticqueryexpansionusingquerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2002:325-332.

    [43]CuiH,WenJR,NieJY,etal.Queryexpansionbymininguserlogs[J].IEEETransactionsonKnowledge&DataEngineering,2003,15(04):829-839.

    [44]ShiX,YangCC.Miningrelatedqueriesfromsearchenginequerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2006:943-944.

    [45]ShiX,YangCC.MiningrelatedqueriesfromWebsearchenginequerylogsusinganimprovedassociationruleminingmodel[J].JournaloftheAmericanSocietyforInformationScience&Technology,2007,58(12):1871-1883.

    [46]WhiteRW,ClarkeCLA,CucerzanS.Comparingquerylogsandpseudo-relevancefeedbackforweb-searchqueryrefinement[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:831-832.

    [47]JonesR,BartzK,SubasicP,etal.AutomaticallygeneratingrelatedqueriesinJapanese[J].LanguageResources&Evaluation,2006,40(3-4):219-232.

    [48]GaoW,NiuC,NieJY,etal.Cross-lingualquerysuggestionusingquerylogsofdifferentlanguages[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2007:463-470.

    [49]HuR,ChenW,BaiP,etal.Webquerytranslationviaweblogmining[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2008:749-750.

    [50]WangJH,TengJW,LuWH,etal.ExploitingtheWebasthemultilingualcorpusforunknownquerytranslation[J].JournaloftheAssociationforInformationScience&Technology,2006,57(5):660-670.

    [51]ChanWS,LeungWT,LeeDL.Clusteringsearchenginequerylogcontainingnoisyclickthroughs[C]//InternationalSymposiumonApplicationsandtheInternet.IEEE,2004:305-308.

    [52]Baeza-YatesR,HurtadoC,MendozaM.Queryrecommendationusingquerylogsinsearchengines[J].LectureNotesinComputerScience,2004,3268:588-596.

    [53]SrikantR,YangY.Miningweblogstoimprovewebsiteorganization[C]//InternationalConferenceonWorldWideWeb.ACM,2001:430-437.

    [54]TeevanJ.Howpeoplerecall,recognize,andreusesearchresults[J].ACMTransactionsonInformationSystems,2008,26(4):1-27.

    [55]SmythB,BalfeE,FreyneJ,etal.Exploitingqueryrepetitionandregularityinanadaptivecommunity-basedwebsearchengine[J].UserModelingandUser-AdaptedInteraction,2004,14(5):383-423.

    [56]FreyneJ,SmythB,CoyleM,etal.Furtherexperimentsoncollaborativerankingincommunity-basedwebsearch[J].ArtificialIntelligenceReview,2004,21(3-4):229-252.

    [57]SmythB,BalfeE.Anonymouspersonalizationincollaborativewebsearch[J].InformationRetrieval,2006,9(2):165-190.

    [58] 郭巖,白碩,楊志峰,等.網(wǎng)絡(luò)日志規(guī)模分析和用戶(hù)興趣挖掘[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1483-1496.

    [59]BeitzelSM,JensenEC,ChowdhuryA,etal.Hourlyanalysisofaverylargetopicallycategorizedwebquerylog[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2004:321-328.

    [60]BeitzelSM,JensenEC,ChowdhuryA,etal.TemporalanalysisofaverylargetopicallycategorizedWebquerylog[J].JournaloftheAmericanSocietyforInformationScience&Technology,2007,58(2):166-178.

    [61]BeitzelSM,JensenEC,LewisDD,etal.AutomaticclassificationofWebqueriesusingverylargeunlabeledquerylogs[J].ACMTransactionsonInformationSystems,2007,25(2):9.

    [62]SunY,XieK,LiuN,etal.Causalrelationofqueriesfromtemporallogs[EB/OL]. [2018-03-14].http://wwwconference.org/www2007/posters/poster936.pdf.

    [63] 劉穎,彭賡,呂本富,等.基于Web日志的用戶(hù)訪(fǎng)問(wèn)路徑提取與分析[J].情報(bào)學(xué)報(bào),2009,28(4):548-556.

    [64] 董志安,呂學(xué)強(qiáng).基于百度搜索日志的用戶(hù)行為分析[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(7):17-20.

    [65] 郭俊霞,高城,許南山,等.基于網(wǎng)頁(yè)瀏覽日志的用戶(hù)行為分析[J].計(jì)算機(jī)科學(xué),2014,41(3):110-115.

    [66] 萬(wàn)飛,趙溪,梁循,等.基于移動(dòng)互聯(lián)網(wǎng)日志的搜索引擎用戶(hù)行為研究[J].中文信息學(xué)報(bào),2014,28(2):144-150.

    [67]BuzikashviliN.Anexploratoryweblogstudyofmultitasking[C]//InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2006:623-624.

    [68]WhiteRW,RuthvenI,JoseJM.Theuseofimplicitevidenceforrelevancefeedbackinwebretrieval[EB/OL].[2018-03-14].http://xueshu.baidu.com/s?wd=paperuri%3A%288d5cb5d5f5635f2c8626885665616d24%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseer.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3D3A78BA05B98FBB10C5383F3E4D3EF4B2%3Fdoi%3D10.1.1.117.755%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=6393836002647640879.

    [69]WhiteRW,RuthvenI,JoseJM,etal.Evaluatingimplicitfeedbackmodelsusingsearchersimulations[J].ACMTransactionsonInformationSystems,2005,23(3):325-361.

    [70]JonesR,DiazF.Temporalprofilesofqueries[J].ACMTransactionsonInformationSystems,2007,25(3):1-32.

    [71]BraslavskiP,BraslavskiP,BraslavskiP,etal.Extractingnews-relatedqueriesfromwebquerylog[C]//InternationalConferenceonWorldWideWeb.ACM,2006:931-932.

    [72]SekineS,SuzukiH.Acquiringontologicalknowledgefromquerylogs[C]//InternationalConferenceonWorldWideWeb.ACM,2007:1223-1224.

    [73] 費(fèi)洪曉,伍澤全,劉一環(huán),等.社交網(wǎng)絡(luò)用戶(hù)行為挖掘研究進(jìn)展與展望[J].計(jì)算技術(shù)與自動(dòng)化,2016,35(2):74-80.

    [74] 楊善林,王佳佳,代寶,等.在線(xiàn)社交網(wǎng)絡(luò)用戶(hù)行為研究現(xiàn)狀與展望[J].中國(guó)科學(xué)院院刊,2015,30(2):200-215.

    [75]BenevenutoF,RodriguesT,ChaM,etal.Characterizingusernavigationandinteractionsinonlinesocialnetworks[J].InformationSciences,2012,195(13):1-24.

    [76]GyarmatiL,TrinhTA.Measuringuserbehaviorinonlinesocialnetworks[J].IEEENetwork,2010,24(5):26-31.

    [77] 夏雨禾.微博互動(dòng)的結(jié)構(gòu)與機(jī)制——基于對(duì)新浪微博的實(shí)證研究[J].新聞與傳播研究,2010,18(4):60-69,110-111.

    [78] 王仁武,袁毅.基于社區(qū)Web日志挖掘的用戶(hù)行為實(shí)證研究[J].圖書(shū)館論壇,2011,31(4):100-102.

    [79]QiuL,LinH,RamsayJ,etal.Youarewhatyoutweet:PersonalityexpressionandperceptiononTwitter[J].JournalofResearchinPersonality,2012,46(6):710-718.

    [80] 肖強(qiáng),朱慶華.微博用戶(hù)行為特征及類(lèi)型研究[J].情報(bào)科學(xué),2013,31(12):69-74.

    [81]GaoH,TangJ,HuX,etal.Modelingtemporaleffectsofhumanmobilebehavioronlocation-basedsocialnetworks[C]//ACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.ACM,2013:1673-1678.

    [82]ParkG,SchwartzHA,EichstaedtJC,etal.Automaticpersonalityassessmentthroughsocialmedialanguage[J].JournalofPersonalityandSocialPsychology,2015,108(6):934.

    [83]SchwartzHA,EichstaedtJC,KernML,etal.Personality,gender,andageinthelanguageofsocialmedia:Theopen-vocabularyapproach[J].PlosOne,2013,8(9):e73791.

    [84]ZhouT,KietHAT,KimBJ,etal.Roleofactivityinhumandynamics[EB/OL].[2018-03-14].http://doc.rero.ch/record/10604/files/zhou_rah.pdf.

    [85]YanQ,WuL,ZhengL,etal.Socialnetworkbasedmicrobloguserbehavioranalysis[J].PhysicaAStatisticalMechanics&ItsApplications,2013,392(7):1712-1723.

    [86]GrabowskiA,KruszewskaN,KosińskiRA.Dynamicphenomenaandhumanactivityinanartificialsociety[EB/OL].[2018-03-20].https://www.researchgate.net/publication/24173254_Dynamic_phenomena_and_human_activity_in_an_artificial_society.

    [87]BenevenutoF,RodriguesT,ChaM,etal.Characterizinguserbehaviorinonlinesocialnetworks[C]//ACMSIGCOMMConferenceonInternetMeasurement.ACM,2009:49-62.

    [88]ZwolRV.Flickr:WhoisLooking?[EB/OL].[2018-03-20].https://www.researchgate.net/publication/4309881_Flickr_Who_is_Looking.

    [89]MorrisMR,TeevanJ,PanovichK.Acomparisonofinformationseekingusingsearchenginesandsocialnetworks[C]//InternationalConferenceonWeblogsandSocialMedia.DBLP,2010:613-617.

    [90]VoseckyJ,LeungKW-T,NgW.CollaborativepersonalizedTwittersearchwithtopic-languagemodels[C]//InternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval.ACM,2014:53-62.

    [91]YounusA,O’RiordanC,PasiG.Alanguagemodelingapproachtopersonalizedsearchbasedonusers’microblogbehavior[C]//EuropeanConferenceonIRResearchonAdvancesinInformationRetrieval.Springer-Verlag,2014:727-732.

    [92]HubermanBA,RomeroDM,WuF.Socialnetworksthatmatter:Twitterunderthemicroscope[J].SocialScienceElectronicPublishing,2009,14(1):2009:1-9.

    [93]AralS,WalkerD.Identifyinginfluentialandsusceptiblemembersofsocialnetworks[J].Science,2012,337(6092):337-341.

    [94]RomeroDM,MeederB,KleinbergJ.Differencesinthemechanicsofinformationdiffusionacrosstopics:Idioms,politicalhashtags,andcomplexcontagionontwitter[C]//InternationalConferenceonWorldWideWeb.DBLP,2011:695-704.

    [95]OulasvirtaA,LehtonenE,KurvinenE,etal.Makingtheordinaryvisibleinmicroblogs[J].Personal&UbiquitousComputing,2010,14(3):237-249.

    [96] 平亮,宗利永.基于社會(huì)網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例[J].圖書(shū)情報(bào)知識(shí),2010(6):92-97.

    [97] 王曉光.微博客用戶(hù)行為特征與關(guān)系特征實(shí)證分析——以"新浪微博"為例[J].圖書(shū)情報(bào)工作,2010,54(14):66-70.

    [98] 趙文兵,朱慶華,吳克文,等.微博客用戶(hù)特性及動(dòng)機(jī)分析——以和訊財(cái)經(jīng)微博為例[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(2):69-75.

    [99] 劉宇.基于社交網(wǎng)絡(luò)用戶(hù)特征的數(shù)據(jù)挖掘研究[J].電腦與電信,2014(11):47-48.

    [100]JansenBJ.Searchloganalysis:Whatitis,what'sbeendone,howtodoit[J].Library&InformationScienceResearch,2006,28(3):407-432.

    [101]KamvarM,BalujaS.Alargescalestudyofwirelesssearchbehavior:Googlemobilesearch[C]//SIGCHIConferenceonHumanFactorsinComputingSystems.ACM,2006:701-709.

    [102]KamvarM,BalujaS.Decipheringtrendsinmobilesearch[J].Computer,2007,40(8):58-62.

    [103]KamvarM,KellarM,PatelR,etal.Computersandiphonesandmobilephones,ohmy!:Alogs-basedcomparisonofsearchusersondifferentdevices[C]//InternationalConferenceonWorldWideWeb.ACM,2009:801-810.

    [104]Baeza-YatesR,DupretG,VelascoJ.AstudyofmobilesearchqueriesinJapan[EB/OL]. [2018-03-14].https://www.researchgate.net/publication/248518707_A_Study_of_Mobile_Search_Queries_in_Japan.

    [105]YiJ,MaghoulF,PedersenJ.Decipheringmobilesearchpatterns:AstudyofYahoo!mobilesearchqueries[C]//InternationalConferenceonWorldWideWeb.ACM,2008:257-266.

    [106]ChurchK,SmythB,BradleyK,etal.AlargescalestudyofEuropeanmobilesearchbehaviour[C]//ConferenceonHuman-ComputerInteractionwithMobileDevicesandServices.DBLP,2008:13-22.

    [107] 王繼民,李雷明子,孟凡,等.基于用戶(hù)日志的移動(dòng)搜索行為分析[J].圖書(shū)情報(bào)工作,2013,57(19):102-106.

    [108] 王繼民,李雷明子,鄭玉鳳.基于日志挖掘的移動(dòng)搜索用戶(hù)行為研究綜述[J].情報(bào)理論與實(shí)踐,2014,37(3):134-139.

    [109]BudakC,AgrawalD,AbbadiA.Limitingthespreadofmisinformationinsocialnetworks[C]//InternationalConferenceonWorldWideWeb.ACM,2011:665-674.

    [110] 杜治娟,王碩,王秋月,等.社會(huì)媒體大數(shù)據(jù)分析研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2017,11(1):1-23.

    [111] 吳愷,蘇新寧,鄧三鴻.大數(shù)據(jù)、云計(jì)算與用戶(hù)行為分析[J].數(shù)字圖書(shū)館論壇,2013(6):19-23.

    [112] 楊文峰,李星.網(wǎng)絡(luò)搜索引擎的用戶(hù)查詢(xún)分析[J].計(jì)算機(jī)工程,2001,27(6):20-21.

    [113]LinJ,WilburWJ.ModelingactionsofpubMeduserswithN-gramlanguagemodels[J].InformationRetrieval,2009,12(4):487-503.

    [114] 王繼民,彭波.搜索引擎用戶(hù)訪(fǎng)問(wèn)量模型[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(25):9-11.

    猜你喜歡
    日志社交圖書(shū)館
    社交之城
    社交牛人癥該怎么治
    意林彩版(2022年2期)2022-05-03 10:25:08
    一名老黨員的工作日志
    扶貧日志
    心聲歌刊(2020年4期)2020-09-07 06:37:14
    社交距離
    你回避社交,真不是因?yàn)閮?nèi)向
    文苑(2018年17期)2018-11-09 01:29:28
    圖書(shū)館
    游學(xué)日志
    飛躍圖書(shū)館
    去圖書(shū)館
    开化县| 淄博市| 台中县| 长岭县| 辰溪县| 鄂托克前旗| 漠河县| 万山特区| 青海省| 东明县| 丰宁| 固镇县| 三穗县| 镇江市| 郁南县| 台东市| 肥西县| 甘泉县| 平乡县| 龙海市| 璧山县| 麟游县| 庆城县| 天津市| 全椒县| 济源市| 仁化县| 兴宁市| 刚察县| 浦江县| 松江区| 柳河县| 沭阳县| 湖州市| 黑龙江省| 肇州县| 东港市| 屯留县| 库尔勒市| 织金县| 宁德市|