邱 躍,湯妙吉(1.從化圖書(shū)館;2.廣東建設(shè)職業(yè)技術(shù)學(xué)院圖書(shū)館)
就傳統(tǒng)的信息檢索而言,信息檢索是查找文獻(xiàn)而不是查找信息內(nèi)容本身,傳統(tǒng)的信息檢索忽視了用戶在整個(gè)自動(dòng)化處理過(guò)程中的地位和作用,從而導(dǎo)致檢索效率不高,檢索效果遠(yuǎn)低于用戶期望,造成許多檢索系統(tǒng)在實(shí)際應(yīng)用中不受用戶歡迎,這一現(xiàn)象在信息檢索系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)中比較常見(jiàn)。通過(guò)優(yōu)化信息檢索流程可達(dá)到簡(jiǎn)化繁瑣檢索步驟的目的,而檢索流程隨著信息技術(shù)的發(fā)展在未來(lái)更多的依賴于用戶主觀意識(shí)的傳達(dá)。因此深入開(kāi)展對(duì)用戶認(rèn)知、用戶行為的研究成為信息檢索研究的一個(gè)有效方向。建立用戶認(rèn)知?jiǎng)討B(tài)結(jié)構(gòu)、研究用戶認(rèn)知能力、分析用戶認(rèn)知特征成為提高信息檢索效率的必然要求[1]。稀缺理論的引入為信息檢索的研究提供了一個(gè)嶄新的視角,以重新解釋用戶在信息檢索過(guò)程中的認(rèn)知行為。將稀缺理論與用戶認(rèn)知理論結(jié)合分析,用科學(xué)理論解釋人文現(xiàn)象,可以合理地闡明用戶認(rèn)知行為的發(fā)展趨勢(shì),并提升信息檢索研究的有效性與科學(xué)性。
行為經(jīng)濟(jì)學(xué)家Seidhill Mullina 和心理學(xué)家Edel Shafir 在其合著的《稀缺》一書(shū)中首次提出了稀缺理論,它為開(kāi)展用戶認(rèn)知研究提供了新的視角,成為研究信息檢索過(guò)程中用戶認(rèn)知與用戶行為的重要理論基礎(chǔ)[2]。稀缺理論本質(zhì)上是一種稀缺的心理狀態(tài),即當(dāng)用戶接受某項(xiàng)任務(wù)時(shí),在初步識(shí)別后,會(huì)產(chǎn)生一種自身所擁有少于完成工作所需的信息或知識(shí)的心態(tài)。在稀缺理論中,用戶一旦有了稀缺的心態(tài),這種心態(tài)就會(huì)侵入用戶的大腦,存在于人腦的潛意識(shí)中。稀缺心態(tài)會(huì)對(duì)用戶的信息獲取速度和信息理解深度產(chǎn)生影響,削弱用戶的認(rèn)知能力并降低用戶對(duì)任務(wù)的執(zhí)行控制力。
稀缺心態(tài)帶來(lái)的負(fù)面影響具體表現(xiàn)為“管窺”,即帶寬負(fù)擔(dān)[3]。帶寬負(fù)擔(dān)是指當(dāng)人們的帶寬容量減少時(shí)對(duì)帶寬產(chǎn)生的負(fù)面影響,包括影響人們的認(rèn)知力和執(zhí)行力。當(dāng)出現(xiàn)“管窺”現(xiàn)象時(shí),一個(gè)人的流體智力將被削弱,導(dǎo)致他的認(rèn)知能力被影響,執(zhí)行控制力也會(huì)隨之弱化。因此,對(duì)用戶認(rèn)知能力的管理成為構(gòu)建以內(nèi)容查找為核心的信息檢索模型的重點(diǎn)內(nèi)容。
認(rèn)知科學(xué)始于20 世紀(jì)50 年代,是一門(mén)研究認(rèn)知機(jī)制(信息處理)和機(jī)器建模的科學(xué)。認(rèn)知科學(xué)借鑒了信息論的基本原理來(lái)描述和解釋人類(lèi)的認(rèn)知過(guò)程,是認(rèn)知心理學(xué)與計(jì)算機(jī)科學(xué)的融合。20 世紀(jì)70 年代后,關(guān)于認(rèn)知科學(xué)的觀點(diǎn)得到了學(xué)術(shù)界者的普遍認(rèn)可,形成了關(guān)于相互作用理論和認(rèn)知信息理論的基本假設(shè)。
信息檢索過(guò)程本質(zhì)上是用戶的認(rèn)知過(guò)程。就以往的研究而言,信息檢索認(rèn)知過(guò)程的重點(diǎn)在于揭示用戶在信息檢索過(guò)程中的認(rèn)知以及與信息檢索系統(tǒng)之間的交互聯(lián)系,但卻忽略了用戶認(rèn)知能力的動(dòng)態(tài)變化。為了彌補(bǔ)該研究領(lǐng)域的不足,有必要對(duì)用戶認(rèn)知的動(dòng)態(tài)情況進(jìn)行分析,為信息檢索認(rèn)知過(guò)程的研究提供理論依據(jù)[4]。
在正常情況下,用戶的認(rèn)知能力處于相對(duì)穩(wěn)定的狀態(tài)。當(dāng)用戶處于任務(wù)情境時(shí),其認(rèn)知能力會(huì)發(fā)生相應(yīng)的變化。用戶接受某項(xiàng)任務(wù),由于其本身知識(shí)結(jié)構(gòu)的受限,需要從外界獲取信息以彌補(bǔ)自身知識(shí)結(jié)構(gòu)的不足,此時(shí)用戶就會(huì)產(chǎn)生稀缺心態(tài)。一旦用戶出現(xiàn)了稀缺心理,其認(rèn)知能力就會(huì)在一定程度上被減弱,很難充分表達(dá)出真實(shí)的信息需求,這將影響到用戶接下來(lái)的一系列檢索行為。因此,在研究信息檢索認(rèn)知過(guò)程時(shí),研究的關(guān)注點(diǎn)可以放在盡可能減少其他因素對(duì)用戶信息需求的干擾,同時(shí),考慮到用戶認(rèn)知能力的動(dòng)態(tài)性(見(jiàn)圖1),可對(duì)用戶的認(rèn)知情況進(jìn)行分階段研究,使其更符合用戶的非理性認(rèn)知過(guò)程。
圖1 用戶認(rèn)知能力動(dòng)態(tài)變化圖
根據(jù)稀缺理論,稀缺并不是絕對(duì)的,稀缺更多來(lái)自人類(lèi)主觀認(rèn)知。信息的稀缺源自人們具體的信息需求,而信息需求則是用戶解決當(dāng)前問(wèn)題遇到障礙時(shí)所自發(fā)形成的,這個(gè)障礙使得用戶注意力集中在解決當(dāng)前的問(wèn)題上。無(wú)形之中,它將降低用戶帶寬的容量,使用戶專注于其缺少的部分而降低對(duì)其他事情的關(guān)心,致使用戶缺乏前瞻性和洞察力,執(zhí)行力與控制力也被隨之削弱[5]。
當(dāng)用戶接受任務(wù)時(shí),用戶自己的知識(shí)結(jié)構(gòu)將與解決任務(wù)所需的知識(shí)結(jié)構(gòu)進(jìn)行匹配,形成第一道信息鴻溝,它是知識(shí)結(jié)構(gòu)“擁有”與“需要”之間的實(shí)際差異,此時(shí),用戶將生成信息需求。當(dāng)用戶產(chǎn)生信息需求時(shí),稀缺便會(huì)捕獲用戶的大腦,產(chǎn)生稀缺心態(tài),此時(shí)用戶可以使用的帶寬就會(huì)變窄,用戶的認(rèn)知能力會(huì)降低,執(zhí)行控制力也會(huì)減弱。在此狀態(tài)下,會(huì)出現(xiàn)第二道信息鴻溝,即認(rèn)知能力所識(shí)別的知識(shí)結(jié)構(gòu)“擁有”與“需要”之間的差異。通常,新的認(rèn)知能力小于初始認(rèn)知能力,后出現(xiàn)的信息鴻溝也是小于先前的信息鴻溝。然后,用戶在新的認(rèn)知能力中,產(chǎn)生一系列描述概念或者根據(jù)已知事實(shí)作出一些推理,從而形成新的語(yǔ)義網(wǎng)絡(luò),再通過(guò)信息檢索模型和工具來(lái)獲取所需信息資源。
信息檢索研究領(lǐng)域有三大研究趨勢(shì),即用戶導(dǎo)向、系統(tǒng)導(dǎo)向和認(rèn)知導(dǎo)向[6]。認(rèn)知信息檢索屬于認(rèn)知導(dǎo)向的信息檢索研究,認(rèn)知信息檢索是以認(rèn)知心理學(xué)理論為基礎(chǔ)對(duì)用戶的認(rèn)知信息進(jìn)行模擬和處理,在對(duì)用戶信息檢索認(rèn)知行為進(jìn)行深入分析的基礎(chǔ)上從用戶知識(shí)結(jié)構(gòu)、檢索環(huán)境、認(rèn)知能力三要素出發(fā)研究檢索系統(tǒng)與用戶之間信息交互的檢索過(guò)程。
在認(rèn)知信息檢索的發(fā)展初期,它主要面向中介。隨著知識(shí)檢索的進(jìn)一步發(fā)展,人們發(fā)現(xiàn)用戶的信息檢索行為并不是靜態(tài)的,個(gè)體信息語(yǔ)境的概念發(fā)生了變化,用戶行為成為研究對(duì)象,信息檢索過(guò)程中的信息交互和用戶認(rèn)知變化受到重視[7]。依據(jù)信息檢索行為,用戶的認(rèn)知信息檢索可分為初始、選擇、探索、形成、整合和表達(dá)六個(gè)階段。這六個(gè)階段的循序漸進(jìn),揭示了認(rèn)知信息檢索的一般過(guò)程(見(jiàn)圖2)。
圖2 認(rèn)知信息檢索的六階段模型
與傳統(tǒng)的信息檢索相比,稀缺理論下用戶的認(rèn)知變化不是簡(jiǎn)單的線性增長(zhǎng)而是以網(wǎng)絡(luò)狀分布,且基于某一個(gè)檢索意圖集中呈現(xiàn),是一種動(dòng)態(tài)的交互式的檢索行為。因此,交互式信息檢索系統(tǒng)是在用戶信息獲取過(guò)程中提供適當(dāng)?shù)膸椭椭С?,以?shí)現(xiàn)認(rèn)知層次上的相互交流[8]。為此,對(duì)交互過(guò)程中所涉及的要素進(jìn)行分析有助于進(jìn)一步揭示信息交互的規(guī)律。稀缺理論與用戶認(rèn)知理論下的信息檢索交互過(guò)程可以由檢索系統(tǒng)、用戶和中介三部分要素組成。
檢索系統(tǒng)是用戶與信息進(jìn)行交互作用的橋梁,貫穿于整個(gè)檢索過(guò)程。檢索系統(tǒng)界面的特性包括易用性、美觀性、個(gè)性化、友好性等。對(duì)于用戶來(lái)說(shuō),他們無(wú)法看到檢索系統(tǒng)的代碼組成、后臺(tái)工作流程等,大部分用戶也不具備專業(yè)的信息檢索能力,檢索系統(tǒng)的界面即是他們所能了解到的一切。因此,在稀缺理論與用戶認(rèn)知理論指導(dǎo)下設(shè)計(jì)的檢索系統(tǒng)可以使其幫助用戶更快、更便捷地獲取信息。如,檢索系統(tǒng)的使用方式上應(yīng)與市場(chǎng)中大部分的檢索系統(tǒng)采用統(tǒng)一的檢索方法,盡量少用專業(yè)術(shù)語(yǔ),以保證用戶在使用新的檢索系統(tǒng)時(shí)不會(huì)產(chǎn)生困惑,可以盡快了解本系統(tǒng)的功能。此外,從宏觀層面看,檢索系統(tǒng)的構(gòu)建是根據(jù)不同用戶的使用習(xí)慣、信息需求等目的形成具有不同主題的檢索系統(tǒng)。稀缺理論與用戶認(rèn)知的信息檢索系統(tǒng),需要分析用戶動(dòng)態(tài)行為,引導(dǎo)用戶在自身信息缺口下依靠檢索系統(tǒng)的鏈接、提示、提醒、模塊等幫助調(diào)動(dòng)主觀思維與信息系統(tǒng)進(jìn)行交互,最后獲取所需信息。
用戶在信息檢索過(guò)程中處于前端,擔(dān)任著需求方的角色,是信息檢索系統(tǒng)設(shè)計(jì)考慮的首要因素。依據(jù)稀缺理論,用戶在出現(xiàn)“管窺”視角后將更多的關(guān)注于如何獲取有用的信息來(lái)幫助自己解決問(wèn)題。因此用戶在每次檢索過(guò)程中會(huì)將檢索結(jié)果與解決任務(wù)所需的信息進(jìn)行匹配,如果信息滿足用戶需求,那么檢索行為結(jié)束;如果不滿足需求,那么用戶會(huì)調(diào)整檢索策略,包括改變檢索詞、檢索途徑、信息資源形式等。在社交網(wǎng)絡(luò)不斷發(fā)展和完善的背景下,用戶獲取信息不再局限于圖書(shū)、報(bào)刊等紙質(zhì)資源,而是更多的面向網(wǎng)絡(luò)平臺(tái)、專業(yè)數(shù)據(jù)庫(kù)等數(shù)字資源去尋求基于網(wǎng)絡(luò)的交互式信息檢索服務(wù),網(wǎng)絡(luò)平臺(tái)的交互信息檢索成為信息檢索系統(tǒng)的有效補(bǔ)充。用戶既可以通過(guò)交互軟件與其他用戶進(jìn)行交流獲取幫助,也可以利用搜索引擎瀏覽網(wǎng)頁(yè)、論壇、微博等相關(guān)內(nèi)容。同時(shí),搜索引擎也會(huì)根據(jù)用戶的搜索路徑對(duì)用戶的興趣進(jìn)行分析,從而為用戶提供可能感興趣的信息鏈接。
在檢索系統(tǒng)中,中介一般是指系統(tǒng)設(shè)計(jì)模塊,它是根據(jù)用戶檢索表達(dá)式和長(zhǎng)期檢索行為描述用戶信息需求的方式。系統(tǒng)設(shè)計(jì)不再讓用戶靠直覺(jué)來(lái)判斷是否需求信息,而是將用戶可能的需求用自然語(yǔ)言表達(dá)式和查詢表達(dá)式銜接。隨著時(shí)間的推移,用戶對(duì)事物認(rèn)知的程度加深,系統(tǒng)會(huì)將這些方案用符號(hào)的方式儲(chǔ)存于檢索系統(tǒng)之中,以符合用戶認(rèn)知的動(dòng)態(tài)發(fā)展。同時(shí),系統(tǒng)設(shè)計(jì)需滿足信息的存儲(chǔ)過(guò)程和信息的檢索過(guò)程。信息存儲(chǔ)過(guò)程是對(duì)信息進(jìn)行加工,將呈現(xiàn)出的信息特征進(jìn)行存儲(chǔ)并輸入進(jìn)信息檢索系統(tǒng);而信息檢索過(guò)程是當(dāng)搜索模塊與用戶通信時(shí),檢索系統(tǒng)分析用戶的檢索提問(wèn)并轉(zhuǎn)化為檢索語(yǔ)言,并標(biāo)引出系統(tǒng)能夠識(shí)別的檢索標(biāo)識(shí)。當(dāng)系統(tǒng)產(chǎn)生信息輸出時(shí)又將語(yǔ)法信息轉(zhuǎn)為用戶能理解的語(yǔ)義,即大家所看到的檢索結(jié)果。信息檢索系統(tǒng)的中介是對(duì)檢索全過(guò)程謀劃后的整體設(shè)計(jì)策略,它能及時(shí)反映和分析檢索結(jié)果與檢索目標(biāo)要求是否一致,可以對(duì)檢索策略進(jìn)行相應(yīng)的修改調(diào)整以獲得最佳的查準(zhǔn)率,并最終呈現(xiàn)給用戶滿意的檢索結(jié)果。
信息檢索認(rèn)知模型是一種基于數(shù)學(xué)工具對(duì)用戶檢索文本和查詢過(guò)程之間關(guān)系的框架。它以認(rèn)知科學(xué)的概念、方法和數(shù)據(jù)為基礎(chǔ),結(jié)合用戶遇到稀缺性心理時(shí)的認(rèn)知變化,研究檢索文本和主題的相似度。在稀缺心態(tài)下,用戶的認(rèn)知能力在相對(duì)穩(wěn)定的狀態(tài)會(huì)被打破,注意力主要集中在產(chǎn)生的信息缺口上,從而導(dǎo)致其認(rèn)知能力降低。加上用戶的認(rèn)知能力也處于不斷變化的過(guò)程中,信息檢索認(rèn)知模型有必要對(duì)用戶的整個(gè)認(rèn)知過(guò)程進(jìn)行分析,并人工干預(yù)信息檢索系統(tǒng)的設(shè)計(jì),使用戶的信息需求更加準(zhǔn)確的表達(dá)出來(lái),讓用戶與檢索系統(tǒng)間的交互行為更加默契,從而提高信息檢索系統(tǒng)的利用率。根據(jù)稀缺性理論與用戶認(rèn)知的信息檢索循序漸進(jìn)的階段,可分為三個(gè)模型進(jìn)行描述。
該模型首先假設(shè)個(gè)體在認(rèn)知結(jié)構(gòu)上存在差異,它受到自身的認(rèn)知要素及外部環(huán)境的影響;其次從認(rèn)知的角度分析信息檢索過(guò)程中涉及的認(rèn)知要素,包含信息檢索所需的基本條件,從而通過(guò)信息檢索系統(tǒng)傳遞信息,這部分屬于認(rèn)知的中介機(jī)制。最終的檢索結(jié)果顯示:如果用戶滿意,則變成用戶新的認(rèn)知;如果用戶得不到滿足,則會(huì)生成新的動(dòng)態(tài)認(rèn)知要素,并返回到檢索模型初始段,具體如圖3 所示。
圖3 初始認(rèn)知下的信息檢索模型
稀缺理論下的信息檢索模型認(rèn)為用戶具有信息需求的原因是用戶意識(shí)到自己的知識(shí)結(jié)構(gòu)異常且無(wú)法解決某些問(wèn)題。用戶根據(jù)查詢目標(biāo)與任務(wù)產(chǎn)生信息初始需求,并通過(guò)查詢喜好和查詢行為進(jìn)行信息交互,在信息交互過(guò)程中用戶的認(rèn)知受到稀缺心態(tài)的影響。稀缺會(huì)俘獲用戶的大腦,漸漸讓用戶失去認(rèn)知能力和執(zhí)行控制力,變得更加愚笨和沖動(dòng),形成管窺思維[9]。此時(shí),用戶的帶寬變窄,認(rèn)知受到限制(見(jiàn)圖4)。稀缺理論下的認(rèn)知信息檢索模型揭示了用戶在目標(biāo)和任務(wù)的驅(qū)動(dòng)下產(chǎn)生的信息需求。
圖4 稀缺理論下的認(rèn)知模型
用戶與信息檢索系統(tǒng)交互的目的是使用與認(rèn)知和情境相關(guān)聯(lián)的信息。交互行為總是存在于信息查詢過(guò)程中,與傳統(tǒng)的信息檢索相比,信息交互行為下的信息檢索模型能更準(zhǔn)確的滿足用戶的信息需求。在交互過(guò)程中,用戶可以對(duì)信息進(jìn)行表達(dá)、查看、導(dǎo)航、比較和總結(jié)(見(jiàn)圖5)。由于交互行為受不同因素的影響發(fā)生改變,在不同階段,用戶交互的內(nèi)容也是不同的。社交網(wǎng)絡(luò)行為中除了有傳統(tǒng)的信息檢索文本外,還有大量信息交互層,用戶通過(guò)與系統(tǒng)對(duì)話,完成搜索、匹配、瀏覽和判斷等過(guò)程。此外,系統(tǒng)還可以要求用戶提供反饋信息。
圖5 信息交互行為下的信息檢索模型
基于稀缺理論與用戶認(rèn)知理論可以發(fā)現(xiàn)用戶的信息檢索行為更具復(fù)雜性與動(dòng)態(tài)性。隨著社交網(wǎng)絡(luò)的發(fā)展,用戶自身的知識(shí)結(jié)構(gòu)、工作任務(wù)情況和自身喜好習(xí)慣等促使用戶的檢索行為從傳統(tǒng)的文本信息檢索向新的網(wǎng)絡(luò)檢索轉(zhuǎn)變[10],用戶的檢索意圖在信息稀缺時(shí)的認(rèn)知變化可以對(duì)信息檢索行為帶來(lái)影響。
以往的研究表明,用戶的檢索意圖通??梢苑譃樾畔㈩?lèi)、導(dǎo)航類(lèi)和交易類(lèi)三種。信息類(lèi)檢索是用戶試圖通過(guò)網(wǎng)絡(luò)獲取有關(guān)的信息,如數(shù)據(jù)、網(wǎng)頁(yè)和文檔等,它不同于導(dǎo)航類(lèi)和交易類(lèi)檢索要求,具有時(shí)間跨度大、交互作用多、內(nèi)容形式豐富的特點(diǎn)。其中,歷時(shí)較長(zhǎng)和交互方式多樣的信息類(lèi)檢索意圖,即為長(zhǎng)期檢索意圖。
稀缺理論表明用戶在接受任務(wù)時(shí),當(dāng)發(fā)現(xiàn)自身知識(shí)不足以應(yīng)對(duì)任務(wù)的完成,其認(rèn)知關(guān)注點(diǎn)重在通過(guò)查找信息、借助外部的幫助來(lái)解決問(wèn)題。在未解決任務(wù)前,稀缺使用戶的關(guān)注焦點(diǎn)更集中,表現(xiàn)為長(zhǎng)期檢索意圖。而隨著社交網(wǎng)絡(luò)的發(fā)展,信息的來(lái)源不僅存在于紙質(zhì)資源、檢索系統(tǒng)等載體,社交網(wǎng)絡(luò)平臺(tái)也可以提供大量的信息幫助用戶解決問(wèn)題。因此,用戶利用社交網(wǎng)絡(luò)瀏覽、查詢信息與在社交網(wǎng)絡(luò)上查看、轉(zhuǎn)發(fā)和評(píng)論文章等行為之間存在語(yǔ)義相似性和一致性[11]。通過(guò)對(duì)用戶瀏覽器中存儲(chǔ)的Cookie 信息進(jìn)行分析,可以發(fā)現(xiàn)用戶的社交網(wǎng)絡(luò)活動(dòng)中包含了大量的長(zhǎng)期檢索意圖。如用戶在一段時(shí)間內(nèi)搜索的各種求職信息、有關(guān)python 語(yǔ)言的一系列知識(shí)等。此外,用戶的長(zhǎng)期檢索意圖搜索過(guò)程通常伴隨著其他社交網(wǎng)絡(luò)活動(dòng),如瀏覽視頻、新聞、登陸社交平臺(tái)等。因此,研究在長(zhǎng)期檢索意圖中用戶的信息檢索行為與用戶的社交網(wǎng)絡(luò)行為之間的關(guān)系是重點(diǎn)。
在自然語(yǔ)言處理中,主題可以被看作文檔中詞匯的概率分布。主題模型可以從文檔中的詞匯共現(xiàn)信息中提取語(yǔ)義相關(guān)的集合,并且可以將詞匯空間中的文檔轉(zhuǎn)換成主題空間,從而在低維空間中獲取文檔的表達(dá)[12]。
圖6、7 顯示出了信息檢索詞匯和社交網(wǎng)絡(luò)數(shù)據(jù)在長(zhǎng)期檢索意圖字段中的主題分布概率(手動(dòng)設(shè)置主題數(shù)量為30,主題分布由LDA 模型獲得)。其中,長(zhǎng)期檢索意圖為在一段時(shí)間內(nèi)用戶查詢與求職相關(guān)的信息,橫坐標(biāo)表示不同數(shù)量主題的索引(1-30),縱坐標(biāo)表示每個(gè)主題下文本內(nèi)容的概率分布。直觀來(lái)看,圖中兩種檢索行為的主題分布有很大的相似性;然后,對(duì)文本內(nèi)容的特定分析表明,用戶通過(guò)這些主題詞瀏覽的文本主要是互聯(lián)網(wǎng)公司的招聘信息,同時(shí)用戶在檢索意圖字段中瀏覽、轉(zhuǎn)發(fā)、評(píng)論和關(guān)注的文本信息包含了大量公司實(shí)習(xí)生招聘的相關(guān)內(nèi)容。
圖6 信息檢索主題分布
圖7 社交網(wǎng)絡(luò)主題分布
上述實(shí)驗(yàn)中共有75 個(gè)檢索者,期限為90 天。經(jīng)過(guò)處理,獲得了66 名檢索者的有效數(shù)據(jù)。如前所述,本研究的目的是驗(yàn)證長(zhǎng)期檢索意圖中用戶信息檢索行為與社交網(wǎng)絡(luò)行為之間的語(yǔ)義關(guān)系,因此,結(jié)構(gòu)化的信息檢索數(shù)據(jù)和相應(yīng)的社交網(wǎng)絡(luò)數(shù)據(jù)是本實(shí)驗(yàn)的關(guān)鍵數(shù)據(jù)。通過(guò)使用上述查詢細(xì)分方法,共獲取3,667 個(gè)有效檢索意圖,并捕獲相應(yīng)時(shí)間段內(nèi)的社交網(wǎng)絡(luò)活動(dòng)數(shù)據(jù),形成3,667個(gè)文檔并分別編號(hào)。其中,信息檢索文本的內(nèi)容包括用戶提交的檢索詞集合、用戶瀏覽的網(wǎng)頁(yè)集合、網(wǎng)頁(yè)快照集合等。社交網(wǎng)絡(luò)數(shù)據(jù)的內(nèi)容包括用戶在相應(yīng)時(shí)間段內(nèi)瀏覽和轉(zhuǎn)發(fā)的微博內(nèi)容和相關(guān)評(píng)論。
研究發(fā)現(xiàn)有1,785 個(gè)檢索意圖包含社交網(wǎng)絡(luò)瀏覽行為,即48.67%的檢索意圖包含社交網(wǎng)絡(luò)瀏覽行為。對(duì)包括社交網(wǎng)絡(luò)瀏覽行為在內(nèi)的所有檢索意圖的進(jìn)一步分析表明,社交網(wǎng)絡(luò)活動(dòng)與信息檢索行為的主題詞相似度平均值總是略高于其他類(lèi)型的網(wǎng)絡(luò)活動(dòng)(如新聞瀏覽、娛樂(lè)視頻、網(wǎng)上購(gòu)物等)(見(jiàn)表1)。
表1 長(zhǎng)期檢索意圖中主要社交網(wǎng)絡(luò)行為比例
表1 顯示了每個(gè)檢索意圖字段中用戶主要社交網(wǎng)絡(luò)行為占全部信息檢索行為的比例。從表中的數(shù)據(jù)可以看出,除了文本搜索行為外,平均占比最高的社交網(wǎng)絡(luò)行為是社交活動(dòng),這為分析信息檢索行為和社交網(wǎng)絡(luò)行為主題詞的語(yǔ)義關(guān)聯(lián)提供了數(shù)據(jù)基礎(chǔ)。
以上數(shù)據(jù)從統(tǒng)計(jì)學(xué)角度可以表明,信息檢索與社交網(wǎng)絡(luò)行為的相關(guān)性高于其他形式的網(wǎng)絡(luò)活動(dòng),實(shí)驗(yàn)數(shù)據(jù)基本符合《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中用戶不同網(wǎng)絡(luò)活動(dòng)的比例。然而,上述數(shù)據(jù)并不足以說(shuō)明用戶的信息檢索行為受到社交網(wǎng)絡(luò)活動(dòng)的影響,也無(wú)法顯示兩者的語(yǔ)義相關(guān)性。為此,在文本語(yǔ)義層進(jìn)一步研究了檢索意圖字段中的信息檢索行為與社交網(wǎng)絡(luò)行為主題數(shù)據(jù)之間的相似性。
為了驗(yàn)證信息檢索行為與社交網(wǎng)絡(luò)行為數(shù)據(jù)之間的語(yǔ)義相似度是否與檢索意圖有關(guān),本文將1,785 個(gè)查詢意圖的平均值對(duì)應(yīng)在圖中形成連續(xù)檢索段,并設(shè)置1 小時(shí)、5 小時(shí)、10 小時(shí)、15 小時(shí)和24 小時(shí)作為時(shí)間分割,得到的數(shù)據(jù)如圖8 所示,當(dāng)信息檢索行為和社交網(wǎng)絡(luò)行為以相同的檢索意圖分布時(shí),相似度顯著高于僅在時(shí)間上相鄰的兩組文本。以上分析證明,在相同的檢索意圖下,信息檢索行為與社交網(wǎng)絡(luò)行為數(shù)據(jù)之間的語(yǔ)義相關(guān)性高于在相同的檢索意圖下其他網(wǎng)絡(luò)行為的語(yǔ)義相關(guān)性。
圖8 不同時(shí)間劃分下信息檢索行為與社交網(wǎng)絡(luò)行為的檢索意圖相似性比較
表2 列出了不同和相鄰檢索意圖下信息檢索行為與社交網(wǎng)絡(luò)行為數(shù)據(jù)的語(yǔ)義相似度相關(guān)統(tǒng)計(jì)。從表中數(shù)據(jù)可以看出,現(xiàn)檢索意圖中的信息檢索行為在語(yǔ)義上分別與前檢索意圖和后檢索意圖中的社交網(wǎng)絡(luò)行為文本相似,當(dāng)信息檢索文本和社交網(wǎng)絡(luò)行為數(shù)據(jù)分布在同一檢索意圖中時(shí),詞匯與主題的相似度平均最高,前檢索意圖與后檢索意圖的語(yǔ)義相似度顯示差別不大。
表2 不同檢索意圖中信息檢索行為與社交網(wǎng)絡(luò)行為的語(yǔ)義相似度比較數(shù)據(jù)
信息檢索所追求的目標(biāo)是通過(guò)更好地獲取信息來(lái)支持人類(lèi)完成特定的任務(wù),而稀缺理論與認(rèn)知理論為信息檢索的發(fā)展提供了新的思路和方法,使認(rèn)知信息檢索理論更加完善,最大化挖掘用戶變化的需求實(shí)現(xiàn),提供滿足用戶需求的檢索結(jié)果?;诖吮尘?,本研究分析了稀缺心理對(duì)用戶認(rèn)知的動(dòng)態(tài)影響過(guò)程,并在稀缺心理學(xué)的基礎(chǔ)上解釋了用戶潛在信息需求的深層原因。通過(guò)實(shí)驗(yàn)結(jié)果證明了用戶的社交網(wǎng)絡(luò)行為與信息檢索行為之間存在一定的語(yǔ)義關(guān)系,通過(guò)提取用戶社交網(wǎng)絡(luò)數(shù)據(jù),為研究用戶個(gè)性化需求提供理論依據(jù)和參考數(shù)據(jù),有利于信息檢索個(gè)性化服務(wù)的實(shí)現(xiàn)。