鄭聰
摘 要:隨著“互聯(lián)網(wǎng)+”的迅猛發(fā)展和移動(dòng)互聯(lián)網(wǎng)的大范圍普及,大眾的旅游行為越來越依賴于網(wǎng)絡(luò)平臺(tái),而隨之產(chǎn)生的海量輿情數(shù)據(jù)也成了評(píng)價(jià)各種旅游要素的重要指標(biāo)。但因?yàn)槠鋽?shù)據(jù)量大、信息復(fù)雜,在進(jìn)行旅游滿意度統(tǒng)計(jì)時(shí)很難將其進(jìn)行有效的統(tǒng)計(jì)分析,從而造成資源浪費(fèi)。文章從爬蟲入手,分析現(xiàn)階段網(wǎng)絡(luò)輿情監(jiān)控體系核心技術(shù)要求,根據(jù)其技術(shù)要點(diǎn),提出一種旅游滿意度網(wǎng)絡(luò)輿情調(diào)查解決方案,進(jìn)行系統(tǒng)構(gòu)建及采集策略規(guī)劃,實(shí)現(xiàn)旅游滿意度網(wǎng)絡(luò)輿情數(shù)據(jù)的采集和分析,并對(duì)其可行性進(jìn)行實(shí)驗(yàn)驗(yàn)證。
關(guān)鍵詞:爬蟲;旅游滿意度;網(wǎng)絡(luò)輿情
1 現(xiàn)狀
“互聯(lián)網(wǎng)+”的概念提出之后,許多行業(yè)都發(fā)生了翻天覆地的變革[1]。旅游行業(yè)也是如此,網(wǎng)絡(luò)因素在旅游要素中的占比越來越大,幾乎成為必備。而在移動(dòng)互聯(lián)網(wǎng)發(fā)展迅猛、新媒體技術(shù)頻出的當(dāng)下,旅游網(wǎng)絡(luò)輿情數(shù)據(jù)也變得越來越立體和生動(dòng),內(nèi)容載體從單一的文本形式擴(kuò)展到圖片、地理位置、短視頻、直播、彈幕等,平臺(tái)載體有攜程、去哪兒、飛豬、美團(tuán)旅游、螞蜂窩等。對(duì)其產(chǎn)生的大量數(shù)據(jù)進(jìn)行有效的搜集和分析,可以準(zhǔn)確和全面地反映出旅游產(chǎn)業(yè)方方面面的問題,這一做法已經(jīng)被旅游行業(yè)、學(xué)者和政府所認(rèn)可[2-4]。但是就目前實(shí)際操作情況來看,主要存在兩個(gè)問題,一是數(shù)據(jù)的不公開阻礙數(shù)據(jù)獲??;二是傳統(tǒng)的旅游滿意度調(diào)查手段在如此巨大的數(shù)據(jù)面前顯得力不從心。針對(duì)這兩個(gè)問題,本文提出使用爬蟲技術(shù)輔助旅游滿意度網(wǎng)絡(luò)輿情調(diào)查,并根據(jù)理論研究實(shí)現(xiàn)對(duì)某一特定旅游平臺(tái)的輿情數(shù)據(jù)進(jìn)行采集和分析的系統(tǒng)原型。
2 爬蟲核心技術(shù)
爬蟲(Crawler)或者網(wǎng)絡(luò)爬蟲(Web Crawler)又叫作網(wǎng)絡(luò)蜘蛛(Web Spider)、網(wǎng)絡(luò)螞蟻(Web Ant)、自動(dòng)索引器(Automatic Indexer)、網(wǎng)絡(luò)疾走(Web Scutter)等[5],通過訪問特定的一組URL(統(tǒng)一資源定位符)來獲取里面的超文本標(biāo)記語言(Hyper Text Markup Language,HTML)信息,HTML中包含的新URL將會(huì)重新進(jìn)入待抓取程序,成為新的訪問對(duì)象,通過這種方式達(dá)到對(duì)特定站點(diǎn)、系統(tǒng)以至整個(gè)互聯(lián)網(wǎng)進(jìn)行爬取,搜索引擎背后就是有強(qiáng)大的爬蟲系統(tǒng)支撐,才能獲取檢索整個(gè)互聯(lián)網(wǎng)的能力。一個(gè)常規(guī)爬蟲主要包含網(wǎng)頁地址訪問、列表頁分頁采集、HTML標(biāo)簽解析、內(nèi)容頁分頁采集、查重與查新等技術(shù)。
2.1 網(wǎng)頁地址訪問
網(wǎng)頁地址訪問是爬蟲通過模擬瀏覽器訪問行為,通過GET和POST等訪問方式向目標(biāo)URL發(fā)起HTTP訪問,然后獲取服務(wù)器所返回的HTML文檔。被訪問的網(wǎng)頁可分為首頁面、列表頁、內(nèi)容頁3種類型,這是爬蟲最基礎(chǔ)的技術(shù)要點(diǎn),后續(xù)所有的操作都跟首頁面地址有關(guān),因此,該起始地址的選擇很重要,一個(gè)好的首頁面可以為后續(xù)的爬取提供充裕的資源。
2.2 列表頁分頁采集
列表頁分頁采集指對(duì)于有分頁存在的頁面需要將其分頁地址進(jìn)行解析和重組,以循環(huán)訪問的方式加入到爬蟲任務(wù)列表中,通過對(duì)分頁頁面的循環(huán)訪問達(dá)到爬取該分類信息下所有資源的目的。移動(dòng)互聯(lián)的崛起也讓信息分頁顯示發(fā)生了重大變革,誕生了瀑布流的展現(xiàn)形式,但是背后的核心要點(diǎn)與分頁相似,也可以通過循環(huán)分頁地址形式爬取數(shù)據(jù)。
2.3 HTML標(biāo)簽解析
HTML標(biāo)簽解析是要對(duì)獲取的HTML文檔進(jìn)行分析和有效信息抓取,HTML文檔為描述性結(jié)構(gòu),通過標(biāo)簽、ID、Class等信息對(duì)內(nèi)容進(jìn)行限定,如“
段落1”這一行代碼描述的就是ID為001、采用c001樣式表、HTML標(biāo)簽為p的一個(gè)段落,段落內(nèi)容為“段落1”,其中“段落1”就是要抓取的有效數(shù)據(jù),而其余的則為抓取條件,通過這些限制條件可以唯一定位到該有效數(shù)據(jù)。
2.4 內(nèi)容頁分頁采集
內(nèi)容頁分頁采集與列表頁分頁采集相類似,當(dāng)內(nèi)容頁內(nèi)容過多會(huì)產(chǎn)生分頁,也有可能是瀑布流的形式,需要對(duì)其采用分頁采集技術(shù)爬取全部?jī)?nèi)容。
2.5 查重與查新
查重與查新是大型、持久性爬蟲必不可少的一個(gè)功能,通過記錄訪問過的URL地址可以在進(jìn)行新的訪問時(shí)進(jìn)行過濾操作,對(duì)已經(jīng)爬取的地址進(jìn)行時(shí)間戳標(biāo)記,然后再將其與在庫的數(shù)據(jù)進(jìn)行對(duì)比,如果有更新則入庫,如果沒有更新則丟棄,以此來減少冗余和噪聲數(shù)據(jù)。
3 關(guān)鍵系統(tǒng)構(gòu)建
依據(jù)上文對(duì)爬蟲核心技術(shù)的分析研究,網(wǎng)絡(luò)爬蟲在旅游滿意度網(wǎng)絡(luò)輿情調(diào)查中的系統(tǒng)構(gòu)建應(yīng)用,首先應(yīng)對(duì)平臺(tái)進(jìn)行分類和對(duì)應(yīng)策略研究,其次是針對(duì)平臺(tái)數(shù)據(jù)特點(diǎn)構(gòu)建分頁策略和HTML標(biāo)簽解析策略,最后是內(nèi)容查重、查新、分析以及導(dǎo)出。
3.1 平臺(tái)分類及數(shù)據(jù)獲取策略構(gòu)建
旅游類平臺(tái)產(chǎn)品經(jīng)過多年的發(fā)展大致分為工具類和社交類,工具類平臺(tái)有攜程、去哪兒、飛豬、美團(tuán)旅游等,主要以交通、住宿、景點(diǎn)門票等產(chǎn)品的銷售為主,輔助以產(chǎn)品評(píng)論功能;社交類平臺(tái)有螞蜂窩、蟬游記等,主要以游記、線路規(guī)劃、自由行記錄等為主,在此功能基礎(chǔ)上添加商品預(yù)定與購(gòu)買功能。隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,兩種平臺(tái)逐漸有融合趨勢(shì),但是其帶動(dòng)點(diǎn)還是有很大區(qū)別。
對(duì)于工具類平臺(tái),在選擇入口網(wǎng)址時(shí)應(yīng)該首先確定調(diào)查對(duì)象,比如目前要對(duì)XXX景點(diǎn)進(jìn)行網(wǎng)絡(luò)輿情滿意度調(diào)查,那么就將該景區(qū)的產(chǎn)品售賣頁面作為入口URL,通過分析全文鏈接,獲取有價(jià)值的二級(jí)頁面數(shù)據(jù)如產(chǎn)品銷售數(shù)據(jù)、產(chǎn)品評(píng)價(jià)數(shù)據(jù)等。值得注意的是工具類平臺(tái)的旅游產(chǎn)品都是以線路形式展現(xiàn),因此,一個(gè)景點(diǎn)會(huì)包含在多條線路中,需要對(duì)全部包含此景點(diǎn)的線路進(jìn)行數(shù)據(jù)抓取和分析,才能獲取較為全面的滿意度數(shù)據(jù)。
而社交類平臺(tái)相對(duì)單一,其數(shù)據(jù)組織方式以景點(diǎn)為中心,用戶的反饋數(shù)據(jù)會(huì)集中在特定頁面或者區(qū)域,對(duì)其進(jìn)行抓取和分析就能獲得較為完整的數(shù)據(jù)。目前社交類平臺(tái)也涉足線路類產(chǎn)品,因此也會(huì)存在游客評(píng)價(jià)散落在線路產(chǎn)品評(píng)價(jià)里面,這方面數(shù)據(jù)也要引起重視。
3.2 分頁策略構(gòu)建
分頁策略用于列表頁和內(nèi)容頁,其技術(shù)特點(diǎn)相類似。主要有兩類分頁情況,一是數(shù)字翻頁形式,另外一種是瀑布流形式,二者都需要使用包含通配符的通用列表頁模板進(jìn)行循環(huán)訪問。在設(shè)置循環(huán)閾值時(shí)需要與數(shù)據(jù)總量相適應(yīng),并略微大于真實(shí)分頁量,這么做是為了保證數(shù)據(jù)采集的完整性;如果可以通過接口數(shù)據(jù)獲取總數(shù)據(jù)量也可以通過計(jì)算獲得較為準(zhǔn)確的分頁值。
特殊情況下如果目標(biāo)站點(diǎn)使用了靜態(tài)地址轉(zhuǎn)換,如京東網(wǎng)上商城,為每個(gè)商品分配了ID標(biāo)識(shí)符,則可以通過模擬生成產(chǎn)品ID號(hào)來自動(dòng)組合生成訪問地址,從而省略分頁過程;有的平臺(tái)也會(huì)提供API接口返回JSON數(shù)據(jù)用于分頁顯示,如果JSON數(shù)據(jù)覆蓋面比較廣,可以通過JSON解析替代下文3.3所述的內(nèi)容抓取策略。
3.3 HTML內(nèi)容抓取策略構(gòu)建
HTML是現(xiàn)代互聯(lián)網(wǎng)的重要組成部分,包含頭部信息和實(shí)體信息兩個(gè)要素,頭部信息用來定義網(wǎng)頁,實(shí)體信息記錄網(wǎng)頁要顯示的內(nèi)容,需要采集的有效數(shù)據(jù)就保存在實(shí)體信息中[6]。各種信息使用標(biāo)簽進(jìn)行標(biāo)識(shí),并輔助以ID和Class等進(jìn)行限定。
對(duì)HTML內(nèi)容的抓取可以通過標(biāo)簽解析、ID定位、Class定位、XPath定位以及字符串匹配等方式。其抓取策略和特點(diǎn)如表1所示,表中的模糊采集和精確采集是對(duì)采集策略的一種評(píng)價(jià),判斷標(biāo)準(zhǔn)是其能否在HTML文檔中進(jìn)行唯一定位,如果能則其是精確的,反之是模糊的。在進(jìn)行數(shù)據(jù)采集操作時(shí),往往需要多種策略相結(jié)合,尤其是HTML5環(huán)境下,資源框架體系進(jìn)一步精細(xì)化,很多內(nèi)容可以通過標(biāo)簽解析來獲取,這是最快捷的方式;而一些比較特殊的數(shù)據(jù)則需要通過定位方式來采集。
3.4 內(nèi)容分析及導(dǎo)出策略構(gòu)建
內(nèi)容分析是對(duì)抓取后的有效數(shù)據(jù)進(jìn)行篩選和甄別,這個(gè)過程在游客滿意度問卷調(diào)查中對(duì)應(yīng)打分環(huán)節(jié),打分能通過游客精確地對(duì)景區(qū)或者產(chǎn)品進(jìn)行評(píng)價(jià);而在網(wǎng)絡(luò)輿情中,有兩部分?jǐn)?shù)據(jù)可以使用,一是平臺(tái)的星級(jí)策略,通常為5星制,通過用戶的星級(jí)分?jǐn)?shù)來反應(yīng)產(chǎn)品價(jià)值,這一部分可以精確采集;另一部分是用戶的評(píng)價(jià),這部分?jǐn)?shù)據(jù)需要人工閱讀或者語義分析才能知道內(nèi)容的觀點(diǎn)和價(jià)值。數(shù)據(jù)采集和判定結(jié)果通過數(shù)據(jù)庫和Excel表格兩種方式導(dǎo)出和長(zhǎng)期存儲(chǔ),數(shù)據(jù)庫中數(shù)據(jù)主要用來進(jìn)行查重和查新;Excel按照任務(wù)分類進(jìn)行按日期存儲(chǔ),以便進(jìn)行任務(wù)調(diào)度和數(shù)據(jù)展示。
4 關(guān)鍵系統(tǒng)實(shí)現(xiàn)
本文選取美團(tuán)旅游的“桂林漓江風(fēng)景名勝區(qū)”為例進(jìn)行原型系統(tǒng)實(shí)現(xiàn),入口地址為http://www.meituan.com/cate/1222649。該產(chǎn)品包含產(chǎn)品評(píng)分、產(chǎn)品圖片、人均消費(fèi)、用戶評(píng)價(jià)、評(píng)價(jià)時(shí)間、評(píng)價(jià)圖片、商家回復(fù)等信息,分頁采用傳統(tǒng)分頁,具有典型性。
4.1 數(shù)據(jù)采集實(shí)現(xiàn)
對(duì)頁面上的典型數(shù)據(jù)如評(píng)分信息、帳戶名稱、用戶等級(jí)、產(chǎn)品名稱、評(píng)價(jià)內(nèi)容、評(píng)價(jià)時(shí)間等進(jìn)行采集,采集實(shí)現(xiàn)如表2所示。
4.2 分頁實(shí)現(xiàn)
通過點(diǎn)擊頁面上的翻頁按鈕發(fā)現(xiàn)地址欄沒有變化,推測(cè)其應(yīng)該使用了Ajax異步獲取JSON數(shù)據(jù)進(jìn)行分頁展示。通過對(duì)訪問過程的抓包分析,獲取到該產(chǎn)品的評(píng)價(jià)信息API地址http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=0&pageSize=10&mode=0&starRange=&userId=&sortType=1,分析得知ID對(duì)應(yīng)該產(chǎn)品的編號(hào),在入口地址中有體現(xiàn);pageSize為每頁顯示的評(píng)價(jià)數(shù)量,默認(rèn)為10條。分頁時(shí)查看下方總評(píng)論數(shù)為780條(截至2017年11月21日),因此采用http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=[0-780]&pageSize=1進(jìn)行分頁獲取,中括號(hào)里面為取值范圍。
5 測(cè)試結(jié)果分析
測(cè)試結(jié)果共采集數(shù)據(jù)781條,依據(jù)字段結(jié)構(gòu)完整性判定其中730條為有效數(shù)據(jù),數(shù)據(jù)在參考文獻(xiàn)中公開[7]。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),406名用戶給出了5分評(píng)價(jià),155名用戶給出了4分評(píng)價(jià),74名用戶給出了3分評(píng)價(jià),38名用戶給出了2分評(píng)價(jià),57名用戶給出了1分評(píng)價(jià),用戶等級(jí)從無等級(jí)跨度到6級(jí)。統(tǒng)計(jì)結(jié)果如圖1所示。
進(jìn)一步對(duì)點(diǎn)贊數(shù)量大于10的15條評(píng)論分析發(fā)現(xiàn),6條給出了5星評(píng)價(jià),4條給出了4星評(píng)價(jià),1條給出了3星評(píng)價(jià),1條給出了2星評(píng)價(jià),3條給出了1星評(píng)價(jià)。此數(shù)據(jù)說明景區(qū)整體形象較好,獲得了較多用戶贊同。但是問題也很突出,主要集中在景區(qū)存在隱形消費(fèi)(游船升艙陷阱)、時(shí)間安排混亂、對(duì)網(wǎng)上購(gòu)票用戶有歧視等問題,這些都獲得了大量用戶贊同。而對(duì)于景區(qū)的反應(yīng)來看,只對(duì)評(píng)分靠前的3條正面評(píng)價(jià)記錄做了回應(yīng)表示感謝,并沒有對(duì)負(fù)面評(píng)價(jià)做出道歉或者解釋,這將會(huì)對(duì)景區(qū)形象造成很大影響。
針對(duì)升艙問題進(jìn)一步分析可以發(fā)現(xiàn),最早反應(yīng)此問題的時(shí)間是2015年6月20日,距最近一次該問題的反饋時(shí)間2017年10月16日已過去了兩年多時(shí)間,但該問題依然在景區(qū)存在,給游客造成了很負(fù)面的影響,因此,景區(qū)應(yīng)加強(qiáng)自身管理,為游客提供一個(gè)完美的出行環(huán)境。
6 結(jié)語
本文嘗試使用爬蟲對(duì)網(wǎng)絡(luò)平臺(tái)上的旅游滿意度輿情數(shù)據(jù)進(jìn)行采集和分析,為“互聯(lián)網(wǎng)+”和移動(dòng)互聯(lián)網(wǎng)時(shí)代的旅游滿意度調(diào)查提供一種新的思路和方法。經(jīng)過系統(tǒng)構(gòu)建、實(shí)現(xiàn)和測(cè)試結(jié)果分析發(fā)現(xiàn),該方案切實(shí)可行,能有針對(duì)性地對(duì)某個(gè)景區(qū)的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行采集和分析,生成可視化圖表結(jié)果,并可以針對(duì)某個(gè)問題進(jìn)行深入挖掘,比傳統(tǒng)旅游滿意度調(diào)查在樣本空間、數(shù)據(jù)豐富程度、時(shí)間跨度、空間跨度、數(shù)據(jù)搜集、存儲(chǔ)、清洗上都有較大優(yōu)勢(shì)。
[參考文獻(xiàn)]
[1]黃楚新,王丹.“互聯(lián)網(wǎng)+”意味著什么—對(duì)“互聯(lián)網(wǎng)+”的深層認(rèn)識(shí)[J].新聞與寫作,2015(5):5-9.endprint
[2]丁璐.政府行為對(duì)旅游公共事件危機(jī)演化的影響研究—以網(wǎng)絡(luò)輿情為視角[J].旅游縱覽,2015(7):27-29.
[3]付業(yè)勤,鄭向敏.旅游網(wǎng)絡(luò)輿情研究體系建構(gòu)研究[J].重慶工商大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015(2):74-82.
[4]付業(yè)勤.旅游危機(jī)事件網(wǎng)絡(luò)輿情研究:構(gòu)成、機(jī)理與管控.[D].泉州:華僑大學(xué),2014.
[5]Wikipedia.Web crawler[EB/OL].(2017-06-11)[2017-12-04].https://en.wikipedia.org/wiki/Web_crawler.
[6]百度百科.HTML[EB/OL].(2017-09-23)[2017-12-04].https://baike.baidu.com/item/HTML/97049?fr=aladdin.
[7]鄭聰.論文公開數(shù)據(jù)[EB/OL].(2017-11-21)[2017-12-04].http://www.pfyz.bid/blog/2017/11/21/5385.
Abstract:The behavior of travelers on public is increasingly dependent on the Web platform with the rapid development of “Internet +” and the widespread popularization of mobile Internet. The resulting mass public opinion data has also become an important indicator to evaluate various elements of tourism. However, because of the large amount of data and the complicated information, it is very difficult to carry out statistical analysis of tourism satisfaction statistics. As a result, resources are wasted. This paper starts with crawler and analysis the current network of public opinion monitoring system of the core technical requirements, according to the technical points, this paper proposes a solution to solve the network public opinion investigation of tourism satisfaction, and then conducts the system construction and collection strategy planning to realize the collection and analysis of travel public opinion network public opinion data, and verifies its feasibility.
Key words:crawler; tourism satisfaction; network public opinionendprint