• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘和互聯(lián)網(wǎng)評(píng)論探索貧困地區(qū)的景點(diǎn)特點(diǎn)

      2020-05-23 15:32:06鄒冠如羅毓麟

      鄒冠如 羅毓麟

      【摘 要】為了促進(jìn)貧困地區(qū)旅游業(yè)的發(fā)展,本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取到景點(diǎn)評(píng)論數(shù)據(jù),通過(guò)文檔向量化方法Doc2Vec生成文本向量,應(yīng)用改進(jìn)后的基于歐幾里得距離的聚類算法K-mean將文本向量進(jìn)行三個(gè)類簇的聚類,最后從三個(gè)類簇中獲取到評(píng)論的大文本,采用TextRank算法,對(duì)大文本中若干個(gè)句子進(jìn)行打分排序,獲取到評(píng)分最高的句子,即評(píng)論大文本中最為核心的句子。

      【關(guān)鍵詞】Doc2Vec;K-mean;TextRank算法

      一、前言

      隨著社會(huì)全面小康的時(shí)代的到來(lái),作為人們休閑娛樂(lè)方式之一的旅游得到了飛速的發(fā)展,旅游越來(lái)越成為人們的一種時(shí)尚生活方式。而我國(guó)由于歷史和自然的原因,各地區(qū)之間和地區(qū)內(nèi)部的經(jīng)濟(jì)發(fā)展很不平衡,因此通過(guò)旅游產(chǎn)業(yè)帶動(dòng)貧困地區(qū)的經(jīng)濟(jì)發(fā)展是一項(xiàng)利于地區(qū)脫貧的一大措施。但是網(wǎng)上各種旅游平臺(tái)的信息量太大,不利于游客迅速抓到景點(diǎn)的亮點(diǎn),對(duì)于貧困地區(qū)的景點(diǎn)來(lái)說(shuō)更是如此。也正是如此,阻礙了貧苦地區(qū)的游客數(shù)量的增長(zhǎng)。而事實(shí)上,大部分的貧困地區(qū)均具有優(yōu)質(zhì)的環(huán)境資源和廉價(jià)實(shí)惠的農(nóng)產(chǎn)品。因此本文以河源五大為省級(jí)重點(diǎn)扶貧的特貧困縣之一的紫金縣的御臨門(mén)景區(qū)為案例,使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)、數(shù)據(jù)挖掘技術(shù)和自然語(yǔ)言處理技術(shù)打造提煉景點(diǎn)特點(diǎn)模型,使得游客獲取到更多貧困地區(qū)的旅游景點(diǎn)信息,為自己打造更合適、性價(jià)比更高的旅游線路,并且?guī)?dòng)貧困地區(qū)經(jīng)濟(jì)的發(fā)展,助其更快脫貧。

      二、相關(guān)技術(shù)

      1.網(wǎng)絡(luò)爬蟲(chóng)

      爬蟲(chóng)技術(shù)是一種按照一定規(guī)則,自動(dòng)抓取信息的程序或腳本[1]。我們可以在遵守網(wǎng)頁(yè)協(xié)議的前提上爬取到攜程網(wǎng)、美團(tuán)網(wǎng)和大眾點(diǎn)評(píng)等的景點(diǎn)、酒店評(píng)論信息,為我們的綜合更全方面的評(píng)價(jià)提供了優(yōu)秀的數(shù)據(jù)基礎(chǔ)。

      2.數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘是使用現(xiàn)在的算法技術(shù)從數(shù)據(jù)獲取到數(shù)據(jù)的深層信息的探索過(guò)程。近年來(lái),數(shù)據(jù)挖掘引起了各大行業(yè)的極大關(guān)注,其主要原因是存在大量去敏數(shù)據(jù),可以廣泛使用,想要通過(guò)計(jì)算機(jī)和數(shù)學(xué)將這些數(shù)據(jù)轉(zhuǎn)換成有用的商業(yè)信息,產(chǎn)生數(shù)據(jù)的直接價(jià)值。

      3.自然語(yǔ)言處理

      自然語(yǔ)言處理是人工智能領(lǐng)域和計(jì)算機(jī)科學(xué)領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)計(jì)算機(jī)與人之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法[2]。通過(guò)特別的方法,讓計(jì)算機(jī)也能聽(tīng)懂人類語(yǔ)言,這一技術(shù)在本文是至關(guān)重要的,計(jì)算依賴與計(jì)算機(jī),而計(jì)算機(jī)則需要此項(xiàng)技術(shù)才能明白文本數(shù)據(jù)是在表達(dá)什么。

      三、最具代表性的評(píng)論文本的自動(dòng)提煉

      1.基于Doc2Vec模型的句子向量化

      Doc2Vec方法是一種無(wú)監(jiān)督算法,能從文本(例如:句子、段落或文檔)中學(xué)習(xí)得到固定長(zhǎng)度的特征向量表示。在Doc2Vec中,每一句話和每一個(gè)詞語(yǔ)都是唯一的向量,假設(shè)有兩個(gè)矩陣,第一個(gè)矩陣X的列表示的是文本中每個(gè)句子的向量,第二個(gè)矩陣Y的列表示的是每個(gè)句子的詞的向量。每次從一句話中滑動(dòng)采樣固定長(zhǎng)度的詞,取其中一個(gè)詞作預(yù)測(cè)詞,其他的作為輸入詞。將本句話的向量和本次采樣的詞向量相加求平均或者累加構(gòu)成新的向量Z,Z便作為神經(jīng)網(wǎng)絡(luò)輸入層的輸入神經(jīng)元,進(jìn)而使用向量Z預(yù)測(cè)此次窗口的預(yù)測(cè)詞[3]。

      2.機(jī)器學(xué)習(xí)——K-mean算法

      K-mean聚類算法具體過(guò)程如下:隨機(jī)選擇K個(gè)點(diǎn)作為初始聚類中心,將剩余的每個(gè)點(diǎn)按照距離分配給上述K個(gè)點(diǎn),形成K個(gè)類簇。然后計(jì)算每個(gè)類簇的質(zhì)心,并將其作為下一次迭代的聚類中心,直到滿足停止訓(xùn)練的條件[4](例如函數(shù)收斂或達(dá)到最大迭代次數(shù))。兩點(diǎn)之間的距離計(jì)算方式有歐幾里得距離、余弦距離、曼哈頓距離、切比雪夫距離、Jaccard相似系數(shù)等,本文采用歐幾里得距離計(jì)算方法計(jì)算文本與文本之間的相似度。

      其中,和是表示文本,i和j表示文本的順序,n表示文本的向量維度。

      傳統(tǒng)K-mean算法雖然具有簡(jiǎn)單高效、可解釋性強(qiáng)的優(yōu)點(diǎn),但是K-mean聚類的效果和初始聚類中心(又稱重心)的選取密切相關(guān),如果隨機(jī)選擇重心,容易使算法陷入局部最小值,無(wú)法收斂到全局最優(yōu)。針對(duì)此項(xiàng),本文做出了改進(jìn):通過(guò)多次數(shù)避免隨機(jī)選擇的隨機(jī)性,即是選用多次隨機(jī)初始化,計(jì)算每一次的成本函數(shù),選取成本函數(shù)代價(jià)最小的初始點(diǎn)作為聚類結(jié)果。

      3. TextRank算法概述

      TextRank 算法是一種可以直接用來(lái)對(duì)文本進(jìn)行排序的基于圖的排序算法,其基本思想來(lái)源于谷歌的PageRank算法。而PageRank算法的核心思想是網(wǎng)頁(yè)被更多的網(wǎng)頁(yè)指向連接,則證明此網(wǎng)頁(yè)更重要。如下圖,可以看到被網(wǎng)頁(yè)指向最多的是網(wǎng)頁(yè)D,所以在PageRank中,網(wǎng)頁(yè)D是比其他三個(gè)網(wǎng)頁(yè)更加重要的。

      TextRank 采用的是投票打分機(jī)制,首先對(duì)文本進(jìn)行預(yù)處理,按照詞項(xiàng)或者句子對(duì)基本單元進(jìn)行分割,然后對(duì)預(yù)處理后的文本以項(xiàng)詞或者句子為節(jié)點(diǎn)構(gòu)建圖模型,可以快速的實(shí)現(xiàn)對(duì)單個(gè)文本內(nèi)容中的關(guān)鍵信息進(jìn)行精確提取[5]。

      TextRank 算法抽取摘要句的主要思想是通過(guò)對(duì)文本中句子進(jìn)行打分排序,摘要抽取具體過(guò)程如下:

      (1)預(yù)處理:將要構(gòu)建的文本或文本集分割成句子=[,,...,],構(gòu)建如圖2-2所示的圖,其中為句子集,為邊集,同時(shí)對(duì)句子進(jìn)行分詞、去除停用詞等處理,得到=[,1,,2,...,,n],其中 是保留后的候選關(guān)鍵詞。

      (2)句子相似度計(jì)算:構(gòu)建圖中的邊集,邊的構(gòu)建基于兩個(gè)節(jié)點(diǎn)的重疊信息,給定兩個(gè)句子和,根據(jù)以下公式進(jìn)行相似度計(jì)算:

      通過(guò)公式(1)計(jì)算得到兩個(gè)句子相似度,如果相似度大于提前設(shè)定的閾值,那么j句子i和句子j就含有相同的語(yǔ)義信息并且一條邊將兩個(gè)節(jié)點(diǎn)連接起來(lái),邊的長(zhǎng)度為兩個(gè)節(jié)點(diǎn)的相似度,相似度越大邊越長(zhǎng);

      (3)句子權(quán)重計(jì)算:根據(jù)公式(a),迭代計(jì)算各句子的得分;

      (4)抽取摘要句:將(b)得到的句子按照得分多少進(jìn)行從高到低排序。

      (5)形成摘要:按照一定的壓縮比(一定的長(zhǎng)度或者字?jǐn)?shù))對(duì)排序后的句子抽取組成摘要[6]。

      四、實(shí)驗(yàn)過(guò)程

      1.數(shù)據(jù)收集。本文爬取關(guān)于河源市景點(diǎn)的多個(gè)平臺(tái)的景點(diǎn)評(píng)論信息,如美團(tuán)網(wǎng)、攜程網(wǎng)等,最大限度的整合同一景點(diǎn)的互聯(lián)網(wǎng)上的所有評(píng)論。

      2.數(shù)據(jù)預(yù)處理。對(duì)爬取下來(lái)的數(shù)據(jù)進(jìn)行格式上的清洗和整理。

      3.向量化文本。使用Doc2Vec技術(shù)將每一個(gè)文本轉(zhuǎn)換為300維向量(參考谷歌網(wǎng)絡(luò)設(shè)置的維度)。

      4.K-mean聚類。考慮到評(píng)價(jià)主要分為三個(gè)等級(jí),分別是好、中和差,因此本文的目標(biāo)是將向量化后的文本聚類成三個(gè)類簇,并且分別提出三個(gè)類簇的評(píng)論文本,做成三個(gè)拼接后不同族的大文本,為下面TextRank算法做好數(shù)據(jù)準(zhǔn)備。

      5.提取核心評(píng)價(jià)文本。利用第四步準(zhǔn)備好的數(shù)據(jù),使用TextRank排序技術(shù)對(duì)每一類簇的大文本進(jìn)行打分排序,輸出每一個(gè)大文本的分?jǐn)?shù)排名最高的評(píng)論作為三個(gè)該景點(diǎn)評(píng)論中最核心的三個(gè)評(píng)價(jià)。

      五、實(shí)驗(yàn)結(jié)果與分析

      1.實(shí)驗(yàn)結(jié)果

      本文以貧困縣河源市紫金縣御臨門(mén)溫泉度假村為案例,爬取網(wǎng)上評(píng)論651條數(shù)據(jù),使用python語(yǔ)言實(shí)現(xiàn)實(shí)驗(yàn),可以得到在改進(jìn)后的K-mean聚類的三個(gè)類簇中,每個(gè)類簇最核心的評(píng)論分別為:

      “我訂的是別墅、每個(gè)房間都有獨(dú)立的溫泉池,很方便,酒店環(huán)境很好,早餐我個(gè)人覺(jué)得很好,酒店位置有點(diǎn)偏,有大型停車(chē)場(chǎng)?!薄ⅰ翱偟恼f(shuō)來(lái)還是很好的,值得再去的溫泉,房間很衛(wèi)生,周?chē)沫h(huán)境也很好,這次唯一不好的就是安排的房間隔壁就是酒店工人的房間,還是有點(diǎn)吵,特別早上早早就聽(tīng)到服務(wù)員在外面的聲音,還有早餐的種類不算多,還有待改進(jìn)”、“酒店很不錯(cuò),溫泉的池子不少,房間設(shè)施也很好,前臺(tái)服務(wù)態(tài)度很熱情,早餐豐富,停車(chē)方便,就是往酒店的路比較爛”。

      2.實(shí)驗(yàn)結(jié)果分析

      從上述三個(gè)核心評(píng)價(jià)來(lái)看,我們可以明顯的感受到紫金縣御臨門(mén)溫泉度假村整體還是不錯(cuò)的,但是主要存在了兩個(gè)核心問(wèn)題:第一是早餐的種類不夠多,不能滿足大部分人對(duì)這個(gè)價(jià)格的需求,第二是酒店對(duì)噪音的管制仍需繼續(xù)加強(qiáng)。

      單從三個(gè)類簇中排名第一的評(píng)論觀察,對(duì)K-mean算法起到的重要性不夠明顯,所以我們分別從三個(gè)類簇中排名前三的評(píng)論再進(jìn)行分析。

      第0類族排名前三的分別是:

      “我訂的是別墅、每個(gè)房間都有獨(dú)立的溫泉池,很方便,酒店環(huán)境很好,早餐我個(gè)人覺(jué)得很好,酒店位置有點(diǎn)偏,有大型停車(chē)場(chǎng)?!?、“那天去到酒店已經(jīng)晚上八點(diǎn)多了,很幸運(yùn)的幫我們免費(fèi)升級(jí)到別墅區(qū),房間很大,因?yàn)槭窍奶欤〉甑娜瞬皇呛芏?,?dāng)天晚上在房間里泡溫泉還不錯(cuò),第二天去公共溫泉區(qū)就實(shí)在太熱了,大太陽(yáng)曬著水都太燙了,贊一下酒店的早餐送餐服務(wù),按約定時(shí)間準(zhǔn)時(shí)送到房間,而且都熱熱的,總體來(lái)說(shuō)是很愉快的一次住店體驗(yàn)?!?、“酒店環(huán)境,服務(wù),設(shè)施還可以,露天溫泉很干凈,下次還會(huì)再來(lái)?!薄?/p>

      第1類族排名前三的分別是:

      “總的說(shuō)來(lái)還是很好的,值得再去的溫泉,房間很衛(wèi)生,周?chē)沫h(huán)境也很好,這次唯一不好的就是安排的房間隔壁就是酒店工人的房間,還是有點(diǎn)吵,特別早上早早就聽(tīng)到服務(wù)員在外面的聲音,還有早餐的種類不算多,還有待改進(jìn)?!?、“酒店雖然舊了些,但環(huán)境還是不錯(cuò),房?jī)r(jià)有點(diǎn)貴,早餐品種太少,是真溫泉。”、“訂的花園套房,感覺(jué)有點(diǎn)久,自費(fèi)補(bǔ)差價(jià)住進(jìn)了別墅房,環(huán)境很好,溫泉是真的溫泉,服務(wù)一般般,早餐品種不多,房間只有兩瓶水,叫送多一瓶礦泉水還要收費(fèi),2000一晚的房就顯得太小氣了,其他都還不錯(cuò)?!薄?/p>

      第2類族排名前三的分別是:

      “酒店很不錯(cuò),溫泉的池子不少,房間設(shè)施也很好,前臺(tái)服務(wù)態(tài)度很熱情,早餐豐富,停車(chē)方便,就是往酒店的路比較爛?!?、“溫泉度假酒店算范圍大和位置好找地方,下了汕湛高速走十公里左右到了,環(huán)境舒適優(yōu)美東南亞設(shè)計(jì),有天然的溫泉溫眼,水質(zhì)感好,房間設(shè)施齊全,早餐還算可以?!薄ⅰ霸绮蜎](méi)有吃,睡床有點(diǎn)硬,前臺(tái)服務(wù)態(tài)度好,有問(wèn)題都會(huì)幫忙解決,周邊餐廳很多,八刀湯棒棒,衛(wèi)生還行,就是房間燈太暗,晚上房頂也沒(méi)有燈,看電視根本太暗了點(diǎn),溫泉個(gè)別池還可以,有一些水都不太熱?!薄?/p>

      從上述評(píng)論中,可以明顯感受到每一個(gè)類簇表達(dá)的情感不一樣。

      六、結(jié)束語(yǔ)

      本文采用Dov2Vec將評(píng)論向量化,應(yīng)用改進(jìn)的機(jī)器學(xué)習(xí)算法K-mean進(jìn)行三個(gè)類簇的聚類,最后使用TextRank算法對(duì)評(píng)論進(jìn)行排序打分,得到每一個(gè)類簇最核心的評(píng)價(jià)文本,便于幫助游客從琳瑯滿目的互聯(lián)網(wǎng)旅游資源獲取到關(guān)鍵信息。通過(guò)應(yīng)用數(shù)據(jù)挖掘和自然語(yǔ)言處理技術(shù)進(jìn)行整合,更加有助于旅客根據(jù)自身需求和出行要求選擇更合適的景點(diǎn)和線路。同時(shí)有助于對(duì)擁有優(yōu)質(zhì)旅游資源的貧困地區(qū)通過(guò)旅游行業(yè)帶動(dòng)自身經(jīng)濟(jì)發(fā)展,走上脫貧大道,有助于商家根據(jù)核心評(píng)價(jià),對(duì)自己的經(jīng)營(yíng)模式、服務(wù)質(zhì)量和硬件措施等進(jìn)行改進(jìn)且一步提高,從而吸引更加多的游客前往游玩。

      參考文獻(xiàn)

      [1]孫建立,賈卓生. 基于Python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)及內(nèi)容分析研究[C]// 中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2017年第二十一屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集. 2017.

      [2]王澤宇. 自然語(yǔ)言處理概述及應(yīng)用[J]. 通訊世界,2019,26(04):309-310.

      [3]徐馨韜,柴小麗,謝彬,等. 基于改進(jìn)TextRank算法的中文文本摘要提取[J]. 計(jì)算機(jī)工程,2019,045(003):273-277.

      [4]譚佩知. 基于K-MEAN算法的知識(shí)資源聚類研究[J]. 信息技術(shù)與信息化,2015,000(010):191-192.

      [5]曹洋. 基于TextRank算法的單文檔自動(dòng)文摘研究[D]. 南京大學(xué),2016.

      [6]張波飛. 基于LDA和TextRank相結(jié)合的中文多文檔自動(dòng)摘要提取[D]. 內(nèi)蒙古師范大學(xué).

      [7]于娟,劉強(qiáng). 主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J]. 計(jì)算機(jī)工程與科學(xué),2015,37(2):231-237

      [8]JiaweiHan,MichelineKamber,JianPei,等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 機(jī)械工業(yè)出版社,2012.

      [9]張奇,黃萱菁,吳立德. 一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[C]// 第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議. 2004.

      作者簡(jiǎn)介:

      鄒冠如,2000年,男,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。

      羅毓麟,2000年,男,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。

      (作者單位:北京理工大學(xué)珠海學(xué)院)

      青阳县| 无棣县| 中方县| 类乌齐县| 兴国县| 慈利县| 武乡县| 山西省| 霍州市| 十堰市| 铁岭市| 来凤县| 玛沁县| 九江市| 瑞丽市| 锦州市| 霸州市| 灌南县| 西峡县| 江达县| 崇义县| 平凉市| 津市市| 东丰县| 南充市| 南皮县| 金平| 佳木斯市| 瑞丽市| 土默特左旗| 武胜县| 华宁县| 河北区| 固阳县| 乌审旗| 左权县| 黄梅县| SHOW| 大名县| 沙雅县| 长沙市|