• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    攀枝花旅游評論及情感分析

    2024-01-27 12:37:51任湘
    現(xiàn)代信息科技 2023年24期
    關(guān)鍵詞:情感分析機器學(xué)習(xí)

    任湘 等

    楊曦??張俊坤??陳堯

    摘? 要:隨著互聯(lián)網(wǎng)進(jìn)入“大數(shù)據(jù)”時代,為了更好地服務(wù)社會,大數(shù)據(jù)將朝向智能化、個性化、商業(yè)化進(jìn)行發(fā)展。隨著網(wǎng)絡(luò)用戶的爆發(fā)性增長,在交流平臺提供了大量文字內(nèi)容數(shù)據(jù)源,實時性評論反映了用戶對于旅游項目各方面的態(tài)度,通過分析用戶的評價獲取用戶需求,根據(jù)需求提供更加優(yōu)質(zhì)的服務(wù)、高效的處理流程,成為分析旅游項目的重要方式。鑒于用戶情感觀點表達(dá)形式極具開放性,文章通過機器學(xué)習(xí)實現(xiàn)對評論的情感分析,從而根據(jù)情感分析研究結(jié)果對攀枝花旅游業(yè)發(fā)展提出科學(xué)合理意見。

    關(guān)鍵詞:情感分析;機器學(xué)習(xí);爬蟲技術(shù)

    中圖分類號:TP181? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)24-0131-04

    Panzhihua Tourism Comments and Emotional Analysis

    REN Xiang, YANG Xi, ZHANG Junkun, CHEN Yao

    (School of Mathematics and Computers (Big Data Science), Panzhihua University, Panzhihua? 617000, China)

    Abstract: As the Internet enters the era of “Big Data”, in order to better serve the society, Big Data will develop towards intellectualization, personalization and commercialization. With the explosive growth of network users, a large number of text content data sources have been provided on the communication platform. Real-time comments reflect users' attitudes towards various aspects of tourism projects. Obtaining user needs through analyzing user evaluation, providing more high-quality services and efficient processing process according to needs, have become an important way to analyze tourism projects. In view of the openness of the expression form of users' emotional views, this paper realizes the emotional analysis of comments through Machine Learning, and puts forward scientific and reasonable opinions on the development of Panzhihua tourism industry according to the research results of emotional analysis.

    Keywords: emotional analysis; Machine Learning; crawler technology

    0? 引? 言

    自媒體的時代,消息傳播異常迅猛,用戶熱衷于使用自媒體分享自己的感官體驗,網(wǎng)絡(luò)輿論導(dǎo)向?qū)τ诼糜巍⒉惋?、航空等領(lǐng)域愈發(fā)重要。由于網(wǎng)絡(luò)評論的時效性強,若不實時掌控用戶輿論導(dǎo)向,及時對用戶訴求進(jìn)行響應(yīng)和解決,將對旅游項目的形象形成負(fù)面影響,影響客流量造成經(jīng)濟(jì)損失。

    與此同時,網(wǎng)絡(luò)評論內(nèi)容以及網(wǎng)絡(luò)評分高低也是影響用戶輿論導(dǎo)向的重中之重,網(wǎng)絡(luò)評論是分享用戶體驗的網(wǎng)絡(luò)文學(xué)載體,在實際情況中,用戶表達(dá)的多樣性以及隱性表達(dá)使得獲取反饋信息并不理想。而目前平臺上的網(wǎng)絡(luò)評分,是根據(jù)各方面服務(wù)進(jìn)行星級選擇,從而形成“好”“中”“差”這三類別評價,而實際生活中,用戶可能因為某些原因進(jìn)行好評,但實際文字評論中表現(xiàn)了負(fù)面情緒,或者提出了優(yōu)化建議,若僅僅片面地通過三個類別判斷用戶滿意度,將無法發(fā)現(xiàn)問題并進(jìn)行改善。

    根據(jù)上述信息可知,如果只從好評和高分從而得出用戶滿意度結(jié)論,不深度挖掘用戶評價中反饋的信息,往往達(dá)不到預(yù)期的效果,用戶真正訴求得不到相應(yīng)處理。因此,本文在獲取攀枝花旅游評論數(shù)據(jù)的基礎(chǔ)上,設(shè)定情感傾向詞,根據(jù)語義使用線性代數(shù)和統(tǒng)計分析的方法,建立基于事理圖譜文本的情感傾向分析,從而對用戶評論進(jìn)行情感傾向挖掘,幫助旅游項目發(fā)現(xiàn)旅游路線、景區(qū)交通、員工服務(wù)、酒店設(shè)施等存在的不足之處,及時采取響應(yīng)的補救措施,改善景區(qū)各方面服務(wù),提高用戶滿意度,完善景區(qū)建設(shè),從而引導(dǎo)積極的輿論導(dǎo)向,產(chǎn)生更大的經(jīng)濟(jì)效益。

    1? 處理流程

    本文通過爬蟲進(jìn)行數(shù)據(jù)獲取,使用pandas庫進(jìn)行初步的數(shù)據(jù)處理,根據(jù)需要選取不同的詞向量化方式ConutVector或TF_IDF后傳入模型進(jìn)行情感分析。流程圖如圖1所示。

    2? 數(shù)據(jù)來源

    數(shù)據(jù)來源為使用Python爬取攜程旅行網(wǎng)上攀枝花旅游景點的評論數(shù)據(jù),由于攀枝花旅游景點數(shù)量較多,因此使用seleium自動化工具對數(shù)據(jù)進(jìn)行爬取,防止IP地址被封禁。其關(guān)鍵函數(shù)實現(xiàn)如下:

    def open_browser():

    chrome = webdriver.Chrome()

    url ="https://you.ctrip.com/sight/pzhu/s0-p1.html"

    chrome.maximize_window()

    chrome.get(url)

    time.sleep(1)

    return chrome

    def clicks(chrome):

    element_A = chrome.find_element_by_xpath()

    webdriver.ActionChains(chrome).move_to_element(element_A).perform()

    chrome.find_element_by_xpath().click()

    time.sleep(1)

    # 切換窗口

    windows = chrome.window_handles

    chrome.switch_to.window(windows[-1])

    # 下拉窗口及點擊

    element_new = chrome.find_element_by_xpath()

    webdriver.ActionChains(chrome).move_to_element(element_new).perform()

    # 選擇排序方式

    chrome.find_element_by_xpath().click()

    time.sleep(0.5)

    3? 數(shù)據(jù)處理

    3.1? 數(shù)據(jù)預(yù)處理

    首先我們發(fā)現(xiàn)原始數(shù)據(jù)中顧客評分采用0~5分制,為便利后續(xù)處理,根據(jù)原始評分生成一個新的對應(yīng)標(biāo)簽。新標(biāo)簽將評分低于3分標(biāo)為-1,表示游客對該景點評價較低;3分標(biāo)為0,表示游客對該景點評價較為一般;而高于3分標(biāo)為1,表示游客對該景點較為滿意。處理后的部分?jǐn)?shù)據(jù)如圖2所示。

    部分實現(xiàn)代碼如下:

    # 生成標(biāo)簽

    label = []

    for grade in science["grades"]:

    if int(grade[0]) < 3:

    label.append(-1)

    elif int(grade[0]) == 3:

    label.append(0)

    else:

    label.append(1)

    science["label"] =? label

    science = science[["comments", "label"]]

    3.2? 分詞處理

    由于中文字符間邊界不明顯,因此需要對待評論內(nèi)容進(jìn)行分詞處理。這里使用Python中jieba中文分詞組件。jieba分詞運用到了數(shù)據(jù)結(jié)構(gòu)里的trie(前綴樹)對詞語進(jìn)行高效的分類,便于查找,最后將生成所給句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖,主要采用了動態(tài)規(guī)劃來找出詞頻最大切分組合;對于未登錄詞,采用了基于漢字成詞能力的HMM模型,采用Viterbi算法進(jìn)行計算,將詞語分為開始、中間、結(jié)束和單獨成詞四種分類來自動分詞。jieba共有三種分詞模式:精確模式、全模式、搜索引擎模式??紤]到游客表達(dá)方式的多樣性以及重復(fù)性,為了提高分詞的準(zhǔn)確性以及解決語句中的歧義,并且不存在冗余單詞,本文采用jieba分詞中精準(zhǔn)模式,將語句用最精確的方式分開,相關(guān)函數(shù)為jieba.cut(),并返回一個可迭代的數(shù)據(jù)類型。部分內(nèi)容如圖3所示。

    # 分詞及文本處理

    for line in science["comments"]:

    #文本中的中文符號和英文符號

    line = re.findall(r"[\u4e00-\u9fa5]", line)

    line = "".join(line)

    # 精準(zhǔn)模式分詞

    line = jieba.cut(line)

    line = " ".join(line)

    comment.append(line)

    science["comments"] = comment

    science.to_csv("comments/science_jieba.csv")

    3.3? 特征提取

    特征提取是機器學(xué)習(xí)的重要步驟,其目的是在最小維數(shù)特征空間中異類模式點相距較遠(yuǎn)(類間距離較大),而同類模式點相距較近(類內(nèi)距離較?。?,從而獲得一組“少而精”且分類錯誤概率小的分類待征。本文嘗試了兩種算法進(jìn)行特征提取,分別通過使用TF-IDF和CountVectorizer對分詞后的中文語句做向量化處理。TF-IDF與一個詞語在文章中的出現(xiàn)次數(shù)成正比,與該詞在整個文章中的出現(xiàn)次數(shù)成反比,并且詞語對文章的重要性越高,它的TF-IDF值就越大。TF-IDF的計算分為三步:

    1)計算詞頻:

    2)計算文檔逆頻率:

    3)計算TF-IDF:

    為了保證模型的預(yù)測和良好的泛化能力,對相應(yīng)參數(shù)進(jìn)行設(shè)定。并且使用CountVectorizer時,追加對參數(shù)token_pattern進(jìn)行一定設(shè)定,去除了干擾數(shù)據(jù),提高了數(shù)據(jù)的精準(zhǔn)性。

    3.3.1? 使用TF-IDF進(jìn)行特征提取

    部分代碼如下:

    #開始使用TF-IDF進(jìn)行特征的提取,對分詞后的中文語句做向量化。

    TF_Vec=TfidfVectorizer(max_df=0.8,

    min_df = 3,

    stop_words=frozenset(stopwords)

    #擬合數(shù)據(jù),將數(shù)據(jù)準(zhǔn)轉(zhuǎn)為標(biāo)準(zhǔn)形式,一般使用在訓(xùn)練集中

    train_x_tfvec=TF_Vec.fit_transform(train_x)

    #通過中心化和縮放實現(xiàn)標(biāo)準(zhǔn)化,一般使用在測試集中

    test_x_tfvec=TF_Vec.transform(test_x)

    3.3.2? 使用CountVectorizer()進(jìn)行特征提取

    部分代碼如下:

    #開始使用CountVectorizer()進(jìn)行特征的提取。它依據(jù)詞語出現(xiàn)頻率轉(zhuǎn)化向量。并且加入了去除停用詞

    CT_Vec=CountVectorizer(max_df=0.8,#去除超過這一比例的文檔中出現(xiàn)的關(guān)鍵詞(過于平凡)。

    min_df = 3,#去除低于這一數(shù)量的文檔中出現(xiàn)的關(guān)鍵詞(過于獨特)。

    token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b', #使用正則表達(dá)式,去除想去除的內(nèi)容

    stop_words=frozenset(stopwords))#加入停用詞)

    #擬合數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)形式,一般使用在訓(xùn)練集中

    train_x_ctvec=CT_Vec.fit_transform(train_x)

    #通過中心化和縮放實現(xiàn)標(biāo)準(zhǔn)化,一般使用在測試集中

    test_x_ctvec=CT_Vec.transform(test_x)

    3.4? 劃分?jǐn)?shù)據(jù)集

    本文將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)按照2:8的比例進(jìn)行分配,訓(xùn)練數(shù)據(jù)用于訓(xùn)練機器學(xué)習(xí)算法,測試集用于檢測訓(xùn)練數(shù)據(jù)所訓(xùn)練出模型的效果,并且采用了sklearn中的model_selection中的train_test_split()方法,對訓(xùn)練數(shù)據(jù)進(jìn)行分割。劃分訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)代碼如下:

    train_x, test_x, train_y, test_y = model_selection.train_test_split(science["comments"], science["label"], test_size=0.2, random_state=0, shuffle=False)

    其中本研究將隨機關(guān)閉,是為了當(dāng)訓(xùn)練出現(xiàn)過擬合或其他情況時便于復(fù)現(xiàn)。

    4? 模型構(gòu)建

    本文在構(gòu)建模型時,因部分參數(shù)不確定,進(jìn)行模型優(yōu)化時,模型將自行在訓(xùn)練過程中確定參數(shù),最終分別得到經(jīng)過兩種方法得到的實驗結(jié)果。如表1所示,其中,使用ConutVector轉(zhuǎn)化的向量作為特征傳入模型后,使用模型優(yōu)化的程序時間更長,相應(yīng)的測試集準(zhǔn)確率高于使用TF_IDF的準(zhǔn)確率。

    5? 結(jié)果分析

    本文通過模型發(fā)現(xiàn)游客評論主要情感體現(xiàn)有以下詞語:“景色優(yōu)美、文化底蘊、震撼、游客滯留、消費高、商品貴、避暑勝地”,從“景色優(yōu)美”“震撼”等詞語分析出游客對于攀枝花景色的正面情緒,游客需求可以體現(xiàn)在其文本評論中,如“游客滯留”“消費高”此類詞語表現(xiàn)游客對于交通及商品消費的消極和負(fù)面情緒,因此有關(guān)部門應(yīng)當(dāng)根據(jù)此類詞語采取相應(yīng)措施,滿足游客需求,進(jìn)一步提高公共文化服務(wù)的效能。部分詞語如圖4所示。

    6? 結(jié)? 論

    總的來說,本文在特征提取過程中,CountVectorizer只考慮詞匯在文本中出現(xiàn)的頻率,TfidfVectorizer在考慮詞頻的基礎(chǔ)上,還考慮了詞匯在文本中的數(shù)量,在數(shù)據(jù)充足的情況下,效果將會更顯著。而本文受困于評論數(shù)據(jù)單一并且不充足,若有更充足的攀枝花旅游評論數(shù)據(jù),該預(yù)測值的偏差將會更小。并且本文針對評論情感分析的實現(xiàn)方法,也可應(yīng)用在其他領(lǐng)域,例如對產(chǎn)品體驗評論、餐飲服務(wù)評論等進(jìn)行用戶情感分析,收集結(jié)果后對產(chǎn)品、服務(wù)等進(jìn)行調(diào)整。該方式能更好地滿足游客精神文化服務(wù)需求,從而進(jìn)一步帶動攀枝花城市建設(shè),促進(jìn)城市發(fā)展。

    參考文獻(xiàn):

    [1] 何雪琴,楊文忠,吾守爾·斯拉木,等.融合句法規(guī)則和CNN的旅游評論情感分析 [J].計算機工程與設(shè)計,2019,40(11):3306-3312.

    [2] 楊英.小空間尺度區(qū)域旅游資源及其評價:以香港為例 [J].產(chǎn)經(jīng)評論,2012,3(1):104-110.

    [3] 薄湘平,張慧.旅游服務(wù)補救質(zhì)量的綜合模糊評價方法探討 [J].南開管理評論,2005(4):12-13+16.

    [4] 劉逸,保繼剛,朱毅玲.基于大數(shù)據(jù)的旅游目的地情感評價方法探究 [J].地理研究,2017,36(6):1091-1105.

    [5] 趙忠君,孫霞.基于扎根理論的出境游游客滿意度影響因素研究——以途牛旅游網(wǎng)游客點評為例 [J].湘潭大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015,39(5):87-91.

    [6] 朱峰,呂鎮(zhèn).國內(nèi)游客對飯店服務(wù)質(zhì)量評論的文本分析——以e龍網(wǎng)的網(wǎng)友評論為例 [J].旅游學(xué)刊,2006(5):86-90.

    [7] 高靜,章勇剛,莊東泉.國內(nèi)旅游者對海濱旅游城市的感知形象研究——基于對攜程網(wǎng)和同程網(wǎng)網(wǎng)友點評的文本分析 [J].消費經(jīng)濟(jì),2009,25(3):62-65.

    [8] 張珍珍,李君軼.旅游形象研究中問卷調(diào)查和網(wǎng)絡(luò)文本數(shù)據(jù)的對比——以西安旅游形象感知研究為例 [J].旅游科學(xué),2014,28(6):73-81.

    作者簡介:任湘(2002—),女,漢族,四川綿陽人,本科在讀,研究方向:機器學(xué)習(xí)。

    收稿日期:2023-05-06

    基金項目:四川省社會科學(xué)重點研究基地中國酒史研究中心資助項目(ZGJS2022-07)

    猜你喜歡
    情感分析機器學(xué)習(xí)
    基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
    基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
    基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
    基于詞典與機器學(xué)習(xí)的中文微博情感分析
    在線評論情感屬性的動態(tài)變化
    預(yù)測(2016年5期)2016-12-26 17:16:57
    基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
    基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
    時代金融(2016年27期)2016-11-25 17:51:36
    前綴字母為特征在維吾爾語文本情感分類中的研究
    基于支持向量機的金融數(shù)據(jù)分析研究
    機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
    望奎县| 晋宁县| 监利县| 恩施市| 平陆县| 永嘉县| 古交市| 南郑县| 黄梅县| 昌乐县| 莱州市| 伊金霍洛旗| 扶沟县| 承德县| 石阡县| 虹口区| 临清市| 普定县| 叶城县| 延津县| 高尔夫| 电白县| 明光市| 绥江县| 文化| 芜湖市| 伊通| 微博| 玛纳斯县| 安吉县| 弋阳县| 大洼县| 襄汾县| 永康市| 逊克县| 华亭县| 兰考县| 栾川县| 革吉县| 石嘴山市| 永康市|