姚靖
(上海體育學院經(jīng)濟與管理學院 上海 200438)
基于當前的體育文本分析發(fā)展現(xiàn)狀,本研究將采用LDA主題模型和文本情感分析的算法對賽事的文本評價信息進行分析,以參賽者感知的視角分析馬拉松賽事的參與感受,提取并歸納文本中的主體信息,從而反映出當前賽事參賽者對于賽事的感知方面以及感知程度。
使用Python程序語言編寫對應的網(wǎng)絡信息挖掘代碼,對挖掘獲取的馬拉松賽事文本信息進行分詞與清洗,隨后運用Python的LDA模塊對處理完的基礎數(shù)據(jù)實現(xiàn)LDA主題模型的建模,獲取參賽者對于賽事感知因素的主題類別。同時運用Python的SnowNLP文本分析模塊對評論文本進行情感傾向的分析,獲取不同感知主題分類下的情感傾向,從而得以分析并提出對應的改進對策。
LDA是一種非監(jiān)督的機器學習技術,能夠將“文檔-詞匯”的高維空間映射到“文檔—主題”和“主題—詞匯”的低維空間,具有強大的降維能力。LDA主題生成模型的拓撲結構中,每一篇文檔代表了一些主題分類后該文檔在所有主題上的一個概率分布,而每一個主題又代表了在文本語料的眾多詞匯上所構成的一個概率分布。
對賽事的評價文本進行情感分析可以快速鑒別大眾對于賽事的整體的感知程度。本研究將采用Python編程語言的SnowNLP文本分析模塊對文本評論數(shù)據(jù)進行處理,SnowNLP模塊利用統(tǒng)計學中的樸素貝葉斯原理對數(shù)據(jù)進行訓練和預測。以此可以分析杭州馬拉松評論文本的整體情感傾向,同時也能用于分析不同主題分類下評論信息的情感傾向,從中挖掘出不同感知下的賽事運營策略。
本文采用Python程序語言編寫對應的網(wǎng)絡信息挖掘代碼對愛燃燒網(wǎng)中杭州馬拉松的評價信息進行抓取并保存在Excel文檔中。共計抓取獲得有效文字評價信息1198條。保存字段為用戶ID與用戶評價文字信息。
從愛燃燒網(wǎng)抓取的杭馬參與者評價信息中存在著部分英文無序信息與數(shù)字信息,為了去除無法用作分析的噪聲數(shù)據(jù),選擇文本長度大于3個字符的評價信息作為待處理的有效文本信息,共計1153條評論文本。
本文選用Python程序語言Jieba中文分詞包對文本進行分詞處理,該開源工具模塊據(jù)有高精度與易用性的特點。經(jīng)過多次重復測試后,在常用的網(wǎng)絡停用詞表中增加了 “結束”、“科技”、“一屆”等詞匯,最終形成專用的主題模型停用詞表。
對經(jīng)過清洗處理的1153條文本評論信息進行LDA主題建模,從主題詞條數(shù)K=5時開始進行模型構建訓練,最終確定主題詞條參數(shù)K=10,迭代次數(shù)為1000次,以每個主題詞條中的前10個詞語確定主題詞條。在經(jīng)過專家咨詢、知網(wǎng)搜索、指標比較后,總結出的主題詞條如下所示:
賽道感受:賽道、杭馬、風景、公里、組織……很大、可惜;
賽道風景:賽道、杭州、風景、西湖、熱情……大橋、喜歡;
外在影響因素:半程、天氣、重點、奔跑、選手……雨中、遺憾;
服務補給:補給、賽道、志愿者、半程、組織……擁堵、擁擠;
賽事組織:組織、賽事、補給、服務、賽道……獎牌、杭州;
整體體驗:比賽、組織、明年、完美、值得……體驗、期待;
自我總結:參加、馬拉松、杭馬、第一次、半馬……賽事、杭州;
賽事氛圍:杭馬、pb、完賽、風景、首馬……順利、還好;
參與感受:杭馬、滿意、希望、報名、成績……杭州、努力;
奔跑感受:公里、半程、成績、完賽、全程……計時、氣氛。
從LDA主題模型情況可知,杭州馬拉松參賽者的表達感知從賽道、服務、組織、氛圍、自身等多個方面延伸,具有多樣性與復雜性。“補給”、“志愿者”、“能量”等詞則是描述了參賽者對杭州馬拉松的服務與補給的感知,但從其中的感知傾向詞匯看,對于補給服務方面存在一定的負面評價。而在賽事組織方面,包括了對 “組織”、“獎牌”、“組委會”、“體驗”等多方面的反應。而從主題六到主題十的詞條主要涵蓋了杭馬參賽者對于自身感受的反應,包括了對奔跑身體的感知,對賽事氛圍的感知,對參賽結果的總結,對于賽事參與的感受以及整體的體驗總結。這5個主題詞條中,出現(xiàn)的情感傾向的詞匯多以正向為主,這表明杭馬為參賽者帶來了較好的參賽體驗。
從以上的主題詞條分類結果可知,參賽者對于杭州馬拉松的評價主要聚集在10個方面,比普通的馬拉松賽事參與者評價指標多出了對于賽道風景、奔跑感受、外在影響因素的主題。這為之后研究馬拉松賽事參與者的評價指標提供了相對的依據(jù)。
使用Python編程語言的SnowNLP文本分析模塊對處理后的1153條文本評論信息進行情感傾向分析。根據(jù)實際情況將評論文本的情感傾向概率區(qū)間分為3種。其中概率時,視為積極傾向的文本;概率,視為中性傾向文本;概率時,視為消極傾向的文本。
最終結果如圖1評論主題下的情感傾向分類柱狀圖柱狀圖所示:
圖1 評論主題下的情感傾向分類柱狀圖
10個對應主題分類的積極傾向平均值約為67%,皆達到合格水準之上,這表明杭州馬拉松參與者對于杭州馬拉松的整體印象與自我感受是明顯偏向于積極方向的。其中積極評論占比最多的主題為賽道風景,占比達到近90%;積極評論占比最少的主題為奔跑感受,占比約為48%,并未超過半數(shù)。
根據(jù)前文的主題分類情況,文本評論主要區(qū)分為賽事感知與自我感知兩類。在參與者的賽事感知評論中,積極傾向占比的平均值約為63%。其中賽道風景主題為參與者對賽事感知表達積極傾向評論的首位,積極傾向占比達到了89%,可知杭州馬拉松的沿途賽道風景靚麗,作為休閑競技性質的賽事為參與者提供了較好的參與感受。但其他四個主題與賽道風景主題的差距較大,積極傾向約在50%-60%之間,賽事組織與賽道感受的評論積極傾向在60%左右,服務補給與外在影響因素的評論積極傾向在50%左右。
在參與者的自我感知評論中,積極傾向占比的平均值約為71%,略高于參賽者的賽事感知。其中參與感受主題的評論積極傾向占比最高達到81%,自我總結主題、整體體驗主題與賽事氛圍主題的積極情感傾向皆在70%之上。其表明杭州馬拉松賽事的參與者在整體的賽事氛圍、自我感覺上表達出較為積極的態(tài)度,賽事的舉行給與參賽者良好的體驗,提升了參賽者的幸福感與認可度,同時較好的自身感受也將促成杭州馬拉松的整體評價與參與度的上升。另一方面,參賽者在奔跑感受主題上的積極傾向低于50%,表明馬拉松仍是一項極限競技運動,其需要參賽者的恒心與耐力來支撐其獲得較好的成績??傮w而言,杭州馬拉松的參與者在賽事感受與自我感受中均表現(xiàn)出較積極的態(tài)度,但同時存在一定的消極評論,也有助于杭州馬拉松在未來的運營與組織的改進。
根據(jù)研究結果表明,杭州馬拉松在賽道風景布置上給與參賽者的體驗較好,但在組織、服務方面仍有改善的空間。而在參賽者的自我感受中除了奔跑體驗外皆有較好的參賽體驗。針對以上的研究結果可以給與一定的賽事改善建議:
(1)完善賽事組織,提升賽前、賽中與賽后的組織體驗;
(2)加強賽中、賽后服務補給,完善補給數(shù)量;
(3)提高工作人員與志愿者的專業(yè)程度;
(4)改進賽道安排,提升賽道感受;
(5)提升整體體驗,擴大宣傳力度。
本文采用LDA主題模型和文本情感分析的算法對杭州馬拉松的網(wǎng)絡文本評價信息進行分析,得到了10條相關主題詞條。并根據(jù)算法結果將主題詞條分為參與者的賽事感受與參與者的自我感受。經(jīng)過文本情感分析后可知參與者的賽事感知中,賽道風景的評論積極傾向最高;賽道組織、賽道感受、服務補給與外在影響因素主題的評論積極傾向不高,皆為60%左右,存在一定的改善空間。在參賽者的自我感受中,參與感受、自我總結、整體體驗、賽事氛圍主題的評論積極傾向皆在70%之上,表明杭州馬拉松整體的參與感受維持在一個較高的水準;而奔跑感受主題的積極程度較低,需要賽事運營者予以關注。