陳雅婷 段華斌 李婭菲 宋均
摘??要:隨著有聲讀物市場迅猛發(fā)展,各類有聲讀物內(nèi)容呈現(xiàn)百花齊放的姿態(tài),越來越多的人開始利用碎片化的時間閱讀。本文基于Python針對喜馬拉雅有聲讀物各類型讀物播放量、粉絲數(shù)等進行了可視化分析。
關(guān)鍵詞:python;scrapy;數(shù)據(jù)分析;可視化
由于我國有聲讀物的市場規(guī)模迅速發(fā)展,各類有聲讀物層出不窮,有聲讀物的內(nèi)容邊界逐漸擴大,不斷滿足各類用戶的需求,但是目前對于有聲讀物的類型、閱讀人群等缺少專業(yè)的數(shù)據(jù)分析,本文主要研究有聲讀物的數(shù)據(jù)分析以及可視化的方法,基于Python的Scrapy框架,實現(xiàn)了有聲讀物數(shù)據(jù)的可視化分析。使人們直觀的了解現(xiàn)階段有聲讀物在我國的發(fā)展情況,人們喜愛的有聲讀物是哪些,有聲讀物的作者可以投其所好創(chuàng)造出更多更優(yōu)秀的作品。
1?研究設(shè)計
1.1?數(shù)據(jù)來源
本文的數(shù)據(jù)來源于喜馬拉雅FM2020年1月至6月的有聲讀物數(shù)據(jù),含作品信息、作者信息等相關(guān)數(shù)據(jù),將有聲讀物數(shù)據(jù)進行格式轉(zhuǎn)換,轉(zhuǎn)換成易處理的格式化數(shù)據(jù)并儲存至MySQL數(shù)據(jù)庫中進行可視化分析。本文使用到的數(shù)據(jù)有有聲讀物類型、有聲讀物標題、有聲讀物標簽、有聲讀物播放量、有聲讀物作者姓名、有聲讀物作者粉絲數(shù)。
1.2?研究方法
本論文基于Python的Scrapy爬蟲框架結(jié)合Docker、Splash、xpath、MySQL等技術(shù)結(jié)合實現(xiàn)對于有聲讀物的數(shù)據(jù)分析及可視化。
1.3?框架設(shè)計
系統(tǒng)框架設(shè)計主要分為三部分:網(wǎng)頁數(shù)據(jù)爬取模塊,數(shù)據(jù)處理模塊,數(shù)據(jù)存儲模塊,如圖1所示。網(wǎng)頁數(shù)據(jù)爬取模塊中Scrapy引擎通過控制調(diào)度器、下載器和Spiders各部分相互配合爬取數(shù)據(jù)。然后,通過Spiders中Xpath完成數(shù)據(jù)清洗,將后期要處理的數(shù)據(jù)轉(zhuǎn)化為Item類的屬性交給數(shù)據(jù)處理模塊。最后,數(shù)據(jù)存儲模塊將爬取到的數(shù)據(jù)格式化并儲存至MySQL數(shù)據(jù)庫中,以csv格式導(dǎo)出。
1.4?數(shù)據(jù)處理
本文將采集到的數(shù)據(jù)分為作品信息與作者信息兩類,使用的數(shù)據(jù)集與數(shù)據(jù)結(jié)構(gòu)如表1所示。從數(shù)據(jù)庫中以csv格式導(dǎo)出爬取到的數(shù)據(jù),通過數(shù)據(jù)清洗來處理數(shù)據(jù)中的臟數(shù)據(jù)、異常值、缺失數(shù)據(jù)。數(shù)據(jù)清洗工作在爬蟲框架爬取數(shù)據(jù)之時中已同步完成。在Jupiter中將轉(zhuǎn)換好的數(shù)據(jù)從csv文件中讀取,給這些數(shù)據(jù)加上類型標記,這些標記是根據(jù)數(shù)據(jù)的自身屬性來進行劃分的,將這些數(shù)據(jù)合并為一個DataFrame。最后DataFrame將數(shù)據(jù)依類型分組按照播放量之和進行降序排序,將數(shù)據(jù)依類型分組按照粉絲數(shù)之和進行降序排序,將數(shù)據(jù)依作者分組按照播放量之和進行降序排序,將數(shù)據(jù)依作者分組按照粉絲數(shù)之和進行降序排序。
1.5?任務(wù)抽象
針對采集到的數(shù)據(jù),根據(jù)數(shù)據(jù)的特征提出了下列可視化任務(wù):
任務(wù)1:分析有聲讀物各類型中熱門的標題。
任務(wù)2:分析有聲讀物中受歡迎的類型。
任務(wù)3:分析有聲讀物中受歡迎的作者。
任務(wù)4:分析有聲讀物各類型中熱門的標簽。
2?數(shù)據(jù)可視化分析結(jié)果
2.1?播放量分析
2.1.1?總體播放量分析
總體數(shù)據(jù)按各類型播放量進行排序如圖2所示,有聲書、人文、兒童占據(jù)前三,可見喜愛書籍、人文文化的民眾很多,同時兒童類型的受歡迎程度也反映出中國家長們對孩子在兒童時期的重視。從總體數(shù)據(jù)將作者按照播放量進行排序,有聲的紫金、采采、超級制作三位的作品是播放量最多的有聲讀物創(chuàng)作者。
從總體的播放量分析,將有聲讀物標題作為對象按照播放量繪制詞云圖如圖3所示,最受歡迎的作品一目了然。很容易找出在有聲讀物中獨占鰲頭的是《段子來了》,《摸金天師》和《晚安媽媽睡前故事》的受歡迎程度緊隨其后。
2.1.2各類型播放量分析
各類型的標題按照播放量進行了詞云圖和柱狀圖分析。從有聲書詞云分布(圖4)來看,南京1937、平“語”近人、百家講壇、黨史故事100講等有聲作品播放量最大。人文類的詞云如圖5所示,人文作品百花齊放,其中《古今女子圖鑒》為大家詮釋古今的女子而廣受歡迎,每個人都有個武俠夢,《金庸筆下的情愛江湖》倍受追捧。
除此之外,我國家長們對兒童閱讀越來越重視。兒童類詞云圖如圖6所示。家長們對孩子的開始閱讀年齡也是逐漸的在降低,胎教普遍流行,睡前故事、童話故事、兒童文學(xué)對于有兒童的家長們來說非常受歡迎。
2.2?粉絲量分析
總體數(shù)據(jù)將各類型按照粉絲量進行排序如圖7所示,找出最受歡迎的前三類依次是相聲、人文、有聲書,兒童類緊隨其后。總體數(shù)據(jù)將作者按照粉絲量進行排序如圖8所示,無獨有偶“德云社郭德綱”是最受歡迎的創(chuàng)作者。結(jié)合之前按照播放量排序的結(jié)果,可以得出相聲、人文、有聲書、兒童這四類從各方面來看無疑是最受歡迎的類型。
3?結(jié)語
針對有聲讀物的類型和閱讀人群等缺少專業(yè)數(shù)據(jù)統(tǒng)計、分析,不利于有聲讀物網(wǎng)站或行業(yè)的運營。本文通過搭建基于Python的Scrapy爬蟲框架結(jié)合了多種工具及Python庫,從網(wǎng)絡(luò)爬取數(shù)據(jù),再進行數(shù)據(jù)清洗處理,使用詞云圖和柱狀圖將數(shù)據(jù)可視化。使人們更直觀的了解現(xiàn)階段有聲讀物在我國的發(fā)展情況,人們喜愛的有聲讀物是哪些。通過數(shù)據(jù)分析幫助有聲讀物平臺及創(chuàng)作者能夠創(chuàng)造出更優(yōu)秀的作品,贏得聽眾們的喜愛,增加市場價值。
參考文獻:
[1]陸樹芬.基于Python對網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J].電腦編程技巧與維護,?2019(02):26-27+51.
[2]何遠宏.基于Python語言的Web數(shù)據(jù)挖掘研究[J].計算機產(chǎn)品與流通,?2019(01):112.
[3]羅咪.基于Python的新浪微博用戶數(shù)據(jù)獲取技術(shù)[J].電子世界,?2018(05):138-139.
基金項目:國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(201910551031)
作者簡介:陳雅婷(2002—???),女,湖南株洲人,本科在讀,研究方向:大數(shù)據(jù)應(yīng)用;李婭菲(1984—???),女,湖南永州人,碩士,實驗師,研究方向:人工智能;宋均(1999—???),男,湖南溆浦人,本科在讀,研究方向:網(wǎng)絡(luò)安全及應(yīng)用。
*通訊作者:段華斌(1981—???),女,湖北荊門人,碩士,講師,研究方向:大數(shù)據(jù)應(yīng)用研究,網(wǎng)絡(luò)安全。