文/揚(yáng)州大學(xué)社會(huì)發(fā)展學(xué)院 馬夢(mèng)燁;華中師范大學(xué)信息管理學(xué)院 王涵
豆瓣是目前網(wǎng)上對(duì)于圖書(shū)信息收錄最全的網(wǎng)站,圖書(shū)評(píng)論都直接由用戶(hù)提供(User-generated content,UGC),用戶(hù)對(duì)圖書(shū)的記錄是:評(píng)分、貼標(biāo)簽、寫(xiě)短評(píng)等等。豆瓣的圖書(shū)評(píng)分可以最直觀(guān)地幫助用戶(hù)進(jìn)行圖書(shū)挑選,但由于用戶(hù)愛(ài)好不同、傾向不同,評(píng)分仍會(huì)帶有一部分主觀(guān)因素,不能做到絕對(duì)客觀(guān)。因此,本文提出基于Python的數(shù)據(jù)可視化分析研究方法,對(duì)標(biāo)簽為“金融”的豆瓣圖書(shū)進(jìn)行了更深入的分析,為讀者和用戶(hù)如何選取金融類(lèi)圖書(shū)提供指導(dǎo)和建議。
本文對(duì)豆瓣金融類(lèi)圖書(shū)的研究框架如圖1所示。首先,用Python抓取網(wǎng)頁(yè)源代碼并獲得包含書(shū)名、作者、出版社等各個(gè)網(wǎng)頁(yè)元素的數(shù)據(jù)。其次,將所抓取的圖書(shū)數(shù)據(jù)進(jìn)行處理和分析,并進(jìn)行格式化存儲(chǔ),以便于后續(xù)的可視化展示。接著對(duì)數(shù)值數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)處理操作,包括異常值處理、數(shù)據(jù)清洗、缺失數(shù)據(jù)補(bǔ)齊等。最后進(jìn)行數(shù)據(jù)分析,利用Python做詞云圖、用Excel透視表繪制散點(diǎn)圖、條形圖等直觀(guān)的展示圖書(shū)各要素之間的關(guān)系,評(píng)估結(jié)果并得出結(jié)論。
圖1 研究框架
本文對(duì)Python抓取到的1000本豆瓣金融類(lèi)圖書(shū)信息進(jìn)行了出版社詞云可視化分析、評(píng)分可視化分析、評(píng)價(jià)人數(shù)和評(píng)分可視化分析。
(一)出版社詞云可視化分析。使用Python中的Wordcloud模塊,對(duì)1000本金融類(lèi)圖書(shū)的出版社進(jìn)行分析并生成詞云圖。從圖中可以看出,出版社這個(gè)詞出現(xiàn)的頻率最高,這是因?yàn)榇蟛糠殖霭嫔绲暮缶Y都是出版社,但也有部分后綴如出版公司、商務(wù)印書(shū)館等,因而并未對(duì)出版社此后綴做統(tǒng)一處理。拋開(kāi)此頻率最高的詞,其余頻率前三的出版社自動(dòng)加上后綴名,分別為機(jī)械工業(yè)出版社193本、中信出版社189本和中國(guó)人民大學(xué)出版社77本,說(shuō)明國(guó)內(nèi)外學(xué)者們尤其是國(guó)外學(xué)者對(duì)這三個(gè)出版社的青睞度最高。
(二)評(píng)分可視化分析。對(duì)1000本金融類(lèi)圖書(shū)評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析,得出評(píng)分最高的5本金融類(lèi)圖書(shū),通過(guò)Excel繪制條形圖。評(píng)分最高的5本金融類(lèi)圖書(shū)分別為:應(yīng)用公司財(cái)務(wù)、投資者養(yǎng)成指南(一)、金融隨機(jī)分析(共2冊(cè))、證券法學(xué)(第四版)和投資者文摘,評(píng)分分別為9.9分、9.8分、9.7分、9.7分和9.7分。
(三)評(píng)價(jià)人數(shù)和評(píng)分可視化分析。對(duì)1000本金融類(lèi)圖書(shū)評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過(guò)Excel繪制散點(diǎn)圖。由圖中可以發(fā)現(xiàn),絕大部分金融類(lèi)圖書(shū)的評(píng)價(jià)人數(shù)都集中在0-5000人這個(gè)區(qū)間內(nèi),其中評(píng)價(jià)人數(shù)前五的書(shū)籍為:貨幣戰(zhàn)爭(zhēng)、原則、經(jīng)濟(jì)學(xué)原理(上下)、思考快與慢和偉大的博弈,評(píng)價(jià)人數(shù)分別為43853人、24112人、16539人、14531人和12409人,評(píng)分分別為7.2分、8.3分、9.1分、8.1分和8.3分。
同時(shí)又對(duì)1000本金融類(lèi)圖書(shū)中評(píng)分大于等于9.0以上的評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過(guò)Excel繪制散點(diǎn)圖。由圖中看出,絕大部分評(píng)分大于等于9.0以上的評(píng)價(jià)人數(shù)都集中在0-4000人這個(gè)區(qū)間內(nèi),其中評(píng)價(jià)人數(shù)前五的書(shū)籍為:經(jīng)濟(jì)學(xué)原理(上下)、經(jīng)濟(jì)學(xué)原理、經(jīng)濟(jì)學(xué)原理(第7版)、期貨市場(chǎng)技術(shù)分析和彼得·林奇的成功投資,評(píng)價(jià)人數(shù)分別為16539人、10259人、2926人、2398人和2029人。
將兩張圖對(duì)比可以發(fā)現(xiàn),評(píng)價(jià)人數(shù)前五的書(shū)籍評(píng)分都不高,僅有一本書(shū)的評(píng)分大于9.0分。其中評(píng)價(jià)人數(shù)最多的書(shū)籍是貨幣戰(zhàn)爭(zhēng),但其評(píng)分只有7.2分;評(píng)分前五的書(shū)籍評(píng)論人數(shù)也不多,僅有經(jīng)濟(jì)學(xué)原理(上下)這本書(shū)處在評(píng)論人數(shù)前五的書(shū)籍中。由此得出評(píng)論人數(shù)多的評(píng)分不一定高,評(píng)分高的評(píng)論人數(shù)不一定高,評(píng)論人數(shù)和評(píng)分之間的相關(guān)性較弱。
(四)評(píng)分和出版年份可視化分析。對(duì)1000本金融類(lèi)圖書(shū)評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過(guò)Excel繪制散點(diǎn)圖。評(píng)分大于等于9.0以上的書(shū)籍出版年份集中在2005年以后,且評(píng)分大多集中在9.0分和9.1分,評(píng)分為9.7分及以上的書(shū)籍較少。進(jìn)一步分析猜測(cè)評(píng)分大于等于9.0分以上的這些書(shū)籍可能是由于出版年份較晚,閱讀和評(píng)論人數(shù)較少。而一本書(shū)的總體評(píng)分受每個(gè)評(píng)分人給出的評(píng)分和評(píng)論人數(shù)的影響,可能是少部分的評(píng)論人數(shù)均給出較高的評(píng)分,因而評(píng)分大于等于9.0分以上的書(shū)籍并不代表書(shū)的熱度高和受歡迎程度高,這兩者之間的相關(guān)性較弱。
統(tǒng)計(jì)學(xué)和圖書(shū)館學(xué)等傳統(tǒng)研究方法并不能深層次地挖掘圖書(shū)信息的潛在規(guī)律。本文基于Python語(yǔ)言從豆瓣讀書(shū)頁(yè)面中獲取金融類(lèi)圖書(shū)相關(guān)數(shù)據(jù),并對(duì)其進(jìn)行可視化分析,得出以下結(jié)論:
圖書(shū)出版社詞云分析得出,機(jī)械工業(yè)出版社、中信出版社和中國(guó)人民大學(xué)出版社是出版金融類(lèi)圖書(shū)最多的三個(gè)出版社,說(shuō)明讀者對(duì)這三個(gè)出版社的青睞度最高。在選擇圖書(shū)出版社時(shí),可優(yōu)先將自己的作品交給這三個(gè)出版社進(jìn)行出版發(fā)行,同時(shí),圖書(shū)館、書(shū)店等在采購(gòu)金融類(lèi)圖書(shū)時(shí)也可優(yōu)先關(guān)注這三個(gè)出版社的信息。
圖書(shū)評(píng)分分析得出,評(píng)分最高的5本金融類(lèi)圖書(shū)分別為:應(yīng)用公司財(cái)務(wù)、投資者養(yǎng)成指南(一)、金融隨機(jī)分析(共2冊(cè))、證券法學(xué)(第四版)和投資者文摘,這對(duì)有意學(xué)習(xí)金融知識(shí)的人來(lái)說(shuō),具有很好的參考作用,在閱讀金融類(lèi)圖書(shū)時(shí)可以更優(yōu)先考慮評(píng)分最高的金融類(lèi)書(shū)籍。
圖書(shū)評(píng)價(jià)人數(shù)和評(píng)分分析得出,評(píng)價(jià)人數(shù)前五的書(shū)籍評(píng)分都不高,僅有一本書(shū)的評(píng)分大于9.0分。其中評(píng)價(jià)人數(shù)最多的書(shū)籍是貨幣戰(zhàn)爭(zhēng),但其評(píng)分只有7.2分;評(píng)分前五的書(shū)籍評(píng)論人數(shù)也不多,僅有經(jīng)濟(jì)學(xué)原理(上下)這本書(shū)處在評(píng)論人數(shù)前五的書(shū)籍中。由此可見(jiàn)評(píng)論人數(shù)和評(píng)分之間的相關(guān)性較弱,因而在選擇金融類(lèi)圖書(shū)時(shí),不能夠由評(píng)分人數(shù)的多少判定圖書(shū)的好評(píng)度,也不能由評(píng)分的高低來(lái)判斷圖書(shū)的熱度。
評(píng)分和出版年份分析得出,評(píng)分大于等于9.0以上的書(shū)籍出版年份集中在2005年以后,且評(píng)分大多集中在9.0分和9.1分,評(píng)分為9.7分及以上的書(shū)籍較少。進(jìn)一步分析猜測(cè)評(píng)分大于等于9.0分以上的這些書(shū)籍可能是由于出版年份較晚,閱讀和評(píng)論人數(shù)較少。而一本書(shū)的總體評(píng)分受每個(gè)評(píng)分人給出的評(píng)分和評(píng)論人數(shù)的影響,可能是少部分的評(píng)論人數(shù)均給出較高的評(píng)分,因而評(píng)分大于等于9.0分以上的書(shū)籍并不代表書(shū)的熱度高和受歡迎程度高。由此可見(jiàn)這兩者之間的相關(guān)性較弱,因而在選擇金融類(lèi)圖書(shū)時(shí),不能只根據(jù)評(píng)分來(lái)判定圖書(shū)的熱度和受歡迎程度,還需要考慮出版年份、評(píng)論人數(shù)等多重因素。
綜上,本文基于Python和Excel透視表對(duì)豆瓣金融類(lèi)圖書(shū)信息進(jìn)行了深入的分析,在用戶(hù)對(duì)金融類(lèi)圖書(shū)的選擇上給出了更好的建議,同時(shí)也給圖書(shū)館、書(shū)店等采購(gòu)金融類(lèi)圖書(shū)提供了建設(shè)性意見(jiàn)。但本文在數(shù)據(jù)預(yù)處理部分考慮的并不充分,此外本次研究選擇的僅是對(duì)豆瓣金融類(lèi)圖書(shū)進(jìn)行分析,并未對(duì)更多標(biāo)簽下的圖書(shū)信息進(jìn)行分析,具有一定的局限性。