陳新龍
隨著網(wǎng)絡(luò)的迅速普及,網(wǎng)絡(luò)用語詞也逐漸發(fā)生變化,前陣子微博公布了2021十大網(wǎng)絡(luò)詞,比如:社交牛逼癥、損耗型社交等。通過“詞云”的方式將文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領(lǐng)略文本的主旨。
“詞云”就是數(shù)據(jù)可視化的一種形式。給出一段文本的關(guān)鍵詞,根據(jù)關(guān)鍵詞的出現(xiàn)頻率而生成的一幅圖像。往期我們已經(jīng)通過Python編程實現(xiàn)過詞云,但是過程比較復(fù)雜,今天小陳老師通過Mind+軟件結(jié)合Python編程方便實現(xiàn)詞云效果。
選擇Mind+軟件的右上角Python模式,切換成代碼界面,選擇文件目錄中的項目中的文件,建立一個Python項目,并以“.py”結(jié)尾,新建完成后,可以編寫一個簡單的print()代碼試運行,看看運行效果是否達到需求。
創(chuàng)作詞云需要導(dǎo)入五個庫文件,點擊右上角的庫管理加載安裝所需的庫文件。首先是用于數(shù)據(jù)處理的“jieba”,這是一個中文詞庫,可以把中文句子劃分成詞語,便于進一步進行自然語言處理;“wordcloud”意為“詞云”,可以生成詞云圖,對文本中出現(xiàn)頻率高的關(guān)鍵詞給予視覺化的展現(xiàn);除此之外還有經(jīng)常使用到的numpy庫(科學(xué)計算的基礎(chǔ)庫)、matplotlib庫(Python常用的可視化工具)、Pillow庫(基礎(chǔ)的圖像處理庫)。
下面需要準(zhǔn)備好詞云所需要的“詞”和“云”;“云”是背景圖片,可以選擇一張輪廓清晰的圖片作為圖案形狀(JPG格式或PNG格式),“詞”需要一篇較長的文章,使用“.txt”格式文檔,將文章拷貝入文本中,詞云中顯示的“詞”就是從文章中提取出來的高頻詞匯。將準(zhǔn)備好的“詞”和“云”放入Python項目的文件夾中,下面可以正式開始編寫程序了。
調(diào)用已經(jīng)導(dǎo)入的庫。設(shè)置詞云的尺寸大小、背景顏色、字體大小及樣式,然后選擇保存在文件夾中的詞云圖片,通過詞云庫的內(nèi)置功能進行調(diào)用,并且重置詞云的顏色。同時將讀取的詞云文本,通過UTF解碼的方式,利用jieba精準(zhǔn)分詞模式將文本的內(nèi)容分開成詞語,最后通過拼接結(jié)合的方法將文本和圖片進行相互的融合最后導(dǎo)出效果圖。詞云中顯示的字體樣式是可以進行調(diào)整的,需要打開Windows內(nèi)置的字體Fonts文件夾,查找到對應(yīng)的文字,復(fù)制對應(yīng)的名稱即可。
最終輸出效果還是蠻不錯的,根據(jù)不同的形狀,定制出個性化的詞云圖片,不僅僅是藝術(shù)品的一種表現(xiàn)方式,還能更容易被大眾接受,傳播更加方便快捷,一起來發(fā)揮出你的創(chuàng)意吧,定制出屬于你個人的專屬標(biāo)簽。