程志鵬 韓建楓,2
(1.天津商業(yè)大學(xué)理學(xué)院,天津 300134;2.天津商業(yè)大學(xué)信息工程學(xué)院,天津 300134)
傳統(tǒng)的辦公軟件在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)時(shí),需要工作人員“手動(dòng)、眼睛盯”進(jìn)行反復(fù)的、重復(fù)的篩選工作,這樣就很容易造成他們的視覺(jué)疲勞和身心疲憊,從而導(dǎo)致錯(cuò)誤的發(fā)生。所以在進(jìn)行統(tǒng)計(jì)數(shù)據(jù)時(shí),往往需要工作人員先統(tǒng)計(jì)一次、然后再核對(duì)一次的繁瑣流程,這樣的工作模式簡(jiǎn)單但是需要細(xì)心和耐心才能很好的完成任務(wù)。對(duì)于這種簡(jiǎn)單且重復(fù)性很高的工作現(xiàn)在完全可以讓電腦來(lái)幫助我們完成,這樣就可以保護(hù)工作人員的眼睛,增加工作人員工作是的舒適感,從而就可以節(jié)省辦公時(shí)間和提升工作效率。在互聯(lián)網(wǎng)和人工智能的時(shí)代下,我們需要加強(qiáng)信息化建設(shè), 提高統(tǒng)計(jì)水平和資源共享,加大數(shù)據(jù)的分析力度,提高信息利用價(jià)值[1]。
“互聯(lián)網(wǎng)+”背景下,辦公人員的能力與素質(zhì)也面臨著越來(lái)越高的要求[2]。Python作為當(dāng)前流行的編程語(yǔ)言,其上手快、操作簡(jiǎn)單等的特點(diǎn)受到了很多的辦公人員的喜愛(ài)。它自身所擁有的第三方數(shù)據(jù)庫(kù)能夠在數(shù)據(jù)分析中提供非常大的幫助,具有非常好的應(yīng)用前景[3]。對(duì)于現(xiàn)在的互聯(lián)網(wǎng)和人工智能時(shí)代, 統(tǒng)計(jì)數(shù)據(jù)的能力也要與時(shí)俱進(jìn),讓統(tǒng)計(jì)數(shù)據(jù)的方法更加智能化,盡量不要做簡(jiǎn)單機(jī)械的重復(fù)動(dòng)作。而且編程語(yǔ)言有一個(gè)極大的特點(diǎn)是一旦我們針對(duì)某個(gè)特定的數(shù)據(jù)進(jìn)行編寫(xiě)程序,下次我們遇到類(lèi)似的數(shù)據(jù)時(shí)就可以重復(fù)使用該程序,可以達(dá)到一勞永逸的效果。本文將會(huì)以虛擬高校的招生數(shù)據(jù)為例,通過(guò)兩種軟件的使用對(duì)比來(lái)說(shuō)明我們現(xiàn)在的辦公需要擁抱智能化。
通過(guò)Python程序模擬出某高校的招生情況。該高校共有21個(gè)專業(yè),分別在我國(guó)的34個(gè)地區(qū)進(jìn)行招生,2020年本科招生規(guī)模為2000人?,F(xiàn)有高校招生的原始數(shù)據(jù),數(shù)據(jù)中包含考生姓名、省份、錄取專業(yè)、投檔分?jǐn)?shù)等特征數(shù)據(jù)。分析需求為統(tǒng)計(jì)該高校在各地區(qū)各專業(yè)的錄取人數(shù)、最高分、最低分和平均分。
第一步:導(dǎo)入相關(guān)模塊。
import pandas as pd
import numpy as np
import os
第二步:讀入本地的招生數(shù)據(jù)到內(nèi)存中。
path=r'C:UsersAdministratorDesktop招生數(shù)據(jù).csv'
tf=pd.read_csv(path,encoding='utf-8')
第三步:編寫(xiě)代碼對(duì)該高校在各省各專業(yè)的錄取人數(shù)、最高分、最低分和平均分進(jìn)行統(tǒng)計(jì)。
province_=tf['省份'].value_counts().index
major_=tf['錄取專業(yè)'].value_counts().index
province=[]
major=[]
people_number=[]
max_score=[]
min_score=[]
mean_score=[]
for i in province_:
tf_province=tf[tf['省份']==i]
major_=tf_province['錄取專業(yè)'].value_counts().index
for j in major_:
tf_major=tf_province[tf_province['錄取專業(yè)']==j]
number=len(tf_major)
Max=max(tf_major['投檔分?jǐn)?shù)'].values)
Min=min(tf_major['投檔分?jǐn)?shù)'].values)
Mean=int(np.mean(tf_major['投檔分?jǐn)?shù)'].values))
province.append(i)
major.append(j)
people_number.append(number)
max_score.append(Max)
min_score.append(Min)
mean_score.append(Mean)
m={'省份':province,'錄取專業(yè)':major,'錄取人數(shù)':people_number,'投檔最高分':max_score,'投檔最低分':min_score,'投檔平均分':mean_score}
data=pd.DataFrame(m)
第四步:將處理好的數(shù)據(jù)存到本地。
newpath=r'C:UsersAdministratorDesktop'+'//分省分專業(yè)錄取情況.csv'
data.to_csv(newpath,line_terminator=' ',index=False)
第五步:統(tǒng)計(jì)數(shù)據(jù)可視化展示。
將統(tǒng)計(jì)的好的數(shù)據(jù)以可視化的形式呈現(xiàn)。展示高校在不同地區(qū)不同專業(yè)的錄取人數(shù)、最高分、最低分和平均分的關(guān)系圖。P y t h o n 內(nèi)部提供了很多繪圖的庫(kù), 例如Matplotlib、WordCloud、Seaborn、Bokeh、VisPy等可以滿足不同需求的展示效果,讓數(shù)據(jù)之間的關(guān)系可以更好的呈現(xiàn)在人們面前,視覺(jué)感官系統(tǒng)可以更快的找到數(shù)據(jù)間的聯(lián)系。
通過(guò)對(duì)Python進(jìn)行數(shù)據(jù)統(tǒng)計(jì)流程的分析,我們可以很容易發(fā)現(xiàn)其代碼很簡(jiǎn)潔,稍微對(duì)Python基礎(chǔ)進(jìn)行學(xué)習(xí)就能上手。數(shù)據(jù)統(tǒng)計(jì)的很簡(jiǎn)單、方便和智能,對(duì)數(shù)據(jù)進(jìn)行展示也很方便。統(tǒng)計(jì)好數(shù)據(jù)后,如何才能更好的給人們可視化的呈現(xiàn)數(shù)據(jù)本身也是一門(mén)“藝術(shù)”,而Python可以滿足我們對(duì)“藝術(shù)”的追求。且編寫(xiě)代碼有一個(gè)巨大的好處就是以后的工作中再遇到相同的數(shù)據(jù)通過(guò)運(yùn)行代碼,可以很快的處理完數(shù)據(jù),從而得出結(jié)果。以招生數(shù)據(jù)為例,每年都會(huì)有幾乎完全相同的特征的數(shù)據(jù)需要高校工作人員統(tǒng)計(jì),所以通過(guò)編寫(xiě)程序可以使我們的工作更加的高效化和智能化。
第一步:啟動(dòng)篩選命令。
第二步:篩選省份。
第三步:篩選專業(yè)。
第四步:運(yùn)用函數(shù)對(duì)該高校在各省各專業(yè)的錄取人數(shù)、最高分、最低分和平均分進(jìn)行統(tǒng)計(jì)。
第五步:將統(tǒng)計(jì)好的數(shù)據(jù)存到本地的文件夾中。
雖然Excel其不僅可以處理表格數(shù)據(jù),還可借助數(shù)學(xué)函數(shù)對(duì)數(shù)據(jù)進(jìn)行復(fù)雜運(yùn)算,且無(wú)需計(jì)算機(jī)語(yǔ)言編程即可實(shí)現(xiàn)數(shù)據(jù)篩選、檢索、分類(lèi)、排序等一系列操作[4]。但是,其局限性也很突出,統(tǒng)計(jì)流程繁瑣,耗時(shí)長(zhǎng)等都對(duì)數(shù)據(jù)統(tǒng)計(jì)工作人員造成了一定的影響。
高效的數(shù)據(jù)統(tǒng)計(jì)工作能夠確保統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性、準(zhǔn)確性。在提高數(shù)據(jù)的質(zhì)量的同時(shí),還可以通過(guò)對(duì)高校錄取情況的統(tǒng)計(jì)數(shù)據(jù)的分析來(lái)發(fā)現(xiàn)高校不同專業(yè)面向不同省份招生的薄弱環(huán)節(jié)??梢猿浞滞诰蛘猩畔?使招生數(shù)據(jù)可以最大限度發(fā)揮作用,為高校的發(fā)展服務(wù)。
本文通過(guò)虛擬某高校的招生數(shù)據(jù),對(duì)Python數(shù)據(jù)統(tǒng)計(jì)方面和Excel數(shù)據(jù)統(tǒng)計(jì)方面進(jìn)行簡(jiǎn)單對(duì)比,對(duì)比發(fā)現(xiàn)Python編程技術(shù)在統(tǒng)計(jì)數(shù)據(jù)方面有極大的優(yōu)勢(shì),可以快速、準(zhǔn)確的完成數(shù)據(jù)統(tǒng)計(jì)任任務(wù)。誠(chéng)然Excel同樣具有很強(qiáng)大的數(shù)據(jù)統(tǒng)計(jì)的功能,我們不可忽視Excel給我們數(shù)據(jù)統(tǒng)計(jì)所帶來(lái)的便利,但是在現(xiàn)在的智能時(shí)代會(huì)一點(diǎn)編程語(yǔ)言會(huì)給我們的工作生活帶來(lái)很大的便利,促進(jìn)辦公智能化,使辦公管理達(dá)到事半功倍的效果。
雖然本文試圖通過(guò)高校的招生數(shù)據(jù)來(lái)說(shuō)明Python在數(shù)據(jù)統(tǒng)計(jì)方面的優(yōu)勢(shì),但是只舉例了高校招生數(shù)據(jù),沒(méi)有說(shuō)明其優(yōu)勢(shì)具有普適性。對(duì)高校招生數(shù)據(jù)的模擬也不夠充分,實(shí)際招生中還會(huì)有“文理分科、新高考省份、中外合作辦學(xué)和預(yù)科生”等因素,這些都是數(shù)據(jù)分析時(shí)需要單獨(dú)拿出來(lái)考慮的統(tǒng)計(jì)數(shù)據(jù)。但是我相信有了本文使用P ython編程技術(shù)統(tǒng)計(jì)數(shù)據(jù)的鋪墊,其余的相關(guān)問(wèn)題也會(huì)迎刃而解。
以“互聯(lián)網(wǎng)+”為背景,依托更加智能化的辦公軟件和方法來(lái)解決問(wèn)題。在這樣的時(shí)代背景下,我們會(huì)比以往的任何時(shí)候都更加的渴望智能化的生活。
數(shù)字技術(shù)與應(yīng)用2021年1期