• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大數(shù)據(jù)的學(xué)生成績影響因素分析系統(tǒng)

    2018-10-21 02:10:19胡繼明辛海源李揚陽牛文鈺付航
    關(guān)鍵詞:數(shù)據(jù)收集數(shù)據(jù)可視化數(shù)據(jù)挖掘

    胡繼明 辛海源 李揚陽 牛文鈺 付航

    摘 要: 針對學(xué)生成績影響的問題,對學(xué)生成績和其所在的環(huán)境進行分析,找出學(xué)生成績影響的因素,首先運用爬蟲原理對所需數(shù)據(jù)的爬取工作,在爬取的過程中刪掉噪聲數(shù)據(jù),保存有效數(shù)據(jù),安裝Hadoop,Linux環(huán)境,進行聯(lián)機操作,對數(shù)據(jù)進行分析,最后制圖進行可視化工作。

    關(guān)鍵詞: 數(shù)據(jù)收集;數(shù)據(jù)清洗;數(shù)據(jù)挖掘;數(shù)據(jù)可視化;

    【中圖分類號】 G632 【文獻標識碼】 A【文章編號】 2236-1879(2018)14-0046-01

    第一章 概述

    1.1研究背景:

    當今的學(xué)生成績在科技的發(fā)展下影響其成績的方式已經(jīng)變得多種多樣,很多學(xué)生不知道自己被什么影響了學(xué)習(xí)成績,平時感覺學(xué)的很好,可考試時成績卻不稱心如意。而我們要做的就是分析出有哪些因素影響了學(xué),為學(xué)生的成績的提高提供參考。

    1.2 項目意義:

    認識大數(shù)據(jù),處理大數(shù)據(jù),挖掘大數(shù)據(jù)的應(yīng)用價值,從實踐中學(xué)習(xí)大數(shù)據(jù)技術(shù)是本項目學(xué)習(xí)和實踐大數(shù)據(jù)技術(shù)的重要意義。

    第二章 大數(shù)據(jù)技術(shù)相關(guān)介紹

    2.1數(shù)據(jù)收集。

    利用網(wǎng)絡(luò)爬蟲從各個教育網(wǎng)爬取所需數(shù)據(jù):對于爬取回來的網(wǎng)頁內(nèi)容,可以通過re、beautifulsoup4等函數(shù)庫來處理,其中最重要且最主流的兩個函數(shù)庫:requests 和beautifulsoup4,它們都是第三方庫。requests 庫是一個簡潔且簡單的處理HTTP請求的第三方庫,建立在Python 語言的urllib3 庫基礎(chǔ)上。get()是獲取網(wǎng)頁最常用的方式。 Beautiful Soup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。

    2.2數(shù)據(jù)清洗。

    數(shù)據(jù)的格式無法滿足我們的要求,或者是數(shù)據(jù)出現(xiàn)缺省值等,以至于達不到對數(shù)據(jù)處理的基本要求,需要對該數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)集成通過實體識別、冗余和相關(guān)性分析來實現(xiàn)。

    2.3數(shù)據(jù)挖掘。

    從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們所不知道的、但又是潛在有用信息。一般方法有決策樹方法、聚類方法、數(shù)學(xué)建模法等。根據(jù)數(shù)據(jù)的大小、形式等用不同的方法挖掘潛在的有價值的信息。

    2.4數(shù)據(jù)可視化。

    借助于圖形化手段,繪制折線、柱形、扇形、雷達圖等,清晰有效地傳達與溝通信息。數(shù)據(jù)可視化與信息圖形、信息可視化、科學(xué)可視化以及統(tǒng)計圖形密切相關(guān)。數(shù)據(jù)可視化技術(shù)包括:數(shù)據(jù)空間、數(shù)據(jù)開發(fā)等。

    2.5環(huán)境搭建。

    在虛擬機上裝好 Ubuntu 系統(tǒng),在Ubuntu上安裝必要的python,java,Hadoop環(huán)境,java可以選用系統(tǒng)自帶的Java環(huán)境配置,python我們選用的是python3.6。

    第三章 分析方法總結(jié)及結(jié)果展示

    3.1 學(xué)生成績分類標號。

    對爬蟲方式收集的數(shù)據(jù)。將獲得的數(shù)據(jù)進行標號,對是否是班干部的同學(xué)進行標注,是班干部為1,不是為0,家境,教育資源等因素都標號,任何一個因素都標號為1或0。

    3.2對學(xué)生成績進行分類。

    為了實現(xiàn)分析我們將學(xué)生成績逐級從低到高分為5類,首先我們分析學(xué)習(xí)在優(yōu)良以上的學(xué)生情況,從側(cè)面反映出學(xué)習(xí)差的原因

    從中我們選取百分制分數(shù)60-100段來分析我們對學(xué)生家境進行了0和1標號,對家庭富裕的學(xué)生進行標號

    家庭有車有房為家境較好的

    一線城市為教育資源較好的

    0代表家境很好的學(xué)習(xí)成績差的,1代表學(xué)習(xí)成績好的家境也好的,運用python進行可視化操作進行繪圖。

    如上圖所示家庭條件好的,學(xué)習(xí)成績好的占優(yōu)勢。

    在對家庭條件不好的學(xué)生進行標號,0代表學(xué)習(xí)差的,1代表學(xué)習(xí)好的,同樣運用python進行可視化操作的如圖所示:

    同樣可以看出學(xué)習(xí)好學(xué)生的比例反而比家境好學(xué)習(xí)好的占的比例更高了。

    從圖中可以看出家境好的學(xué)習(xí)好的人數(shù)明顯比家境不好的學(xué)習(xí)人數(shù)多了很多。對這個問題我們進行了分析發(fā)現(xiàn)家境不好,學(xué)習(xí)不好的學(xué)生早早出去打工了。

    我們還對學(xué)生是否當班干部進行了分析發(fā)現(xiàn)學(xué)生學(xué)習(xí)好的占了很大一部分比例,經(jīng)過分析發(fā)現(xiàn)大部分學(xué)生都是學(xué)習(xí)好了之后才當上班干部的。從而來促進學(xué)生的學(xué)習(xí)。我們又對不同的地區(qū)城市的成績進行了分析,發(fā)現(xiàn)城市越發(fā)達學(xué)生成績好的比例越高。最后發(fā)現(xiàn)在外在原因越有利的情況下學(xué)習(xí)好的比例越高,這個結(jié)果也很符合道理。

    第四章 總結(jié)概括

    4.1項目總結(jié)。

    系統(tǒng)的分析方法可以有效地挖掘出學(xué)生成績背后所蘊含的價值,提供衡量校園教學(xué)質(zhì)量信息,讓學(xué)生更好的掌握專業(yè)技能,幫助學(xué)生提高學(xué)習(xí)效率,提升學(xué)習(xí)質(zhì)量,為社會提供更多的價值。

    4.2結(jié)束語。

    本文論述了大數(shù)據(jù)技術(shù)對學(xué)生學(xué)習(xí)成績的分析,大數(shù)據(jù)技術(shù)僅是分析學(xué)生學(xué)習(xí)成績的一種手段,通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、數(shù)據(jù)可視化對學(xué)生學(xué)習(xí)成績進行分析,在分析數(shù)據(jù)的同時挖掘出隱藏在數(shù)據(jù)背后的價值,以便學(xué)校更好地制定教學(xué)計劃。

    參考文獻

    [1] 羅福強 李瑤 陳虹君.大數(shù)據(jù)技術(shù)基礎(chǔ)——基于Hadoop與Spark[M].人民郵電出版社.2017-05

    [2] 肖睿 雷剛躍.Hadoop & Spark 大數(shù)據(jù)開發(fā)實踐[M].中國水利水電出版社.2017-07-01

    [3] Tom Wbite.Hadoop 權(quán)威指南[M].華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué).2017-07-01

    [4] 劉增杰.MySQL 5.7從入門到精通(視頻教學(xué)版).清華大學(xué)出版社.2016-08-01

    [5] 明日科技.Java精彩編程200例 全彩版.吉林大學(xué)出版社.2017-09-01

    [6] 張良均,王路,譚立云,蘇劍林.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn).機械工業(yè)出版社.2015-11-01

    [7] 明日科技.零基礎(chǔ)學(xué)Android.吉林大學(xué)出版社.2017-09-01

    猜你喜歡
    數(shù)據(jù)收集數(shù)據(jù)可視化數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    大數(shù)據(jù)時代背景下本科教學(xué)質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
    可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
    我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
    科技傳播(2016年19期)2016-12-27 14:53:29
    基于R語言的大數(shù)據(jù)審計方法研究
    網(wǎng)絡(luò)工程全面信息化管理分析
    裝備使用階段RMS數(shù)據(jù)收集研究
    價值工程(2016年30期)2016-11-24 14:06:56
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    變電運行設(shè)備的狀態(tài)檢修與數(shù)據(jù)收集
    广昌县| 嫩江县| 宜城市| 海原县| 沧州市| 额尔古纳市| 七台河市| 吉安县| 巧家县| 方正县| 独山县| 台北市| 溆浦县| 祥云县| 阜宁县| 合川市| 勃利县| 曲松县| 茌平县| 神木县| 连城县| 泰和县| 通化市| 东辽县| 重庆市| 长春市| 张北县| 滨州市| 精河县| 平顺县| 宝应县| 牡丹江市| 临海市| 东港市| 西盟| 靖宇县| 屏边| 论坛| 宜章县| 蓬安县| 康平县|